本章主要介绍离散型朴素贝叶斯—— MultinomialNB 的实现。对于离散型朴素贝叶斯模型的实现,由于核心算法都是在进行“计数”工作、所以问题的关键就转换为了如何进行计数。幸运的是、Numpy 中
曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则: 不是我觉得,而是数据证明 这是一道分水岭,“我觉得”是一种直觉化经验化的思维,工作不可能
所谓的框架、自然是指三种朴素贝叶斯模型(离散、连续、混合)共性的抽象了。由于贝叶斯决策论就摆在那里、不难知道如下功能是通用的: 计算类别的先验概率 训练出一个能输出后验概率的决策函数 利用该决策函数进
在前一篇讲完概率分布后,我们再接再厉拿下假设检验,也就是大名鼎鼎的AB Testing。俗话说得好,再优秀的产品经理也跑不过一半AB测试。 抽样 数据分析中,虽然数据越多越齐越好,可是受限于各类因
多标签分类格式 对于多标签分类问题而言,一个样本可能同时属于多个类别。如一个新闻属于多个话题。这种情况下,因变量yy需要使用一个矩阵表达出来。 而多类别分类指的是y的可能取值大于2,但是y所属类别是唯
作为『十大机器学习算法』之一的K-近邻(K-Nearest Neighbors)算法是思想简单、易于理解的一种分类和回归算法。今天,我们来一起学习KNN算法的基本原理,并用Python实现该算法,最后
来自CMU和斯坦福的Zachary C. Lipton和Jacob Steinhardt两位研究员为顶会ICML举办的Machine Learning: The Great Debate发表文章,并指
交易脚本最重要的两点,其中第二点就是公钥和私钥的密码体制的设计,也就是非对称加密算法。 《精通比特币》第四章也简单说了一下椭圆曲线加密算法,但是这个算法,或者说非对称加密算法很值得进一步了解。非对称加
对于解锁脚本加上锁定脚本拼在一起,按照栈的方式运算,这个书中第五章已经说得很明确了,最重要的是栈操作的最后一步: 栈内是 操作符是 CHECKSIG 其实CHECKSIG
分享一篇研报,讲机器学习应用量化投资的,值得学习!
初步认知数据分布 拿到一个数据集,你先检查了数据源的质量,然后通过数据清洗提升了数据集的质量,再通过平均数的计算了解了数据集大小的一般水平,接着又通过方差和标准差了解了波动变化。经过这一系列的操作,你
读完上一篇的你,或许会觉得我说的内容太琐碎,太简单。那么进入第二步,许多和“数”相关的东西,就要在此展开了。 必要的描述统计分析 从审核数据源质量,到提升数据集质量,再到明确数据类型和单位,走完这
在这篇文章中,分析了比特币交易所中高频交易一些问题。 由于迄今为止这个市场极不受管制,因此这种行为几乎没有任何限制。 文章展示了超过99%的订单是如何填补的,而不是扭曲市场的看法。 此外,文章还尝试发
当拿到一个数据集时,你通常会怎么做?你脑子里好不容易蹦出的那个答案正确吗?这个问题或许能让不少人尴尬。我们循序渐进地来回答这个问题。我们将遵循这样的顺序: 数据源质量→数据类型→数据集质量→平均水平→
人工智能如何处理数据?如果把重点放在数据的处理方式上,那么长期共存的方式大概有两种: 特征学习(feature learning), 又叫表示学习(representation learning)