月度归档:2021年11月

数学之美:数学学得好,赚钱也简单!

彩票怎样才能中奖?

理论上,只能靠运气。但是,如果规则设计得不好,就可以钻漏洞。

2005年2月,美国的一个彩票品种,就出现了漏洞,被麻省理工学院的学生发现了。随后的七年,这个学生反复购买这个品种,一共赚到了300万美元。

我们分析一下他是怎么做到的,以及其中的数学原理。

我依据的材料,主要来自数学教授 Jordan Ellenberg 在斯坦福大学的一次演讲(Youtube)。

#

01

期望值

彩票最重要的数学概念,叫做”期望值”(expected value),即同一种行为多次重复以后,所能得到的平均收益。

举例来说,如果每次抽奖需要2元,假设200次抽奖可以中奖一次,奖金为300元。那么,你花了2000元,一共抽奖1000次,中奖了5次,奖金为1500元。

也就是说,1000次抽奖的总收益是1500元,每次的平均收益是1.5元,这就是期望值。

它的计算公式如下:

期望值 = 300 * (1 / 200) + 0 * (199 / 200) = 1.5

期望值是1.5元,但是每次抽奖成本2元,于是净亏损0.5元。

一看就知道,这个事情是不划算的,做得越多,越不划算。

偶尔买一次彩票,倒也算了,如果你一天到晚不断买彩票,就肯定会亏很多钱(上例是每200次亏100元)。

总之,期望值是衡量彩票收益的一个关键指标。

继续阅读

真正的SEO技术:TF-IDF统计方法在搜索引擎算法中的应用

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文本频率指数)

TF-IDF,是一种统计方法。

TF-IDF,是一种常用于信息检索于数据挖掘的加权技术。

TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

TF-IDF计算公式:

TF-IDF=TF*IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。

相关的,还有TF和IDF的计算公式:

TF计算公式:

真正的SEO技术:TF-IDF统计方法在搜索引擎算法中的应用插图

逆向文件频率指数 (inverse document frequency, IDF) IDF的主要思想是:

如果包含词条w的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

IDF计算公式:

真正的SEO技术:TF-IDF统计方法在搜索引擎算法中的应用插图2

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。

TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

继续阅读