2021 年 11 月-Paloinino

彩票怎样才能中奖？

理论上，只能靠运气。但是，如果规则设计得不好，就可以钻漏洞。

2005年2月，美国的一个彩票品种，就出现了漏洞，被麻省理工学院的学生发现了。随后的七年，这个学生反复购买这个品种，一共赚到了300万美元。

我们分析一下他是怎么做到的，以及其中的数学原理。

我依据的材料，主要来自数学教授 Jordan Ellenberg 在斯坦福大学的一次演讲（Youtube）。

期望值

彩票最重要的数学概念，叫做”期望值”（expected value），即同一种行为多次重复以后，所能得到的平均收益。

举例来说，如果每次抽奖需要2元，假设200次抽奖可以中奖一次，奖金为300元。那么，你花了2000元，一共抽奖1000次，中奖了5次，奖金为1500元。

也就是说，1000次抽奖的总收益是1500元，每次的平均收益是1.5元，这就是期望值。

它的计算公式如下：

期望值 = 300 * (1 / 200) + 0 * (199 / 200) = 1.5

期望值是1.5元，但是每次抽奖成本2元，于是净亏损0.5元。

一看就知道，这个事情是不划算的，做得越多，越不划算。

偶尔买一次彩票，倒也算了，如果你一天到晚不断买彩票，就肯定会亏很多钱（上例是每200次亏100元）。

总之，期望值是衡量彩票收益的一个关键指标。

TF-IDF（Term Frequency-Inverse Document Frequency, 词频-逆文本频率指数）

TF-IDF，是一种统计方法。

TF-IDF，是一种常用于信息检索于数据挖掘的加权技术。

TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

TF-IDF计算公式：

TF-IDF=TF*IDF

TF-IDF值越大，则这个词成为一个关键词的概率就越大。

相关的，还有TF和IDF的计算公式：

TF计算公式：

真正的SEO技术：TF-IDF统计方法在搜索引擎算法中的应用插图

逆向文件频率指数 (inverse document frequency, IDF) IDF的主要思想是：

如果包含词条w的文档越少, IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

IDF计算公式：

真正的SEO技术：TF-IDF统计方法在搜索引擎算法中的应用插图2

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。

TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

Paloinino