读《统计学关我什么事》
作者:
| 更新日期:贝叶斯是什么。
本文首发于公众号:天空的代码世界,微信号:tiankonguse
这是一本介绍贝叶斯概率的书。
- 贝叶斯的逻辑
通过阅读第一讲大概可以理解贝叶斯概率的大概逻辑了。
贝叶斯概率依赖于大量的历史数据,得到若干概率。
然后使用这些概率,计算出一个目标概率。
比如根据商店历史顾客的数据,以及顾客当前的信息,来判断顾客购买商品的概率。
比如女孩子送你礼物,来判断是否喜欢你。
比如癌症检查是阳性,由于误差的存在,真实得病的概率是多少?
- 忽略历史信息带来的问题
面对大数据,解决未知的概率,这个方法没问题。
不过作者尝试把统计学应用到具体个人而不考虑历史信息时,显然有问题了。
例如大数据统计已经知道抛硬币概率是50%。
微观上作者却忽略这个大数据信息,假设自己不知道硬币的概率,然后从零开始计算硬币的概率。
第一胎生女孩,第二胎女孩的概率计算也是一样的逻辑问题。
作者因此得出第一胎是女孩子,第二胎依旧是女孩子的概率更大的结论。
如果没有大数据从零开始计算,这个结论没问题。
毕竟得到一条数据,就相当于信息更丰富,结论也离局部最优解更接近。
但有大数据背景,这样的计算方式就有问题了。
现在各大互联网的推荐系统或ai系统也是这个道理,已经有用户画像了,就不能忽略这些已有的画像。
否则推荐效果自然会很差。
- 独立事件的问题
另外,贝叶斯主要用于计算预测模糊的概率。
如果概率已经确定,再使用贝叶斯去计算概率,也会有问题。
所以书中的大部分内容我就不赞同了。
比如三囚徒悖论、抽奖是否变更问题。
抽奖问题:
假设有三个盒子,只有一个有奖品。
你选择一个盒子后,中奖概率是三分之一。
此时,剩余的两个盒子肯定有一个没奖品,扔掉一个没奖品的盒子。
现在剩余两个盒子,问你要不要换盒子。
换与不换中奖的概率分别是多少?
得到一个信息,对于独立事件,要计算的概率已经可以根据现在的信息计算出来了。
比如抽奖问题,换与不换的概率都是 50%。
但是作者强行假设两个独立事件之间有关系,忽略历史数据,然后计算的概率与独立事件概率不一致,从而得出悖论。
比如抽奖问题,作者通过贝叶斯计算,得出换之后中奖的概率更高。
这些都是错误的使用贝叶斯导致的。
- 最后
书的后面还介绍了很多知识。
比如多个信息的叠加计算。
比如即使没有统计数据,也可以先随便假设一个概率,然后慢慢获取信息通过贝叶斯公式纠正假设的概率。
看完这本书,可以了解到,贝叶斯概率是一个很神奇的方式。
因为它具备自我学习能力,即可以把历史数据通过计算,转化为自己的经验,用于预测新的数据。
怪不得推荐系统或者ai系统都在使用这个方法。
回头看看贝叶斯概率的历史,曾经很多人反对贝叶斯概率也是合理的。
因为贝叶斯的应用有前提,即要慢慢自动学习来提高准确性,应用在那些概率模糊的地方,结果虽然是局部最优解,但给了人们一个概率,尚可接受。
贝叶斯学习过程的一个结论
而支持贝叶斯的狂热分子不尊重事实与历史数据,强行将贝叶斯应用到所有地方,第一个数据得出的结论自然就违背客观规律了。
比如抛硬币问题、生女儿问题、囚徒问题、抽奖问题。
由于书中存在误导人的逻辑,全程都在以生女儿为例子来介绍为啥生女儿概率高,这里我就不推荐阅读这本书。
真要阅读,只看第一部分即可。
题外话:生活中也一样,很多科学已经明确验证的事情,就要尊重科学,按照科学的方法来做事。
如果盲目相信那些违背科学的方法,最终的后果就要自己去承担。
《完》
-EOF-
本文公众号:天空的代码世界
个人微信号:tiankonguse
公众号ID:tiankonguse-code
本文首发于公众号:天空的代码世界,微信号:tiankonguse
如果你想留言,可以在微信里面关注公众号进行留言。