读《统计学关我什么事》

作者: | 更新日期:

贝叶斯是什么。

本文首发于公众号:天空的代码世界,微信号:tiankonguse

这是一本介绍贝叶斯概率的书。

  1. 贝叶斯的逻辑

通过阅读第一讲大概可以理解贝叶斯概率的大概逻辑了。
贝叶斯概率依赖于大量的历史数据,得到若干概率。
然后使用这些概率,计算出一个目标概率。
比如根据商店历史顾客的数据,以及顾客当前的信息,来判断顾客购买商品的概率。
比如女孩子送你礼物,来判断是否喜欢你。
比如癌症检查是阳性,由于误差的存在,真实得病的概率是多少?

  1. 忽略历史信息带来的问题

面对大数据,解决未知的概率,这个方法没问题。
不过作者尝试把统计学应用到具体个人而不考虑历史信息时,显然有问题了。

例如大数据统计已经知道抛硬币概率是50%。
微观上作者却忽略这个大数据信息,假设自己不知道硬币的概率,然后从零开始计算硬币的概率。
第一胎生女孩,第二胎女孩的概率计算也是一样的逻辑问题。
作者因此得出第一胎是女孩子,第二胎依旧是女孩子的概率更大的结论。

如果没有大数据从零开始计算,这个结论没问题。

毕竟得到一条数据,就相当于信息更丰富,结论也离局部最优解更接近。

但有大数据背景,这样的计算方式就有问题了。

现在各大互联网的推荐系统或ai系统也是这个道理,已经有用户画像了,就不能忽略这些已有的画像。
否则推荐效果自然会很差。

  1. 独立事件的问题

另外,贝叶斯主要用于计算预测模糊的概率。

如果概率已经确定,再使用贝叶斯去计算概率,也会有问题。
所以书中的大部分内容我就不赞同了。

比如三囚徒悖论、抽奖是否变更问题。

抽奖问题:
假设有三个盒子,只有一个有奖品。
你选择一个盒子后,中奖概率是三分之一。
此时,剩余的两个盒子肯定有一个没奖品,扔掉一个没奖品的盒子。
现在剩余两个盒子,问你要不要换盒子。
换与不换中奖的概率分别是多少?

得到一个信息,对于独立事件,要计算的概率已经可以根据现在的信息计算出来了。

比如抽奖问题,换与不换的概率都是 50%。

但是作者强行假设两个独立事件之间有关系,忽略历史数据,然后计算的概率与独立事件概率不一致,从而得出悖论。
比如抽奖问题,作者通过贝叶斯计算,得出换之后中奖的概率更高。
这些都是错误的使用贝叶斯导致的。

  1. 最后

书的后面还介绍了很多知识。
比如多个信息的叠加计算。
比如即使没有统计数据,也可以先随便假设一个概率,然后慢慢获取信息通过贝叶斯公式纠正假设的概率。

看完这本书,可以了解到,贝叶斯概率是一个很神奇的方式。

因为它具备自我学习能力,即可以把历史数据通过计算,转化为自己的经验,用于预测新的数据。
怪不得推荐系统或者ai系统都在使用这个方法。

回头看看贝叶斯概率的历史,曾经很多人反对贝叶斯概率也是合理的。
因为贝叶斯的应用有前提,即要慢慢自动学习来提高准确性,应用在那些概率模糊的地方,结果虽然是局部最优解,但给了人们一个概率,尚可接受。

贝叶斯学习过程的一个结论

而支持贝叶斯的狂热分子不尊重事实与历史数据,强行将贝叶斯应用到所有地方,第一个数据得出的结论自然就违背客观规律了。
比如抛硬币问题、生女儿问题、囚徒问题、抽奖问题。

由于书中存在误导人的逻辑,全程都在以生女儿为例子来介绍为啥生女儿概率高,这里我就不推荐阅读这本书。
真要阅读,只看第一部分即可。

题外话:生活中也一样,很多科学已经明确验证的事情,就要尊重科学,按照科学的方法来做事。
如果盲目相信那些违背科学的方法,最终的后果就要自己去承担。

《完》

-EOF-

本文公众号:天空的代码世界
个人微信号:tiankonguse
QQ算法群:165531769(不止算法)
知识星球:不止算法

本文首发于公众号:天空的代码世界,微信号:tiankonguse
如果你想留言,可以在微信里面关注公众号进行留言。

点击查看评论

关注公众号,接收最新消息

关注小密圈,学习各种算法

tiankonguse +
穿越