95. [人工智能02]贝叶斯推断

在这个世界上，至少有两类事情，一类是确定的，一类是不确定的。比如，我说今年冬天北京还有雾霾，这个事就是确定会发生的。我们看电视的时候，经常会听到某人高喊：某某万岁。这事也是确定性的，确定不会发生。还有一些事情不太确定，比如，扔个硬币猜正反，路上搭讪个姑娘人家给不给电话，这种是不确定的。这种不确定的情况虽说是结果不固定，但是，如果做了大量的实验，就会发现还是有规律可寻。在扔了100次以后，还是可以总结出规律来的，这种规律叫统计的规律性。

按照我们日常的感觉，也是这样的，比如在QQ群或者微信群里，我们只要看一眼谁在发言，就能知道大概是不是在开车，这是因为我们的大脑已经对群里的人进行了统计，统计的规律性，能猜个八九不离十。同样，我的音频快100期了，按道理，也有规律可寻，就是大部分都是打着讲软件的幌子天南地北的瞎扯淡。上一期也是讲人工智能，结果，有听众不高兴了，在微信后台留言表达不满，万一有相同的听众，听我的电台心里也是一肚子火，我还是解释一下吧。留言是这样的：人工智能是非常前沿的科学，在你播讲之前，希望能介绍一下你的background，如果知道了你的background，还有你的公司以及你的title，这样听起来会有更有说服力，我认为没有处理billion级别的大数据，是不可能懂得大数据和机器学习的。如果只知道皮毛，只会误导人，怡笑大方。谢谢。

说的好像还挺有道理的样子。我不但没有处理过billion级别的数据，而且我的background是在夜总会跳钢管舞，在夜总会倒是经常有1-2亿的项目，算是和大数据有点关系吧。所以，我说的，大家随便听听就好，我不想误导大家，再说了，我误导大家有啥用啊？我没有误导大家的动机，我讲的人工智能都不是我胡编乱造的，基本上是我的兴趣，到处乱看的。比如吴恩达在stanford的公开课。我没啥自己的观点，我受了这么多年的教育，如果还有自己的观点，那绝对是教育的失败！再说了，我这个电台也不是强制大家听，不听不行，如果你觉得我讲的烂，完全可以不听，非得让我证明我有资格讲人工智能也是有点强人所难。

在概率论中，也不是只有一个学派，至少存在两个学派，一个是频率学派，另一个是贝叶斯学派。如果大家看过《蝙蝠侠：黑暗骑士》的话，除了女主角玛吉长得不太好看以外，也许老外觉得好看，算是我心目中的经典。里面的蝙蝠侠和检查官都被玛吉迷的不行，后来这个女主被小丑杀了，在巨大的打击下，蝙蝠侠变的更强大了，检查官就彻底的迷失了，开始玩杀人游戏了，他扔一个硬币，猜正反，猜错了，就一枪崩了。设想这样一个情况，我们很不幸碰到了检查官，他非要和我们一起玩抛硬币的游戏，猜错了，就给个安慰奖，奖励一枪。生活很残酷。

如果你上过学，学过概率，就知道只有一半的机率活下来，毕竟50%的机会啊，这种人，就是概率论中的频率学派。但是，我不是频率学派的人，这时候，应该像年青的共产党员，革命烈士陈然一样，面对死亡我放声大笑，检查官的枪口在笑声中动摇。然后，你冷静的说：我不相信抛硬币的正反是公平的，我是贝叶斯学派的，我们贝叶斯学派认为，概率是一个人的主观观念，只表明我对你手中硬币正反的相信程度，我不信你手中的硬币的正反是50%的可能。

检查官这时候应该很懵逼，他应该会反问你：你是不是不想死啊？你想闹哪样？这时候你应该解释一下，我们贝叶斯学派是用信念来和外部世界交互，不能你说你手里的硬币的正反分别是50%，我就相信了你。这个50%只是我们学派中的先验概率，带有主观色彩，这个不算数的，得验证一下。这时候检查官差不多崩溃了，杀一个人好难，还得学贝叶斯概率，也不懂，就会问你，你想咋样？这里候，你为了活命，应该解释一下如何验证，你告诉他，先抛个10万次硬币，根据这10万次的值，根据贝叶斯公式求解后验概率，然后得到后验概率分布，最后得到条件期望最大值。然后我再来抛硬币决定要不要挨一枪。

这样如果手工去计算的话，感觉有点无赖，因为计算难度实在是有点大，因此现在有了计算机以后，贝叶斯决策已经变成了自动化的算法，这有个名字叫——机器学习——此时，检查官应该欢呼，原来这就是机器学习啊！这就是一个最简单的机器学习算法——朴素贝叶斯。

其实扔不了次就可以看出端倪，这个检查官纯粹是想杀人，他的硬币是特制的，两面是一样的，他知道底牌，只是给杀人找个借口，因此，扔多少次，结果都是一样的，用贝叶斯救了我们一命。这个检查官和现在彩票一样，他们知道底牌，谁买谁是傻逼，我再重复一遍，谁买彩票谁傻逼！除非你钱多没地方花，其实也可以去夜总会救济失学的少女，或者可以打赏我的公众号。自从iOS设备不能打赏以后，现在我的公众号打赏收入从35元减少到10元每篇，以我的估算，iOS设备打赏的金额应该在70%左右。我放了一个接受打赏的二维码，结果每次都能收到0.01元，0.06元，0.08元的这种1分2分的打赏，让我觉得生活真是一盒巧克力糖，根本不知道下一颗会是什么味道的。

现在人工智能又非常火，为什么说又呢？因为人工智能火了好几次了，再多一次也无妨。别的算法先不说，这个贝叶斯算法100%没有机会超过人类，用概率和数理统计的机器学习其实和人类的智能并没有太大关系，这个系列的算法其实就是借助计算机来做统计学上的线性回归或者非线性回归，形象的说, 就是把平面上一系列的点，用一条光滑的曲线连接起来。因为这条曲线有无数种可能，从而有各种方法。曲线一般可以用函数表示，根据这个函数的不同有不同的名字。

朴素的贝叶斯已经广泛的应用到如何分辨垃圾电子邮件，如何找恐怖分子，如何高质量的推送广告，甚至有人说，这种人一般是行业大牛，说机器学习会比你更了解你。我觉得这是胡扯！AI永远都不会比人更了解人，读心术就是夸大其辞。我大学时候，和几个同学到加格达奇玩，其中一个同学非常文雅，浙江人，书香门弟。加格达奇那里有许多森林，晚上吃了很多肉，喝了很多酒，大部分都喝高了，这个文雅的浙江同学也喝高了，睡觉的时候，森林里传出一阵阵的野兽叫声，具体是啥动物不知道，我觉得不是狼就是熊吧。吵得我这个文雅的浙江同学睡不着，他就起床，拿了一个扫把，准备去森林里教训教训这些不识抬举的野兽，把我们几个吓坏了，怕他出去给野兽当了夜宵，几个人都扛不住，一直死死的抱了他一晚上，酒醒以后他说没这回事。

这种情况，AI是100%不能预测的，清醒的时候，和喝醉以后，完全就是判若两人，何况人的心情随时改变，我觉得最近有些IT界的大牛，已经开始胡扯了，啥2050年AI完全超越人类，可以提前7秒准确的预测人的下一步行动。这明显就是吹牛不上税啊，但是这种大忽悠粉丝众多。我倒是希望AI能真的这么厉害，能帮我解决一个一直让我很困惑的问题，我到底是喜欢汤唯多一些还是喜欢高圆圆多一些？这个问题只能靠大数据和机器学习来帮我解决了，我自己是没法了解我自己了！

共享此文章：

相关