上一期是讲的贝叶斯推断,感觉没有讲到重点就结束了,这次再加个钟,再来一次。因为现在一说到人工智能,就一定会说到贝叶斯,搞得好像人工智能发明了贝叶斯推断一样,其实不是,贝叶斯推断早就被发明了。甚至可以说,人类几乎从基因里就在使用贝叶斯推断,你我每天都使用很多次,使用贝叶斯推断的基础就是先神经质一样,不管有没有,先从主观来个判断,根本不需要啥证据,先怀疑,再观察,看看怀疑的是不是靠谱。我们人类,尤其是女同学,每天都是这么过的。
按照惯例,我应该举例了,比如我有一个同学,我有一个朋友…. 当然,这都是扯蛋的,瞎编的故事,大量的出现在《知音》《故事会》以及知乎网上。栋哥不瞎编,直结拿编剧编好的电影,在遥远的2000年,中国上映了一部电影叫《一声叹息》,导演是冯小刚,主演是张国立,还有徐帆等人。故事的内容是男一号在外面找了个年轻的,结果被老婆发现了,当年看的我还挺欢乐的,当年栋哥只有18岁,现在又18年过去了,才慢慢觉得这个电影绝对算是中国最恐怖的电影之一,为啥叫《一声叹息》啊,因为一个老男人在中国,一不小心就被生活折磨成狗啊。这里要讲的是,电影中张国立的老婆是如何用贝叶斯推断来发现他老公在外面找了新欢的,可能她本人并没有意识到她在使用贝叶斯推断。
张国立一下飞机就直奔她的新欢家玩了一下,然后事情办完以后才回家见老婆孩子,张国立也聪明,回家之前在小卖部买了一瓶二锅头喝了两口,就回家了,编了一肚子谎话,就等老婆怀疑的时候来蒙混过关。结果她老婆真怀疑了,这时候,她老婆的脑子里给出一个出轨的概率,比如是50%,贝叶斯推理来了,先给个主观的值,至于这个50%是太大不是太小,再看后面的验证。这个徐帆扮演的女主角在此时并没有太多的数据,没有大数据支持,贝叶斯推理往下没法推了,只能算算条件概率,出轨的概率就变成了,在老公满嘴酒气的条件下,出轨的概率是多少。此时她没有更多数据,只有回家晚了,并且喝酒了这两个数据,而且喝酒这个数据还是个假数据,张国立伪造的,这个贝叶斯推断此时将她老公出轨的由50%修正成了1%,张国立逃过一劫。
这个1%会随着越来越多的数据被考虑进来,在不停的被修正,比如她老公回家的次数越来越少,本来很不讲卫生的一个人,结果衣服收拾的相当整齐,越来越多的数据在不停的修正出轨的概率,最终这个概率上升到100%。这就是一个完整的贝叶斯推断过程,一个建立在主观的假设,经过很多数据不停的修正,得到越来越精确的值。这个是个人就会,尤其是个女人就会,这算科学么?不光咱们有疑问,许多的科学家也有疑问,因此,长期以来,贝叶斯推断上不了台面,也很难得到实际的应用,因为计算量太大了,每出现一个数据都要修正一下最终的结果,简直就和泼妇一样无理取闹,幸好出现了计算机,因为有了高速的运算能力,贝叶斯才得以大规模的使用,威力也越来越大。
其中最广泛的应用之一就是判断一个电子邮件是不是垃圾邮件,实际上,如果靠真正的人来识别垃圾邮件的话,识别的准确率要比现在的人工智能高一些,而且也不用大数据,任何高中毕业的学生,几乎都能一眼识别出垃圾邮件,水平很高。现在Google公司,外包了很多类似的工作,用1万多真人,用人肉的方式来判定YouTube视频能否放广告,最牛Google的客户发现,Google牛吹的太大,系统根本没法判定一个视频是否是不合适放广告的,比如一些恐怖分子的视频上,给播一个可口可乐的广告,直接把可口可乐给整崩溃了,这种失误对可口可乐这种非常注重美誉度的公司来说是不可接受的,因此就打算从Google减少广告额度。主要还是因为Google的人工智能无法搞清楚视频的意思。这种只能靠真人肉眼来识别,将视频内容详细分类,来训练AI。这种工作广泛的存在于各大IT公司,只是各大公司都不说,因为都是临时工。网上有这样一篇文章,Meet YouTube’s Hidden Laborers Toiling to Keep Ads off Hateful Videos就是讲这个的,前几期国内的电脑报上也有类似的文章,就是说AI背后的英雄,一些中专生每天的工作都是标注图片,一是为了训练AI,另一个就是AI搞的事情,人工再验证一遍。
上一期讲完以后,有人留言说我不看好人工智能,或者说我在黑人工智能,其实不是。我对人工智能的算法也是一个贝叶斯推断,以目前的情况来看,在我心中仍然没有达到人工智能要统治地球的程度,虽然现在人工智能火热的一塌糊涂,各路IT大牛也给描绘了一个或者美好,或者恐怖的前景。那应该信谁呢?其实这个是不好说的,最好的方法还是用贝叶斯推理,也就是俗话说的不见兔子不撒鹰,根据出现的数据来不停的评估AI的可能性,如果你看到一个能扫地的小玩意就觉得人类完蛋了,未免有点太夸张;如果你眼前出现了终结者,都骑着哈雷摩托来杀人了,你还认为AI完全不可能实现,那就有点太迟顿了。总之,贝叶斯推理的要点就是变化,随时调整自己心中的概率,有位长者告诉我们:要与时俱进!不要只认死理。中国有一句古话,不听长者言,吃亏在眼前。
如果贝叶斯决策中牵扯的证据太多了,人类的大脑就处理不过来了,尤其是这些数据或者证据之间有一定的因果关系,比如说张国立出轨的那个片断里,如果他老婆还要考虑飞机是不是因为雾霾误点了,会不会是他老公突然变的干净了,如果这么多的证据都要考虑,就得有新的工具,就是贝叶斯网络,因为这个世界上的任何事物都是处于复杂的联系之中,这个有点像马克斯哲学,任何事物都有联系,这其实也不对,比如我和汤唯就没有联系,虽然我希望有… 在数学上,贝叶斯网络就是用来描述这种无处不在的联系的数学表达式。
比如说,张国立回家晚了,可能是飞机晚点了,可能是出去采野花了,飞机晚点可能又和降雨,和雾霾有关系,可以按照贝叶斯概率给出你心中的每个事件的概率。当一个新的证据出现之后,整个贝叶斯网络中的每个事件的概率都会发生变化,比如张国立带回来一个新的证据,他说他喝醉了,怕老婆担心,才说了谎。然后老婆问他,你都是干了些啥,他回答说,喝多了,啥也不记得了。这个回答非常高明,干了啥,全忘了。只要他老婆相信这个证据,那就好办了,整个贝叶斯网络中关于他出轨的概率会减小到接近0,事实也是如此,他老婆相信了他。这正所谓『自古真情留不住,总是套路得人心』。一个小小的谎话,改变了一个重大的事实。
我说的这个故事里,把我们的大脑理想化了。我们人类的大脑实际上远远没有这种能力,大概只有名侦探柯南才有这个本事,一叶知秋,绝大部分人都是不见棺材不掉泪的,人类吸取知识,获取证据的能力非常的缓慢,比如很多人一边说要独立思考,一边看见大V就忍不住去相信他们说的任何话,比如到处都是XX语录。
我们走在大街上,总会感觉会随机看到各种车祸;一个小小的花粉在水中运动,也就是布朗运动,也是随机的。面对这种不确定性,应该如何研究呢?目前无非也就是研究两件事情:一个是有多少种可能性,一个是每种可能性的大小。前者有个名字叫:事件空间;后者有个名字叫:概率。
我们对未来的预测来源于对过于的经验积累, 而联结过去经验与未来预测的工具就是概率。所谓一件事发生可能性大小,就是一件事在历史中发生的频率。在没有计算机之前我们就这么做了,现在有了计算机,我们还是这么做。太阳之下并无新事。只是现在这东西有了个新的名字叫人工智能。
概率空间,或者换句话说,概率空间的意思其实就是我们这个世界的总和,这个世界上我们已经知道的一切。我认为(我要强调一下,是我自己这样认为,我一不希望有人认同,二不希望再有人拿张三大牛,李四博士的观点来吓唬栋哥,我很胆小的。)我认为,AI,或者概率可以从在未来做现在已知的东西,比如识别个图像,开个车,或者扫个地,我同样认为这些事情会做的有可能比人做的好。但是,我认为,真正的未来,是不能只通过已知的可能性来创造的。未来就像是个黑天鹅,当所有人都认为天鹅是白色的时候,飞来一只黑天鹅。概率和人工智能都没法通过已知的已知预测未知的未知。
当所有的证据都指向一个女人出轨的时候,当人工智能通过已知的大数据分析了接触过这个女人的,从发小到同事,从男人到女人,从隔壁老王到楼下小张,唯独漏了早上从市场上买的那条黄鳝,以前的大数据里没有,你让人工智能怎么办?
人说到底是一种欲壑难填的动物,我们的需求往往是无边无际的,人工智能也许只是人类欲望的又一个玩物。我们就是活在这么一个调皮的时代。