98. [人工智能04] 类推学派和推荐系统是咋回事?

* 类推学派

在机器学习中,有一个学派叫类推学派,理论基础其实是我们耳熟能详的一句话:物以类聚人以群分。如果一个人的朋友是吸烟喝酒打麻将,那么这个人也不太可能是读书画画听音乐的人。这是我们的生活常识,然后我们试图让计算机帮助我们完成这个过程,最主要的原因是这个世界上大部分的人是无名小卒,认识不了几个人,也没有几个人愿意了解咱们,除了父母和自己的老婆孩子,没有人真正的愿意观察我们这种不起眼的小人物,所以用计算机来做这个事情是非常合理的。这个类推学派被广泛的应用在推荐系统上,比如淘宝,豆瓣网,以及各种各样的猜你喜欢的系统上,比如猜测你喜欢听什么样的电台,什么样的音乐,什么样的书。

这种系统还是比较管用的,尤其是对穷人来说,如果是富人的话,肯定是私人医生,私人助理,私人管家,还有名星的经纪人更了解。我认为,现在的一些宣传是夸大了很多,比如说这个人工智能的推荐系统比你自己更了解你自己,如果你真的相信了这个宣传,明显是不止是手里有手机,还得脑子有病才行。人工智能再NB,也不会超过你最好的亲戚朋友。可能有的人会说,这不对,我就觉得特别的对!毕竟这种人特别多,他们不但认为人工智能推荐的东西特别的准,而且觉得每天的星座运势特别的准,甚至觉得能不能在一起,完全看你是不是白羊座,她是不是天猫座。

因为我发现有些人没有幽默感,不能开玩笑,只要说某个事情不好,就说我是黑,如果我说某个东西好,就说我是无脑粉。我再重申一下我的观点,类推学派也好,AI也好,能做的极限就是你有亲戚朋友和程度,不会比他们推荐的更好,更不会比你更了解你自己。如果你觉得这个推荐系统太准了,100%准,那已经是星相学讨论的问题了,这个和计算机的关系其实已经不大了,就是有些人每天得看看星座,才敢出门,万一不看,错过了今天的桃花运。完全信推荐系统或者AI,和完全信星座,信阴阳八卦没什么区别。当然,相比阴阳八卦和12个星座,推荐系统还是有理论基础和科学依据的。

* 推荐系统

因为现在是一个信息爆炸的时代,每天产生无数的信息,让人目不睱接,比如有的人写博客,即使他是个语文不及格的理科生;比如有的人会在网上做个讲软件故事的电台,即使他的普通话烂的狗屎一样。正是因为这种海量的信息,只能靠电脑的推荐来让人发现,没有人知道这么多的信息,比如淘宝上可能有几百万种商品,谁知道这么多商品有啥用啊。

这个时候就需要推荐系统了,Facebook经常推荐你一些好友,问你认识不认识你前女友,其实你们早就分手了,看见对方就生气,然后Facebook隔三岔五就问你一下,提醒你不要忘了那个王八蛋。不上是Facebook,Google家在这方面也不甘落后,Google可以用非常聪明的推荐算法提醒你不要忘了以前的照片,这是Google Photos一个让人心惊肉跳的功能,它能挖掘你所有的照片,然后还很贴心的帮你加上背景音乐,问你还记得大明湖畔的夏雨荷么?即使那些照片我根本不想让别人看。淘宝和京东每天都吸引你去买点东西,生怕你钱包里的钱太多了放不下。

这个东西一点也不新鲜,在我还是学生的时候,也就是十年前的时候,就已经有个非常流行的案例了,我当年天天不喜欢上课,一点正能量都没有,但是有一天,我决定去教室里看看老师,那门课叫《数据挖掘》。老师在上面讲了一个案例,我在下面上网,老师讲的是网上的案例,不是瞎编的,今天还能搜到这个案例。讲的是一个女孩怀孕了,这个女孩刚上大学,然后在网上购买了一些东西,大数据就推测出这姑娘怀孕了,就给这个姑娘发了一些婴儿用品的广告,结果被姑娘的老爸发现了,觉得尼妈啥垃圾网站啊,我家姑娘冰洁玉清的,你给整天发这种广告,是不是不想混了,然后就投诉了这个网站。结果,他家姑娘还真是怀孕了。然后这篇文章就起了这样一个名字《如何在一个十几岁的女孩的父亲知道以前就知道她已经怀孕了》,在网上广泛流传,《how target figured out a teen girl was pregnant before her father did》英文我也找到了,故事内容差不多。

再多说几句,有些听众非常有怀疑精神,我讲的东西的确不严谨,毕竟我这个不是搞学术的。但是有些人让我很无语,什么东西都不信,都在微信后台问我:栋哥,你讲的XX是假的吧!比如说曾经有一期我讲到了黄帝陵,我说我去过陕西的黄帝陵,就有人和我说,别说黄帝了,三皇五帝都是假的,神话故事,你竟然去看的那个土疙瘩,真是智商不高啊!前两期讲人工智能我引用了一下上市公司的报表,说了一下国内很多公司拿人工智能来搞补贴,结果又有人说:栋哥,你难道不知道上市公司的报表都是假的么?你引用这样的数据没有意义!本来我搞这么个电台就没有意义,别那么搞笑好不?大家都说黄帝的陵墓在陕西,我就相信了呗,难道我还得拿个洛阳铲去挖一挖,搞准确了才能在电台里说么?我要是能力调查上市公司的财务报表,我还在这里搞这个电台干啥,我早就上天入地了。比如今天这个例子,姑娘怀孕这个,我只能给出原文的出处,至于是不是真事,我不知道。所以不要太执着的来问我是不是真事儿?!

再回来讲这个姑娘怀孕的事情,这个文章说,系统比姑娘的爸爸提前知道了怀孕的事情。我觉得,这太正常不过了。因为这是美国的事情,可能和中国有点不同,如果在中国,老爸提前知道了才不正常,按照正常情况,一个大一女生怀孕了,这件事情,她爸爸应该是永远不会知道。为什么系统知道了呢?因为这个女孩在网上买了验孕棒这种东西,只要是个正常人,就知道是怎么回事,这个系统并不比人聪明。这是我在上课时候的想法,现在还是这个想法。在10年前,比较流行的一个观点是,数据挖掘马上就要超过人类了,现在只是换成了人工智能马上就要超过人类了。这是我读研的时候,更早的时候,计算机并不是最个特别热门的专业,我读本科的时候,最热门的专业是生物工程,那时候的口号是:21世纪是生物工程的世纪,我读大学的时候,反正给我的感觉是,生物工程一发力,人类的疾病马上就要不够用了,我本科学校里当时每周有个讲坛,经常请一些教授啊,院士啊去讲课,给我了很大的希望,反正觉得你不和生物工程沾点边,就被时代抛弃了。还有环境工程也很热门。那时候人工智能还在低谷,没啥人做这个。

* 推荐系统的基本原理

好了,再说点正题,推荐系统的基本原理。推荐系统有很多,包括皮尔逊相关,集群算法,还有一大堆算法,名字起得非常的科幻,别说外行人,就是内行人也是看的晕头转向。当年我硬着头皮看了很多,发现所有的算法没有的特别科幻的地方,可以分为两类。一类官方的名字叫做协作式过滤,一听名字就觉得不懂,我个人非常讨厌上课,演讲的时候用一些中英文混杂,或者一些虽然是中文字,每个字我都认识,但是放在一起完全不知道在说啥,比如这个用户协作式系统。IT行业中很多这种词语,比如原生广告,原生变现系统,降维打击,我经常听,但是就是不太懂。这里的用户协作式过滤,用中国话来说就是『人以群分』,把人分类的。

第二种推荐系统的学名叫基于内容的过滤,用中国话来说就是『物以类聚』,把内容分类的。现实中,还有层出不穷的算法,但是都没有跳出这两个基本原则——『物以类聚,人以群分』,我再详细的讲一下这些吓死人的概念背后是多么纯洁纯粹的原理。

第一个是基于用户协作的系统,栋哥说这个就是『人以群分』,把用户分类的。比如一个大网站,对了,能搞这个的必须得是大网站,也就是说得有大数据才行,小公司小网站没意义。比如说有个大公司叫奶茶公司,主营业务是卖东西,不止卖奶茶,也卖书,卖电脑,卖二手货,卖豆腐等等。老板娘为了能准确的发广告,多卖点货,决定在一个月黑风高的夜里研究一下网站上有用户,老板娘叫红海棠,嫁人的时候老公比她大了30岁,老公好像叫白梨花,一树梨花压海棠以后,已经睡了,幸亏海棠年青,体力好,起床来研究自己网站的用户。

海棠用的方法是基于用户协作的方法,她点开了一个带头像的小伙,眼睛的余光扫了一眼已经熟睡的白梨花,轻轻的叹了一口气。她研究的这个用户叫赵云,并不帅,长得和外星人罗纳尔多一样,她本打算关掉换一个用户,反正都是用户研究,研究帅哥心情会好一点。但是,她发现这个用户花了好几千买了一个键盘,而且这个键盘长得还很奇怪,键盘上光秃秃的,一个字母都没有,感觉像个二手货。能买这么个东西的人,一定是个有钱人,心中一阵荡漾,红海棠马上点开了曾经购买过这种键盘的人,一个一个仔细研究了起来,一个时辰以后,红海棠发现了这个群体有个共同的特点,买过机械键盘的人,基本都会买双肩包,也都会买冲锋衣,并且,这群人几几乎不会购买杜蕾丝等玩具。

在这个不开心的夜里,红海棠不自觉的完成了人类历史上第一个基于用户的协作过滤系统,原理就是这样,根据用户的行为来构造一个模型,以后,只要是有的购买了机械键盘,不管三七二十一,给他推荐冲锋衣和双肩包,这群人的行为几乎就是一模一样的。红海棠高兴的想把这个发现告诉白梨花,结果,踹了几脚,白梨花翻了一下身,继续睡了。

红海棠一夜未眠,虽然身体上没有满足,但是,她心理上满足了,这就是知识的力量,她发现了『人以群分』的奥秒,只差一个程序员,实现一下这个想法,网店里的销量肯定节节攀升,到时候,就有钱给白梨花买加强的汇仁肾宝了。

好了,这期时间到了,下一期再讲推荐系统的另外一个方法,『物以类聚』。最后,补充一首唐诗,苏轼写的,说不定是今年的高考题呢。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注