ChatGPT大火之后,顺便又一次带火了自然语言处理,为什么说又一次呢?因为自然语言处理是人工智能的一个分支,在欧美的计算机发展历史上,已经起起落落好几次了。我做这个电台也不是做预测的,我只是讲一下这方面的故事,如果非要做预测的话,别人也已经都预测过了。有人问维纳——这个人我在以前的电台里讲过他,他是控制论之父——计算机将来发展到特别智能以后,人还有什么用处?他的回答是:人的用处是巨大的,人要传播信息,传播真相,人类要给电脑足够真实的信息,人工智能才能够发展为正常的智能,否则,人工智能就跑偏了。所以,为了人工智能的发展,我们还是要说真话,传播真相,否则,肯定没戏的。
说起人工智能这个词来,以前都不叫这个名字。在当年,搞计算机的有三种人,一种人是搞计算理论的,一种人是把计算理论搞成计算机的,也可以称之为搞系统的,还有一种人是搞人工智能的,这三种人呢,搞理论的看不上搞系统的,觉得搞系统的就是个没思想的工匠,搞系统的看不上搞理论的,觉得你搞这么多理论,没有搞系统的,只是纸上谈兵。所以,搞理论的和搞系统的,有千万种看不上的理由,但是在对待搞人工智能的,他们出奇的达成了一致:搞理论的和搞系统的,都瞧不上搞人工智能的。在1950年代,搞人工智能的,都不认为自己是搞人工智能的,也没有人工智能这个词。
现在谈起人工智能,媒体上都说人工智能的起源来自于1954年达特茅斯会议,这当然都是事后诸葛亮。因为在此之前,早就已经开过类似的会议了,而且参加会议的这6个人,都是刚刚毕业的学生,多年以后,当事人都已经记不太清楚了,多年后,谁参加了,谁发表了什么言论,已经都记不得了。多年以后,在2005年,大家开始纪念达特茅斯会议50周年,此时,参加会议的已经有多人仙逝,活着的还有5位,现在是2023年,所有的参会者都已经相继离世。最后一位离世的科学家叫明斯基,他于2016年去世,他是也是奇点——现在到处都在用这个词,把这个词推广到全世界的是他的学生库兹韦尔,其实谁都可以用自己的方式理解奇点——的发明者,他已经把自己放在液态的氮里,等待着他复活的那一天。
新世纪以后,这些已经进入暮年的科学家彼此已经放下了路线之争,彼此之间也不再互相讽刺,比如明斯基和乔姆斯这两位科学界的大佬在如何实现人工智能的路线上有巨大的差别,但是随着美国科技的进步,两个人的路线最终互相交织,互相分离,创造出了科技史上灿烂的文化,最终引领人类到了目前的地步。未来会怎么样,我不知道,我唯一确定的是,美国总统也不知道,并且科技界也不听美国总统的指挥,特拉华大学的毕业生,好像美团的王兴也是他的校友。即使是老拜,他也没办法给人工智能指明方向,人工智能的路线之争会继续的竞争下去,我也相信,肯定是可以出更多成果。我瞎猜一下,很可能下一次是生物计算机了,这都是基于我的瞎猜,我很喜欢看的一个媒体叫《科学美国人》,在1995年的时候,美国的一个教授发现了可以搞DNA计算,然后老美就持续的投入了下去,期间换过很多的材料,反正我也不懂,有蛋白质,DNA,现在又换成了RNA,去年的时候,他们做了一下演示,最主要的优点是能耗,相同的计算量,仅需要现在计算机的能量的几万分之一,也就是说,如果能成功的话,现在一部手机用一天,以后一部生物计算机手机用一万天,也就是30年,而且说生物计算机有一定的自我修复能力,这一辈子手机充两三次电就可以了。这个可能还比较遥远,就看欧美的科学家给不给力了。前几天我看到他们说用DNA存储信息,可以用一块方糖那么大的DNA,来存储Google在冰岛一个数据中心那么多的数据,你说是不是在吹牛呢,这个还真不好说。
比如,如果我们能穿越回汉朝,见到了司马迁,他正在抄他的《史记》,抄在竹简上,总共53万字左右,估计要2万枚竹简,总重量可能要70-80kg。如果你碰到他,你拿出一张软盘,对他说:老司啊,你这么多字,我这张软盘就能存下。他可能不相信。我上大学的时候,主要的移动工具就是软盘,1.44M,现在一个U盘就64G,128G,相当于好几万张软盘,这才过去20年而已。以后会不会真的有一个DNA存储器,相当于Google现在一个数据中心,我觉得对未来要充满希望。
再回来讲人工智能,两条路线,一条是试图模拟神经系统来完成智能,另一条路是试图模拟心智来完成智能,随后的几十年,人工智能在这两条路上,互相竞争,互相融合,开创了无数的学科与技术,但是目的地依旧遥远。后来又有了一条新的路线,纽厄尔和司马贺提出的符号派。当年希尔伯特曾经宣称自己解决了费尔马大定理,但却不公布自己的方法。别人问他为什么不公布,他回答说:“这是一只下金蛋的鸡,我为什么要杀掉它?”的确,在解决费尔马大定理的历程中,很多有用的数学工具得到了进一步发展,如椭圆曲线、模形式等。
同样,我觉得人工智能也是一只会下金蛋的鸡,虽然我前面讲过做系统和做理论的都瞧不上人工智能,但是在解决人工智能的过程中,各种理论被提出,各种系统被实现,反映在大学里,是各种的新学科被建立。在竞争中,美国的各种学院不停的改名,比如计算机学院,信息通信学院,信息科学院,信息学院……在中国这边相对比较好,有两个几十年没有变过的学院,由控制论主导的叫自动化学,由信息论主导的叫计算机学院。至少我上学的时候,这两个学院还没有任何融合的趋势,毕竟,两个院长,再分几个学院吧,权力少了,如果院系合并吧,两个院长谁当老大?这一点,美国没有中国搞的好。作为控制论的祖师爷维纳给中国点个赞!
这么多年来,人工智能在很多领域出现,然后被追捧,然后碰壁,总体上来说在以下的几个领域相对比较热门:自动定理证明,知识专家系统,神经网络,机器下棋,自然学习等,因为ChatGPT比较火,所以主要讲这个,这个属于自然语言处理领域。
我也是那种什么热门跟什么的人,对个人来说这其实没什么问题,因为无限接近100%的中国人,在目前的情况下,几乎不可能在人工智能领域做出什么成绩来,原因么,维纳在他的书里已经说过了:人有人的作用,人的作用就是提供并传播准确的信息,剩下的,人工智能自己来搞定。目前咱们传播的以谣言为主,不可能产生出什么正经的人工智能出来。这不是我说的,我已经说了,是维纳在他的书里讲的,书的名字叫《The Human Use of Human Beings》。目前来说,写程序的自称码农,做科研的,自称科技民工,基本上累死累活,没几个钱的。
在科学技术发展的历史上,一般情况下分两种人,一种人被称之为刺猬,这种人是搞理论框架的,比如牛顿,爱因斯坦这种人,他们整出来,开创一个时代,另一种人被称之为狐狸,这种人是解决问题的,比如让卫星上天,让原子弹爆炸。在人类的历史上,这两种人交替得势,三十年河东三十年河西,但是在有些国家,这个理论并不成立,这两种人交替被锤,得利的是掌握了人情事故的官员。这与钱啊,投资啊什么的没关系,也不是穷,就像OpenAI,一直到研究出GPT 3来,花的钱不如中国足协主席贪污的多,这个牛逼主席,一个人贪污了30亿。当官来钱是真的快,一小时折合报酬10万人民币,相当于5个梅西。既然有这么赚钱的行业,那肯定没人去研究理论,也没人去研究工程,所以,刺猬和狐狸在中国都不好,只有当官的好。相信大家已经明白了,所以都在考公务员,考上公务员以后,可以指导那些考不上公务员的科技民工搞人工智能,他们见到你,还得点头哈腰的,想想就爽。
懂了, 下次让足协正副主席上场, 什么杯拿不到, 10个梅西, 怎么输?
周鸿祎早就意识到简中互联网语料质量问题,他也认为前期处理成本很大,必要时从英文翻译过来
big胆