No.417 自然语言处理的句法分析流派

上一期电台讲的是1956年第一界人工智能大会——达特茅斯会议。在上一期电台中,我讲了日后不同流派都参与了会议,唯独缺少自然语言翻译这个流派。为什么会这样呢?原因也很简单,自然语言翻译这个流派起步早,走的远,但是没有意识到自己也是人工智能不可分割的一部分。当然了,后来就不同了,人们意识到,自然语言处理不仅是人工智能,而且可能是最先取得突破的那部分,当然了,这是后话,自然语言处理也是进了好几次ICU才抢救回来的,否则不可能有今天。

自然语言处理跟IBM也有非常大的关系。如果大家长期听我的电台,会知道上世界50年代,各家计算机公司打的头破血流,当时冷战时期,大家都在拼命的提高自己的科技能力,当时IBM开发了自己的IBM 701计算机,这台计算机也被称之为“国防计算机”,其研发的目标是用于朝鲜战场上。这台计算机成功的奠定了IBM在计算机历史上的地位,有钱了,就得做点事情,加强这个地位。所以IBM会到处给钱,给机器,让大学或者研究机构基于它家的机器做点事情。基于这种情况,IBM给了一台IBM 702给乔治敦大学,做的事情是把冷战时期苏联的文档,一键翻译成英语。显然,这个项目最初也是为战争服务的,他们还限定了一个领域,使用机器翻译来翻译俄语,领域是在无机化学上。这就是大名鼎鼎的乔治敦实验。

这个项目搞了两年,到1954年,这比达特茅斯会议还要早两年,所以,人工智能的第一次会议到底算在谁头上,不好说啊,乔治敦大学和IBM公司共同举办了一次公众展示,展示了一个早期的计算机自动翻译系统,它能将俄语句子翻译成英语。这个实验涉及了大约60个俄语句子,它们被翻译成英语以证明机器翻译的可行性。这次展示引起了很大的关注和兴趣,因为它表明计算机可能在语言翻译方面具有潜力。这次翻译之后,大家开始扎堆到机器翻译这个领域,高烧一直持续了十年,十年后,高烧退了,机器翻译直接被烧进了ICU,落寞了很多年,直到后来又被人拾起来研究,这是后话。反正,人工智能的每一个领域都反复坐过山车,起起伏伏的。要有一颗大心脏以及有眼光的人持续不断的投入,才可能取得成果。跟风只能跟一时,风头过去,就一地鸡毛。

当时的技术非常原始,而且翻译质量与人类翻译相比还有很大的差距,乔治敦实验仍然被认为是自然语言处理(NLP)和机器翻译(MT)领域的一个重要的历史事件。它标志着计算机翻译研究的开始,预示着未来计算机可以在语言理解和翻译方面发挥作用。当时大家都不知道怎么做,到底怎么样,计算机才算理解了句子的涵义?这个到今天依旧公说公有理,婆说婆有理,莫衷一是。当时做了严格的限制,总共只有60句话,据说俄语的语法跟英文的语法有些类似,所以他们想办法搞了6条规则,把这60句话中涉及到的200多个单词搞了很多遍,最后翻译出来的质量非常的不好。本来这台机器是给朝鲜战争准备的,还有个下一步计划是做中英翻译,显然他们低估了俄语,更不要说中文了。俄语也是多少个字母文字,至少有办法通过纸纸带输入到计算机中,但是当年中文连通过输入纸带的方法都没有,只好作罢。中文可能比较难,今天我用GPT4,来理解下面这段话中的意思,GPT4都不能很好的理解:阿呆给张领导送红包,两人对话颇有意思。张:你这是什么意思?阿呆:没什么意思,意思意思。张:你这就不够意思了。阿呆:小意思,小意思。张:你真有意思。阿呆:其实没别的意思。张:那我就不好意思了。阿呆:是我不好意思。

自然语言处理的第一次火爆就是这样起来的,很多的机构,尤其是军方,都配置了IBM 701系列机器,用来做翻译,结果发现实在是不太靠谱,钱都给IBM赚去了。他们用了10年,到1964年的时候,终于不想做冤大头了,找了个第三方机构来评测一下,这些钱是不是打了水漂啊?于是美国科学院成立了一个自动语言处理顾问委员会,简称ALPAC(Automatic Language Processing Advisory Committee),这个委员会拿了一笔钱,搞了两年,写了一份报告,报告的名字叫《语言与机器》。这份报告对当时的机器翻译(MT)技术进行了评估。报告结论是,机器翻译的质量还远未达到实用水平,而且在可预见的未来内也不太可能实现。报告建议减少对机器翻译的投资,转而支持其他类型的语言学研究,以及使用人类翻译。

ALPAC报告对当时的机器翻译研究产生了深远的影响。报告发布后,美国政府大幅削减了对机器翻译研究的资助,导致该领域的研究几乎完全停滞了近十年。这段时间被一些人称为NLP的“冰河时期”。但是,我们也要客观一点,尽管ALPAC报告对机器翻译的发展产生了阻碍作用,它也间接促进了计算语言学和自然语言处理其他领域的研究,包括语料库建设、语言统计模型的发展等。长远来看,这些研究为后来的机器翻译技术的复兴和成功打下了基础,尤其是随着计算能力的增强和统计方法的应用,机器翻译在21世纪取得了显著的进展。

在机器翻译技术被打入冷宫之后,如果还有人研究,一般来说,这个人是真的热爱。因为没有钱拿了,还自己研究,这种人除了热爱,我找不出第二个理由。这种人非常非常少,我反正没见过,只在电影中看过,如果大家看过一个叫《爆裂鼓手》的电影,也许能体会到一点。我身边,包括我自己,都不是这种人。我性格太过于懦弱,所以,一事无成。幸好,这个世界上有那种为了真爱投入一切的人,在自然语言处理中,就有这么一位有着无穷精力的家伙,他的名字叫——乔姆斯。

我先来介绍一下这位不可忽视的牛人,他出生于美国,一生是个刺头,一身反骨。如果放在中国,那肯定是被骂死的人。他出生于1928年,有多聪明我觉得就不用说了,肯定比绝大部分人聪明,老天爷赏饭,他随便就上了宾大,在大一的时候,就去听宾大里博士的课程,觉得就这,有什么好研究的,傻子都会的内容,还要老师教?于是,在学校里混了一年之后,就觉得退学不干了,全都会,老师教不了,没办法。宾大里也有牛人,有个教授听说了有这么个刺头学生,就找来问问,看看是不是学武的奇才。找来一看,觉得有点天份,就说,别学了,你不啥都会么?我这里有一本尚未出版的书,研究人类语言的,这本书叫《结构语言学方法》,本人是开创结构主义语言学的开山祖师,会说12门语言,你要不试试?

有挑战才有意思,于是乔姆斯没退学,直接跟着这位老师,哈里斯读硕士了。哈里斯虽然没有他的学生这么出名,但是,由于他学生太出名了,所以他也就更出名了,碰上一个好学生,是非常非常重要的。就跟古希腊哲学家一样,大家一说,就知道最著名的人是苏格拉底,为什么知道他,因为他的学生是柏拉图。虽然苏格拉底没有留下任何文本,但是架不住柏拉图天天说这是我老师说的。柏拉图也很幸运,他有个学生叫亚里士多德,亚里士多德又是帝师,他有个学生叫亚历山大大帝,这些哲学家之间的师徒关系非常重要,因为他们的思想不仅相互影响,而且一代代传承下来,对后世产生了深远的影响。像我这种,别说传播老师的思想了,我老师都不认识我了,当我喊了个老师之后,他一脸诧异,啥,我教过你么?我还得提示老师,老师,你还记不记得,当年我在中学读书的时候,你是班主任,我天天掀女生的裙子,你天天打我。老师恍然大误,说,原来是你小子啊。现在还掀女生裙子么?我说那时候小,不懂事,现在不掀了,都是她们主动掀。我老师大为震惊,说你现在干啥工作?我说我现在是妇产科医生。

太深入的我也不懂,因为乔姆斯写的书《语言学理论的逻辑结构》(The Logical Structure of Linguistic Theory),我看过英文版——的封面,有1300多页,望而却步。后来他当教授,不可能讲1300多页的书啊,所以有个精简版的书叫《句法结构》,这本书其实是他的博士毕业论文,大约200页不到。有兴趣的听众可以买回来放在书架上吃灰,这种书不是让你读的,你买了就是对社会做贡献。这本书是商务出版社出的,顶多出3000本,因为不会有人买这本书,但是他们竟然出了中文版,说明他们有情怀。我们买书,也是有情怀,跟我打赏女主播一样,别问为什么,爱是不需要说出口的。别问我是谁,请与我相恋(我在看直播的时候,那个女的唱的是别问我是谁,请与我make love)。

这本100多页的书,我看完了,我简单的说一下,就是要教会计算机分析句子成分。我老师从初中教到高中,我一直没学会语法,至今还不会分析句子成分,但是乔姆斯是教会电脑来分析句子成分,说明电脑比我聪明。按照乔姆斯的理论,句子可以通过一系列规则得到解析,句子可以分成主谓宾什么的,又分成从句什么的,总之,最后把句子给解析成一棵语法树。他的这个方法一直与时俱进,有兴趣的听众可以自己找来仔细阅读,尤其是你从事自然语言处理,这个人你是绕不开的。

即使你不读他的书也没关系,基于他的书,有一个普林斯顿大学开发的字典叫WordNet,这个字典是免费的,如果大家在手机上安装了那种Mdict,或者欧陆字典什么的,可以装一个试试。WordNet 的设计是基于心理语言学的原则,目的是反映出在日常使用中单词之间的关系。不同于传统的辞典,WordNet 以独特的方式组织数据,使得它更接近于一个词汇网络而不仅仅是一个列表。开发这个字典的是老乔的朋友,叫米勒,也是第一个认识到乔姆斯理论重要性的科学家。

我的很多听众喜欢听八卦,其实很多计算机界的人,是闷葫芦,没什么八卦可讲。但是乔姆斯就不同了,他本身就是个八卦。前面我不是提到么,他是自带流量的人,人家不用蹭流量,他本身就是流量。他可能是有史以来,所说的话被人引用最多的人。现在互联网时代,又有了社交媒体这个放大器,他说的话就被引用的更多了。跟很多科学家一样,他在完成了他的工作之后,像罗素差不多,奠定了自己在学术界的地位之后,他就开始进军政治界了。用鲁迅的话来说,搞计算机救不了美国人。他开始了他的喷人之旅。

其实这早就有苗头。还记得刚刚我说的那本200页不到的书么——《句法结构》。这是他的博士毕业论文。当时美国正在打越南战争,要征兵。他是反战的,肯定不想去当兵。当时美国有个规定,只要你拿了博士学位,就可以不用去当兵。他当时在哈佛当访问学者,就去问哈佛,给我个博士学位,我不想当兵了。哈佛直接给整不会了,太直接了,比阿Q对吴妈的表白还要直接,哈佛拒绝了他这种直白到近乎不要脸的请求。他转身去了他的母校——宾大,把对哈佛讲的话对宾大讲了一遍。宾大一听,考虑了一周,说他得参加个答辩,流程要走一走,于是,他就写了这个不到200页的小册子,他的导师让他书面回答了几个问题,博士学位到手。这么说,乔姆斯的博士学位也是假的,中国有很多人的博士学位也是假的,比如方鸿渐的博士学位。

乔姆斯是犹太人,他最看不起的国家是——以色列。他认为以色列的做法简直了,你不可能通过一个睡前故事当作建国的根据。所以乔姆斯是少有的,作为犹太人,而拿不到以色列签证的人之一。最近不是那边发生战争了么,这位本身就是流量的老人,多少视频又被拿出来播放。在联合国网站上是这么介绍他的:乔姆斯基出生在一个犹太家庭,然而多年来他却能跳出自己民族的藩篱,对巴勒斯坦民族几十年来所遭受的压迫表达同情与声援,并坚定地对以色列在巴勒斯坦领土上所实施的占领予以强烈谴责。作为一名美国人,他不顾人们的非议,长期以来一直对美国的外交政策进行大胆抨击。由于他的仗义执言和所产生的巨大影响力,乔姆斯基被许多人视为“眼中钉、肉中刺”,据说在尼克松时代还曾被白宫列入“敌人名单”。由于不断受到死亡威胁,他所在的麻省理工学院也不得不为其提供“便衣”保护。

老爷子今年95岁了,思维依旧敏捷,我们经常看到的那种老古董现象,在他的身上没有丝毫迹象。一般来说,由于代沟的原因,年轻人是不太支持老年人的,他是个特例,站在年轻人一边并不难,难的是能持续不断的站在年轻人一边,并且被年轻人所认可。他写的书,他的思想,历久弥新。中国有他的一本书叫《乔姆斯基精粹》,书里选了他写的25篇文章,跨度从1957年到2006年,长达50年,我觉得还是比较有可读性的。

中国的歌手刀郎前段时间唱了一首新歌叫《罗刹海市》,这首歌里有一句歌词叫生儿维特根斯坦,我当时听了以后,有点奇怪,因为维特根斯坦是做自然语言处理的。在美国的科技界,不管你是谁,就像乔姆斯这样级别的人物,也不可能一言九鼎,他说啥就是啥。他只是自然语言处理中的一种力量,他只是句法分析的流派。而自然语言中,还有几种力量根本就不认可句法分析,其中就有刀郎老师说的维特根斯坦的情景流派,还有贾里尼克所倡导的统计流派,这三个主要的流派互相竞争,共同发展,一次次的把自然语言处理从ICU中拯救出来,最终完成了目前大语言模型的样子。

这一期时间差不多了,下一期,介绍一下自然语言处理的另外两个不可忽视的流派,探讨一下我们所处的位置,为什么现在大语言模型在处理自然语言的时候这么流畅,这并不是一个人,一个公司的力量,其背后,早有无数科学家在这方面积累,床上一分钟,床下十年功。下一期,我们继续研究人工智能在自然语言处理这个分支上所走过的路,所经历的历史,了解历史,才能认识未来。

5 1 投票
文章评分
订阅评论
提醒

1 评论
最旧
最新 最多投票
内联反馈
查看所有评论
黄天
5 月 前

作为一个小白,我偶然发现翻转台电 FLIP RADIO 这个电台,Reddit网友说维特根斯坦系列之后的节目就变了,搜索“维特根斯坦”听了三期“语言的外部事实(人能相互理解吗)”感觉还是有点门槛。只听懂了,要能理解对方的意思,需要有相同的经历,有外部环境支持才可以,不然只是语言空转,类比为在光滑的冰面上轮子不停地转,但只是空转。

“刀郎老师说的维特根斯坦的情景流派,还有贾里尼克所倡导的统计流派,这三个主要的流派互相竞争,共同发展,一次次的把自然语言处理从ICU中拯救出来,最终完成了目前大语言模型的样子。
……下一期,介绍一下自然语言处理的另外两个不可忽视的流派,探讨一下我们所处的位置,为什么现在大语言模型在处理自然语言的时候这么流畅”
(粗略看了后面418期,好像没有维特根斯坦的情景流派,好像只有统计流派)

最后由黄天编辑于5 月 前
1
0
希望看到您的想法,请您发表评论x
滚动至顶部