深入了解ChatGPT必读的五篇论文

我小时候在农村长大的,有次我们学校组织活动,去城里的学校去参观一下。农村人进城里,那可是瑞士军刀捅屁股——开了眼了。参观了一天,第一次见到自动铅笔,第一次见到那么大的车,后来才知道那叫公交车。临走的时候,城里的老师每个学生送了一支自动铅笔。结果我家的校长就说了,能不能送我们这个东西,就是那个摸一下就出水的东西。把对方的教导主任都说脸红了,我校长越解释越忙乱,什么一摸就出水,越摸越出水,我看到好几个女老师听到都红着脸躲避了。最后我不能忍了,我说应该是那个东西,我指着远处那种插在水泥上,一摸就出水的东西,多年以后,我才知道,那叫感应水龙头,我们村里人从来没见过。因为村里喝水要用压水井,小孩万一掉井里去了,不安全,希望能送我们学校几个感应水龙头,插到墙上给学生们供水。

想只买一个水龙头就出水的同学们,企业们,国家们,醒醒,任重道远啊!水龙头是最终产品,虽然看起来像插在石头上,但是背后有强大的支撑才能出水,如果没有自来水厂,没有城市的管道,没有增压站,水龙头是不会出水的,怎么摸也不出水的。

这个道理简单么?看起来很简单,但是实际上很难,因为大批的公司,都要下军令状,30天必须给我出产品,用30天走完别人30年走的路。能不能出?能肯定是能的,最后可能就是水龙头后面接个水桶,领导需要的是摸一下出水,看起来差不多就可以了。这叫急功近利!

同样,我们也尽量不要太急功近利,比如我们感觉ChatGPT比较有趣,我们是几乎不可能通过一篇论文知道的,因为人工智能是一个非常长期的过程,不是这几年就可以的,ChatGPT现在算是第四类模型,前面的三代分别是多层感知器(MLP),卷积神经网络(Convolutional Neural Networks, CNN),循环神经网络(RNN)之后的第四类模型。再多说一句,这几类模型,没什么太大关系,基本都是一群不知道哪里冒出来的团队,突然就开创了这么一个新技术。

这几周,我也想搞个水龙头,目前我觉得有五篇论文是与ChatGPT非常相关的,算是自成一体吧,如果你读完了这五篇论文,应该能对ChatGPT有更深入的了解。我先把这五篇论文之间的关系罗列出来,大家心里有个数,这5篇论文,Google两篇,OpenAI三篇。

《Attention is All you need》,(多说一句,微软刚刚发布了一篇论文叫《Lanuage is Not All You Need》,很显然也是模仿Google的这篇论文的名字,这篇论文的作者,几乎都是华人。)OpenAI的团队中,也有不少华人,有人就在网上说了,中国人真牛逼,为什么就不留在中国做研究呢?这句话说的太逗了。《晏子春秋》:“婴闻之:橘生淮南则为橘,生于淮北则为枳,叶徒相似,其实味不同。所以然者何?水土异也。”一方水土养一方人,别说是这些清华大学,北京大学的学生,就算是伟大的科学家霍金同志来中国,也得先站起来给领导敬三杯酒,否则霍金别说研究黑洞,连桥洞也没得住!听我电台的人总是说我太偏激,那是你见的太少了,这么说吧,在中国科技界,有一个算一个,老板100%是道德极其低下的骗子。有一个算一个,公司的中层都是一些对上老板舔,对下压榨员工,对技术没任何感觉的家伙。低层的技术人员或者码农也差不多,可能年轻的时候对技术有点追求,但是随着时间的推移,尤其是越接近35岁,就越绝望,最后也不会去研究技术,都是能跑就行了,希望公司别裁我,只要不裁我,别说996,就是让我磕头都行!就这样一个大环境,是不可能产生网友的那种幻想的,那些人在中国搞研究,就能搞赢外国,不可能的,在编程之前,首先你要学会给领导敬酒!而一旦学会了跟领导敬酒,领导把你当自己人之后,你就会发现,吃喝嫖赌可比做科研有趣多了。如果你头铁,你不给领导敬酒,你就要搞技术,那么,领导会有十亿种方法来折磨你,打击你,小鞋给你穿到死,最后你可能要去开滴滴,像我一样,而且你以为开滴滴,送外卖就会放过你么?平台照样要喝你的血。中国的科技公司不会投高科技的,宁可砸几百亿跟卖菜的夫妻店抢那十块八块的生意,跟开出租车的抢那十块八块的生意,也绝对不会搞技术,因为技术由美国来负责,到时候他们一开源,咱们就能创新了。

《Attention is All you need》这篇论文的作者可能也没想到自己的模型这么火,这篇论文奠定了第四代模型的基础。论文着眼于一个相对非常小的行业:机器翻译。这个世界上,始终关注机器翻译的公司,一只手是能数得过来的,后来出圈了,发现威力巨大,一下子把其它的行业团灭了。机器翻译关注的是序列到序列的生成,比如给一句中文,翻译成一句英文。需要用到encoder和decoder。这篇论文提出一个简单的架构,当然这个简单是对科学家来说的,类比一下就是,爱因斯坦说微积分很简单……说起来简单,做起来难。使用这个技术,仅仅是注意力机制,而不是用循环的卷积。

在使用注意力模型之前,是采用的RNN的处理方式是:如果有第t个词,假设用ht来表示,那么这个词与第t-1个词语是有关系的,用函数h(t-1)来表示。这种是时序的,比较难以并行处理。现在主流的GPU,TPU(人工智能加速器)等上面,都是几万,十几万个线程,如果RNN的话,是没法施展拳脚的。如果你不在研究机构或者大公司的话,是很难跑现在的模型的,需要钞票的钞能力。还有个弱点是一句话如果很长的话,一是有可能导致前面的信息已经丢掉了,如果你不丢的话,可能需要巨量的内存。

前面不是提到了编码器和解码器么?Transformer这个模型的功力就是将编码器的东西有效的传给解码器。至于怎么有效的传递,咱们以后再说,目前只需要知道,这篇论文发表于2017年6月,是开山之作。

一年以后,也就是2018年6月,OpenAI发表了一篇论文,就是ChatGPT 1, ChatGPT的核心原理就将Google发布的那篇论文中的解码器拿出来,在没有标注的文本上训练一个语言模型,然后再做一些微调,最终得到的结果比较理想。随后,OpenAI的论文发表之后的四个月,2018年10月,Google发布了第二篇论文,也就是BERT。BERT和ChatGPT都是基于Google发布的Transformer,区别在于,ChatGPT是基于解码器来做,而BERT是基于编码器来做一个语言的训练集。类比一下,两者是师出同门,类似于武侠小说中华山派的气宗与剑宗,一个站位解码器,一个站位编码器。Google的BERT发表出来以后,对标的肯定是ChatGPT,使用的训练集更大一些,结果效果比ChatGPT要好。如果大家读论文的话,Google的BERT模型采用了两个数据集,一个叫BERT Base,一个叫BERT Large,用吴某凡的话来说就是Word很大,你忍一下。其中的BERT Base是跟ChatGPT一样的,但是Google还说,即使BERT Base我也比你要好。如果你是OpenAI,你会服气么?当然不会了,你的训练集比我大,结果比我好,那并不能说明你的模型比我好啊。如果我的模型也够大,那谁好还不一定呢!

于是又过了四个月,OpenAI反击了,2019年2月,ChatGPT还是基于解码器,使用了一个更大的训练集,你很大,我搞个比你更大的。于是ChatGPT 2出来了,但是呢,ChatGPT 2虽然数据集更大了,再加上你不可能只比大小,而不顾技术路线,ChatGPT 2在zero-shot方向上走的比较远,结果出来的效果不是很惊艳。通俗一点来说,这点效果不值得Google BERT再发一篇论文来回应,于是Google的回应到此为止。

OpenAI当然也知道这次回应太仓促了,才4个月,有点太着急了。于是静下心来,花了15个月,2020年5月份,又做出了一篇论文,就是ChatGPT 3。ChatGPT 3 和ChatGPT 2的最主要的区别就是:大!数据和模型都大了100倍。效果就非常的惊艳了,这才引起了市场上广泛的关注,圈也出了,甚至漂洋过海来找你了。中国也就是这个时候,才开始搞国家队捯饬这个玩意。现在所说ChatGPT已经3.5了,但是OpenAI做出了两个艰难的选择,第一是不刷论文了,第二是代码不开源了。这TMD釜底抽薪给搞的,你不开源,可让我们怎么自主创新啊?!

以上就是这五篇论文之间的来龙去脉,以后接下来的几期,我再详细的捯饬捯饬人家发过论文的这些技术。说实在的,我觉得现在ChatGPT进化到什么程度,人家也不说,只能瞎猜。哎,美帝国主义搞的这科技霸权,实在是太那啥了!

ChatGPT能干什么呢?会不会冲击程序员?我觉得会的,不仅仅是冲击程序员,而且会冲击整个应用的生态。怎么冲击呢?我觉得场景应该是这样的。随着ChatGPT越来越能理解人类的对话,将来的ChatGPT会给每个人充当一个秘书,是的,工作的时候,随时可以调用这个秘书来完成你想完成的工作,工作流程跟对话一样,这也是ChatGPT的工作方式。当然了,这并不能完全替代秘书,因为ChatGPT只能白天完成以前那种有事秘书干的工作,但是目前没法完成那种没事干秘书的工作,而这部分工作,通过网上的爆料什么的,想必大家也清楚了,没事干秘书才是领导们最喜欢干的工作。

再来说回程序员,现在粗略的分类是前端跟后端,这两部分程序员也是目前市场上需求量最大的部分,比如前端吧,几个月就换一套交互逻辑,那些花里胡哨的按钮,鼠标怎么动一下,手指头怎么划一下,界面产生什么样的效果……诸如此类的前端,我认为在不远的将来,会变得不那么重要,以后的软件可能会越来越像一个聊天工具,比如JD也好,淘宝也好,最后做的跟短信或者微信差不多,就是在聊天窗口里讲一下你要买什么东西,这个ChatGPT就领会了你的意思,就把事情给你办了。你前端设计的再好,再易用,我觉得也不如直接找秘书说一声易用。之所以我们不用秘书,不是说我们喜欢干活,喜欢亲力亲为,而是因为我们请不起秘书,如果有钱有权,谁不愿意有几个秘书在身边呢?ChatGPT可以充当穷人的秘书这个角色,富人可以让活人秘书用ChatGPT。

比如,我如果想买一把羽毛球拍,我上次买过一把,如果现在的话,我会打开那些JD啊,淘宝啊,找到购物车一通扒拉,找到以前的订单,不管前端怎么设计的,但是总归要点好几次,又这又那的……找到以后,咱们要么再购买一次,要么你觉得水平比以前高了,想再升级一下自己的球拍,这时候,你又是一通搜索,一通比较……最后终于下单了。如果ChatGPT普及以后,咱们购物可能就是对着购物的App说,把以前购买过的球拍再买一把,如果你想升级,可以说,比上一次买的球拍更好的球拍有哪些,然后App给你罗列出来,你自己选一把,或者让ChatGPT帮你选一把。

在这整个过程中,前端用到的就是一个对话框,以后可能真能做到会写对话框就会做前端。我期待那一天的到来。我曾经有一个女朋友,她叫秀儿,是星瞳的铁粉,目前在西安当前端,至今未婚,她一直在攒钱做变性手术。如果她失业了,我就可以养她了。希望OpenAI给点力,我的幸福就靠ChatGPT了!

5 1 投票
文章评分
订阅评论
提醒

6 评论
最旧
最新 最多投票
内联反馈
查看所有评论
北窗游客
11 月 前

霍金大概率可以吃的上低保,可能吧……

ro
11 月 前

秀做变性手术我把车捐了

yolo
11 月 前

栋哥有时间讲讲国外主要关注哪些网站和信息,吸收最新资讯去哪里,给小弟带带路

maginahoho
11 月 前

完全被栋哥开头的笑话带走了注意力,没法专心看后边栋哥和秀的爱情故事了🌚

sol
11 月 前

https://youtu.be/nzqlFIcCSWQ
偶然遇到精读论文

6
0
希望看到您的想法,请您发表评论x
滚动至顶部