深入了解ChatGPT必读的五篇论文

我小时候在农村长大的，有次我们学校组织活动，去城里的学校去参观一下。农村人进城里，那可是瑞士军刀捅屁股——开了眼了。参观了一天，第一次见到自动铅笔，第一次见到那么大的车，后来才知道那叫公交车。临走的时候，城里的老师每个学生送了一支自动铅笔。结果我家的校长就说了，能不能送我们这个东西，就是那个摸一下就出水的东西。把对方的教导主任都说脸红了，我校长越解释越忙乱，什么一摸就出水，越摸越出水，我看到好几个女老师听到都红着脸躲避了。最后我不能忍了，我说应该是那个东西，我指着远处那种插在水泥上，一摸就出水的东西，多年以后，我才知道，那叫感应水龙头，我们村里人从来没见过。因为村里喝水要用压水井，小孩万一掉井里去了，不安全，希望能送我们学校几个感应水龙头，插到墙上给学生们供水。

想只买一个水龙头就出水的同学们，企业们，国家们，醒醒，任重道远啊！水龙头是最终产品，虽然看起来像插在石头上，但是背后有强大的支撑才能出水，如果没有自来水厂，没有城市的管道，没有增压站，水龙头是不会出水的，怎么摸也不出水的。

这个道理简单么？看起来很简单，但是实际上很难，因为大批的公司，都要下军令状，30天必须给我出产品，用30天走完别人30年走的路。能不能出？能肯定是能的，最后可能就是水龙头后面接个水桶，领导需要的是摸一下出水，看起来差不多就可以了。这叫急功近利！

同样，我们也尽量不要太急功近利，比如我们感觉ChatGPT比较有趣，我们是几乎不可能通过一篇论文知道的，因为人工智能是一个非常长期的过程，不是这几年就可以的，ChatGPT现在算是第四类模型，前面的三代分别是多层感知器(MLP)，卷积神经网络（Convolutional Neural Networks, CNN），循环神经网络（RNN）之后的第四类模型。再多说一句，这几类模型，没什么太大关系，基本都是一群不知道哪里冒出来的团队，突然就开创了这么一个新技术。

这几周，我也想搞个水龙头，目前我觉得有五篇论文是与ChatGPT非常相关的，算是自成一体吧，如果你读完了这五篇论文，应该能对ChatGPT有更深入的了解。我先把这五篇论文之间的关系罗列出来，大家心里有个数，这5篇论文，Google两篇，OpenAI三篇。

《Attention is All you need》，（多说一句，微软刚刚发布了一篇论文叫《Lanuage is Not All You Need》，很显然也是模仿Google的这篇论文的名字，这篇论文的作者，几乎都是华人。）OpenAI的团队中，也有不少华人，有人就在网上说了，中国人真牛逼，为什么就不留在中国做研究呢？这句话说的太逗了。《晏子春秋》：“婴闻之：橘生淮南则为橘，生于淮北则为枳，叶徒相似，其实味不同。所以然者何？水土异也。”一方水土养一方人，别说是这些清华大学，北京大学的学生，就算是伟大的科学家霍金同志来中国，也得先站起来给领导敬三杯酒，否则霍金别说研究黑洞，连桥洞也没得住！听我电台的人总是说我太偏激，那是你见的太少了，这么说吧，在中国科技界，有一个算一个，老板100%是道德极其低下的骗子。有一个算一个，公司的中层都是一些对上老板舔，对下压榨员工，对技术没任何感觉的家伙。低层的技术人员或者码农也差不多，可能年轻的时候对技术有点追求，但是随着时间的推移，尤其是越接近35岁，就越绝望，最后也不会去研究技术，都是能跑就行了，希望公司别裁我，只要不裁我，别说996，就是让我磕头都行！就这样一个大环境，是不可能产生网友的那种幻想的，那些人在中国搞研究，就能搞赢外国，不可能的，在编程之前，首先你要学会给领导敬酒！而一旦学会了跟领导敬酒，领导把你当自己人之后，你就会发现，吃喝嫖赌可比做科研有趣多了。如果你头铁，你不给领导敬酒，你就要搞技术，那么，领导会有十亿种方法来折磨你，打击你，小鞋给你穿到死，最后你可能要去开滴滴，像我一样，而且你以为开滴滴，送外卖就会放过你么？平台照样要喝你的血。中国的科技公司不会投高科技的，宁可砸几百亿跟卖菜的夫妻店抢那十块八块的生意，跟开出租车的抢那十块八块的生意，也绝对不会搞技术，因为技术由美国来负责，到时候他们一开源，咱们就能创新了。

《Attention is All you need》这篇论文的作者可能也没想到自己的模型这么火，这篇论文奠定了第四代模型的基础。论文着眼于一个相对非常小的行业：机器翻译。这个世界上，始终关注机器翻译的公司，一只手是能数得过来的，后来出圈了，发现威力巨大，一下子把其它的行业团灭了。机器翻译关注的是序列到序列的生成，比如给一句中文，翻译成一句英文。需要用到encoder和decoder。这篇论文提出一个简单的架构，当然这个简单是对科学家来说的，类比一下就是，爱因斯坦说微积分很简单……说起来简单，做起来难。使用这个技术，仅仅是注意力机制，而不是用循环的卷积。

在使用注意力模型之前，是采用的RNN的处理方式是：如果有第t个词，假设用ht来表示，那么这个词与第t-1个词语是有关系的，用函数h(t-1)来表示。这种是时序的，比较难以并行处理。现在主流的GPU，TPU（人工智能加速器）等上面，都是几万，十几万个线程，如果RNN的话，是没法施展拳脚的。如果你不在研究机构或者大公司的话，是很难跑现在的模型的，需要钞票的钞能力。还有个弱点是一句话如果很长的话，一是有可能导致前面的信息已经丢掉了，如果你不丢的话，可能需要巨量的内存。

前面不是提到了编码器和解码器么？Transformer这个模型的功力就是将编码器的东西有效的传给解码器。至于怎么有效的传递，咱们以后再说，目前只需要知道，这篇论文发表于2017年6月，是开山之作。

一年以后，也就是2018年6月，OpenAI发表了一篇论文，就是ChatGPT 1， ChatGPT的核心原理就将Google发布的那篇论文中的解码器拿出来，在没有标注的文本上训练一个语言模型，然后再做一些微调，最终得到的结果比较理想。随后，OpenAI的论文发表之后的四个月，2018年10月，Google发布了第二篇论文，也就是BERT。BERT和ChatGPT都是基于Google发布的Transformer，区别在于，ChatGPT是基于解码器来做，而BERT是基于编码器来做一个语言的训练集。类比一下，两者是师出同门，类似于武侠小说中华山派的气宗与剑宗，一个站位解码器，一个站位编码器。Google的BERT发表出来以后，对标的肯定是ChatGPT，使用的训练集更大一些，结果效果比ChatGPT要好。如果大家读论文的话，Google的BERT模型采用了两个数据集，一个叫BERT Base，一个叫BERT Large，用吴某凡的话来说就是Word很大，你忍一下。其中的BERT Base是跟ChatGPT一样的，但是Google还说，即使BERT Base我也比你要好。如果你是OpenAI，你会服气么？当然不会了，你的训练集比我大，结果比我好，那并不能说明你的模型比我好啊。如果我的模型也够大，那谁好还不一定呢！

于是又过了四个月，OpenAI反击了，2019年2月，ChatGPT还是基于解码器，使用了一个更大的训练集，你很大，我搞个比你更大的。于是ChatGPT 2出来了，但是呢，ChatGPT 2虽然数据集更大了，再加上你不可能只比大小，而不顾技术路线，ChatGPT 2在zero-shot方向上走的比较远，结果出来的效果不是很惊艳。通俗一点来说，这点效果不值得Google BERT再发一篇论文来回应，于是Google的回应到此为止。

OpenAI当然也知道这次回应太仓促了，才4个月，有点太着急了。于是静下心来，花了15个月，2020年5月份，又做出了一篇论文，就是ChatGPT 3。ChatGPT 3 和ChatGPT 2的最主要的区别就是：大！数据和模型都大了100倍。效果就非常的惊艳了，这才引起了市场上广泛的关注，圈也出了，甚至漂洋过海来找你了。中国也就是这个时候，才开始搞国家队捯饬这个玩意。现在所说ChatGPT已经3.5了，但是OpenAI做出了两个艰难的选择，第一是不刷论文了，第二是代码不开源了。这TMD釜底抽薪给搞的，你不开源，可让我们怎么自主创新啊？！

以上就是这五篇论文之间的来龙去脉，以后接下来的几期，我再详细的捯饬捯饬人家发过论文的这些技术。说实在的，我觉得现在ChatGPT进化到什么程度，人家也不说，只能瞎猜。哎，美帝国主义搞的这科技霸权，实在是太那啥了！

ChatGPT能干什么呢？会不会冲击程序员？我觉得会的，不仅仅是冲击程序员，而且会冲击整个应用的生态。怎么冲击呢？我觉得场景应该是这样的。随着ChatGPT越来越能理解人类的对话，将来的ChatGPT会给每个人充当一个秘书，是的，工作的时候，随时可以调用这个秘书来完成你想完成的工作，工作流程跟对话一样，这也是ChatGPT的工作方式。当然了，这并不能完全替代秘书，因为ChatGPT只能白天完成以前那种有事秘书干的工作，但是目前没法完成那种没事干秘书的工作，而这部分工作，通过网上的爆料什么的，想必大家也清楚了，没事干秘书才是领导们最喜欢干的工作。

再来说回程序员，现在粗略的分类是前端跟后端，这两部分程序员也是目前市场上需求量最大的部分，比如前端吧，几个月就换一套交互逻辑，那些花里胡哨的按钮，鼠标怎么动一下，手指头怎么划一下，界面产生什么样的效果……诸如此类的前端，我认为在不远的将来，会变得不那么重要，以后的软件可能会越来越像一个聊天工具，比如JD也好，淘宝也好，最后做的跟短信或者微信差不多，就是在聊天窗口里讲一下你要买什么东西，这个ChatGPT就领会了你的意思，就把事情给你办了。你前端设计的再好，再易用，我觉得也不如直接找秘书说一声易用。之所以我们不用秘书，不是说我们喜欢干活，喜欢亲力亲为，而是因为我们请不起秘书，如果有钱有权，谁不愿意有几个秘书在身边呢？ChatGPT可以充当穷人的秘书这个角色，富人可以让活人秘书用ChatGPT。

比如，我如果想买一把羽毛球拍，我上次买过一把，如果现在的话，我会打开那些JD啊，淘宝啊，找到购物车一通扒拉，找到以前的订单，不管前端怎么设计的，但是总归要点好几次，又这又那的……找到以后，咱们要么再购买一次，要么你觉得水平比以前高了，想再升级一下自己的球拍，这时候，你又是一通搜索，一通比较……最后终于下单了。如果ChatGPT普及以后，咱们购物可能就是对着购物的App说，把以前购买过的球拍再买一把，如果你想升级，可以说，比上一次买的球拍更好的球拍有哪些，然后App给你罗列出来，你自己选一把，或者让ChatGPT帮你选一把。

在这整个过程中，前端用到的就是一个对话框，以后可能真能做到会写对话框就会做前端。我期待那一天的到来。我曾经有一个女朋友，她叫秀儿，是星瞳的铁粉，目前在西安当前端，至今未婚，她一直在攒钱做变性手术。如果她失业了，我就可以养她了。希望OpenAI给点力，我的幸福就靠ChatGPT了！