192. Google在斯坦福大学的日子 | 软件那些事儿

https://lmzdx.com/2019/03/06/192-google在斯坦福大学的日子-软件那些事儿/

Google是一家互联网公司,我在电台里曾经做过几期互联网早期的故事,如果非要追本溯源的话,在1995年,也就是大家所熟知的Tim Berners-Lee博士发明WWW之前的50年,也就是1945年的一位美国科学家Vannevar Bush就已经构想了如何存储互联网的信息。

他把自己构想的这个存储系统名为memex,在这个系统里,文档相互连接,通过这种结构来发现相关的信息。他的这个想法让几个人所信服,在当时计算机还非常落后的情况下,有一些人开始实现这个系统,其中Ted Nelson推进了超文本连接这个技术,但是在当时,计算机并不流行,用的人也很少。一个叫Bill Atkinson的人使用了以后,非常的震撼,就做出了Apple公司当年的HyperCard系统,这已经是非常接近现在的HTML系统了。

到了Tim Berners-Lee发明互联网的时候,他亲口说过他做的HTML(超文本标记语言)是一种SGML的应用,而这种SGML语言是一种国际标准,是IBM公司的三个科学家做出来的。关于更细节的故事,我就不在电台里展开详细说了,细节的东西我都写在我的知识星球里了,上一期就是讲的互联网之父Tim Berners-Lee博士。因为Google与互联网的关系非常密切,所以我在这里稍微的说一下,算是一个铺垫。

当Berners-Lee实现了www之后,web就像是一个无限的数据库,理论上可以保存每一个人,每一个学科,每一份信息。里面就像是交错连接的盒子,这些盒子里的信息可能是一个人写了页面,也可能是一个人加了链接,总之,无限大。如果可以做一个数据库容纳整个互联网,这就是一个世纪性的机遇。

当时很多的公司,比如Yahoo就是做这样的工作,还有很多的学校也开始了这样的研究,在90年代初期,stanford就开始了这方面的研究,他们还从美国政府申请了不少钱做一个叫数字图书馆的项目。在1995年的时候,这个项目的负责人招了两个博士生,大家也能猜到了,这两个就是Google的创始人Page和Brin。有了这些钱做为后盾,他们开始寻找一个论文题目。Brin有国家自然基金会的奖学金,只要找论文题目就可以了。

和很多名人一样,Page和Brin是如何相识的,也有很多说法,其中一个说法是,Page申请了Stanford的那个夏天,Stanford大学给被录取的学生组织了一个活动,这个活动有一个项目是在San Francisco旅行一下,旅行的时候要有个导游,这个导游就是Brin。而且Page说那次活动的时候,他挺讨厌Brin这个导游的。这个故事是不是真的,我不知道,其实我也不在乎是不是真的,反正不同的书上有不同的写法,我只是采用了其中的一个,如果有人认识这两个创始人,去问一下就是了。这个故事不是我编的,是美国科技界写过《黑客》的那个著名作者Steven Levy说的。

大家也要注意,我的电台里会有很多的错误,如果大家能指出来的话,我还是挺高兴的。基本上,指出我错误的人我都会在语言上感谢一下。但是,一种情况除外,就是你来告诉我在中国的哪个大V说不是这样,这种我是不会做任何回复的。因为不管他对还是错,如果我回复了,你再截个图转发给他,要是他是个君子还好说话,要是不是个君子,我就涉嫌怼他,被他惦记上了,如果他再是个有几百万粉丝大军的人,有千分之一的人来骂我,也有几十个人,我就吃不了兜着走了。希望大家谅解。我不回复任何涉及中国人和中国公司的问题。

扯远了,再来说Brin,他就找了一个电影评级的项目。就是一堆电影,你只要给一些电影打分,就可以根据你打分的电影,给你推荐更多你喜欢的电影。布林还和其它的同学合作了另外一个项目,可以根据海量的论文数据库来检索论文有没有侵权的行为。这是他在斯坦福大学比较上心的两个项目。上一期里我讲了布林的来历,是苏联移民,他父母都是科学家,他特别的聪明,数学能力超强,去了斯坦福大学就拿到了奖学金,然后每天开始滑滑板,坐在学校里荡秋千。他的爸爸就有点着急,觉得你虽然聪明,但是不学习也不行啊,于是,他选了一些体育类的课程,好像是高级游泳。我们都知道计算机界上帝级别的人物Donald Knuth,就是写《计算机编程的艺术》这本我看不懂的书的人,对Brin的印象极为深刻,他们俩人曾经一起去参加一个会议,期间的Brin解决了一个Knuth都觉得很难的问题,对Brin大加赞赏。

再来说一下Bill Gates,Bill Gates非常的有钱,他就到顶级的学校里去建楼,名字当然叫Bill Gates楼,这些学校包括MIT,Carnegie Mellon,还有Stanford。这个一方面说明了Bill Gates有钱有爱心,另一方面也许说明了是人都有炫耀的心理,这个无可厚非。最近我看了一本书叫《表演与偷窥》,不是推荐大家去买来看看,这本书里其实讲了男人可能有表演的欲望,女人也应该有,要不然就不会用美顔相机了。Bill Gates也是如此,他给Stanford了一大笔钱,建了一个大楼,这个大楼要使用的时候,房间太多了,如何合理的安排学生使用这个问题,让学校的管理者有点脑壳疼。这时候,Brin出面了,运用了数学原理,一个下午就搞定了给Gates计算机大楼安排使用的问题。

也不知道Bill Gates有没有想过,他出钱的这些大楼里,会出来很多和Microsoft竞争的人和公司,像Google这种的,曾经把微软搞的不太爽。

Brin和Page有了这个电影评级,然后做推荐的项目以后,就要写软件从网上抓取电影的数据。当时互联网上的数据已经非常多了,电影也非常多,评价电影的人也非常多,数据越来越多。他们就试图获取更多的数据,当时他们遇到了一个问题,在电影的评价里,如何知道网上这么多信息,有多少链接是指向哪个评论呢?还有哪个电影是最受欢迎的呢?这些数据存在于整个互联网上,如果要确切的知道结果,要把整个互联网拿出来分析一下才行。

于是,Page和Brin的问题是如何把整个互联网都存下来。然后根据不同的链接,给页面打分,如果一个页面的链接越多,那么打分就越高。这个打分的系统,起了个名字叫PageRank。有了这个想法以后,Page就用Java语言写了最初的系统,但是,Page的编程能力欠缺,他就找到了他和Brin都认识的好朋友,一个名叫Scott Hassan的人来改进这些Java代码。Scott Hassan是个天才程序员,是个亿万富裕,在很年轻的时候,他就成立了自己的公司,后来公司卖了好几亿美元给Yahoo,所以他很早的时候就特别有钱,有特别有技术,后来他又从Google赚了很多,现在做机器人,公司叫Willow Garage,这是后话,我们不涉及这个家伙,只说他看了一下Page用Java写的代码以后,没有基于Java去写,而是用Python重写了整个Google的代码,运行的比以前流畅多了。

在抓取了大量的数据以后,Google的两个创始人开始思考如何从中取出最有用的数据。这也是PageRank后来改进的动力。

Page后来说,这其实是个数学问题,当时已经有5亿个页面,这5亿个页面相当于是5亿个变量,他们把整个互联网转换成一个巨大的数学公式,通过指向页面的链接来评估页面的重要性。Brin解释说这一切都像是航空路线,大型的城市会有更多的飞机,因为有大量的飞机航线都要经过大城市。一切都是递归的,从某种意义上来说,你有多好取决于谁链接到你,而你链接到谁,也影响到你的重要性。这个其实和网络上,比如微博上的关注量也类似,关注的人多了,就是大V了,也叫意见领袖。

当然,这个PageRank的核心代码是不会公开的,只会公开一点点大体的意思,所以这个世界上有好几个搜索引擎,能超过Google的不多,甚至没有。我看书里讲,能影响这个搜索质量的参数已经超过了1000个,绝对不是一两句话能解释清楚的,也不是我这种以开滴滴为生的前钢管舞演员所能理解的。再说多了,就露馅了,具体的信息还请大家自行到网上搜索,信不信由你,反正我是不信的……Google是不可能把核心算法给共享出来的。

为什么我这么说呢?我觉得这个和其中的一个创始人有关系,Page年少时候的偶像是Nikola Tesla,就是中国网上流传的最接近神的科学家,在不少中国人心里,这个家伙肯定比爱迪生NB,当然了,我不研究这个,但是我觉得他和爱迪生还有差距,最多和爱迪生是同等级别的,绝对不可能完爆爱迪生。最后Nikola Tesla去世的时候比较悲惨,是潦倒中死去的。然后Page认为他发明能力非常强,但是错在他公开了自己的秘密,还没有商业化自己的东西,他认为自己不仅要发明东西,还要让自己发明的东西保密,并且可以商业化。还有一种想法是,Page的父亲在1996年6月的时候去世了,他深受的父亲,他父亲去世以后,他的行事变了一个人一样,本来他还是挺喜欢分享自己的技术的,但是从他父亲去世,他就很难再信任其它事情了。这个也不是我说的,是Google的投资者Mike Moritz说的。

从后来的行事中,我们也可以看出一些问题,后来Page当了Google公司的CEO,说自己得了失语症,不出来讲话,在特郎普当选美国总统以后,美国参议院情报委员会有个听证会,几乎所有的大佬都去了,但是Larry Page还是没去,结果搞的Bloomberg社写了一篇报道叫Where in the World Is Larry Page? 大家可以搜一下这个文章。所以,大家对Google的核心搜索只有他们的一篇论文,我相信最核心的肯定没有公开。网上的都是瞎猜的。

当时Stanford的资源没有那么多,Google能用的也不多,他们用的只有Gates楼上的一个45M的宽带,然后他们用了黑客的技术,通过设置了路由器上的一些参数,让Google能够使用所有的带宽,当时,他们只有一台电脑,就用光了几乎所有的带宽,他们买了很多硬盘来存储数据。

当然了,Stanford对这个事情还是有非常大的容忍,只是提醒了他们一下,大家都不用带宽的时候他们再用,不要搞的所有人都不能上网了,他们在白天就只用70%的带宽,晚上用90%的带宽。大家也算相安无事,如果这件事发生在中国的大学,有一个宿舍里的一台电脑用了全校90%的带宽,我估计得写检讨,甚至开除。

本来这只是一个他们俩个做的一个实验,是为了写论文的,但是用的人越来越多,慢慢的有时候达到了一分钟1000次搜索,当然了,最多的还是来自己的学校。于是这两个家伙想开价100万美元,把这个技术卖掉,然后他们开始写论文。在Staford的好处是,有很多的老师同时是企业家和老师,他们就开始卖这个技术,但是找了好几家,包括Yahoo,都觉得这东西没前途。

最可能达成交易的是Excite这个公司,但是他们的出价只有75万美元,还有一大堆附加条件。这两个哥们觉得75万也行了,就决定成交,但是Excite这边又反悔了,他们觉得花75万美元,这个小组总共6个人,都是些没毕业的学生,拒绝的理由是这个团队没有“成熟的管理层”。

然后Page和Brin就开始放飞自我了,不管了,两个人想着还是把博士论文搞定再说。至于后来是如何重新开始建立公司的,这个留在下期再说。

刘延栋 wechat
欢迎扫一下关注我的公众号:软件那些事儿
欢迎收听我的电台,你的支持将鼓励我继续前进