No.421 我也谈谈OpenAI最新的文生视频Sora会对哪些行业产生巨大的冲击

相信大家已经都知道文生视频Sora了，OpenAI最近放出来的大招。对我们来说是大招，可能对OpenAI来说，这算什么，只是个副产品罢了。网上的视频，基本上就是那几个，一个是一个女的，走在下雨的纽约街头。还有一个是一个四轴飞行器，飞过了一些古代的建筑。还有狗在雪地里玩雪，还有一个是一对情侣走路，还有一个是两艘船，在咖啡杯的风暴里航行。

这次OpenAI放出的文生视频，每次能生成60秒。已经让前段时间生成4秒，8秒的那些叫什么Pika的有点没意思了。我相信大家肯定都知道了，毕竟现在媒体很发达，无论出现什么有点突破性的东西，中国的网络上，第一件事情肯定是：认亲。这个Pika的背后创始人竟然是一个美女华人，哇，咱们华人实在是太厉害了。以前也不例外，这次也不例外，上次讲OpenAI的时候，挖出来了几个华人，这次我看，又开始讲Sora的背后，又有华人的影子。

好像别人有点华人的血统，自己也突然变的高贵了一样。阿Q跟赵太爷一样姓赵，内心里是很开心的。结果被赵太爷狂扇耳光，你也配姓赵？

文生视频一出来，大家有没有觉得，以前那些文生图，大语言模型，突然失去了吸引力。在跟OpenAI发布Sora的同一天，Google开源了它们的一个轻量级产品——Gemma，据说跟Meta的Llama 2模型有的一比。很可惜，大家已经对此不关心了，随便你怎么开源，反正你开源就开源，媒体上的报道几乎全给了OpenAI的Sora。这个Gemma跟Google自己家的Gemini双子星不同，开源的这个肯定不如Gemini强。即使是Gemini，大家都不怎么用，更不要说个阉割版的Gemma了。

现在大家主要的关注点就是OpenAI什么时候开源Sora，只要它一开源，这边马上跟进创新。就跟李开复老师创办的零一万物一样，Facebook一开源Llama模型，这边马上跟进，结果有国外的研究人员发现，原来只是修改了一下变量名，就算是创新了啊。外国人见识就是不行，你都开源了，我这研究一下怎么了？我看到他们的总监说，“这个命名问题是工作疏忽。在大量的训练实验中，团队对代码进行了重命名以满足实验要求，但是在发布版本之前没有将它们切换回来。对此很抱歉。”我觉得已经够诚恳了，中国的有些网友，真是逗，难道你非要让别人承认自己抄袭么？差不多得了。即使真是原创，现在OpenAI的Sora一出来，谁还在意那种落后的技术——我看新闻上说，连Facebook都不再投入到Llama，因为已经落后了。

我还看了不少新闻来预测中国什么时候出Sora，还有人说已经出了。我觉得是这样，现在OpenAI这种直接炸1分钟的视频出来，除了OpenAI以及嘴硬的一些人，都服气了。这跟Tesla差不多，Tesla一开源，电动汽车分分钟吊打Tesla，但是马斯克没有开源Space X，所以星链也好，星舰也好，还没法吊打，我觉得最主要原因还是怪马斯克没有开源。所以，中国什么时候出Sora，很大程度上要看OpenAI什么时候开源。看起来，OpenAI现在越来越像CloseAI了，人家根本就不开源了。现在比较开源的AI公司是Facebook，像马斯克说1年前，Tesla公司就已经能做出类似Sora的产品了，我觉得，这个可能性不大，吹牛的可能性更大一些。以马斯克这种脾气，如果真有的话，早就拿出来了，根本不可能藏着掖着的。

我们还是来畅想一下Sora，或者Sora的未来会怎么样吧。不管OpenAI的大棋是什么，反正我也不懂，人家也不告诉咱们。但是我觉得，OpenAI或者某个公司，将来可能有模拟世界的能力。以前我们玩游戏，用游戏引擎来模拟世界，现在的游戏也是如此。但是在未来，AI将具有人类的能力，并且比人类做的更好。

人类理解世界，是简化过的。比如，你脑子里有苹果的样子，但是给你一只铅笔，你画出来的苹果可能就是一个圆圈。但是AI不这样，AI理解的世界，是不需要简化的。他理解的苹果，可能有各种各样的苹果，它能精确的描绘出蛇果和富士苹果的区别，并且给你画出一个精确到不能再精确的图片出来。但是人类不可以，人类只能在脑子里知道，无论是用语言还是用绘画，99.99%的人都无法描述出蛇果跟红富士苹果之间有什么区别。

AI就不同了，他只要能精确的学习，就可以对这个世界建立起人类无法比拟的精确模型。将来，游戏肯定不再需要用游戏引擎了，而是直接用AI随时生成，我们再也不会看到有个人的脚在墙里，或者什么奇奇怪怪的贴图错误。我相信打游戏的各位肯定见过各种贴图的bug，我是FIFA玩家，有时候，两个队员碰在一起，足球的运行轨迹非常的诡异。网上有各种类似的贴图论坛，有兴趣的可以去找找看。在未来，只要AI对世界足够理解，那么他建立起来的世界，将是真实的。

只要AI拥有了人类的想像力，并且具备高清生成超真实的图像的能力，这个一般的AI都具有。比如，Diffusion和Transformer一结合，现在那家Stable Diffusion公司，已经把这两者结合起来了，但是还不能生成图像，生成的文字已经很好了。以前被人所诟病的不能生成手啊，不能生成文字，写的文字像鬼画符一样，都已经被一个一个解决了。现在这家公司生成了一张变色龙的图片，超现实主义，反正我是分不清楚到底是照相机拍的，还是电脑生成的。我相信大部分人也分不清楚。

以后会对哪些行业产生影响呢？我觉得，对任何行业都会产生巨大的影响。比如现在比较火的短视频领域，会不会将来不再使用真人来表演才艺了呢？比如你想看短视频，一种是有公司提供脚本，直接给你生成你喜欢的某种类型的短视频。另一种是，你自己生成脚本，直接给你生成你想看的视频。再进一步，将来会不会所有的人都有机会成为导演呢？我觉得是有可能的。如果放在30年前，我天天听收音机的时候，有人告诉我说，我有机会录一些音频让很多人听到。我肯定是不相信的，因为，我当时能想到的可以给别人听音频的机会只有两个，一个是录磁带，另一个是去地方电台主持一个节目。但是这两个，对我来说，都遥不可及。因为我无法相信，将来会有网络这个东西，会人人有手机这东西。有没有可能，10年之后，算力已经可以满足普通人做电影的需求了呢？

比如，你有一台设备，可能是手机可能是什么形态的东西，你跟他对话，他就自动帮你完成一个视频。当然不是现在的1分钟，而是可以长达2个小时，或者不限制长度。你不要说我异想天开，我给大家介绍一下人类历史上第一部电影：

人类历史上第一部电影是《朗德海花园场景》（Roundhay Garden Scene），拍摄于1888年10月14日，由法国人路易斯·勒·普林斯（Louis Le Prince）拍摄。该片是一部黑白无声纪录片，片长仅2.11秒，记录了普林斯在英国利兹市朗德海花园拍摄的家人和朋友的日常生活场景。大家可以在YouTube上搜一下，就2秒钟，四个人在跳舞。《朗德海花园场景》的拍摄使用了普林斯发明的单镜头摄影机，以每秒12帧的速度拍摄。该片在当时引起了轰动，被认为是电影的雏形。

1895年12月28日，法国卢米埃尔兄弟在巴黎的咖啡馆地下室首次公映了《火车进站》等多部电影，这标志着电影作为一种新的艺术形式的诞生。那这部人类历史上第一部公映的电影长度是多少呢？还没有OpenAI生成的视频长，总共45秒，一个固定镜头，拍了一段火车进站，然后乘客上车下车的视频。非常建议大家找来看看，所以，我觉得未来是什么样子，也许真的已经到来了，只是我们还没有发觉。

从严格意义上来说，《朗德海花园场景》是人类历史上第一部拍摄的电影，而《火车进站》是人类历史上第一部公映的电影。

在未来，仅就影视领域，也许不需要演员，不需要器材，唯一需要的就是一台电脑、或者手机，或者未来某个我不知道名字的什么设备，或者脑子上插一根线，就跟马斯克的脑机公司一样。你就可以模拟整个世界，把你的想法，完整的呈现成视频的样子。你本人就是导演。

而且未来也不一定是OpenAI或者Nvidia摘桃子，像爱迪生造了电影拍摄机和电影放映机，但是，最终在电影行业赚钱最多的，也许不是爱迪生吧，虽然我也不知道是谁。也许是贾玲、张艺谋什么的。

我只是举了一些我能想到的地方，我相信，这只是个开始，类似于《朗德海花园场景》的那个2秒的视频。以后这个行业肯定会发展成一个超级庞大的产业，至于有多庞大，我没法猜了。电子游戏行业应该会被洗牌，短视频直播行业，甚至都有被一锅端的风险，电影行业，受到的冲击也应该超级大，以后个人可以当导演了，你能不能在AI的协助下，生成让世人惊叹的视频，就看你有没有创意了。

我有个朋友问我，有没有那种视频？我说不知道，反正我是正经人士，不看那种视频。他说，为什么正经人士就不看足球视频呢？我才恍然大悟。其实，我觉得体育视频，还是真人的比较真实。比如踢世界杯，总不能用AI来生成吧，即使AI可以生成更精彩的比赛，我还是喜欢看真人的。

共享此文章：

相关