快跑！Sora来啦！

来，看篇短文补补脑。

注：本页所有视频均为Sora生成。

前几天， OpenAI 发布了他们最新的文生视频工具 Sora ，这是继 ChatGPT 之后的又一个重磅炸弹，震惊了科技界，也让相关产业从业人士感到了深深的寒意。

内网上已经有很多人讨论过这个问题，诸如对影视行业的影响啦，我国的 AI 技术这次怎么没领先了啦，等等。他们原则上都没有说错，但是忽略了两个至关重要的问题， Sora 会带来一次足以导致人类文明全面衰退的重大危机，但同时也能带来一次促使人类文明升级的重大契机。我并不是无限拔高开发 Sora 的这个仅有十几个人的团队，事实上有大量人员和资本在做相似的开发，没有本质性的障碍，早早晚晚都会开发出来，只不过花落谁家而已。

正本清源，让我们看看 OpenAI 在自己的首页上如何描述 Sora ：

视频生成模型作为世界模拟器（机翻的，原汁原味）

我们探索在视频数据上进行大规模生成模型的训练。具体而言，我们联合训练了文本条件扩散模型，同时使用了持续时间、分辨率和宽高比不同的视频和图像。我们利用了一个在视频和图像潜在编码的时空补丁上操作的变压器架构。我们最大的模型， Sora ，能够生成一分钟高保真视频。我们的结果表明，扩展视频生成模型是建立物理世界通用模拟器的有前景的途径。

人家已经讲得很明白了，“视频生成模型”作为“世界模拟器”。但无知看客往往只注意到了前面的“视频生成模型”，并被无比精美的视频所俘获、所征服；极少有人注意到后面的“世界模拟器”，不知道这将释放出多么巨大的科研能量，更不知道这对人类的未来意味着什么。下面的说明则是标题的拓展，大部分内容都在讲视频生成模型的技术路线和最终效果，只有最后一句话在讲世界模拟器，但是更加具体了——建立物理世界通用模拟器的有前景的途径。

在我看来， Sora 类技术就是标准的双刃剑——既可以让人类变成超人，也可以让人类变成傻 X ！其实 ChatGPT 也有同样的效果，但是 Sora 更加鲜明、典型和极端。会推动文明进化的是，世界模拟器；而会导致文明退化的是，视频生成模型。

上一波大家还在炒作元宇宙概念的时候，我就说，如果虚拟世界主要用于娱乐功能的话，人类就完蛋了，一个高精度的世界模拟器的最大作用应该且仅应该是—— 取代工业实验室！如果一个虚拟世界中的物理规律与现实世界相差仿佛，那么我们的一切机电设备都可以在其中进行设计和模拟；如果物理化学、凝聚态物理学乃至于量子色动力学继续发展到一个比较精确的程度，那么化工、制药、电子、材料乃至于核工业全部都可以在其中进行模拟和修正。

千万不要小看这一功能，你得知道，在当下，为了上述领域的实验，人类得花费多大的资源，任何一次试错的成本都是极其高昂的，而在未来，这些成本和时间都可以节省下来。诚然，即便没有世界模拟器，研究人员也可以在计算机上进行模拟，但那对人员的专业水平和编程能力是极大的考验。但有了物理世界通用模拟器之后，一个丝毫不懂底层原理的小白也可以毫无障碍地参与到设计和测试工作中来，就好像你不懂计算机原理也可以用计算机一样。现在也有很多模拟软件，但都是分专业领域的，但未来只会有一个领域，那就是世界模拟器，或者说物理世界通用模拟器。

任务描述：纽约市像亚特兰蒂斯一样被淹没。鱼、鲸鱼、海龟和鲨鱼在纽约的街道上游来游去。

如果人类就躺平在现有的生存空间之上，上述好处还不是那么明显，但如果人类要拓展自身的生存领域的话，通用模拟器能够节省的科研资源将大到难以想象。假如我们需要一款在深海、在南极、在太空、在外星使用的装备，甚至是一整套在当地特殊环境使用的生产设备和配套生产工艺，我们就必然离不开通用模拟器。否则，实验的成本将高到任何国家都难以承受。模拟虽然不可能与真实世界绝对一致，但不管怎么说，都会大大降低对实地测试的需求，在大部分情况下，或许只需要进行一次样机测试，并且会一次性成功。而且，当有模拟测试的需求时，执行起来将十分便捷，也无需一大批专业人员为每个应用场景编制复杂的专业模拟软件，只需要更改诸如温度、压强、辐射、磁场、空气成分、原料成分等基本参数即可。外星球的条件千变万化，极低的温度和极大的温差、超低压和超高压、硫酸和氨的云雨、超高的风速和流速、与地球迥异的矿物成分、强磁场或强太阳风辐射，对设备的要求都是极其苛刻的。但在通用模拟器的帮助下，我们可以在第一次载人登录某个星球之前，就设计好适应当地极端环境和物产条件的全套维生、车辆、飞行、航行、能源、采掘、冶金、化工（很多星球可能没条件搞化工）设备，而这在目前的条件下，是完全不可能完成的任务。

物理世界通用模拟器，是人类走向未来的基本工具， Sora 的开发小组能够明确提到这一点，说明他们是一支有方向、有野心的队伍。他们绝不仅仅是在做大数据和机器学习，要论这两方面的话，中国的水平真的还是挺高的，但如果要论对物理世界的模拟，我们还有如此巨大的信心吗？所以，他们开发出 Sora 而我们目前做不出来，或许并非偶然，他们的目标，可能比绝大多数竞争团队的目标要高得多。他们真正触动我的，并不是精美的生物或建筑的画面及其三维构造（这方面我相信别的团队很快也能做到），而是物理意义上的和谐，是对水、对风、对晃动、对碰撞、对挤压、对扩散的毫无违和感的重塑。或许，这就是通向未来之路。

任务描述：逼真的特写视频，展示两艘海盗船在一杯咖啡内航行时互相争斗的情况。

但未来不仅有光明的一面，也有黑暗的一面，那就是全人类目前对视频的疯狂痴迷，已经极大降低了并将进一步摧毁人类这个物种的智商。坦白讲，作为一名作家，我长期鄙视那些钟爱于视频、音频却拒绝文字信息的人，认为这些人明显智商偏低，但以前我不好意思讲，因为会显得我充满了傲慢与偏见。感谢 Sora 的横空出世，使得我今天有充分而强硬的理由来阐述这个我一贯的观点：

视频缓慢且固定的信息流速、冗余的信息量、潜在的暗示风险，使其成为一种完美适合低智商生物需求的娱乐工具。而图文材料，信息高度浓缩、便于搜索定位、逻辑结构清晰，才是高智商人群首选的信息传递手段。这就像黑客永远是在 Linux 上工作而不会选择 Windows ，专业赛车手永远是开手动挡而不会选择自动挡，专业摄影师永远是使用专业设备而不会选择傻瓜相机。

很多人喜欢看视频，所以很多人会不服，甚至觉得收到了侮辱。别不服，这是从现实案例和理论推演都能得到的真理。

同样是追求故事性的娱乐，喜欢看电视剧的孩子就是没有喜欢看小说的孩子成绩好，电视剧用十倍的时间、找来气质乱七八糟的演员、拍了一个相比原著大幅度删减的剧本，唯一的作用就是浪费时间。

任何政界、商界、学界的高端人士，首先必须具备优良的阅读能力，因为重要信息全部是以图文形式存在的报告，而那些看一份报告都要打瞌睡以至于完全不得要领的低端人口，就只能成天刷视频找乐子了。

最后一个例子，我给我家的狗放其它狗的视频看，它也看得津津有味乐此不疲。请问，沉迷于小视频的你，和我家的狗狗有什么区别？

上述是真实案例，现在我们来看理论推演。 Sora 可以“文生视频”，也就是说，给他一小段文字，他可以生成长达一分钟的精美视频，视频紧扣主题，但细节都是通过大数据进行填充。看完这段剧本，正常人只需要一秒钟（以我的阅读能力，可能只需要 0.1 秒），看完这段视频，任何人都必然需要一分钟。这意味着什么？这意味着看文字的人接受和处理信息的速度，是看视频的人的 60 倍！这基本也可以意味着，前者的智商是后者的 60 倍！

当然，两个人的智商差距很难简单量化，但如果一个人长期阅读文字而另一个长期痴迷视频的话，最后的效果也差不多就是了。视频爱好者会说了，视频的信息更丰富啊，天更蓝草更绿妞更靓仔更帅，文字怎么看得出来这些美好的事物呀？抱歉，这些都是垃圾信息，与主题完全无关，而且将来还将是基于大数据的重复性垃圾信息，你让垃圾填满你的脑袋，还能聪明得起来吗？

视频，无论再精美，不可能比文字更美，因为文字背后有无穷的意境，正如唐诗宋词，正如汉姆雷特，千万年都不会褪色。有的人聪明，他能体会到这种意境，他就觉得文字很美；有的人驽钝，想象力已经被视频摧毁，他就觉得文字很枯燥。文字怎么会不美呢？你觉得怎样最美就可以怎样脑补，无论是何等绝色或如何浩瀚，只有拍不出来的，没有想不出来的，对于还存在想象力的生物来讲，这种自编自导的白日梦简直是最美不过的事物了好不好？

而且垃圾信息还不是最可怕的，最可怕的是植入的诱导性信息，或者更直白地说——洗脑信息。虽然文字也可以洗脑，但终归有迹可循，视频洗脑的手段和作用可比文字强大太多，甚至最智慧的人都发现和抵御不了这种洗脑。一个真实案例，在普通视频中以较低的密度插入几帧恐怖血腥图像，观看者都会因此出现不适的感觉，但是因为这种图像一闪即逝，甚至没有人知道这个视频夹带了私货，但他们的情绪却被有效地操控了。你要准备打开脑壳让他们洗吗？

人之有别于禽兽，在于理性，不在于情绪，而文字就是最好的载体。针对性、系统性地摄入信息，有逻辑、有条理地表达信息，这是人；被动性、碎片性地被灌输信息，情绪化、模式化地表达信息，这是类人猿。你是哪一种？遗憾的是，随着廉价电子产品的普及和网络技术的发展，人越来越少，类人猿却越来越多。

我并非说视频完全无用，对于一些处于日常生活之外的特殊信息，文字描述是无力的，视频仍然有其不可替代的作用，比如《动物世界》；对于一些科学性的动态、立体过程，视频也有助于初学者建立三维或四维的概念；对于一些需要探寻真相的事件，视频也是最好的证据。但这些都是特例，你成天刷的人造美女和摆拍段子绝对不在特例之列。

Sora 之类工具的发展使得靠视频辨别真伪成为不可能的任务。上个月看到一段对比视频，一个女孩子跳了一段正常的舞蹈，然而软件将其改造成了果舞，要命的是细节还很丰富逼真，我当时内心就哔了狗。一方面，难道人的生理欲望也要由电脑来操弄了吗？另一方面，这样一个伪造但逼真的视频如果广为传播，会给这个女孩子造成多大的伤害？最根本的忧虑是，几十年后，普通人乃至于司法界还能怎样辨别一件事情的真与假？只能大数据 + 人造视频给你看什么就是什么了吗？

宏观层面，我希望肉食者能够意识到类 Sora 技术强大的双刃剑属性，做出通用模拟世界，那就是国之重器，做出精美文生视频，那就是全民精神鸦片！

微观层面，我希望那些还没有彻底堕落的人提高警惕，如果不想被降智的话，尽量少看视频（自然、科技和某一类除外），特别是少看那些人为摆拍或电脑制作的视频。

视频能表达的东西，图文都能表达，只是阅读需要一些脑力；但图文能表达的东西，视频往往不能表达，就如本文，你拍个视频来试试？

欢迎加会员与作者进行深度交流：会费，800元，含老号文章合订本、私密猛文禁文合订本、会员群、3个提问机会和半小时电话咨询时间。