OpenAI向业界扔出重磅炸弹Sora,引发了科技圈异常激烈的观点交锋。 图灵奖得主、Facebook首席AI科学家杨立昆(Yann LeCun)公开表示Sora是生成像素,不能理解物理世界;360董事长周鸿祎和猎豹CEO傅盛也在近日隔空“打擂台”。 Sora出现后,周鸿祎提到的一个观点传播甚广,他认为,Sora出现意味着AGI(通用人工智能)的实现将从十年缩短到一两年。傅盛则在公开场合表示,Sora是一个产品级别的里程碑,但不是AI的技术革命,AGI不会因此在一年内就到来。两人就此在社交平台展开辩论。 OpenCSG创始人陈冉则认为,Sora是比ChatGPT更重要的里程碑,“在我看来ChatGPT是一个垫脚石,为Sora创新做了一个基础准备,而Sora我觉得是next generation(下一代)的一个innovation(创新)”。 关于Sora,OpenAI官方的技术文档并未给出更多信息,围绕其观点的交锋也还没有最终答案,但OpenAI开年投下的这枚重磅炸弹,可以预计将会是整个2024年讨论的焦点,如同ChatGPT之于2023年一样。 “这壶酒足够全体人类最聪明的大脑们回味一阵子了。”复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华认为,机器或许会颠覆几千年来科学家、哲学家解释世界的方式,类似Sora所带来的巨大冲击恐怕会接二连三地到来。 更重要的里程碑? Sora的出现既在肖仰华的意料之中,也在意料之外。 “意料之中在于GPT一定会向多模态发展,这是去年年初大家就形成的共识。意料之外在于,切实看到其效果,尤其是在物理世界的模拟方面的逼真效果,将会颠覆我们已经建立的太多既有认识。” 从理性角度而言,肖仰华对第一财经表示,OpenAI的进步速度没有超出他的预期,因为当ChatGPT出现时,有不少人判断这是人类社会的奇点时刻,一旦越过这个时刻未来就是指数发展,我们不过是在见证指数发展而已。但从感性上来看,“我们的感受器官从来只能接受温和的线性变化,Sora所带来的震撼仍然是一场巨大冲击。” 业界对于Sora的出现分为谨慎的冷静派和看好的乐观一派。早在sora发布当天,周鸿祎就在微博发布了一篇长文表达自己对Sora的看好,他认为,Sora展现的不仅仅是视频的制作能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破,“这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。” 傅盛则给这个热度泼了一盆冷水,在他看来,Sora其实是产品上重大的里程碑,但是技术上并不是比ChatGPT更大的一个突破,甚至和AGI关系没那么大,是大模型能力的一个延伸。 陈冉并不认为Sora能模拟物理世界,但他对第一财经表示,OpenAI将Transformer架构和Stable Diffusion的模型结合起来,是独创的全新的结构,且走通了这一路径,无疑是一个巨大的技术创新,或许是更为重要的一个里程碑。陈冉是作为技术侧人才投身于大模型创业的一员,其创立的OpenCSG聚焦于开源大模型生态建设,希望链接上下游让大模型、数据集、Agent AI(代码集)更加民主和公平。 “我们现在认可ChatGPT的文生文是一个里程碑性的创新,现在是文生视频的一个新的巨大创新,会让应用侧出现很多的变数,对未来的创业形态、投资形态来说是一个巨变,比文生文更有革命性的意义。”陈冉认为,Sora有技术上的创新,同时是一个不错的产品,但到现在为止还没有真正展现它的能量,其未来应用可能比ChatGPT更广。 作为投资人,联想创投董事总经理罗旭认为,和去年ChatGPT的推出带来的震撼相比,Sora对行业的感官冲击是差不多的,但从技术的难度性来说,这一次推出的Sora会比ChatGPT更高一些。 “主要原因是文字数据是可以结构化的,但视频的数据并非结构化,且体量较大,要用这样的数据去训练难度也相对较大。”罗旭认为,Sora解决了大量非计划数据的训练问题,将工程化的方法找到了,由此之前业内所有的尝试一下都被碾压了。 投资人对Sora的关注并不亚于创业者,在其出现后,所有投资会上的讨论都避不开Sora这一话题。 罗旭对第一财经表示,联想创投内部会上讨论的第一个点是,技术现在是什么样的状态,其次,这个技术下一步会带来什么? “我们觉得现在推出的技术应该是处于视频生成的早期阶段,但是早期阶段验证了一些事情,比如训练的方法可以解决视频时间轴的连贯性、一致性的问题,但多模态模型本身的天花板、能力边界是很高的,进一步往前发展还存在更多的可能性。”罗旭表示,内部讨论后对技术下了这样的一个判断,今年这一领域会有很多发展机会。 随之而来的问题是,如果文生视频发展得像语言模型那样好,它下一步会带来什么?罗旭认为,语言描述是对世界知识的压缩,语言模型无法将很多感知的信息、物理世界的信息压缩进去,但这些信息比语言更丰富,如果AI能训练视频,意味着模型会对物理世界的认知提高到另外一个层次,对于其逻辑判断及推理就非常重要。 “我觉得这是一个多模态的开始,往认知方向又往前迈了一步,但下面能产生多大价值,就看多模态模型对这个世界的认知能起到多大的作用,现在我们看到它更多是一个视频生成的工具。如果这个方向掌握得好,对世界的认知就更深刻了。”罗旭说。 论战背后 Sora推出后,科技圈争议颇多的一个点是,模型是否能够理解物理世界,在此基础上是不是能够推动AGI的快速到来? 在技术文档里,OpenAI给Sora的定位是作为世界模拟器(world simulators)的视频生成模型。OpenAI 表示,“Sora 是能够理解和模拟现实世界模型的基础,我们相信这种能力将成为实现 AGI 的重要里程碑。” 部分观点认为,基于其仿真的物理互动效果,Sora是基于对物理世界的理解去生成视频,但也有不少人认为,Sora并不理解物理规律,只是基于规模训练去扩展了图像。 连图灵奖得主杨立昆(Yann LeCun)也多次下场表态,2月17日,他就在社交平台X上表示:澄清一个“巨大”的误解,从提示中生成大部分看起来逼真的视频并不表明系统理解物理世界,生成与世界模型的因果预测有很大不同。他认为,通过生成像素来构建世界模型的方法,注定会失败。 2月26日,周鸿祎发了一段20分钟的视频来反驳“权威”,他表示,“现在对sora最看不上的人是杨立昆”,虽然其是这个领域的元老级人物,但也不见得权威所说的都是对的。 “Sora或许没有从现象的学习中总结出公式的规律,但应该已建立了对常识的认知,在这个基础上才能将画面还原出来。”周鸿祎认为,Sora的推出宣告了人工智能的一个里程碑式的重大时刻,不要光看到表象,一定要看到背后这人工智能的这种发展,如果机器既理解了语言,又学习了人类的知识,又把隐藏在人类和这个世界互动过程中很多的知识和物理定律,学习理解下来,那就离真正的AGI就不远了。 此前傅盛曾公开表态认为Sora不会推动AGI的快速到来,这与周鸿祎此前的观点背道而驰。在视频中,周鸿祎还提到了“小付(傅)同学”,重申了自己的观点。 随后,傅盛模仿周鸿祎身穿红衣,手持手机于镜前自拍,回复称“老周在偷换概念”,自己提的不是Sora对世界有没有理解力,而是Sora是不是缩短了AGI的时间,或者对AGI到来会不会有很大的帮助,Sora是不是提升了AI对世界的理解。” “老周同志一上来最开始就说Sora特别理解世界,AGI从10年变1年,我觉得这个观点肯定是错的。Sora本质上对连续的视频的理解肯定比以前要强了,但是没有什么底层的技术上的革命性的突破,也没有比大语言模型更理解世界。”傅盛表示,AI当然要具备一定的理解,但在能否复刻物理世界这一点上,他认为时间一长还是会产生偏差。 学术界也有不少行业人士下场表态。上海人工智能实验室领军科学家林达华近日在朋友圈发文表示,“这次还是明确认同 Yann Lecun(杨立昆)的观点。诚然,Sora 是一个视频生成方面的里程碑式突破。但是生成逼真的视频,跟掌握物理规律,以至 AGI,那是完全不一样的事情,之间有着巨大的鸿沟。” “我们测试 GPT-4 越深入,就越觉得人类离 AGI 还很遥远。”林达华表示。 浙江大学博士生导师赵俊博同样公开发文表示,Sora或许还不是世界模型,“我也反对很多自媒体把这个技术类比在 AGI 上面,我们距离AGI还差得远。”他表示,一个世界模型需要有能力去输出动作,输出对未来的预测,输出对当前所处状态的判断。Sora 大概率是学到了一些世界运转的模式,但是是否具备其他上述能力我们不知道。 陈冉研究了OpenAI的技术文档,他表示,同大语言模型通过上一个词(token)预测下一个词(token)同样,Sora实际上是通过像素去预测并生成下一个像素,不过在视频模型中,其基本单位从token变成了patch,即像素块。 对以往做视觉模型的公司来说,往往是基于Diffusion做图像和视频生成,但OpenAI的功劳在于,将大语言模型Transformer的架构与Diffusion做了融合,从预测下一个token变成了预测下一个patch,有了新的视频生成路径。 “对于我们这些搞技术的人员,我们觉得更震撼其实不是视频的产生,而是它将像素和字符做了一个对接,把传送锚里最关键的一个点用patch代替,这很创新,语言是字符,图像同样也可以用字符去表示规律,我觉得这是一个非常大的革命。”陈冉说。 陈冉认为,未来更大的一个价值在于,元宇宙有可能会加速完成,因为图像也是有规则的,“每一帧、每个图片,将它收集到一定程度,虚拟世界就产生了。从这个意义上来说,这也是Sora比ChatGPT更宏伟,更有里程碑价值的地方。” 正视差距 对国内的大模型公司来说,GPT-4还未迎头赶上,OpenAI已经又进步了。 “Sora的出现或许会让很多人清醒认识到差距。”肖仰华表示,一直以来差距都是存在的,要正视差距,要有危机感。但承认差距不等于要放弃,要迎头追赶缩小差距,不过我们也要充分意识到追赶的艰巨性。 从国内来看,赵俊博认为,在这个方向上我们和北美的差距又增加了。“且这次和 GPT不太一样的是,如果要追,基本上连个Anchor(锚)都没有。Meta是最有可能开源的玩家,但是V-JEPA 目前来说走的技术路线很不一样。” 陈冉在2022年4月就开始做大模型,“我是看到大模型和美国之间差距越来越大,一方面是投资环境变差,试错的成本越来越低,其次是算力被‘卡脖子’,大模型依赖于数据集、算力、代码和生态,其中算力是关键点,没办法在短时间内去解决,这决定了我们会越走越慢,相当于美国是在高速公路上行驶,我们走的乡间小道。” 不过,陈冉并不悲观,他认为,国内有应用层的优势,且大模型的发展会有一个缓冲期。 “去年是大模型的元年,三年左右的时间里中国可能是在蹒跚走路的阶段,和美国差距越拉越大,但是我觉得不会大于3-5年,最终资本是逐利的,如果这个市场可以去挣钱,资本会回流。”陈冉预测,在2027年、2028年后,和美国之间的差距会开始缩小。 “我觉得最终这个市场需要一些像阿里一样的公司在AI领域能够冒出来,一些敢作敢为的、有国际化视野的企业家去创造这个市场。”陈冉说。 对于国内的追赶,肖仰华认为,我们总体上盲目跟随的多,真正想明白为何跟随、如何跟随,怎样差异化竞争的少。未来我们可以在AGI的其他赛道上积极布局,形成优势,从而在总体战略上制衡对手。“从小的方面讲,AI的竞争关系国运,从大的方面看,Sora打开未来更大范围的想象空间,对整个人类发展而言,又是重大机遇,同时伴随着重大挑战。” 从投资人的视角来看,罗旭认为,OpenAI这类头部技术模型的公司,其能力提升现在还看起来还没有到天花板,还在不断迭代,且速度会比创业公司更快,这些公司不只拥有算力这类更丰富的资源,且有着外部并不知道的工程化训练的方法,这些方法使得训练成本在下降,同时效率在提高,而这些创业公司还在去填补,在工程方法上还在寻求经验,这样距离就会越来越远。 国内能否出现Sora这样的公司,在罗旭看来,现在还没有定论, Sora的技术方法大家并没有完全掌握,从投资角度来说其出现只能说让大家看到了未来前进的方向是什么。 从去年开始,罗旭就在关注视觉这一块的创业公司,也聊了不少,但Sora出现以后,对国内外同类视频生成创业公司影响都较大,因为采用的技术路线不太一样。Sora是否会影响投资人对AI项目的选择,对文生视频会更谨慎吗?罗旭对这个方向比较有信心,因为“它已经向我们展示了生成视频的可能性以及可能的一个正确的前进方向”。 “我们在去年就在关注多模态、生成视频这个方向,这次Sora把整个技术能力上限一下提高了很多倍,对技术方向未来落地的可能性我们有了更多的信心。”罗旭表示,未来会继续去寻找相应的创业者去做这个事,但想赶上Sora或许还是有点难度,在投资时需要控制预期,多对行业进行深度调研。 |