找回密码
 立即注册

Sora“拯救”元宇宙,世界模型的潜力才刚释放

#媒体热点# 2024-7-26 00:33 180人围观 媒体热点

来源 | 数科星球
作者丨苑晶
编辑丨大兔
熟悉的配方、熟悉的操作。
Open深夜“放大招”,其世界模型Sora一经发布引起了诸多讨论。其中,在二级市场中,文生视频和元宇宙概念热度剧增,在经历长时间遇冷后,有可能成为2024年火爆题材之一。
应该说,Sora的最大贡献是作为革命性平台,极大降低了视频输出成本。这被一度看作是元宇宙发展的核心桎梏。
表面上,它的出现冲击了贴片广告、影视或严肃新闻的禁脔。深层次而言,它更是可以改变教育、文旅和会展等诸多行业的游戏规则。

01  元宇宙+世界模型=?
时至今日,元宇宙的概念已不新鲜。经过多年发育,其不仅在一级、还是二级市场均走过一轮又一轮浪潮。它从科幻小说和电影的概念,走入了人们视野多年。
对于不同人而言,它或许是一部头显设备、一部优秀的游戏作品、一个教育软件或是一套工业数字孪生系统。
当这个概念如日中天之时,人们对其遐想联翩。认为它是下一个流量入口、认为它是巨头不得不抢占的高地。而如今,在概念遇冷时刻,站在当下回望历史,会发现,它可能正在走出迷惘,距离其找到其应有的价值更近了一步。
其实,元宇宙一词诞生的伊始,便充斥着以扎克伯格等人的焦虑。那时,移动互联网几近终局,不同年龄层、不同画像、不同功能的移动互联网产品均已出世。所以,或许是为了挽救股价、抢占新的制高点,元宇宙一词被捧得很高。
它的火爆符合创投行业的一种规律,即“虽然不太明白,但干就完了”。在二级市场中,这种思维被称作“先相信、先下手、先跑路”。更何况有巨头背书,更何况那么多人趋之若鹜。
后知后觉,只配享用一地鸡毛。
但紧接着,元宇宙产品研发难、设备体积重量大、云传输速率低和内容配套缺乏问题等种种暴露,让即便是业内人士(如Oculus的顾问CTO约翰卡马克)都开始了诘难。
最有发言权的,可能非开发者莫属。
事实上,在元宇宙行业里,开发者的境遇并没有想象的那么好,他们除了要做iOS、安卓之类的适配工作外,还需要调整每款头显设备带来的算力、视场角、分辨率、刷新率、控制方式、输入输出方式等方面的更新。
而多出来的工作量,或许并没有带来相对应的回报。
在资本又向着新能源、生成式AI、智能制造、电动汽车等进军后,产业大变局显得“更香”,推行元宇宙的科技巨头遇到了更粗的大腿和更完美的故事。
所以这都导致了一个结果,也是科技界人士正在反思的:我们是否仍然需要沉浸式体验、3D的头显世界是否具备性价比、元宇宙究竟能为我们带来什么?
在Sora出现后,行业或许迎来了新的转机。

02  世界模型的场景:不止文旅、教育和会展
Sora未出现前,国内的元宇宙从业者便已经开始了本土化实践。可以看到的是,在文旅、教育、会展等方面,相关应用已经开始发力。
“我们应该如何让不同地域、不同国家的人参与同一场盛会?”这是一个来自数科星球(ID:digital-planet)社群的从业者的问题。我们觉得,答案可能是通过元宇宙。
在过去几年,进博会、工博会和服贸会等会展人头攒动。在真实物理世界里,其线下会展似乎已逐渐逼近极限承载能力。所以,虚拟化场景或将在提升效率方面显示出更多裨益。
只是,大多数会展类元宇宙产品还看起来比较初级,更多的产品看起来像是拥有虚拟场景的“腾讯会议”。直白点说,绝大部分只有社交关系,但缺乏丰富的内容。
或许,世界模型的出现将弥补上述缺憾。
另外,在教育领域,在北京课改的新背景下,思维训练、各科融合趋势开始显现。在一些补习老师对于北京市中小学期末考试试卷的调研后发现,试题正在向着跨学科、大阅读量、多情景的方向演化。
在北京的海淀区、西城区,上述趋势尤为明显。
补习老师们纷纷吐槽“补习已死”。这意味着,以往“做题家”模式将在新的考试模式下将难以生存。而另一方面,在网络的反馈中,众多家长更是难以应对当下的知识爆炸时代。
另外,在中小学中,由于试题不按套路出牌、跳过了由浅入深的思维训练却依旧保留了分数导向,让孩子的思维承受能力濒临极限,甚至一些孩子开始抑郁、走向崩溃。
所以,基于教育教学的元宇宙场景似乎更令人期待。借助虚实融合,学生们也许能够可通过元宇宙所提供的教学场景体验更加直观的知识输出。
教学场景的问题仍然是内容制作成本高。所以,这又是Sora的一大场景。
文旅行业的问题同样如此。
一直以来,不喜旅游的人总在抱怨:目的地旅游千篇一律、人山人海更是对体验产生了负向影响。吃的、喝的同质化现象严重,似乎只有历史人文和特殊的自然风光可持续吸引游客。
现在,人们在挑选旅游目的地的过程中似乎更痛苦了,因为大量的网红打卡地缺乏真切的旅游体验,名不副实和收智商税的行为比比皆是,导致游客们在小红书上的停留时间增加,用户在进行详尽的攻略后,线下旅游的神秘感又被提前透支。
所以,为了弥补这样的缺憾,文旅从业者们纷纷将目光瞄向了元宇宙。核心逻辑是,相比线下物理场景、商业业态的更新,线上的变化似乎可以更快、更直观。所以,目前,国内的大多数目的地景点、酒旅集团纷纷在开拓线上IP、数字动漫等方面热情高涨。
看起来,这仍然利好Sora。

03  2024主旋律:与Sora贴身肉搏
Sora世界模型的推出,让人们自然想到:国内有何企业可与之抗衡。
如果说,在过去的2023年,国内的大模型均围绕GPT-4“贴身肉搏”;那么可以预测,在2024年,文生视频行业会集中火力赶超Sora。
Sora的优势是显而易见的。业界专业人士预测,它会增加文生视频能力,提高生成视频片段的质量,加速可应用性。就好比过去一年中,GPT-4持续刺痛国内大模型的神经那样,事实上,Sora的出现对万兴科技这类公司来说也是机会大于挑战的——它会更快加速视频生成类工具的成熟应用。
技术上,OpenAI采用DiT等技术实现世界模型(暂时没有明确的数学定义),达到理解真实世界的运动和物理能力。它用于文生视频,可以生成超逼真的符合物理和运动学的复杂场景的视频,也就是说,可以理解和模拟真实世界。理解和模拟真实世界是AGI关键一步,能够加速通用人工智能的实现。
仅围绕春节场景,在过去无人机表演、《长安三万里》的虚实融合就给人们留下了深刻印象。在未使用大模型技术的情况下,在数字经济的高地四川,人们就利用AR、VR技术打造了沉浸式的三国元宇宙。
对于喜欢历史的人而言,这种体验是前所未有的。有了世界模型后,用户的体验似乎能再上一个、甚至几个台阶。
目前,Sora依然遵循OpenAI的Scaling Law,大力出奇迹,大量数据,大模型和大量算力。专业人士对数科星球(ID:digital-planet)表示,Sora底层采用了游戏、无人驾驶和机器人领域验证的世界模型,构建文生视频模型,达到模拟世界的能力,具体采用DiT(Diffusion Transformer),处理不同持续时间、分辨率和比例的视频/图像。
他们普遍认为,世界模拟器是AI生成视频的另一种方式,它的成功,会给视频生成赛道产生一波冲击,会有大量公司涌入该赛道,加速视频生成成熟。
新的体验或将围绕AGI展开。
与以往不同的是,AGI具备相当于人类智慧程度的AI,一个AGI可以执行任何人类可以完成的智力任务,可以处理任意数据。众所周知,继文本、图像之后,Sora 拓展到了视频领域,它是能够理解和模拟现实世界的模型,是AGI实现的重要里程碑。
仅以Sora公布的60秒视频中,它提供的体验便已叹为观止。在国内创作者如云的背景下,想必在2024年,会有更多意想不到发生。
不过,时下专业人士认为,从技术到用户体验Sora还有短板:

  • 即需要提高物理交互的准确性:尽管Sora能够模拟一些基本的物理交互,但它在处理更复杂的物理现象时可能会遇到困难;
  • 长期依赖关系的处理存在挑战,即保持时间上的一致性和逻辑性;
  • 还需要提升空间细节的精确性:因为现阶段的产品在处理空间细节方面可能不够精确,可能影响到视频内容的准确性和可信度。
总体而言,作为行业先驱,OpenAI通过Sora验证了世界模型可行性,验证了大模型做视频生成的可行性。在国内的相关产品中,已出现了万兴科技的天幕大模型等产品与之比较。
似乎,这又是一场追随与反超越剧情。但它又是十分令人期待的,因为相比较文字和图片而言,视频拥有更多的受众和可能性。