首页>研究洞察>《融合与传播》
Sora作为场景媒介:AI演进的强大升维与传播革命
时间:2024-03-29分享到:

文/喻国明 青年记者 2024(04)

 

        一、Sora:打造通用的物理世界模拟器

 

        2月15日,正当我们沉浸在春节喜庆氛围中时,OpenAI发布了Sora,这如同一颗极具震撼力的响雷,立刻引起了全球关注与热议。Sora,简单直观的理解就是文生视频的智能大模型。但值得注意的是,OpenAI官方将这个文生视频的大模型命名为“世界模拟器”。在其同步发表的Sora技术报告中,最有价值、最语焉不详、最容易产生不同理解的一句话是:“通过扩大视频生成模型的规模,我们有望构建出能够模拟物理世界的通用模拟器,这无疑是一条极具前景的发展道路。”显然,OpenAI意图强调的是,Sora并不是单纯的视频生成模型,也不只是视频行业颠覆者,而是“世界的模拟器”——它打开了一条通往模拟现实可感的物理世界的有效路径,自此,生成式人工智能可以拟合出无限丰富的符合真实物理定律的数字孪生世界,走进人类社会未来发展的场景。显然,Sora增加了AI作用的新的维度,开启了走向“世界模拟器”的史诗级的漫漫征途。而所谓“世界模拟器”,是远比通用人工智能(AGI)、具身智能、元宇宙更炸裂的智能未来。因此,有研究者甚至将Sora的问世类比为“开启了AI发展的牛顿时代”[1]。这确实是值得高度关注和深刻研究的一个命题。

 

        所谓“模拟器”,顾名思义就是以动态镜像的方式拟真化地生成和制造出一个虚拟世界或现实世界的模型或系统。OpenAI在其技术报告中只字未提与模型架构、数据规模、训练成本等相关的细节,但其标题赫然指出 Sora 这类视频生成模型是“世界模拟器”。OpenAI仅列举了作为物理世界的模拟器应具备的几个特点和例子——3D一致性、远程相关性、物体持久性、与世界互动等,却并未对“什么是世界模拟器”做任何定义和具体分析。但我们大体可以总结出它的逻辑是:Sora生成的视频能够在相当长的时空范围内,不违反物理世界的常见规律(比如重力、光电、碰撞等)。从逻辑上讲,只要算力足够,大模型规模可以进一步提升和延展,它就有可能模拟生成物理世界的一切视频。

 

        具体地讲,生成式AI是建立在数据、算力和算法基础上实现对于包括人在内的世界的认知和理解的,进而它是基于这种理解实现内容生成与制作的智能系统。作为这一智能系统发展演化的第一步,ChatGPT 是通过“语言符号”这一智能连接的载体,在大语言模型实现“智能涌现”基础上呈现出的认知力、理解力和创造力从价值逻辑上实现了合目的的编程、翻译、问题回答、信息编辑整理、数据分析、论文写作、故事编撰等智能文本。简而概之,它以符号生成的方式成为人类语义世界的模拟器。ChatGPT所呈现的认知能力,包括常识、百科知识以及推理逻辑,实际上已经远远超过了绝大部分人类个体。这说明它已经通过深度学习和预训练掌握了语义世界的构造规律,掌握了知识背后的思维逻辑。实质上,ChatGPT这类大语言模型就是在模拟一个充满了人类思维和认知映射的语义世界。[2]

 

        作为“物理世界的模拟器”,Sora能够在虚拟环境中重现物理现实,为用户提供一个逼真且不违反“物理规律”的数字世界。不同于UE这一类渲染引擎[3],Sora并没有显式地对物理规律背后的数学公式去“硬编码”,而是通过对互联网上的海量视频数据进行自监督学习,从而能够在给定的文字描述下生成不违反物理世界规律的长视频。相比于UE,Sora视频创作的想象力来自于它端到端的数据驱动,以及跟LLM(大语言模型)这类认知模型的无缝结合。

 

        ChatGPT是通过大语言模型完成了对于自然语言认知、理解和生成的巨大“智能涌现”,Sora则以物理世界的模拟器的方式完成了对于视觉感知能力的惊人“智能涌现”。两者的关系如同仿生学意义上的左脑和右脑:左半脑主要负责逻辑理解、记忆、时间、语言、分类、逻辑分析、写作、推理、嗅觉、触觉、味觉,所以左半脑可以称为意识脑、学术脑和语言脑;而右半脑主要负责空间形象记忆、直觉、情感、身体协调、视知觉、美术、音乐节奏、想象力、灵感、顿悟等,所以右半脑也叫本能脑、潜意识脑、创造脑、音乐脑、艺术脑。当生成式AI双管齐下地完成了对于人类大脑的功能仿真之际,真正意义上的AGI时代便拉开了其发展的时代大幕。

 

        二、Sora作为场景媒介:人工智能演进的重大技术升维

 

        人工智能自1956年达特茅斯会议正式起步,从当初致力解决形式化的符号问题“通用问题求解器”(General Problem Solver)到如今能够以视频的形式重建物理世界的Sora,短短68年间,人工智能研究经历了多次转向与创新,取得了许多实质性的突破。但其最为重要的发展演进,可以用人工智能能力所代表的不同维度为划分单位,分为三个阶段。

        (一)AI发展的“一维”阶段:以垂直化、专业化的方式实现对人类单一能力的超越

 

        人工智能的早期研究是沿着符号主义和联结主义的进路进行的探索,在统计学和概率论的启发下,人工智能领域的研究者开发了一系列能够使计算机从数据中进行学习的方法,进而开拓了机器学习的演进路径。其加速发展应归功于互联网时代极易获得的海量数据和并行计算机硬件的快速处理能力。这一阶段的人工智能在功能单一的、机械性的或者竞技性的领域取得了一系列令人瞩目的成果,并使人工智能广泛地走进公众的视野,比如IBM的深蓝、谷歌的自动翻译、苹果的Siri助理,以及2017年接连击败李世石和柯洁的AlphaGO。此阶段的人工智能局限在“一维”的界限内,就像一条“线”一样,是在一个狭窄、垂直的领域中表现出对人类智能的超越。因此,它只能用来执行一些简单任务。比如,AlphaGo可能是世界上最好的围棋玩家,但除此之外什么也做不了;谷歌翻译可以把英文的影评翻译成中文,但它无法告诉用户影评者是否喜欢这部电影,更不用说让它自己来观看和评论电影了[4]。

 

        (二)AI发展的“二维”阶段:完成了对于语义世界的智能化、通用化整合与生成

 

        以2022年ChatGPT的出现为标志,人工智能在拟真度上取得了重大突破,并完成了从单一向通用的巨大突破,使得人工智能的作用版图走向“二维”世界。换言之,既往“一维”的人工智能所代表的“线”已经逐渐在这一阶段汇聚成“面”,实现了对于整个语义世界的价值连接与整合——“二维”的人工智能最大的突破在于其通用性,ChatGPT所能胜任的工作不再是单一化的狭窄领域,而是实现了更高层次的功能维度集成,逐渐走向通用人工智能。除了基础的聊天、文本创作外,还能够对给定的有限信息指令展开想象式创作,如作画、翻译、编写代码等,其在中短期内功能性扩张的主要方向包括归纳性的文字类工作、代码开发相关工作、图像生成工作、智能客服类工作[5]。从媒介的角度看,它实现了世界万事万物的全要素、全领域、全环节的符号整合,即实现了在语义系统中的、抽象符号意义上的价值链接。但ChatGPT的能力还是局限在语言与符号之内:一方面,其对于世界的理解和给予理解的内容生成仅限于语言和符号的表达,即仅限于二维的符号世界,缺乏对真实的经验世界的理解与体验;另一方面,基于语法规则和概率组合的生成逻辑毕竟不能真正理解人类的语言,其可以被称为一个“先进的语言生成器”,但仍然无法提供人类实践所需要的场景智能。

 

        (三)AI发展的“三维”时空阶段:完成了对于物理世界的系统模拟和场景构造

 

        “世界模拟器”Sora成为AI发展进入“三维”阶段的标志[6]。与此前视频生成技术相比,Sora所生成的视频不仅更加清晰、灵活、多样,还具备了强大的场景构造的智能涌现能力。Sora在视频赛道重现了ChatGPT式的成功,得力于其把虚拟世界的模型(LLM)落地到具象化的物理世界的模型(视频生成)。具体地说,从时间上看,Sora不仅仅是单纯生成视频,还能将视频沿时间线向前或向后扩展,从而呈现出对象在时间上的变化;而从空间的角度看,Sora能创造出带有动态视角变化的视频,呈现出人物和场景元素在三维空间中的移动,某些情境下甚至能产生和真实的运镜相差无几的效果。在此基础上,Sora开始能够模拟出影响世界状态的交互行为,比如人吃汉堡时留下的咬痕、小狗在雪地嬉戏的雪花散落的样态……作为“视频领域的ChatGPT”,Sora的出现标志着通用人工智能向前迈出重要的一步——其对整个世界的模拟体现了对物理世界的规则模拟,并将在新的维度实现价值连接[7]。

 

        众所周知,理解力是衡量人工智能发展水平的最重要的尺度。面对ChatGPT的对答如流,我们可以判定,大语言模型已经在相当程度上学会甚至超越了人类的“思维”和“理解”;而Sora可以在长时空的范围里生成不违反物理规律和常识的视频,我们是否也可以这样认为:它已经在一定程度上理解了物理世界,具备了构造世界模型的能力。毕竟,能生成世界,就意味着能理解世界。

 

        与我们熟悉的“视频”不同,在Sora这个“世界模拟器”中,我们是可以选择从不同角度去表现这个世界的。不同于传统视频展现的只是一个既定的场景,Sora构筑的是整个场景的样态,它通过不同角度去表现这个场景,既可以是无人机的俯视视角,也可以是跟进追踪式的视角。即Sora作为场景媒介,构筑了一个与人类生活在认知感觉上完全一致的真实场景。并且这一场景由于加入了时间的因素,在不考虑算力限制的情况下,可以实现向前的推移和向后的延展,在时间上具有生长性。这些特点使得Sora实现了人工智能升维的突破。可以肯定的是,Sora 如果能够进一步实现对物理世界的完全模拟、能够跟 LLM代表的语义世界无缝融合,那它必然是通往通用人工智能路上的里程碑。

 

        三、Sora开启场景时代:传播领域的生态革命拉开大幕

 

        Sora和ChatGPT的不同在于,Sora以视觉模态为基础,能够囊括整个物理世界的全要素,能在算法算力的加持下对这些要素进行极大规模的整合、浓缩和提取,并能在个体意志的引领下形成更加丰富、立体和饱满的表达。其实质是内容生产从语言到非语言,从抽象到具象,从逻辑到感觉的革命性跃升。这种跃升系统地深掘并表达了人脑中无穷无尽的、模糊隐晦而无法凝炼为语言的思绪,并能与万千物理世界的要素进行细腻的整合、匹配、连接,形成更加广阔的可供性。而这种可供性的剧增会形成人与世界连接的全新方式,正如从功能手机到智能手机的“iPhone时刻”。因此,Sora是一个革命性的技术进步,在它全新的三维时空框架内所实现的对于世界的模拟,以及在此基础上实现的人类实践全要素全环节全过程的价值匹配和联结,必将给未来社会的发展和创新带来巨大而丰富的想象力。就传播领域而言,Sora的滥觞所带来的深刻影响至少可以表现为以下四个方面。

 

        (一)从“认知时代”到“体验时代”的转型

 

        不同于传统的“场景”概念——如打车、网购等理性逻辑构造下的分众场景,在Sora这样的智能媒介模拟物理世界的能力加持下,每个人都能在更加直观、更加细腻、更加立体和饱满的场景中,与故人对话,在未来遨游,让每一个奇思妙想成为现实。因此,Sora代表的智能媒介将开启不同以往的全新的“场景体验时代”。而基于这种场景体验,人的学习方式及认知模式都将发生深刻的变化。

 

        其中,最为重要的改变是,每个人都将越来越多地以第一人称进入各种场景之中,实现自己学习和探索的巨大自由度。它将深刻地改变通过“第三人称”“投喂”而进行的认知和学习方式。在传统的“第三人称”“投喂”方式下,教育者或宣传者主要借助信息与知识的不对称来实现其对于被教育者和被宣传者的教育或引导。而这种曾经非常主流且有效的引导方式在场景体验时代将变得无效甚至产生负效应。每一个人都在场景时代拥有自主地选择、操作(方向与进程)和体验的权利,并根据反馈完成自己的认知与学习。如何在场景构建的大框架下完成对于用户认知边界、认知重点的限定,如何通过场景构建的底层逻辑来影响用户的认知逻辑和操作选择,如何通过人与人的团队组合所形成的竞争或协同关系强化用户在认知和学习中的价值观念,都将成为从“认知时代”迈向“体验时代”的转型过程中社会影响力有效发生的范式转型的重要课题。

 

        (二)从“界面”治理到“过程”治理的转型

 

        传统的内容治理是基于界面的治理,即在最后所谓的“把关”环节实行内容的把控。但是,相对于大众传播时代传播内容的有限性,面对丰富而海量的UGC、PUGC特别是AIGC的内容生产,把关行为的成本代价越来越高,掌控尺度越来越大。事实上,随着泛众化传播与生产时代的到来,把关尺度应该越来越宽,把关环节应该越来越渗透到内容生产与传播的全过程中。内容的界面治理让位于全过程要素的协同治理已成为一种趋势。实施“用户治理”便是其中最为关键的一环。以谣言治理为例,仅仅靠少数机构与平台的有限作为是无济于事的,只有当每一个人都具有相当的媒介素养和辨识谣言的能力时,网络上的内容传播才能够真正达到宽松和安全的双重目标。Sora作为场景媒介的作用在于,通过相关场景的构建,让用户在一系列的场景体验和“游戏”当中,提升自己的媒介素养和认知能力,学会辨识和正确地加工认知。再比如,我们可以通过信息助推技术帮助内容传播中秩序与规则的建立。比如对生成式人工智能产出的内容成品打上隐性“水印”,通过水印可以查询信息,以便平台或监管方进行辨别和管理。再或是对于触达用户的诸如社交机器人及深度伪造等生产和传播的内容加以颜色或符号的提示,生成相应的预警等级,如蓝色代表无害、红色代表高度警惕等设置,使得用户能够了解到该产品是由生成式AI制成,并了解其中的风险程度。Sora这种场景前置、在体验中提升其媒介素养的方式无疑为“用户治理”提供了全新且有效的手段。

 

        (三)从“话语认同”向“场景认同”的转型

 

        Sora强大的场景构造能力将形成人们对话的基础,大大地减少“各说各话”的窘境。受限于先前的技术,个体往往使用抽象的语言建立会话主题。尽管这种抽象一定程度上能够突出重点,但其忽略掉的细节往往会引起不同受众的不同解读,正所谓“一千个读者就有一千个哈姆雷特”,受众从抽象到具象的演绎会受到各种因素的影响,从而带来认知的不确定性。在Sora所创造的新的场景体验时代,个体能够以相对具象的方式呈现话题,大大削减语义不明的灰色空间,使会话多方能够对话题形成共通的基础的认识,从而减少网络中各说各话的沟通困境。比如,构建场景可以为情感叙事提供更丰富的可供性,当不同立场的个体置身场景之中更容易发生情感共鸣;比如难民议题的叙述文本远不如使用户置身场景之中更具感染力和冲击力,更容易建立彼此相向而行的共识。

 

        (四)游戏从“污点媒介”向主流媒介的转型

 

        游戏,在传统文化中经常以消极的形象出现。“唐宋八大家”之首的韩愈在《进学解》中便明确地说:“业精于勤,荒于嬉。”当然,也有不少先贤和哲人对游戏的意义做出了较高的定义和评价,像早期的柏拉图还有后来的斯宾塞和席勒,都认为游戏是生物精力的盈余,超功利的游戏是人区别于其他动物的高级活动。席勒也曾直截了当地指出,只有当人充分是人的时候他才游戏;只有当人游戏的时候,他才完全是人。[8]由此可见,游戏是人与生俱来的基本诉求,也构成了人性中最具价值和最富生趣的部分。当人类社会的发展摆脱了物质短缺的梦魇后,“以人为本”便成为现在和未来发展的核心逻辑。于是,游戏便成为社会发展中释放人性、追求解放的最为重要的实践平台。Sora的强大场景构建能力,既可以模拟现实世界,也能够建造基于人类丰富想象力的虚拟场景世界,这便大大地降低了人类实践选择的成本代价,丰富了人类实践的可能选择。

 

        研究表明,数字文明时代充满了“游戏精神”,游戏作为媒介的价值凸显,并带来新的社会“再组织”方式。媒介隐喻观为理解媒介对社会结构的影响机制提供理论支点——媒介作为人的延伸和关系连接将分别形塑个人行动和群体交往。随着媒介对个人行动及群体交往维度的拓展,社会结构将从部落式向DAO(分布式自驱组织)式演进。基于此,数字媒介的功能和结构将日趋与游戏重视人性自由和建构开放式结构规则的特性类同,游戏将成为兼具人性化关系连接与智能化算法整合双重价值面向的DAO媒介,不仅连接理性与非理性要素,更通过规则算法进行高维聚拢与配置。在此逻辑下,游戏可以通过基于人性关系连接的同质性组织路径,和基于底层规则与算法技术的异质性组织路径,拓展个人行动自由和群体交往深度,使数字社会演进成依靠算法技术保障、以“游戏人”为基本单位的DAO社会,将真正实现人类分布式自组织的自运转、自组织和自演化。

 

        四、Sora到来后的思考

 

        1448年,古登堡印刷术发明之后,欧洲大量的书籍得以普及,学术思想交流加速,文学作品的范围扩大,文艺复兴开始加速,并逐渐催化出了科学革命。类似地,电报、广播、电视、互联网、移动互联网,大大加速了信息的对称,而人工智能则会以史无前例的速度促使人类的智力和知识平权。我们正处于碳硅文明融合的重要关口,我们的社会、我们的传播和我们的教育,该何去何从?我们面临着哈姆雷特之问:“生存还是毁灭,这是一个问题。”如同德雷福斯所言,“技术的进步表现出一种严重的危险。这种危险不在于特殊的技术进步或技术工具,而在于对我们自身的理解,在于我们从一种技术的生活方式中得到的启发”[9]。苹果公司的CEO库克在一次演讲中说道,“我担心的并不是人工智能能够像人一样思考,我担心的是人们像计算机一样思考”,然而,现在的人们思考未来,当然还存在另一种更加具备人类尊严的可能性,即“机器的遍在以及我们与机器的沟通并没有使我们成为机器,而是使得我们更加成为人”[10]。

 

参考文献

[1]尹烨.“如今,Sora已经开始尝试建构真实世界了……”[EB/OL].第一财经. (2024-02-19).https://baijiahao.baidu.com/s?id=1791311138921781422&wfr=spider&for=pc.

[2]李维,高佳,李志飞.“为什么说Sora是世界的模拟器?”[EB/OL].腾讯网.(2024-02-20). https://new.qq.com/rain/a/20240220A03ZFO00,

[3]渲染引擎(Unreal Engine,UE)也是一种物理世界的模拟器。它是在掌握物理世界各种现象背后的科学原理的基础上,把这些原理手工编码到计算机程序里,从而让计算机程序“渲染”出物理世界需要的各种人、物、场景、以及他们之间的互动。它内置了光照、碰撞、动画、刚体、材质、音频、光电等各种数学模型,开发者只需要提供人、物、场景、交互、剧情等配置,系统就能做出一个交互式的游戏,这种交互式的游戏可以看成一个交互式的动态视频。虽然UE 这类渲染引擎所创造的游戏世界已经能够在某种程度上模拟物理世界,但它是通过人工数学建模及渲染而成,而非通过模型从数据中自我学习。而且,它也没有和语言代表的认知模型连接起来,因此它对世界的模拟是极为有限的,非系统性的,甚至会是缺乏常识的。

[4]梅拉妮·米歇尔.AI 3.0[M].王飞跃,李玉珂,王晓,张慧,译.成都:四川科学技术出版社,2021:83.

[5]喻国明,苏健威.生成式人工智能浪潮下的传播革命与媒介生态——从ChatGPT到全面智能化时代的未来[J].新疆师范大学学报(哲学社会科学版), 2023(05):81-90.

[6]郭全中,张金熠.作为视频世界模拟器的Sora:通向AGI的重要里程碑[J/OL].新闻爱好者,1-18[2024-03-13].https://doi.org/10.16017/j.cnki.xwahz.20240306.001.

[7]喻国明,苏芳.作为真实世界模拟器的媒介与后真相时代的“拨乱反正”——以Sora为例解析数字文明时代的媒介新范式[J/OL].新疆师范大学学报(哲学社会科学版),1-6[2024-03-13].https://doi.org/10.14100/j.cnki.65-1039/g4.20240306.001.

[8]朱光潜.西方美学史:下卷[M].北京:人民文学出版社,1964:450.

[9]休伯特·德雷福斯,西恩·多兰斯·凯利.万物闪耀[M].唐建清,译.济南:山东文艺出版社,2014:207.

[10]邓建国.我们何以身临其境?——人机传播中社会在场感的建构与挑战[J].新闻与写作,2022(10):17-28.