首页>研究洞察>《融合与传播》
谷登堡时刻:Sora 背后信息传播的范式转变与变革逻辑
时间:2024-03-29分享到:

文/方兴东 钟祥铭 现代出版 2024(3)

 

摘要:Sora展示了文本生成视频的“世界模拟器”的全新可能性,标志着媒介生产自动化与媒体形态一体化的临界点,开启了人类传播史上又一“谷登堡时刻”。我们需要超越技术、产品、应用和资本等层面,从人类传播变革的角度,为理解Sora提供一个更加开阔而深入的视角。现代印刷术开启的“谷登堡时刻1.0”通过工业化信息生产和传播方式实现了信息传播持续线性增长的潜能,跨越长达数百年的大众传播时代,塑造并定义了现代社会。而AI技术开启的“谷登堡时刻2.0”通过数据和算法实现了信息传播的指数化增长,代表了人类传播的又一次根本性变革,开启了智能传播新时代。这一轮变革颠覆并重构了人在信息传播中固有的主体地位,AI生成内容将占据绝对主导,全新的人机融合的合成社会即将到来。如何驾驭技术变革带来的前所未有的高度不确定性和模糊性,成为最大挑战。我们亟须进一步把握当前这场智能传播浪潮的规律与本质,以全新的问题域去审视和反思技术、传播与社会的互动。

 

 

 

 

引言:Sora冲击波:人类传播的又一次根本性变革

 

        Sora的突现令世人瞩目,收获诸多赞誉。一时间所有人都想知道,该模型到底是如何运作的,它是根据什么数据进行训练的,为什么现在突然发布它,它的真正用途是什么,以及它未来的发展对行业、全球劳动力、整个社会和环境的影响如何,等等。Sora展现了文本、图片和视频等各类媒体之间无缝的自动化生产与跨越的全新可能性,与一年前的ChatGPT一样,掀起全球舆论的又一场冲击波。

 

        但是迄今为止,对Sora的认识主要停留在新闻效应层面,即从技术、产品、应用和资本等层面所作的解析和主观研判。也就是说,对以ChatGPT和Sora等轰动性应用为代表的AIGC浪潮,各界的认识主要还停留在感性认识层面,部分上升到知性层面,还缺乏系统性的理性认识。人类传播变革为我们理解Sora提供了一个更加开阔的视角。在诸多命名和论断中,“谷登堡时刻2.0”可能是最恰当也是最贴切的命名。

 

        人类正处于一个“加速、扩增和民主化”的时代。从印刷术的发明到科学革命、工业革命和核能革命,再到个人计算机和互联网,托马斯·L.弗里德曼(Thomas L.Friedman)将当前的生成式AI时刻称作人类的“新普罗米修斯时刻”。他认为,相较于以往的变革,当前的变革并非由单个的发明如印刷机或蒸汽机所推动,而是由一系列相互关联和增强的技术进步组成的超级循环所驱动。这个技术超级循环包括了从感知世界、将物理信息数字化、处理数据、机器学习、分享信息到采取行动的全过程,人工智能在这一循环中起到了重要作用。同时,我们不该忽视传播在这个技术超级循环过程中所扮演的核心角色,它是连接各个技术环节的关键纽带。从感知世界到采取行动的过程中,信息的生产和分发是至关重要的。人工智能不仅进一步加速了这个过程,还推动着社会信息传播范式的转变。

 

        在这个意义上,我们可以说Sora冲击波的本质是人类传播继谷登堡现代印刷术之后的又一次根本性变革。显然,ChatGPT和Sora仅仅是这一轮技术浪潮的开端而已,更多突破性的技术、产品与应用还将层出不穷。但是,这一切都离不开“谷登堡时刻”的基本逻辑和框架。那就是,15世纪中叶现代印刷术的诞生,使图书出版从手工作坊走向工业化生产。而今,人类信息生产和传播超越人的环节进入一个数据和技术驱动、信息量可以实现指数级持续增长的全新时代。今天的人类社会,显然还没有为迎接这一新时代做好基本的准备。也因此, ChatGPT和Sora会带来如此巨大的全球震动。

 

        一、观察Sora的三个视角及“三个时刻”

 

        对于现代印刷术的影响,启蒙运动者格奥尔格·克里斯托弗·利希滕贝格(Georg Christoph Lichtenberg)说:“比起弹丸中的铅,排字盒中的铅更多地改变了世界。”虽然围绕Sora的评价众说纷纭,但是,结合年鉴学派费尔南·布罗代尔(Fernand Braudel)的时段理论,基本上可以分成三个视角:技术和产品层面的短时段视角,产业格局和行业变革的中时段视角,以及社会传播变革与人类文明进程的长时段视角。三个视角交织综合在一起,造成人们对Sora认知和评价的多样性。

 

        我们围绕三个视角,概括Sora引发的变革,可以发现几个著名的“时刻”。一个是“iPhone时刻”。2023年3月23日GTC大会上英伟达CEO黄仁勋将ChatGPT的出现比喻为“iPhone时刻”,其特指一个革命性的转变时刻——乔布斯在2007年发布的第一代iPhone,标志着手机行业迎来了重大变局。从技术、产品和应用视角,以开启移动时代的“iPhone时刻”来比喻,很生动直观。另一个是 “卫星时刻”,也被称为“Sputnik时刻”。苏联在1957年发射人类首颗人造卫星Sputnik 1,苏联这一划时代成就当即在西方世界引发了一场“卫星地震”,尤其是在美国人当中唤起了一种强烈而复杂的感受。因此,以“Sputnik时刻”来比喻国家创新和科技发展面临的挑战,形象贴切。

 

        克劳斯-吕迪格·马伊(Klaus-R diger Mai)将谷登堡称为“500年前塑造今日世界的人”。“或许可以说,谷登堡的印刷机是从中世纪晚期进入近代的社会范式彻底转变的标志,因为它通过改变传播而深刻地影响了人们的生活,从而改变了社会。”更重要的转折是,“个体——一个此前无人了解的思想史单位——从此踏上了世界的舞台,之前还依赖于上帝的主体迅速成为行为者和决策者。在传播领域,个体成为作者,个人获得的著作权保障了其作为作者的身份。人一跃成为创造者,而且也自知这一身份。”因此,如果要更宏观、深入、系统地洞察Sora冲击波的变革与影响,我们认为将其称为“谷登堡时刻”,更契合本质,也更富有学理。传播是人类和社会存在的基本方式。一部人类传播史,就是一部人类文明史。回顾人类信息传播变革的历程,我们会发现,无论是互联网还是ChatGPT,抑或是Sora,都是传播变革宏大进程中的一朵浪花。它们并非突如其来的创新,而是历史演进逻辑中的一个关键节点。从传播历史的维度审视Sora的意义,可以发现更深远的进程和逻辑。

 

        如果说15世纪中叶谷登堡推动印刷术普及引发的变革可以称为谷登堡时刻1.0,那么,今天ChatGPT和Sora引发的革命可以称为谷登堡时刻2.0。谷登堡时刻1.0开启大众传播时代,确立了人的主体性。而谷登堡时刻2.0正式开启智能传播时代,将颠覆并重构人的固有主体地位。AI生成内容将占据绝对主导,人机融合的全新的合成社会(Synthetic Society)将到来。生成式AI以及深度伪造、类人机器人、增强现实和虚拟现实等技术建构的合成社会,将从人类生存方式上模糊真实和虚拟的界限。

 

        这几个“时刻”可以大致对应于布罗代尔的短时段、中时段和长时段的划分。当然,它们之间的界限并不是泾渭分明的,而是有着相当程度的重合。不同的视角为我们理解Sora呈现了不同的逻辑,具有不同的深度和广度。

 

 

        从人类传播历史进程看,这一轮以ChatGPT和Sora等生成式AI为代表的智能传播的新突破,很可能开启第二次谷登堡时刻。正如基辛格等人所言,“生成式AI提出了自启蒙运动以来从未经历过的哲学和实践挑战。一项新技术(生成式 AI)正试图改变人类认知过程,这是自印刷术发明以来从未经历过的震动……随着它的能力变得更广泛,它们将重新定义人类知识,加速我们现实构造的变化,并重组政治和社会”。尽管生成式 AI技术的研究仍处于起步阶段,但随着技术的迭代和各种AI 应用和产品的发展,这项颠覆性技术或成为撬动第四次工业革命的杠杆,引发包括传播机制变革、生产方式变革、科研范式变革、教育形式变革和生活方式变革等在内的人类社会更深层次的变革,从而彻底改变人类的生活、学习和工作方式,甚至人类的思维。其最大的变革就是实现了以数据和AI技术驱动的信息传播的指数级增长。

 

        相较于智能传播,20世纪80—90年代的网络传播和21世纪头10年的社交传播,处于两次谷登堡时刻的过渡阶段。互联网革命的短短30年间,人类信息传播从大众传播、网络传播、社交传播转变为智能传播。全局性的革命似乎才真正启航,而过去30年更像是一场“超级热身赛”。当然,目前这一变革浪潮的序幕才刚刚拉开,其未来演进的图景和产生的影响,依然充满更多的未知和风险。

 

        二、谷登堡时刻的共同特性:高度的不确定性和模糊性

 

        迄今为止,人们对Sora影响的预测可谓悲喜交加。OpenAI声称,Sora将成为实现通用人工智能(AGI)的重要里程碑,是朝着AGI迈出的关键一步。特别是随着Sora技术的发展和普及,AI在创造性任务中扮演的角色将持续拓展。目前透露出的状况正预示着各行各业都将经历一次创新和变革的浪潮。Sora不仅仅是一个视频生成模型,作为一个能够模拟世界的“数据驱动的物理引擎”,它能够从大量真实世界的视频中理解物理定律和现象。

 

        人们对Sora的主要担忧是其社会和道德影响。Sora的出现可能会进一步模糊真实与虚构之间的界限,涉及大量的深度伪造和虚假信息,从而加剧 “后真相”状况,我们无意中建立了一个“宣传引擎”(propaganda engines)的世界,并越来越接近难以区分真假的时代。作为一个先进的AI视频生成模型,Sora能够提供更直观的3D建模和动画工具,促进教育和培训,加快电影和游戏制作流程,推动虚拟现实和扩展现实内容的创新。但它也可能导致影视、游戏、广告和短视频等相关行业的运行模式出现变革,而大量失业则将构成重大社会风险;Sora改善和简化视频叙事的同时,也可能加剧互联网虚假信息传播,助长政治传播和社会偏见等风险;它还可能被用来影响选举,危及公共卫生措施,甚至可能因潜在的虚假证据而给司法系统带来负担。史蒂文·利维(Steven Levy)称Sora可能成为“虚假信息的大灾难”)(misinformation train wreck)。加州大学伯克利分校的哈尼·法里德(Hany Farid)认为,Sora技术如果与AI 驱动的语音克隆(voice cloning)相结合,可能为深度伪造开辟出一个全新前沿。因此,如何确保Sora这样的先进技术不会成为虚假信息的传播工具成为一项巨大挑战;如何防范其被用于制造虚假信息、恶意误导公众将成为一个亟待解决的社会议题;如何界定机器生成视频的版权归属、防止滥用侵权行为成为法律法规和伦理规范需要面对的重要问题;监管层和技术开发者共同面临着来自隐私安全问题的严峻考验。

 

        从短期来看,Sora可以被视为一种工具,在技术维度仍然有很多问题需要解决,但有评论家提醒人们不该忽视Sora的双重性。AI是资本逻辑在当代的重要体现。对于OpenAI来说,Sora的重点不止于视频,还应考虑其战略维度。通过消费者产品、企业销售以及开发者社区建设,OpenAI在当前的人工智能领域占据了领先地位。具体而言,通过消费者产品和企业解决方案的实践,OpenAI不断提升其技术水平,为生成式模型设立了新的标准。同时,通过社区建设,其AI应用更为广泛和深入。在对AGI的定义和目标上,OpenAI也不断探索着这一领域的边界,试图定义和构建未来AGI的可能形态。此外,ChatGPT和Sora等生成式 AI对人类全量知识进行整合的能力,对以知识传授为主的教育理念带来了巨大挑战。当我们探索Sora能力的含义时,还必须考虑生活在一个眼见不再可信、真实与人造之间的界限变得越来越模糊的世界给人带来的心理影响,其可能引发关于信任、信仰以及数字增强世界中人类经验本质的重要问题。

 

        这种巨大的不确定性和模糊性,同样发生在印刷革命之后。事实上,直到今天,围绕印刷术的社会影响及其变革意义,依然存在极大的分歧。这一方面涉及究竟如何认识传播在社会建构和变革中的角色与作用,另一方面涉及关于技术对传播的影响与作用机制的认识。迄今为止,人们对信息传播在人类社会发展中的重要性,都缺乏基本的认识,其经常从属于政治、经济和技术等因素。而事实上,传播更可能是政治、经济和社会,甚至也是技术发展演进的关键因素。马克思认为:“火药、指南针、印刷术——这是预告资产阶级社会到来的三大发明。火药把骑士阶级炸得粉碎,指南针打开了世界市场并建立了殖民地,而印刷术则变成了新教的工具,总的来说变成科学复兴的手段,变成对精神发展创造必要前提的最强大的杠杆。” 马歇尔·麦克卢汉(Marshall McLuhan)更加突出了印刷术对资本主义经济发展的关键作用。印刷术引起工业革命——“事实上,活字印刷是一切装配线的祖先”。

 

        美国史学家、传播学家,媒介环境学派代表人物伊丽莎白·爱森斯坦(Elisabeth Eisenstein)认为,作为文艺复兴、宗教改革、科学革命三大思想运动的“变革动因”,印刷术是一个完全独立的技术构件,对当时及其后的政治、经济、社会等方面都有重要影响。她对各学科广泛认可并引用的马克斯·韦伯的《新教伦理与资本主义精神》中对资本主义起源和西方理性化内在动因的解析,以及更被广泛引用的托马斯·库恩(Thomas Kuhn)的《科学革命的结构》对科学范式转变的内在原因的分析,都提出了强有力的质疑,并都将印刷术掀起的大众传播作为上述变革真正的根本动因。马克斯·韦伯主张新教伦理观念和生活方式为资本主义精神的形成提供了重要的精神动力。他认为,新教徒对勤勉工作的重视、对世俗事务的合理安排,以及对经济成功作为神赐福分的解读,为早期资本主义的发展提供了道德上的正当性和精神上的推动力。然而,他忽略了“这一切都和宗教思想的传播有关,没有印刷机,宗教改革这样一场重大的革命是不可能完成的”。印刷术的出现是新教革命重要的先决条件。它使知识的存储和传播更为便捷和广泛,从而加快了知识积累的速度;通过大量复制而保持一致的文本,为封建传统知识权威的崩溃和现代知识体系的建立铺平了道路,为资本主义和理性化的兴起提供了更为具体和实质性的基础。爱森斯坦的研究提供了一个清晰的逻辑来解析资本主义和西方理性化的复杂起源,即传播革命是加强韦伯所说的新教伦理与资本主义精神之间关系的一个决定性因素。爱森斯坦还提供了一个新的视角,用以理解科学知识如何在早期现代欧洲得以迅速传播和接受。托马斯·库恩聚焦于科学领域内部的变化,讨论了科学理论和实践中的范式转变,即科学发展并非通过逐步积累知识,而是通过一系列的革命性转变,这些转变涉及基础理论和观念的根本性更替。科学共同体在一个稳定的范式下工作,直到积累起来的反常现象和问题导致现有范式不足以解决,随后发生一场科学革命,产生新的范式。而爱森斯坦则认为,印刷术的发明和普及使得科学知识可以更广泛、更迅速地传播,使更多的人能够接触到这些知识,并参与到科学辩论和研究中。这种信息传播的加速可能促使了科学理论的更迅速接受和集体思维的变化,从而有利于科学范式的形成和更替。

 

        同样,将传播视为变革的最根本驱动,来理解和研判Sora的发展趋势和社会变革,可能才是最经得起中长时段检验的视角。技术不仅仅是一个工具或者平台,其传播和采纳过程实际上是一个动态的、交互的过程。作为技术体系的传播逻辑不仅是参与控制的内在机制的形式,更多是参与社会构建的阐释机制的增量。换言之,智能技术的传播方式不仅影响信息的控制和管理(包括算法、数据处理和用户界面设计等),也影响信息的社会构建作用的发挥。它深度参与社会认知的形成和价值观的塑造,并在社会构建中逐渐形成新的社会实践、交流方式和思维模式。

 

        三、Sora文本生成视频的原理与机制

 

        如何理解Sora冲击波,首先需要从其底层的核心技术革新和潜在发展来理解其意义。同时,这也将为理解此类技术对传播学所产生的冲击的内在驱动力提供基础。了解这些技术的本质和发展轨迹对于预见它们将如何影响传播至关重要。

 

        Sora在技术层面被视为“视频生成的GPT-2时刻”。它的主要功能是将文本描述转化为视频内容,这一过程的核心在于解析语言表达背后的复杂场景和动态视觉信息。正如OpenAI在其技术论文中所解释的,Sora是基于之前在图像数据生成建模方面的研究而构建的,如图像生成器DALL-E和GPT大语言模型等。以往的研究采用了循环网络、生成对抗网络(GANs)、自回归Transformer和扩散模型等多种方法,但其往往专注于某一狭窄的视觉数据类别、较短的或固定大小的视频。Sora则超越了这些限制,并且在生成不同持续时间、宽高比和分辨率的视频方面有了显著的改进。它通过结合对语言的深刻理解和视觉上下文以及准确解释提示来保持叙事的一致性,从给定的提示中捕捉角色的情感和个性,并将它们作为富有表现力的角色特征在视频中呈现出来。处理视觉数据的统一表征(unified representation of visual Data)是Sora技术的核心突破,对于大规模训练生成模型以及生成各种视觉内容的能力而言必不可少。从视觉数据到视觉子块(visual patches)的转变是Sora处理视觉内容的关键,即将图像分割成序列化的时空子块(Spacetime Patches),并将其作为视频处理的基本单位。简言之,Sora 是通过对视频数据的学习来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化,从而创造出新的视觉内容。但值得注意的是,Sora学习的不仅仅是视频,也不仅仅是视频里的画面、像素点,它还学习视频里面那个世界的“物理规律”。

 

        生成式AI技术的历史可以追溯到20世纪50年代的隐马尔可夫模型(hidden markov models, HMM)和高斯混合模型(gaussian mixture models,GMM)。从最原始的编程技术控制计算机实现内容输出,到大规模数据库的可用性增强和计算设备性能的提高带来的可用性增强,从生成对抗性网络(GANs)到大规模数据集的可用性不断增强,直到深度学习的出现,生成模型的性能才有了显著的提高。生成式模型在自然语言生成(natural language generation)、图像生成(image generation)和多模态机器学习(multimodal machine learning)等领域的发展遵循着不同的路径,但最终聚焦在自注意力模型(transformer)架构上。作为一种神经网络架构,transformer模型在自然语言处理(NLP)领域(如ChatGPT)引发了一场革命性变化。同时,它也是Sora的技术底座。阿列克谢·多索维斯基(Alexey Dosovitskiy)等人将transformer原理应用于图像识别,将transformer模型(通常用于处理语言和文字的模型)转化为处理视觉内容的工具,突破了transformer模型在计算机视觉应用中存在的局限,使模型在理解整个图像的内容和结构上变得更加灵活和高效。

 

        作为对视觉自注意力模型(vision transformer,ViT)概念的进一步扩展,视频视觉自注意力模型(video vision transformer,ViViT)被应用于视频的多维数据。它通过将视频分解为时空子块(spatiotemporal patches),并将这些子块作为transformer模型内的词元来处理,同时捕捉视频中的静态元素和动态元素,并建模它们之间的复杂关系。在此基础上,莫斯塔法·德加尼(Mostafa Dehghani)等人提出原生分辨率视觉自注意力模型(native resolution vision transformer,NaViT),将其用于处理任意宽高比或分辨率的图像,进一步拓宽ViT应用范围。这在视觉识别领域是一个重要突破。

 

        扩散模型(diffusion models)对Sora的影响显著且意义重大,尤其是在数据利用和生成能力方面。它以少量数据作为训练基础,不仅提高了数据的利用效率,还极大地拓展了其生成各种高质量视觉内容的能力。这种能力对媒体内容创造、游戏开发、虚拟现实等众多领域都具有深远的影响。更进一步,隐性空间扩散模型(latent diffusion models)为视频内容的高效处理和高质量生成开辟了新的途径。; 这种在隐性空间内进行高效数据处理和生成的能力,使Sora在视频合成和编辑领域的能力得到显著增强,不仅提高了效率和质量,也增大了在资源受限的设备上进行高级视觉内容创建和修改的可能性。

 

        扩散自注意力模型(diffusion transformer,DiT)成为Sora得以实现的最关键技术。它允许更有效地处理图像贴片,使其在有效利用计算资源的同时,生成高质量的图像。DiT为Sora提供了一个强大的框架,以便更深入地学习和模拟复杂数据分布,这对于视频内容的生成尤为关键。在生成高质量图像方面,DiT比传统扩散模型拥有更低的计算成本。这种技术的使用标志着在利用深度学习模型进行内容创造方面的一个重要进步,对于增强现实、电影产业、游戏开发以及自动内容生成等领域都有着潜在的深刻影响。

 

        四、Sora标志着媒介生产自动化与媒体形态一体化的临界点

 

        OpenAI承认目前Sora存在的一些局限,包括物理准确性差(难以模拟复杂的物理动力学原理,导致视频可能不完全符合现实世界的原则)、连续性错误(保持较长视频序列的连续性仍然是一个挑战,对象位置或行为偶尔会不一致)、对因果关系的把握有限、空间细节不准确。但是,Sora的后续演进必将沿着现有的变革逻辑继续深化下去。

 

        对于Sora的社会影响和可能图景,人们基本还是基于各自不同学科、不同视角来思考。但是,Sora正在多个方面重新定义AI视频生成模型的标准,也产生了一些已经确定的新变革。

 

        1. 物理世界模拟器

        以往的AI生成视频大部分是基于“大模型+大数据”架构,难以突破AI幻觉问题。Sora已经具有了“世界模型”的雏形,其生成的视频是基于对真实物理世界的理解和重建。一方面,通过观察和学习海量视频数据,Sora能够通过掌握视频世界中时空子块单元之间的物理规律建立需遵守的模式,进而利用这些模式约束时空子块的组合。例如,它能有效模拟人物、动物或物品被遮挡或离开/回到视线的场景。另一方面,Sora 对来自物理世界的人、动物和环境等的模拟是在没有经过3D、物理等明确数据标记的情况下发生的,完全得益于规模效应,这种涌现能力被看作其最引人注目的突破性特征。它不仅证明了DiT模型可以通过海量数据的学习,以“直觉”的方式理解整个物理世界,并表达各种物理规律,还指出了一条通向AGI的可行的技术路线。

 

        2. 视频时间长度、分辨率和宽高比

        Sora的最大支持长度达到60秒,目前整个行业所公布的单个连贯性视频的最大长度是16秒,行业的普遍水平是2—4秒。Sora在时长上的突破得益于NaViT技术,Sora能够生成宽屏的1920×1080p视频、竖屏的1080×1920视频以及它们之间的各种格式,可以为不同类型的设备创建任何分辨率的视觉内容。这种能力的提升大大扩展了自动生成内容在不同场景和平台中的应用范围,进一步推动了媒介形态的一体化发展。

 

        3. 镜头切换、画面流畅性和时空一致性        

        此前AI生成视频产品都是单镜头单生成, Sora生成的视频,能够在保持主体一致性的前提下实现多角度镜头无缝切换,整个画面干净流畅。虽然目前还没有技术论文直接涉及该特征,但Sora能够生成动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间保持一致的移动。这也表明生成式AI在理解和表现复杂叙事结构方面取得了巨大进展,是电影、电视和在线视频内容生产领域的重大变革。

 

        4. 各类媒介形态的自动化生产和无缝一体化转换

        多媒体内容制作将变得更加高效,内容创作者可以在不同的媒介形态之间更加轻松地转换和再创造内容。特别是对于内容生产和分发的生态系统来说,这是一个根本性的变化。然而,实现高质量的无缝一体化转换仍然面临挑战,如要确保转换的准确性、保留内容的意图和情感、处理复杂或模糊的内容以及确保转换内容的自然流畅性。

 

        以Sora为代表的AI生成视频技术的不断发展,无疑将塑造文化规范、影响经济模式并挑战法律框架。它的社会影响超越了真实性和隐私,涵盖技术在塑造人类经验中的作用等更多问题。

 

        五、两次谷登堡时刻:变革的逻辑与进程

 

        简单地说,传播就是信息的生产、处理、传递和接收的过程。我们可以将传播简化为信息的生产和传递两个关键过程。显然,谷登堡印刷术开启的机械复制的广泛应用是智能技术出现之前最大的一次变革。这一次变革的主要作用,就是使人类传播摆脱了人类生理条件和自然条件的局限性,借助科学和工业革命,印刷术开启了传播信息的大规模生产和传递,实现了信息传播的线性增长,人类进入大众传播阶段。我们把它称为第一次谷登堡时刻,即谷登堡时刻1.0。不可否认,该时刻的来临有着中国发明印刷术等一系列准备和铺垫。但是,真正的爆发还是在欧洲,其迎来了长达数百年的大众传播时代。

 

        第一次谷登堡时刻的来临始于印刷机这项革命性发明。印刷革命在所有方面都是其他革命的起源,推动了欧洲文化、宗教和政策的发展。尼古拉·德·孔多塞(Marquis de Condorcet)将印刷机视为人类思想进步的里程碑之一。它确保了文艺复兴的成果能够经久不衰,也保证了像中世纪那样对知识和思想的遮蔽永不会再次发生。西格弗里德·H.斯坦伯格(Sigfrid H.Steinberg)在其著作《五百年的印刷史》中指出:“印刷史是整个文明史不可分割的一部分。”他认为,无论是政治、宪法、教会和经济事件,还是社会学、哲学和文学运动,如果不考虑印刷术对它们的影响,都无法完全理解。尽管威尔伯·施拉姆(Wilbur Schramm)将印刷机视为大众传播的开端,但在相当长的一段时间内它仍是一种“未被承认的革命”——作为引起传播变革的动因,它在关于文艺复兴、宗教改革和科学革命的叙述中被低估了。爱森斯坦强烈呼吁将印刷史带入现代性的问题核心。她指出,“不能仅仅把印刷术当作复杂因果关系中的许多要素之一,这是因为传播变革使因果关系的性质变了”。

 

        “一个历史时期已经因印刷革命而开启。不仅是火和铁的发现,抑或是国家和战争的发展,信息的传播同样创造了文化和文明。” 这场由印刷术引发的革命性变革,使人类复制信息的能力发生了一次飞跃,使知识的大规模传播成为可能,改变了人类存储和检索知识的方式,而且深刻影响了社会结构、经济活动和文化形态,可以说是现代世界发展的重要基石。在费尔南·布罗代尔看来,大众传播不是一个单纯自生自长的现象,更不是传播活动的总和,其复杂性只有在经济生活以及社会生活的整体中才能被理解,而经济生活与社会生活是在不断变化的;同时,其复杂性本身也不断在进化和演化,随时会改变其意义或影响。作为大众传播的一个重要起点,谷登堡印刷术标志着大规模信息传播时代的开始,信息传播从精英化转变为大众化,从而对信息标准化、观念和知识的广泛传播、社会动员与改革、新闻出版业的兴起等产生了深远的影响。

 

 

        如果说第一次谷登堡时刻是由机械复制开启的,那么,第二次谷登堡时刻,即谷登堡时刻2.0,则是由拟像开启的。生产被再生产所取代,真实连同其参照物一起消失了,只剩下比真实还要真实的“超真实”,以及代码相互参照且对立的、自娱自乐的狂欢。法国哲学家让·鲍德里亚(Jean Baudrillard)将传播描述为“一场大型的同义反复的操作,一场大型的自我实现的预言”。这意味着在某种程度上,传播的过程不再服务于传递新信息或创造新的理解,而是变成了一种循环的自我确认的活动。在这个过程中,信息的传播不再引发深刻的沟通或实质的变化,而是成为一个自我强化的模式,即便这些信息可能是冗余的、重复的或者缺乏实际内容。鲍德里亚的论述并不是一个绝对的判断,而是一种批判性反思。他让我们对信息传播机制保持批判性思考,并警惕其可能对个体认知和社会结构产生的长期影响。如今的状况是,生成式AI进一步将拟像从视觉和符号领域带入认知领域。

 

        从以TikTok为代表的由数据和算法驱动内容分发变革的上半场,到以ChatGPT和Sora为代表的生成式AI的下半场,智能传播将大众传播、网络传播和社交传播都变成了特例。数据主义将数据看作信息社会人类生活的中心。历经原始神秘主义和近代人文主义,人类社会已经进入数据主义主导的时代。数据正在成为人类社会发展的核心要素。也正如尤瓦尔·诺亚·赫拉利(Yuval Noah Harari)认为的,如果把人类看作数据处理系统的发展过程,人类社会的发展可以划分为认知革命时代、农业革命时代、工业革命时代和数据革命时代。在数据革命影响下,新媒体技术理论和实践应用深刻改变着人类的传播活动、传播行为和传播观念,并驱动着人类走向万物互联的新世界。然而,人工智能生成内容(AIGC)的生产模式实现了整体性的信息传播格局颠覆,第一次夺走了人类对信息流的主导,使传播指向一个无限的开放系统。如今看来,卢西亚诺·弗洛里迪(Luciano Floridi)关于“三级技术”的论断似乎正成为现实。作为使用者的技术与作为敦促者的技术一旦被媒介技术关联在一起,形成技术—技术—技术的连接方式,技术就会开始呈指数级发展。智能和自主将不再是人类独有的特性,一个超历史的、依赖于三级技术的社会可以脱离人类而独立存在。

 

        生成式AI不仅对人类经济和社会秩序的组织原则发起挑战,它还是具有政治和文化颠覆性的自主技术的又一个例证,扮演着塑造知识、传播和权力的角色。在凯特·克劳福德(Kate Crawford)看来,“人工智能既不人工,也不智能”,它完全依赖于一套更广泛的政治和社会结构。AI还是一种权力,是技术和社会实践、机构和基础设施、政治和文化的综合体,既反映又产生社会关系和对世界的理解。因此,我们只有在理解了新技术如何改变价值观、权力结构和社会结构之后,才能知道什么是真正的进步。

 

        六、谷登堡时刻2.0将如何重构传播格局

 

        第二次谷登堡时刻刚刚拉开序幕,尽管ChatGPT和Sora等强势“出圈”,但是,未来智能传播的新的主导性技术、应用与企业,依然不明朗。尽管AIGC助推了AI芯片的全球需求,催生了英伟达这样市值高达2万亿美元的超级企业,但是,智能浪潮的产业格局并没有尘埃落定。

 

        当然,根据传播变革的逻辑,在基础、模型、应用和制度的四层架构下,大致的图景开始有了一定的逻辑和轮廓,为我们把握这场变革提供了很好的理解框架。

 

        其一,底层的关键基础设施是以TCP/IP为基础的互联网元架构奠定的、信息传播开放的全球一体化基础设施。随着其承载的网民数量突破50亿大关,这一基础设施使ChatGPT和Sora等创新性突破能够第一时间被全球网民使用,并迅速积累了数亿级的用户规模,其与资本相互推动和催化,形成加速发展态势。

 

        其二,以AI算力为基础的大模型体系,成为当下技术博弈和产业竞争的核心。美国牢牢占据着大模型领域的主导地位。当前最具代表性的大模型都集中在美国。例如,OpenAI的GPT—4模型、谷歌的PaLM 2 AI模型、Anthropic的Claude大模型、Google Deepmind团队开发的Gemini,以及Meta开发的一种新的开源大语言模型LlaMA等。其中,算力是保证美国在AI大模型上占据领先优势的关键。美国拥有世界上最大的云计算企业。据Synergy研究院发布的2023年第四季度全球云计算市场份额排名,亚马逊(31%)排名第一,微软azure(24%)排名第二,Google云(11%)排名第三,阿里云(4%)排名第四,美国企业合计占比达66%。芯片则是另一个关键因素。高性能的芯片能够提供更加高效的计算能力,加速训练过程。美国芯片制造商英伟达在科技创新和整个产业生态中处于引领地位。财报显示,其2023年第四季度营收同比激增265%,达221亿美元。截至2023年12月,中国已发布大模型约238个,10亿级参数规模以上基础大模型有79个(美国为100个),中美两国大模型的数量占全球大模型数量的近90%。生命未来研究所(Future of Life Institute)在《全球AI市场中新兴的非欧洲垄断企业》(Emerging Non-European Monopolies in the Global AI Market)报告中指出,欧洲普遍缺乏开发AI大模型所需的资金、数据和计算资源。欧洲可能主要扮演一个使用者的角色,即通过接入其他国家开发的大模型API来开发应用,其关注的重点更倾向于开源、可持续与绿色安全等。任何技术革命在其历史进程中都不可避免地被嵌入国家角色并产生作用力,也不可避免地会引发国家间的新的博弈与新的竞争,人工智能也不例外。人工智能已经成为数字权力重要的呈现载体,走向全球技术竞争的中心舞台。大国采取多种手段参与全球“AI竞赛”的同时,也带来了“AI监管竞赛”,推动了AI外交新框架的形成。

 

 

        其三,主导未来信息生产和传播的AI智能体即将出现。应用无疑是新格局中最丰富、最活跃也是最不明朗的部分。作为一个动态系统,AI智能体能够感知环境并针对环境采取行动,它与“智能实体”概念紧密相连,又区别于“自动工具/程序”。比尔·盖茨提供了一个更加直观地理解智能体的方式——一种能对自然语言作出响应,并能根据它的用户知识完成许多不同任务的由AI驱动的个人助理。他认为,智能体不仅将改变每个人与计算机的交互方式,而且将颠覆软件产业,带来计算领域的最大变革,对医疗保健、教育、生产力、娱乐和购物等领域带来重大影响。

 

        总之,谷登堡时刻2.0标志着人类社会信息传播范式的根本转变。首先,人的主导性地位被极大削弱,尤其是人作为内容创作者的核心主体地位被削弱。其次,信息摆脱人的局限性,呈现技术和数据驱动的传播能力和数量指数级无限增长的趋势。最后,人类社会将进入一个人机全面融合的合成社会,可能发生社会、政治、经济和文化不可预知的巨大变化。OpenAI首席执行官萨姆·奥特曼(Sam Altman)在迪拜举行的世界政府峰会上表示,让他在人工智能方面夜不能寐的危险是“非常微妙的社会失调”,这可能会给系统造成严重破坏。

 

        七、谷登堡时刻2.0的社会影响与变革趋势

 

        正在到来的第二次谷登堡时刻,信息和知识的生产和传播将从过去的大众媒体、社交媒体等转向大模型和智能体。这一轮传播变革将更加全面建构未来社会,重构世界格局,塑造人类文明新的图景。随着智能传播快速成为新的“时代背景”,围绕智能媒体、算法、人机关系等焦点的各类研究如雨后春笋般出现。智能传播生态正在构建全新的传播逻辑,预示着未来社交媒体文化的终结与连接逻辑的嬗变。智能技术的发展构建了新的传播景观,改变了大众对外部世界的认知方式,形成了新的社会关系。智能传播以强势的姿态浸入现实生活,打破现实和虚拟的界限,构建了更为多元的景观世界。

 

        互联网开辟了“空间革命”,智能手机的出现带来“时间革命”,生成式AI则可能形成“思维革命”,重塑各行业生态乃至整个世界。由数据和算法驱动的智能传播正在给我们的工作和生活带来前所未有的便利,不断拓宽我们对信息处理和知识生成的认知边界。正如喻国明等人所言,生成式AI将在信息层面、个体层面和连接层面引发深刻的变革,推动传媒产业革新和社会数字化生存的发展。然而,这一进展同样伴随着深刻的挑战。人们开始质疑,当算法越来越多地介入我们获取信息、作出决策乃至形成社会关系的过程时,我们是否还能保有作为独立个体的基本权利。算法对个体自主性所蕴含的知情权、选择权、拒绝权等基本权利的消解,使作为主体的“人”逐渐走向数据化、群体化,最终成为技术工具的客体,丧失人的自主性。曾润喜等人发现,具有多重过滤、满意原则、算法黑箱、自我进化等特征的AIGC生成和传播的“漏斗模式”是改变用户认知的重要机理。该模式可能加剧用户两极分化、社会操控和偏见,制造民意分歧和政治腹语,激化人机关系悖论等认知风险。生成式AI不仅进一步重塑着社会,还造成了人的异化,重塑着人的交往、人的思维和人的劳动,威胁着人的主体性发展。我们必须警惕这种技术可能对人类自我认知和自主性造成的根本性改变。

 

        AIGC为知识生产、连接与传播带来革命性影响,实现了知识生产全面数据化,知识连接全场景化,知识传播复集中式。刘智锋等对AIGC技术及其生成内容特征进行了梳理,提出AIGC技术对知识生产与传播所带来的革新与挑战。作为 “知识新媒介”,AIGC已经展现出从个人知识向公共知识传播演化的过程。当机器生成的知识成为公共知识,成为公共对话、讨论和社会运作的资源,必然对公共舆论、公共交往与公共生活产生重要影响。可见,生成式AI嵌入公共治理领域也将展现出巨大潜力,需要未雨绸缪,预判其可能带来的失灵、失信、失德、失向等风险,使其成为一个可用、可信、可靠和可亲的“推动者”。有学者提出,我们需要摆脱传统的方法论个人主义、物化认识论和零和博弈思维,将人类与生成式AI的关系视为智能关联主义,用以理解智能技术带来的科技革命。生成式AI的突破需要人文社会科学研究者提供新的认识世界的框架,探索出适宜于智能关联主义的人文应用场景。正如陈卫星所认为的,智能传播是“基于信息生产的数据链组合,这就需要不断确认数字符号和实践经验的关系,或者从操作形态上确定数字符号与经验世界的相关性系数”,“基于人与人之间的关系建构是获取并维系意义感、价值感、存在感的来源,并以此成为智能传播的认识论的基石”。此外,生成式AI技术具有赋能现代政治传播的巨大潜力。但它也可能助推政治的极化,造成“过多或过少”的民主,以及导致虚假消息的泛滥。对技术的响应度是政治传播现代化的重要指标,我们要把握住历史机遇,但同时也要以“超越机器”的反省能力建构新世界的政治传播规范。

 

        智能传播将带来人类信息传播范式的根本转变,也意味着旧有治理范式的失效和缺失。由此而激发的新兴治理方法、新型制度和政策能力建设以及治理机制不断被构建,以欧盟的GDPR、数字市场法和AI法案等为代表。AI已经成为一个迫切的横跨不同利益相关方的优先事项。与此同时,全球AI治理格局也呈现出AI治理领域迅速增加的复杂性。“必须确保在接受任何技术变革的不可避免性之前评估其影响”的认识在很早之前就已经形成。“科林格里奇困境”表明,技术在起步阶段可以相对容易地进行监管,但在那个阶段,我们对其影响和监管原因的了解也处于起步阶段。当技术得到部署并广泛传播时,对技术实施社会控制就变得更加困难。因此,治理的关键在于时机的把握,应根据生成式AI的主流化进程,探索“先发展,再治理”和“边发展,边管理”两种节奏的灵活组合。但AI治理的实施仍具挑战性。机器学习系统不透明的算法和不可预测的结果会妨碍人类对AI行为的可控性;数据碎片化和系统之间缺乏互操作性导致对组织内部和跨组织的数据治理难度增加;科技巨头和监管机构之间的信息不对称给立法带来了挑战;等等。

 

        无论是作为对新威胁的应急反应,还是作为为新技术提前构筑的“防波堤”,这一轮制度建设与科技创新一道决定着人类的发展进程,也在快速成为大国博弈的核心战场之一。为此,我们亟须进一步把握当前这场智能传播浪潮的规律与本质,以全新的问题域去审视和反思技术、传播与社会的互动。