文/陆小华
智能内容生成技术取得重要进展,进入应用增长期,正深刻影响数字媒体发展、媒体深度融合走向,催生传播新变局。
2022年,智能内容生成领域既出现了具有引人注目生成能力的AI模型,也出现了上线几天即在美国高校入学资格考试(SAT)中获得中等学生水平成绩的智能聊天机器人ChatGPT。对2023年重要科技进展的预测中,智能内容生成技术成为多家媒体的选项。
智能内容生成技术的重要进展和应用,正深刻影响数字媒体发展、媒体深度融合走向,催生传播新变局。值得政策制定者、媒体管理者和研究者们深思的是,用一段文字所生成的图片、视频距离数字内容生产与传播还有多远?智能内容生成会催生什么新变局?为了既能够在内容生产、网络传播、舆论博弈、认知塑造等领域有效利用智能生成能力,又能够有效抑制深度合成等可能造成的认知混乱和危害,当前无论在路径选择、资源投入,还是政策设计、规则制定等方面,都需要做认真准备,做出方向选择,展开有力行动。
依文稿生成交互视频:五年前的调研追踪
智能内容生成技术及其在内容生产中的运用,是笔者媒体生涯中曾重点关注和调研过的。这既是因为作为研究者需要一直关注、研究新媒体发展,也是因为作为媒体管理者职责所在,希望借助智能内容生成技术提升新华社视频生产能力、增强竞争力。
2017年调研时,重点关注了美联社与Wibbitz公司在依文稿自动生成视频方面的合作。以色列年轻人佐哈尔·达杨(Zohar Dayan)发明了应用Wibbitz。只要内容文本中提供一行JavaScript代码,Wibbitz就可以运用自然语言理解和算法从文章中抽取摘要并从网上获取相关图片,然后将这些图片、信息、配音等生成用HTML5制作的交互视频,可分享到社交媒体上。早期,Wibbitz对英语和葡萄牙语辨识度较高。2011年Wibbitz在以色列创立,两年后进入美国市场,2012年获得Horizons Ventures公司的230万美元投资。Wibbitz能够解析关键信息并直观有效地呈现,使内容生产机构愿意尝试将Wibbitz集成在他们的网站上。2017年Wibbitz公司获得的2000万美元的C轮融资,就主要是媒体所投。其中,德国知名传媒集团贝塔斯曼旗下子公司Bertelsmann Digital Media Investments领投,美国天气频道、美联社以及法国TF1公司跟投。原有投资方NantMobile、lool Ventures和Horizons Ventures同样也参与了本轮融资。Wibbitz联合创始人兼首席执行官达杨认为,这次的投资方在视频制作方面也都有一定经验,体现了对Wibbitz的认可。Wibbitz的技术主要就是为各家媒体现有视频团队提供补充支持,让他们以较低成本自动制作大量视频。而剩下那些高端工作,则留给团队成员去完成。公司的目标就是尽量减少自动制作视频和手动制作视频之间的差别。现阶段,媒体对于在内容创作方面使用人工智能技术这一行为的接受程度越来越高,已经或者开始意识到它所带来的价值。据报道,Wibbitz公司当时已经与包括彭博社、考克斯传媒集团、美国天气频道在内的新闻机构达成合作。
调研时关注的另一个视频生成平台是纽约的Wochit。同样诞生于2012年的Wochit,官网自称是“白标视频编辑器”(Wochit Frame, White-label Video Editor),称可以“为您的客户提供视频力量”,可以为所有技能水平的创作者提供直观界面和功能,提供多种模板、多种功能满足用户的不同需求,生成的视频可以分享到社交媒体上。这个应用可作为插件集成到用户的平台上从而具有视频创作能力,用户可根据平台需求调整视频编辑器的外观、功能。Wochit与全球多家新闻视频采集机构签订了合作协议,可帮助用户将原始新闻视频资料通过剪辑生成“独家内容”,生成工作的大部分由算法帮助完成。用户可以上传自己的文字稿件, Wochit平台可搜索提供对应的视频素材,供用户选择素材和模板后,再使用具有“拖拽功能”的剪切工具进行视频剪辑,就能制作出与文字稿件相关的视频内容,用户还可在视频内打上自己的水印标识。Wochit作为一款视频平台,可帮助视频“小白”在短时间内制作、剪辑出视频。2016年10月,新加坡报业控股集团旗下风险投资基金 SPH Media Fund 宣布领投Wochit最新一轮 1300 万美元的风险投资,其他参与投资的包括德国媒体ProSiebenSat.1和其他个人和机构。
2017年对智能内容生成技术的调研,客观上是那个阶段对可用于视频智媒体平台的人工智能技术调研的一部分。2017年3月3日上线运行的新华社全球视频智媒体平台,在规划、建设时就是以增强体系竞争力为核心目标,实现了融合运作体系的同步构建,体现了流程优化、平台再造和各种媒介资源、生产要素的有效整合,实现了信息内容、技术应用、平台终端、管理手段的共融互通。“新华社全球视频智媒体平台”项目2019年获媒体技术领域唯一国家级奖项中国新闻科技“王选奖”一等奖。在组织推动新华社全球视频智媒体平台建设、运行的同时,笔者就在积极调研与音视频采集、生产、分发相关的人工智能技术,为此探访过国内这个领域的多个企业,包括一些头部企业。相对而言,人脸识别等技术当时在国内更为风行,并没有发现可用于音视频生产流程的智能内容生成产品。但智能内容生成技术发展动向与产品,是笔者作为研究者一直密切关注的。
媒体技术建设从来不是单纯技术运用,既要为媒体融合、业务运行、增强影响力服务,又要密切跟踪对于内容生产与传播格局可能产生重大影响的新技术、新趋向。新媒体、新传播、新格局等新闻传播领域的重大变革,往往是由某种新发明、新技术、新应用推动的。智能传播科技的发展已经产生了这种推动作用。但包括智能内容生成在内的新技术可能产生更大催化作用。
ChatGPT与AI模型:智能内容生成的重要进展
人工智能在多个领域取得长足进步是不争的事实。在智能内容生成领域,有两个重要进展引发了强烈关注。
其一,是ChatGPT(智能聊天机器人)。结合了搜索引擎和文本生成功能的智能聊天机器人ChatGPT,由人工智能研究实验室OpenAI于2022年11月30日推出,用户通过聊天可以获取诗、讲话稿、新闻稿等诸多类型的文本。有报道说,ChatGPT上线5天用户数量已突破100万。因试用人数太多,后曾关闭试用。ChatGPT还参加了美国高校的入学资格考试(SAT),取得中等学生水平的成绩,还用《老友记》主角口吻创作了剧本对白。OpenAI由埃隆·马斯克和投资家萨姆·阿尔特曼(Sam Altman)等人创办,2018年马斯克退出公司董事会。2018年,OpenAI推出第一代GPT,之后两年迭代了三个版本。2020年,GPT-3问世,这是一个拥有1750亿参数、利用45万亿字节文本数据进行训练的算法模型。在它出现之前,世界上最大的语言模型是微软的Turing-NLG,不到2亿参数。从关于GPT的论文中可以了解到,GPT是通过文字接龙以及人工引导接龙反馈的模式训练这一语言模型的。最新推出的ChatGPT大约相当于GPT的3.5版本。在本文的写作中得到一位智能科技专家转来的信息,据ChatGPT & AI News透露,“GPT-4即将推出,这将使ChatGPT看起来像一个玩具。GPT-3有1750亿个参数,GPT-4有100万亿个参数。”
ChatGPT作为智能内容生成重要进展的价值,还可以从微软的新动作中看出来。根据2023年1月10日美国财经媒体Semafor的报道,微软公司等投资机构正就向ChatGPT的开发者OpenAI投资100亿美元开展谈判。交易达成后,OpenAI的估值将达到290亿美元。Semafor报道说,微软的注资将是复杂交易的一部分,收回投资前,微软都将获得OpenAI 75%的利润。达到门槛后,微软将拥有49%的股份,其他投资者持有49%,OpenAI的非营利性母公司持有2%,不过该报道并未说明在微软收回资金之前的持股情况。此外,该交易还设定了每类投资者的利润上限。此前,《华尔街日报》报道称,OpenAI正在试图以大约290亿美元的估值出售现有股票,Thrive Capital和Founders Fund等风险投资机构则正在从现有股东手中购买股票。这个消息加剧了对ChatGPT关注的原因,不仅是拟投资金额,更因为根据2023年1月7日美国科技媒体The Information的报道,微软公司将可能把OpenAI的人工智能技术纳入其办公软件Office,这个设想一旦落地,将深刻影响Office庞大用户的工作和生活习惯。1月3日The Information曾报道,微软新版搜索引擎必应(Bing)提供自然语言理解搜索结果,而不仅是链接列表。微软与OpenAI合作早已开始。2019年,OpenAI获得了微软10亿美元的投资。随后OpenAI在微软的Azure云计算服务上开发其人工智能超级计算技术。
其二,是可依据文字生成图片和视频的AI模型。英国《新科学家》周刊网站一篇《2022年,人工智能让把一切绘制成图成为可能》的文章说,能够根据简单的描述性文本生成像照片一样逼真的图像的AI模型出现,可能是“最大冲击之一”。2022年前这种将文本转化为图像的AI还是一项相当不成熟的技术,但2022年这项技术得到迅猛发展,此年美国科罗拉多州博览会美术竞赛上获奖作品之一就是AI创作的。这篇文章引述了英国伯明翰大学马克·李的分析:在硬件和软件优化的共同作用下,智能内容生成技术迅速发展。开始,研究人员将谷歌公司工程师2017年发明的一种名为转换器的算法用于生成图像。此前,这类AI模型被用于构建像“生成型已训练变换模型3”(GPT-3)这样的文本生成模型。然后,在硬件功能变得更强大基础上,拥有训练这些模型的资金和资源的大公司开始免费提供部分研究成果,甚至很有远见地向更大范围内公众提供有限使用机会,使更多科学家涉足这个领域。这篇文章引述Hugging Face网站创建人之一托马斯·沃尔夫的话说,尽管转换器模型在图像生成方面取得初步进展,但一种名为“扩散”的新型算法最近几个月一直处于领先地位。转换器算法往往会提供一些怪异作品,扩散模型能够创作出具有精细纹理的作品。用人工智能创作定制艺术品所需的成本和时间将大幅减少,这最终可能会对人类创作者产生巨大影响。这篇文章说,封面创作者抱怨AI已经抢走了他的佣金,客户正在选择免费生成的图片。
智能内容生成技术走向与突破点:智算专家的解析
智能内容生成技术将如何发展?笔者部分借用德尔菲法,提了三个问题,请天津大学几位智能计算专家做解析。虽然本文读者未必有多少是搞智能内容生成技术等人工智能、智能传播科技研究的,但这几位专家的回答,对于新闻传播领域的政策制定者、决策者、操作者、研究者们,是有重要启发意义的;对智能传播科技、人工智能研究者们则可能是研究方向的重要提示。
问题一:ChatGPT和可依据文字生成视频的AI模型的出现,是否意味着智能内容生成技术取得重大突破?
李克秋(天津大学智能与计算学部主任、教授):过去一年,生成式AI模型成为人工智能领域中的新热点,以OpenAI的ChatGPT和DALL-E为代表的技术在创作文字、图像、视频等性能上表现出色,在对用户意图的理解和结果的准确性、完成度和易用性上都达到了前所未有的高度。虽然不能过度神化此次技术突破,但在增长范式上,与此前的模型确实拉开了巨大的代差。其核心源于算力的大幅提升,对“大模型”(基座模型)认识的变化,也离不开对新的模型结构上的成功探索,以及数据质量和规模的改善。从这个角度来看,智能内容生成技术能达到如今的水平也是必然趋势。
需要特别提到两个在本次突破中起到关键作用的技术:
第一个是强化学习。强化学习在大模型训练的反馈上提供了更强大的机制,这也使它逐渐从只应用在游戏等几个孤岛场景中脱离出来。相比于此前的技术,近期的大模型训练能够更为深入地挖掘和理解用户的潜在意图。未来可以将反馈目标更明确化,从不可控的生成向可控,从黑盒到可信智能演变。
第二个是长篇/幅的注意力机制。注意力是维护模型在持续任务上的上下文一致性的核心机制。新晋模型明显的优势在于可维持较长的对话,生成长时序真实感强的视频等等。但即便如此,幻象问题依旧是一个亟需改进的话题,从而避免“一本正经胡说八道”的行为。
喻梅(天津大学智能与计算学部副主任、教授):智能内容生成技术已经取得了重大进展,其中包括使用GPT类型的语言模型进行文本生成以及使用生成式对抗网络(GANs)等模型来生成图像和视频。ChatGPT是一种可以生成文本对话的语言模型,而生成视频的AI模型则可以根据给定的文本描述生成相应的视频。这些模型的出现是智能内容生成技术取得重大突破的具体体现,它们可以自动生成大量高质量的内容,并且在某些情况下可以达到人类水平。然而, 目前来看还没有一种智能内容生成技术能够完全取代人类创作者, 因为它们还缺乏对上下文和场景的理解能力。
王岚君(天津大学新媒体与传播学院研究员):ChatGPT可以认为是现象级应用,其中也有OpenAI“学术明星”效应的加持。然而,从技术角度看,ChatGPT是以GPT3.5为预训练模型基础的,比较独特的Reinforcement Learning with Human Feedback(RLHF)也已经有一段时间的研究历史,不是最新技术。ChatGPT可以说是在技术成熟路径上,但并不是一个突破性的进展。
郑岩(天津大学新媒体与传播学院副研究员): Open AI发布的ChatGPT模型有着强大的信息整合和对话能力,在自然语言处理上面表现出了惊人的能力。能从文字生成视频的AI模型的出现也使得大量科研机构和人员涌向AIGC技术的研究。这些模型是很有意义的工作,智能内容生产技术的研究也因此得到进一步的推动。但我觉得单一的算法模型迭代升级很难被定性为一个领域的重大突破。这些模型引起广泛关注的原因之一在于其易用且实际的功能,包括根据用户需求自动生成代码、以聊天的形式与用户交互等。当前的研究创新都还在依赖超大规模的数据和强大的算力支撑的大模型,算法和模型仍需要耗费大量资源去不断地完善。
邵明来(天津大学新媒体与传播学院助理研究员、硕士生导师):ChatGPT是大型语言模型,主要定位智能聊天机器人,结合了搜索引擎和文本生成功能。ChatGPT采用了更先进的自然语言处理技术,并在训练过程中使用了大量高质量自然语言文本数据,这使其能够更好利用语料库中的信息,提高处理文本信息的效率。另外一个主要提升点在于记忆能力,可实现连续对话,极大提升对话交互模式下的用户体验。但是,ChatGPT现在还是存在不少问题。一是在具体问题回答上,仍然和具有专业经验的人士有明显差距。比如要制定一个出行计划,安排的时间节奏可能不具有适用性。二是要求ChatGPT创作时可以自由发挥,但当使用目的是寻求正确答案时,ChatGPT可能有时无法满足期待。三是生成的内容和人类常规书写内容通过测试非常容易区分出来,可以看出还不太成熟。
国内有不少类似研究,如清华大学在做的大型语言模型研究,在推理计算、联想创新等方面的生成还有一定挑战。另外,现在技术创新还在依赖大模型,需要更大规模数据和更强大算力支撑,需要不断改进算法并完成模型的不断完善和调整,这个过程通常比较慢,而且需要耗费巨大资源,这也是需优化的问题。
至于文本自动生成高质量可用视频相对就更难了,整体上现在生成视频还是很粗糙的。虽然说视频实质上是一系列图像,但这并不意味着生成一个连贯的长视频很容易。实际上是一项比较难的任务,因为可用的高质量数据少得多,而且计算需求也要严格得多。对于图像生成,需要有数十亿图像-文本对的数据集。而文本-视频数据集现在规模相对比较小,考虑到开放域视频的较高复杂性,其实是不够的。也有些方法根据开放域文本提示序列生成可变长度的视频(比如谷歌的Phenaki),但需要图像和视频的联合训练,前提是存在更大的图像-文本数据集和更多数量级的视频样本。
问题二:智能内容生成技术下一步的发展方向和可能的产品是什么?
李克秋:智能内容生成技术(AIGC)能够承担一些耗费较大精力的重复性基础工作,成为人类的助手,帮创作者试错或提供思路。它可以渗透到人们工作和生活的方方面面,并且能通过简单的交互就获得超高生产力,比如代码创作、文稿创作、艺术创作、商业分析等等。
但目前智能内容生成存在的问题在于“满足数据规律,未必满足常识规律”,换句话说,它还没办法保证生成内容的逻辑完全合理。所以,引入人类/领域专家知识来增强学习可能会是未来的一个方向。同时,多源信息的融合和多任务关系的挖掘,也是进一步提升智能内容生成性能的一个突破口。但大模型本身计算成本太高,会成为其在短期内广泛应用的一个障碍。其实,在算力上,我国目前已经或是将要面临“卡脖子”问题,所以大模型的瘦身比如量化、剪枝、蒸馏,或者以大模型为基座在垂直业务上的精化,可能成为发展趋势。
除此之外,还应该在AI伦理、用户隐私、知识产权保护等方面推进相关研究和政策制定,以保证其安全性。
喻梅:从研究角度,智能内容生成技术的发展方向包括:(1)深度学习模型的改进,使得它们能够更好地理解上下文和场景,并生成更具有人类水平的内容。(2)多任务学习和领域适应,使得模型能够在不同领域中生成高质量的内容。(3)基于对抗学习和生成式对抗网络(GANs)的改进,可以生成更加逼真的图像和视频内容。(4)与其他智能技术的整合,如语音识别和自然语言处理技术,使得生成的内容更加丰富和互动性强。
从应用角度,智能内容生成技术的发展方向包括:(1)深入研究语言理解:随着模型的深度和复杂性的增加,模型需要更好地理解语言的上下文和场景。这可以通过更好地训练和使用大型语料库来实现。(2)多媒体内容生成:在图像和视频领域的研究正在推动更多媒体类型的内容生成。这些研究将会增加生成更高质量、更多样化的图像和视频内容。(3)人机协作:使用智能内容生成技术与人类创作者协作可以提高效率和质量。模型可以自动生成内容的草稿,人类创作者可以进行编辑和修改。(4)实际应用:智能内容生成技术已经在新闻、广告、娱乐等领域得到了广泛应用,并取得了显著成效。未来可能还会有更多的领域和行业开始使用智能内容生成技术。
这些发展方向可能会带来一系列新的产品和应用,如:(1)更加逼真的视频游戏人物和动画。(2)更具有人类水平的聊天机器人。(3)更加丰富的虚拟世界和沉浸式体验。(4)更具启发性和创造性的新闻报道和广告内容。(5)更快速和高效率的文本编辑和撰写工具。
此外,智能内容生成技术仍然在迅速发展和演进中, 未来会有什么具体应用和产品,是无法完全预测的。
王岚君:智能内容生成技术的下一步,应该是向具身智能的方向发展。单纯从ChatGPT来看,按技术路径来看,下一步会是多模态内容的交互。
目前看,以搜索引擎为底层技术的产品都会受到ChatGPT的影响。已知微软即在其搜索引擎Bing里使用ChatGPT。同时,智能助手一类的产品均可能产生变革。
还有一类潜在受益的产品是与计算机语言相关,如代码检查工具、代码补全工具、代码自动化工具等。这是因为ChatGPT作为语言方向上的技术进展,用在有约束的计算机语言上能更好地发挥价值。
郑岩:智能内容生成技术的关键之一在于其生成内容的质量,是否真实,是否拟人化,这一直以来都是智能内容生产研究的重点和挑战。这些挑战在ChatGPT出现之前就一直存在,短期内也不会因为ChatGPT的出现就实现了重大突破。当然,智能生产技术的前景非常好,可应用在医疗、教育、娱乐、传媒等产业场景中,以更低成本、更少时间创造出有价值内容,可能的产品包括AI合成医护陪伴、AI重现历史场景等。
邵明来:智能内容生成技术现在整体上在逻辑推理以及联想创新方面还不够深入,应该是接下来解决的主要问题。智能内容生成技术可考虑应用领域和产品比较广泛。一是涉及人机交流的一些实际应用,比如智慧审讯(依据犯罪嫌疑人的语言、表情、动作等生成下面询问的问题)、智能诊疗、智慧管家、智慧客服等。二是快速知识学习方面,从历史案例、知识数据等大规模语料中快速生成可参考的方案等,比如智慧法院(依据双方提供的各种文本、图像、视频证据、结合法律法规条文,并借鉴之前类似案例,自动生成判决书,包含依据法律法规和证据建议的量刑)。
如将来智能内容生成技术各方面都特别成熟,可能会对现有的搜索引擎形成较大冲击,并产生一定替代作用,搜索引擎其实只是一种比较简单的自动问答系统。
问题三:现有智能内容生成技术可以与什么技术结合,形成新的突破?比如与传感科技结合,形成具有一定智能感知能力的智能内容生成技术?
李克秋:目前现有AIGC在很多场景都很有用,比如吟诗作赋、创作音乐画作、聊天机器人等。人类只需设置好场景,生成性AI就会自主输出想要的结果。这不仅将带来零边际成本的内容生产变革,而且可以避免来自人类思想和经验的偏见。未来生成式AI有很大想象空间。一是与创意产业相结合,创造由生成式AI支持的内容。它可以帮助创作者创造更多个性化内容和产生新想法。二是与AR/VR、元宇宙产业相结合。如题目中所问,可以通过传感技术来捕捉人类的心理和生理的反馈,并以此为条件引导生成方向和风格。通过与对话式AI系统、先进的实时图形处理等技术的结合,将使得数字人、虚拟助手等数字智能体变得更加智能化、人性化,为用户在元宇宙中提供更直观、更具沉浸感的数字化体验。
喻梅:现有智能内容生成技术可以与多种其他技术组合来形成新的突破。包括但不限于以下四个方面。一是自然语言理解(NLU):智能内容生成技术与 NLU 技术结合,可以使用智能内容生成技术与人类交互,如语音助手、聊天机器人等。二是计算机视觉:智能内容生成技术与计算机视觉技术结合,可以用来生成图像描述性文本。三是数据挖掘:智能内容生成技术与数据挖掘技术结合,可以用来生成统计数据报告或商业数据分析结论。四是深度学习:可以与深度学习技术结合,使用神经网络来模拟人类的思维进行内容生成。
王岚君:与传感器技术结合是可行的。有更多的传感器接入,能够获得更丰富的数据,辅以场景化分析,能做到按场景生成。但技术突破点,还是在逻辑、推理、决策上。现在是ChatGPT加上了人工反馈,让数据的质量更高。决策问题,不是数据多就能解决的。
邵明来:可以与视频理解与语音生成技术结合形成智能播报。比如可以通过无人、卫星等拍摄视频图像等数据,然后通过视频的语义理解等技术直接转换成语音信号,并直接下发。在地震、洪水等自然灾害发生时,直接下发应急救援的信号、位置、坐标、人员、险情等信息,方便救援人员直接理解和救援。
也可以与传感技术等等进行相应结合。利用洪水水位、图像、视频等监测数据,将洪水态势生成文本、视频等可直接上报的内容。也可结合现在一些智能挖掘和预测算法,考虑生成态势演化趋势的相关内容。
智能科技正催生传播新变局:如何准备与应对
对当年科技发展进展的回顾与对未来科技发展趋势的预测,向来是世界知名媒体年终报道的重点。这不仅是因为这种梳理和预测本身就是深受关注的高知识信息含量的内容,体现一个媒体的水准;还因为这类回顾和预测会对研究者、实业界、管理层、决策者们产生重要影响。智能内容生成技术的重要进展就成为2023年新年前后一些重要媒体和机构回顾和预测的重点之一。
比如,美国《连线》杂志盘点“2022年让世界更美好的事”时,就以“DALL-E2可以将文本输入转变成生动的图像”,ChatGPT“可以回答复杂的问题,写出相对连贯的文章或代码”为例,认为“人工智能工具改变了我们发挥创造力的方式”,“开辟了新天地”。
面对新科技发明应用到新闻传播领域一次次带来传播新变局的历史,面对智能科技迅速发展正在改变“我们发挥创造力的方式”的现实,面对新的范式是否正在到来的诘问,无论是研究者、实业界、管理层、决策者们,应当做什么样的准备,展开什么样的行动?
(一)以创新思维体悟、理解智能科技发展趋势。2023年1月11日阿里巴巴达摩院发布了2023年十大科技趋势,据报道是采用“巴斯德象限”研究思路,基于论文和专利的大数据“定量发散”,对产、学、研、用领域近百位专家深度访谈进行“定性收敛”,再从学术创新、技术突破、产业落地、市场需求等维度综合评估。
虽然从分列表达方式看其所预测十大科技趋势涉及多个领域和方面,但在笔者看来,其中几项与智能内容生成密切相关。其第一项是“多模态预训练大模型:基于多模态的预训练大模型将实现图文音统一知识表示,成为人工智能基础设施”,正如李克秋教授的分析,生成式AI模型“其核心源于算力的大幅提升,对‘大模型’(基座模型)认识的变化”。第七项是“双引擎智能决策:融合运筹优化和机器学习的双引擎智能决策”,这是否有助于解决王岚君研究员提出的“技术突破点,还是在逻辑、推理、决策上”?第八项是“计算光学成像:计算光学成像突破传统光学成像极限,将带来更具创造力和想象力的应用”。当初华为手机拍摄的月亮比有些相机还清晰,就引发对算法优化照片细节的关注。计算光学成像如果能突破传统光学成像极限,就会生成更引人关注、甚至大开脑洞的内容。第九项是“大规模城市数字孪生:城市数字孪生在大规模趋势基础上,继续向立体化、无人化、全局化方向演进”,这势必进一步推进元宇宙构想的落地,而“无人化”演进,也一定会与智能内容生成连结起来。第十项“生成式 AI”更是对智能内容生成技术的应用做了极为乐观的预测,认为“生成式AI进入应用爆发期,将极大推动数字化内容生产与创造”。
谨慎地看,即使生成式AI进入应用不是“爆发期”,而是规模明显扩大,是否也会“推动数字化内容生产与创造”?也会深刻影响数字内容生产,为数字内容创意实现提供更大创造空间?也会深刻影响传播格局?
在主流媒体智能传播科技应用水平较低的情况下,智能内容生成技术出现重要进展并被预测可能进入“应用爆发期”。这就需要包括智能传播科技、新闻传播研究与实务等多方面的研究者、实业界、管理层、决策者们为智能内容生成技术的进展和影响做应有的准备。“只有对前沿技术、颠覆性技术、以重大科技问题为导向的技术趋势及各领域的交叉融合建立深刻理解,才能实现我国整体科技水平从跟跑到领跑的战略性转变。”
(二)以效率思维创新整合、跨界运用现有科技手段。传统媒体与新媒体在传播效率、传播能力、资源运用、反馈能力等等方面存在巨大效率差,因而传播力、竞争力存在明显差距。智能科技应用于新闻传播领域内容采集、加工、分发、反馈等环节,又进一步放大了与没能运用智能科技的媒体、平台之间的效率差距与能力差距。
因此,这就必须以效率思维创新整合、跨界运用一切能够帮助提升整体与局部运行效率的现有和前沿科技手段。现有技术虽然不太前沿,但以创新方式与其他技术整合,把其他领域已经运用的技术跨界在传播领域运用,可以起到出人意料的效果。达摩院所预测的十大趋势中,第三项“存算一体”、第五项“软硬融合云计算体系架构”,第六项“端网融合的可预期网络”等,都体现了某种整合、融合。十年前算法被应用于信息分发,产生了智能分发平台,深刻改变新闻传播格局,也进入了智能时代。换一种眼光,今天依然有许多技术可以为新闻传播所用。比如,2019年《曼达洛人》基于LED背景墙和虚实同步摄像机、现场实时渲染拍摄等等的“虚拟制片”(Virtual Production)就大大提升了影视制作的效率。“虚拟制片”可在摄影棚内用最短拍摄时间完成前后景光照自然融合、媲美外景实地拍摄的镜头光影效果,节省大量外拍和后期视效成本。通过实时引擎,在拍摄现场实现“所见即所得”,给予摄制团队极大创作灵活性,同时大幅提升“片比”。虽然目前是应用在影视剧领域,但一些专题片等也开始利用这种拍摄制作方式。那么,这种技术整合运用于长中短视频是否可能,是否可以提升制作效率?对智能传播科技研究与应用而言,同样需要媒体的决策者、操作者们关注智能内容生成技术的发展与应用,并尽可能勇敢试用,赢得先机。
(三)以底线思维超前研究、规制智能内容生成的负面影响。对智能内容生成可能产生负面影响的警觉与监管更应超前研究、同步推进。这一方面要推动重点研发安全、可控、有伦理、负责任的智能内容生成技术,另一方面要构建相应规则体系以有效控制智能生成内容可能造成的不良影响。所幸,国家互联网信息办公室等三部门公布的《互联网信息服务深度合成管理规定》已自2023年1月10日起施行,为智能内容生成技术应用的监管提供了制度基础,并为在实践中完善提供了空间。