新技术浪潮下的智能视听步入深度变革新阶段——2023年人工智能赋能网络视听产业观察报告

新闻聚焦admin2023-10-22668

新技术浪潮下的智能视听步入深度变革新阶段

——2023年人工智能赋能网络视听产业观察报告

2023年，生成式人工智能技术突破式发展，在全球范围内掀起热潮，通用大语言模型和垂直模型应用探索爆发式推进，人工智能对各行业的影响进一步加速。网络视听成为人工智能新技术加速应用的核心场景，围绕影视剧、短视频、网络直播等视听形态，在人工智能促进深度合成、视频修复及智能推荐等方面，涌现出诸多创新应用案例，推动智能视听逐渐步入深度变革新阶段。

中共中央总书记、国家主席、中央军委主席习近平近日对宣传思想文化工作作出重要指示强调，“新时代新征程，世界百年未有之大变局加速演进，中华民族伟大复兴进入关键时期，战略机遇和风险挑战并存，宣传思想文化工作面临新形势新任务，必须要有新气象新作为”。

网络视听作为我国文化产业的重要组成部分，在扎实推进社会主义文化强国建设中承担着全新使命。人工智能新技术的创新应用，对推动网络视听产业高质量发展具有重要作用。梳理典型案例，研判未来趋势，对智能视听发展意义重大。

一、人工智能赋能网络视听创新应用案例

2023年，生成式人工智能空前火爆，极大拓展了视听产品生产想象空间。人工智能技术的突破式发展与创新应用，给视听行业带来了“质量与效率”变革，推动视听产品实现更多创意、更高效率、更新体验与更高品质。

（一）综合视频：AI深度渗透产品创作，创造全新体验

2023年，随着AI大模型和多模态AI技术的融合发展，人工智能生成内容的创作能力、通用化能力以及工业化水平快速提升。影视创作中的AI前沿技术应用进入新阶段，贯通影视内容策划、开发、制作和宣发等各个环节。

杭州亚运会期间，央视网《大咖陪你看》节目首次探索将人工智能运用在内容采集、生产环节中。栏目组通过人工智能大模型智能分析每天最受关注的热点话题，向亚运选手们发起提问。除此之外，为了提升观众和运动员的互动参与感，《大咖陪你看》还与人工智能进行了内容共创，推出了《亚运颂诗》栏目，海报素材和文案灵感均由人工智能辅助生成，在社交媒体上吸引了众多用户参与共创，该栏目为中国跳水梦之队写下了“如飞似燕轻盈跃，十米悬落水不惊”的诗句。

影视制作公司和长视频平台方面，AI更全面渗透到内容生产、视频运营等各个环节，更多创作者探索通过“人工+AI”方式进行影视画面生产，尤其在一些动画电影中AI技术应用更加广泛。影视制作机构光线传媒相关负责人认为，“AI对动画电影主要环节效率的提升可能会达到50%，对整个动画电影制作的周期效率提升30%。”

视频平台爱奇艺在2023年第二季度财报中透露，大语言模型能力与多模态视频理解技术等AI技术已被应用到长视频的剧情理解、提炼等环节，实现了自动化批量产出拆条、解说、混剪等多类型视频内容及多元化图文内容。该技术目前对场景和人物拆解的准确率超过90%，有效提升了剧本评估、预算规划和资源管理等方面的效率。

业内普遍认为，虽然当前AI能在极短的时间内提供一个大致接近构想的作品，但当需要进一步精细化、风格化、个性化加工时，目前的AI工具仍无法做到。同时，AI的原创性不够，随着“生成—筛选”这一过程被不断重复，开始逐渐呈现出审美同质化等问题。作为创意产业，影视剧辅助生产所需要的AI工具不宜采用某种通用模型，而应走向垂直化、个性化模型。

（二）短视频：AI创作功能快速迭代，催生“超级生产者”

相对于专业的影视制作，AI技术在短视频方面的应用门槛相对更低。在生成式人工智能概念火爆之前，市面上已经有很多AI短视频制作工具，帮助降低短视频制作难度，如抖音官方视频剪辑软件“剪映”此前已经有AI图片转视频等功能。

在关键词自动提取、字幕自动生成等基本操作基础上，文本自动配音、文本转视频、数字人播报、个性化文案、多元风格等升级功能在2023年加速发展。

2023年10月3日，在杭州亚运会跳水比赛收官之际，央视网体育发布了一条由AI技术智能生成的短视频——《为智能亚运点赞全红婵和陈芋汐的每次对决都注定是一场“神仙打架”》。央视网借助能实现画面快速传输的“无影”云电脑、嵌入预设模版、匹配字幕等多项AI技术进行短视频内容的创制。该短视频不仅通过AI实现了高效智能检选创作素材，还可以对已有素材进行合理化剪辑和拼接，并利用大数据算法评估视频画面的传播潜力，即观众的“爱看”程度。同时，该短视频还运用了大语言模型和绘画创作大模型等AI产品，涉及的主要功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持以及辅助图片创作等。AI技术的应用提高了短视频的创作与传播效率，拉近了观众与赛场的距离。

《每日经济新闻》2022年12月推出AI短视频自动生成平台，实现了从文字创作到媒资库智能匹配，再到短视频自动生成，最后到多平台一键分发的全流程AI化。通过该平台，《每日经济新闻》完成了所有文字稿件的全量视频化。平台试运行期间，每经视频号和抖音号的日均播放量环比增长143%和17%；日净增粉丝数环比增长超过70%。日产视频达到200余条，产能相比之前实现了十多倍的增长。

随着AI技术发展，内容平台的服务能力迎来升级。以创作者的图文转视频需求为例，“剪映”为此推出“图文成片”功能，即输入一段文字，该平台会智能匹配图片素材，添加字幕、旁白和音乐，最终自动生成视频。快手旗下的视频剪辑类产品“快影”和功能拍摄类产品“一甜相机”，已于今年陆续内测包括“AI动漫视频”、“AI文案推荐”、“AI瞬息宇宙”、“AI简笔画”在内的多款创作功能。腾讯旗下短视频动画智创产品“玩句”、B站官方剪辑软件“必剪”等平台也提供了AI剪辑创作相关的功能。

作为创作基础工具的AI模型与产品、平台加速发展，初步获得可观的商业流量。据相关负责人2023年4月透露， “快影”的“一键成片”AI功能日均消费量超4.5亿，文案成片日均作品消费量超4000万。分析认为，AI未来将赋能个体，打造诸多短视频的“超级生产者”，从而为内容迭代和行业发展带来更多可能性。

（三）网络直播：数字人涌入直播间，丰富消费场景

2023年，人工智能技术进一步应用到电商直播、音乐会直播、体育直播等多种场景中，催生直播行业创新玩法，网络直播的消费场景和商业模式迎来新突破。

大批数字人虚拟主播涌入直播间带货，成为当前网络直播行业的火热景象。在直播电商流量和人力成本高涨的情况下，数字人直播成为不少平台和企业探索的方向。

2023年618电商促销节期间，京东推出虚拟主播产品。据京东战报显示，“开门红”开启10分钟，数字人直播间开播商家数较去年双11的增幅接近400%。雅诗兰黛、欧莱雅、宝洁等知名品牌均尝试接入虚拟主播服务于电商直播。

直播尤其是直播带货过程中引进虚拟主播优势明显。AI数字人主播具备专业过硬、情绪稳定、永不疲劳的特点，可以帮助企业大大降低人工成本和运营费用。不过，数字人直播目前处在发展应用的初期，受多方面因素制约，直播效果仍有待提升优化。数字人在一些平台的使用规则尚处于探索中，相关法律法规及细则也有待进一步明确和完善。

体育赛事直播方面，今年杭州亚运会期间，依托中国移动能力中台的智能字幕能力，咪咕智能字幕升级为低时延双行滚动字幕，并在原普通话解说字幕的基础上，首次推出了中国七大方言中的闽南语、粤语直播智能字幕，字幕中文准确率达92%，为提升用户观赛体验赋能。据了解，为实现更加精准的字幕转写服务，咪咕针对方言转写准确率普遍偏低、运动员姓名及运动专业术语易错等难题，运用了方言声学模型优化技术，并进行垂类翻译干预训练，让粤语、闽南语等不同解说语言的智能字幕均能准确呈现。

演唱会音乐会直播方面，利用视频修复等人工智能技术，不少年代久远的演唱会直播视频重新推出，引发了网民情感共振。此外，基于直播与元宇宙概念的结合，多家直播平台搭建沉浸式场景，探索更具颠覆性的社交方式和多元化的兴趣营销场景。

（四）网络音频：AI席卷“耳朵经济”，大模型重塑音频行业

2023年，部分垂直类音频平台通过引入AI大模型，促进了AI领域前沿技术在音频产业落地应用。

相比于图像和视频，AI技术进入音频行业的步伐虽相对较晚，但目前在语音识别、语音合成、语音互动、语音信号处理等领域中的应用已较为成熟。内容创作方面，AI提高音频内容生产效率，解放创作者的内容生产力，促进音频及播客创作生态的繁荣。语音交互方面，AI提高音频产品科技水平，提升消费者体验，满足用户多样化需求。

截至2023年初，喜马拉雅平台已通过AI技术创作有声书专辑超37000部，其中“单田芳声音重现”系列专辑总播放量超1亿次。2023年7月，喜马拉雅推出AI智能创作工具“云剪辑”，集合智能音量、智能配乐、音转文剪辑、AI分段、智能检测、一键成片等功能，目的是降低音频播客内容创作的门槛，提升创作效率。据介绍，喜马拉雅“云剪辑”的“音频转文字剪辑”功能，是利用AI技术把音频内容转成文字，创作者可以直接通过“看”对照文字，像编辑word文档一样剪辑音频，从而提高后期剪辑效率。“智能检测”功能则可以帮助创作者一键识别气口、口水音等，并将不需要的口癖等进行删除，不必再逐字逐句地剪辑。此外，“智能配乐、智能音量”功能，方便创作者通过AI为播客内容选择具备版权的并与内容匹配的音乐，对音频音量也能做到一键调节音量均衡、淡入淡出，提升创作效率。

在音乐领域，随着AI技术的成熟，AI变音、调音技术等得到应用推广，通过收集大量语音素材进行模型训练和后期处理，AI可以生成模仿不同音色翻唱的歌曲，B站、QQ音乐、网易云音乐等平台上逐渐涌现了一批使用AI技术模拟当红歌手翻唱歌曲的作品。如今年5月“AI孙燕姿”翻唱的作品凭借极具辨识度的音色以及对各种曲风的驾驭能力火爆全网。由此引发的版权问题引发讨论，一些机构积极探索版权问题解决方案。

分析认为，虽然利用AI技术生成音频可大幅减少时间和成本，提高生产效率和水平，但是AI在音频内容生产方面也存在一些局限性。AI无法模仿出真人特有的语调和情感，因技术因素限制在生成音视频时可能存在一些不真实的细节和瑕疵，需要不断改进和优化。

除了内容的生产创作，大模型还广泛应用于语音交互服务领域。国内音频企业荔枝主要将AI技术应用于机器人语音聊天方面，开发并上线AI聊天机器人应用产品，为用户提供在线AI对话等功能。2023年2月下旬，荔枝在其全球化声音社交产品内接入了AI大模型，推出人工智能聊天机器人模块，并在3月底推出了全新升级版的聊天机器人。该聊天机器人不仅能帮助用户创建在线理想好友，还能为用户提供更加个性化的AI聊天体验和广泛的互动场景，推动AI机器人与原有社交生态的有效融合，从而为用户提供更多情绪倾诉和情感陪伴价值。

分析认为，AI音频行业将快速实现商业化落地，并触发各细分应用场景全面变革。围绕音频生成、语音交互、识别翻译、个性化推荐等领域，其应用产品将覆盖在线办公、移动社交、广告营销、学校教育、体育比赛、居家养老等多元场景。

二、相关法规政策与行业规范

随着人工智能技术的进一步成熟和应用场景的扩展，人工智能创新应用给行业和全社会带来的治理挑战不容忽视。国家相关部门密集出台相关政策法规，推动人工智能技术合理有效利用，及时划定“底线”和“红线”。相关行业规范及平台自治规定陆续发布。

（一）人工智能相关法律法规与政策规定

2022年12月，国家互联网信息办公室、工业和信息化部、公安部联合发布《互联网信息服务深度合成管理规定》，该规定在《网络安全法》《个人信息保护法》等法律法规框架下，对使用深度合成技术提供互联网信息服务的情形提出了专门性、具体性要求。其中提到：深度合成服务提供者对使用其服务生成或编辑的信息内容，应当添加不影响使用的标识。提供智能对话、合成人声、人脸生成、沉浸式拟真场景等生成或者显著改变信息内容功能的服务的，应当进行显著标识，避免公众混淆或者误认。规定还要求，深度合成服务提供者建立健全管理制度和技术保障措施，制定公开管理规则、平台公约，对使用者进行真实身份信息认证，加强深度合成内容管理，建立健全辟谣机制和申诉、投诉、举报机制。

2023年4月，由广播电视人工智能应用国家广播电视总局重点实验室组织编制的《广播电视和网络视听深度伪造防范技术要求（2022版）》对外公示。该文件重点在深度伪造鉴别、面部识别、黑名单、深度伪造防范能力评估等方面提出要求，为广播电视和网络视听机构在内容审核、发布等环节提升深度伪造防范能力提供参考。

2023年7月，国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、国家广电总局公布《生成式人工智能服务管理暂行办法》（以下称《办法》），自2023年8月15日起施行。这是中国首次对生成式AI研发及服务作出明确规定。《办法》提出国家坚持发展和安全并重、促进创新和依法治理相结合的原则，采取有效措施鼓励生成式人工智能创新发展，对生成式人工智能服务实行包容审慎和分类分级监管，明确了提供和使用生成式人工智能服务的总体要求。

2023年9月，科技部、教育部、工信部等十个部门联合发布《科技伦理审查办法（试行）》，对科技伦理审查主体、审查程序、监督管理等内容作出明确规定。其中规定，从事生命科学、医学、人工智能等科技活动的单位，研究内容涉及科技伦理敏感领域的，应设立科技伦理(审查)委员会。

（二）相关标准规范与平台自治规定

2023年4月，中国移动通信联合会元宇宙产业工作委员会、中国通信工业协会区块链专业委员会等共同发布“关于元宇宙生成式人工智能（类ChatGPT）应用的行业提示”。该提示提出，要严格遵守国家及行业相关法律法规要求，增强合规谨慎经营的理念，全面提高风险管控水平；提供生成式人工智能服务应当真实准确客观多样，应采取相应措施防止生成虚假信息，不得上传或留存含有侵犯知识产权的内容，防止对生成式人工智能应用进行滥用，避免扰乱健康市场秩序等等。

2023年10月，全国信息安全标准化技术委员会官网发布《生成式人工智能服务安全基本要求》（征求意见稿），面向社会公开征求意见。这是国内首个专门面向生成式AI安全领域的规范意见稿，也是对今年7月推出的《生成式人工智能服务管理暂行办法》的支撑。该意见稿给出了生成式人工智能服务在安全方面的基本要求，包括语料安全、模型安全、安全措施、安全评估等，适用于面向我国境内公众提供生成式人工智能服务的提供者提高服务安全水平，或是提供者自行或委托第三方开展安全评估，也可为相关主管部门评判生成式人工智能服务的安全水平提供参考。

2023年5月，抖音发布《抖音关于人工智能生成内容的平台规范暨行业倡议》，针对人工智能生成的视频、图片和衍生的虚拟人直播，首次明确其在平台内的行为规范。其中提到，创作者、主播、用户、商家、广告主等平台生态参与者，在抖音应用生成式人工智能技术时，发布者应对人工智能生成内容进行显著标识，帮助其他用户区分虚拟与现实，特别是易混淆场景。此外，发布者需对人工智能生成内容产生的相应后果负责，无论内容是如何生成的；虚拟人需在平台进行注册，虚拟人技术使用者需实名认证。抖音还禁止用户利用生成式人工智能技术创作、发布侵权内容，包括但不限于肖像权、知识产权等。一经发现，平台将严格处罚。

三、未来发展趋势与建议

面对新形势新任务新使命，视听行业必须在人工智能等科技浪潮下抓住机遇，积极拓展创新应用，推动行业高质量发展。

(一)网络视听成为AI大模型垂直应用探索落地核心场景

当前，在通用大模型研发竞争加速的基础上，AI技术发展的重点未来将转向实用性和可持续性方向，关注如何将大模型与实际应用场景相结合，实现真正的商业化应用。垂直领域应用将是大模型的主战场，相关技术的飞速发展已在金融、零售、制造、物流等多个领域催生出商业价值，并将更广泛地赋能各行各业。

其中，网络视听始终是信息网络新技术创新应用的前沿领域，未来也将进一步成为大模型垂直应用探索落地的核心场景，推动网络视听生产方式变革，并融合VR等新技术发展，催生新业态新模式，最终重塑视听传播生态格局。

对于视听行业相关企业和平台来说，应积极加快产业布局，与人工智能企业开展深度合作，加快研发基于人工智能的视听新应用。针对技术发展的难点焦点问题，围绕相关产业发展与治理需求，主管部门应积极推动产学研用协同，推动行业在算力、算法、技术落地等方面的联合攻关，突破发展瓶颈。

（二）生成式人工智能迭代升级，打造视听行业深度变革新起点

目前，人工智能生成内容对于视听行业的影响直观体现在降低行业门槛、降低制作成本和提升生产力方面。同时，生成式人工智能技术的局限性仍比较突出，其算法和技术仍处于不断发展和完善的过程中，可靠性和普适性仍有待进一步提高。

另一方面，不能因当前的应用局限而忽视生成式人工智能对行业的深度变革影响。目前生成式人工智能的底层技术和产业生态已形成了新格局，未来在更多行业的海量应用场景有望打开。随着数据规模快速膨胀、算力性能不断提升以及人工智能算法不断发展，未来生成式人工智能能够替代内容创作者完成更多内容挖掘、素材查询调用等基础性劳动，创新内容生产范式，为更具艺术性和创造性的内容创作提供可能。

在此背景下，“平均水平的基础劳动”加速被取代，未来视听创作焦点更多转向高质量创意、艺术审美与内容共情，推动更高水平竞争。技术应用与生产范式的突破性创新，也将成为整个视听产业新变局的起点，推动视听形态、场景、体验、产业布局的多维变革，并对文化发展、社会交往等方面产生深远影响。这一过程中，除了提升对新技术应用的敏感性，还需提升对技术深刻、深远影响的认知水平，更好理解视听产业在新时期的角色使命。

（三）新技术交叉融合发展，助力“视听+”产业新生态

当前，人工智能新技术的发展演进不是单一升级，而是与5G、VR等新技术发展相互融合、多点突破，以技术的融合发展应用提升创新密度、解决复杂问题、丰富产品体验。正如人工智能的突破式发展，对元宇宙的真正“脱虚向实”将发挥关键作用，最终推动实现视听形态的升维创新重构。

另一方面，在“万物皆媒”的时代，视听作为一种低门槛、生活化的沟通方式，具备巨大的信息交流“基础设施”优势，使得网络视听行业不断与教育、健康、旅游、制造等各行业交叉融合发展，推动形成“大视听”的产业发展新生态。

随着技术融合与产业融合相互促进，跨模态、多元化、边界消融将成为重要特征。这一过程中，以系统思维布局新技术发展，打破阻碍竞争的壁垒至关重要。

（四）治理协调性有效性加强，AI治理框架逐步完善

在人工智能快速发展过程中，如何做好AI技术应用与治理的平衡，建立合理审慎的AI伦理和治理框架，塑造负责任的AI生态，越来越受到社会各界的重视。

在当前政策措施基础上，下一阶段围绕人工智能技术应用的敏捷治理、分类分级管理将进一步加强，人工智能治理体系逐步完善。在智能视听方面，尤其需要统筹推进“技术”监管与“内容”治理，实现发展与规范的动态平衡。近年来，我国颁布《网络信息内容生态治理规定》《网络数据安全管理条例（征求意见稿）》《互联网信息服务算法推荐管理规定》和《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等规定，从宏观上划定了人工智能技术发展的红线，但就细节而言，涉及应用安全、知识产权保护等探索尚处于起步阶段，仍需根据现实发展不断细化和完善。

行业共治在人工智能治理框架中的作用尤为重要。仍需倡导相关行业联盟、龙头企业、研究机构以及标准组织等发挥资源整合优势，围绕人工智能的合法合规应用和健康有序发展联合制定行业制度规范，共同打造人工智能良性发展生态。

2023年，面对人工智能新浪潮带来的巨大冲击，不少声音也提醒，技术催动的深远生态性变革尚需时日，产业仍需在喧嚣中沉淀发展、平稳落地，一方面防止“高估一项技术在短期内的影响”，另一方面防止“低估其在长期内的影响”，人工智能赋能视听行业的创新探索仍任重道远。

（本报告由人民网研究院出品。报告执笔人：人民网研究院研究员刘珊）

来源：人民网研究院