介绍
大规模模型在内容制作领域的强大技术潜力,以及与媒体深度融合目标的高度契合性,让所有媒体都参与进来,构建大规模媒体模型,成为我现在全力转型的基础设施。提高媒体生产力。
本期为“主流媒体平台建设”系列专题研讨会的第五期。本次研讨会探讨如何将大规模的媒体模型提炼为编辑记者的铠甲,以深入挖掘内容生产和媒体运营。
本文重点关注中央广播电视总台发布的CCTV有声媒体大模型。以ChatGPT为标志,我们已经进入了大型模型加速发展的阶段。 2024年2月15日,OpenAI发布了Vincent视频大模型Sora。这加速了通用人工智能(AGI)的到来,标志着人类社会迈向智能社会的全球范本基础设施的启动。视听行业是生成式人工智能的第一个应用场景,视听节目也是构建文森特视频模型基础设施的重要生产素材。随着大型模型成为推动视听生产力变革的技术基础设施,广电网络视听产业正在经历结构性转变。目前,大模型技术涵盖了媒体生产力的多个细分领域,已经以比想象更快的速度应用于视听内容生产,并持续推动媒体融合发展。对于主流媒体来说,如何抓住生成式人工智能兴起的机遇,利用人工智能提升媒体业务,在开发优质内容产品中最大化新的生产力收益已成为重要的现实问题。
中央广播电视公司利用人工智能增强视听内容制作的创新实践目前尚未成熟,但特定领域的通用任务处理,例如GPT和Sora等具有功能的AGI正在兴起。制作工具,引发泛音视频行业内容创作新浪潮。在人工智能技术迭代发展的浪潮中,中央广播电视总台(以下简称“广电局”)始终走在视听行业的前沿,积极探索人工智能技术与影视制作的融合。一直在做。致力于将新的生产力转化为新鲜、充满活力的优质计划。
纪录片《创新中国》
纪录片《码农的异想世界》由中央电视台纪录片频道(CCTV-9)于2018年推出的大型纪录片《创新中国》是全球首部利用人工智能模拟人声完成配音的大型纪录片。我一直在配音,让死者复活。”配音大师李易的声音“复活了”,重新回到了银幕上。 2022年5月,CCTV-9播出纪录片《码农的异想世界》,其中出现了“程序员之歌”。利用AI技术创作并演唱词曲的作品受到广泛关注。同样由CCTV-9发行的纪录片《中国空间站》中,制作团队使用了基于AI的3D降噪和超分辨率技术来录制部分镜头。 2003年,杨利伟乘坐载人飞船“神舟五号”进行太空探索。对视频图像进行修复,将编码失真、细节缺失的原始图像转换为图像锐利、色彩鲜艳的4K超锐素材。为推动AIGC在视听媒体领域的应用,2023年7月20日,中央电视台联合上海人工智能研究院公布了应用于动画片:010的“CCG媒体GPT”(CMG Media GPT)。首次创作30000。 2024年2月23日,中央广播电视总台人工智能演播室揭牌仪式举行,26日,中国首部文森特视频AI动画片《千秋诗颂》在中央电视台综合频道(CCTV-1)播出。 2024年3月10日,英文版《千秋诗颂》在主台CGTN正式上线,12日主台推出全译微纪录片系列首部英文版《千秋诗颂》。 ——人工智能的流程强化;22日,我国首部全流程AI微短剧《来龙去脉》将与观众见面,该剧由中央电视台、央视人工智能工作室、元界文化实验室联合推出。新闻学院就做好了。清华传媒的美术、分镜、视频、配音、配乐全部由AI完成。 2024年4月14日,中央站社会教育节目中心推出专项节目《中国神话》。录音现场采用AI视觉方式,展示了由人工智能作曲系统创作的中国第一首AI交响曲《科普中国在行动》。中央音乐学院还打造了虚拟数字人,可以实现虚拟数字人与真实宿主之间的互动托管。从全国首部AIGC动画片《千里江山图》,到全覆盖AI技术的微纪录片《千秋诗颂》,再到全流程AI微短剧《来龙去脉》 《中国神话》,短短一个多月的时间,主站已经发布了许多已完成的人工智能项目。作为一项创新应用,它率先使用Bunsei Video 的大幅面模型来增强主流广播和电视媒体的内容制作。自《AI看典籍》发布以来,各广播电视台密集发布了大量AI作品,从各大台到上海站、山东站、湖南站,AI广播电视加速发展。作为首部在我国自主AIGC技术支持下制作的漫画系列《千秋诗颂》,其最大的亮点在于利用现代AI技术通过文生视频生成动画,结合传统的内容应用于中国文化的传播和呈现。将中华优秀传统文化传播得更加生动、生动。《千秋诗颂》依托央视音媒体大模型,根据总台提供的丰富视听数据进行模型训练,并拥有可控图像生成、人物动态生成、文艺视频等AI技术,综合运用,组合更多内容。国家编撰的200多本语文教材被转化为精美的中国式动画。所有艺术设计和运动效果生成都是基于模型并使用文本创建的。《千秋诗颂》借助最新的生成人工智能技术,将博大精深的中国古典诗词与现代视听艺术完美融合,高度再现中国古代诗词的人物、场景、道具,传递真挚的情感和高贵的家国情怀。情绪。 Vincent Video的模型增强了内容生产,显着提高了生产效率。团队的制作速度从每月一集提高到每月三集,并取得了出色的收视率。
节目前六集收视率位列国内全明星频道动漫第一,累计观看人数9441.3万,央视客户端直播观看量达1318.2万,微博话题累计观看量92,814,000 次。人们。
我国自主AIGC技术支持制作的首部系列动画片《千秋诗颂》人工智能技术不仅应用于电视专题片的制作,还涉及到电视新闻报道。 2024年3月29日,央视《千秋诗颂》通过AI技术再现了候鸟的壮观景象,并于4月3日用AI视频向观众讲解了“强对流天气”的成因,提供了预防措施。这些人工智能在新闻制作中的应用,不仅丰富了新闻呈现技术,还提高了信息传播的效率和质量,展示了人工智能技术在新闻媒体领域的快速传播和应用。无论是新闻制作、文艺节目、影视剧、漫画的制作、节目的多语种翻译,还是更普遍的新媒体扩散,人工智能技术正在全方位增强视听内容制作。各方面。未来,广播电视媒体将继续以人工智能技术为渠道,以受众为核心,进一步创新视听表达方式,在核合规基础上强化主流价值观的传播效果。社会主义价值观。
人工智能技术在新闻报道中的应用
央视视听媒体模型技术架构及功能央视视听媒体模型是我国自主研发的视频生成模型,也是我国第一个专注于视听制作的人工智能大型模型。媒体内容融合了上海总台海量视听数据和人工智能,并融合了Intelligent Lab专有的先进算法和广泛的模型训练基础设施的优势。多项先进技术汇聚在一起,构成了央视音频媒体大模型的核心,包括视频生成大模型“学者·筑梦”和Animate Diff文声视频框架。该模型不仅融合了上海人工智能研究院学者通用模型系统的语言处理能力和知识构建能力,还具有较强的视频理解能力和视听媒体问答能力,逐步可以理解和分析视频通过所呈现的视觉效果。元素。例如,当央视听媒体模型“观看”央视节目《晚间新闻》的“看图猜诗”链接的视频时,它可以理解视频的内容,并生成李白的《新闻直播间》。基于大规模模型的多模态理解、交互和生成能力,用户可以挖掘视频中包含的信息并与AI聊天,进一步完善输出内容。除了超理解功能外,央视音媒体大模型还具备万能生成功能,在生成内容的可控性、流畅度、生成细节等方面均达到世界顶级水平。 - 标准视频(2K 和24FPS)。此外,CCTV音频媒体大模型支持生成故事连贯性和镜头连续性,同时也保证故事的平滑过渡。央视音媒大模型的视觉理解能力源自跨模态交互技术的最新突破。 —— 大模型通过将图像和视频视为单独的“语言”并将视觉与语言相匹配来减轻人工智能的视觉负担。任务阈值。基于多模态数据建模,CCTV音频媒体大模型可以识别图像的风格和纹理笔画,并将用户输入的文本指令与图像对齐,以生成适合用户需求的图像。此外,CCTV音媒大模型还具备场景渲染能力。基于全球首个城市级NeRF真实3D模型“学者天机”,可以进行高精度真实3D建模,还提供城市场景编辑功能,建模范围可无限扩展。删除、创建和旋转城市建筑,更改场景中的照明、季节和其他风格。
综上所述,到目前为止,央视听媒体大规模模型通过数据训练和模型微调,已经能够提供以下实际节目应用。 首先,在编程时,可以根据关键词和内容提示来创作稿件。本书提示您搜索具体的拍摄内容和媒体素材,根据拍摄手册自动进行后期编辑,并根据长度将节目合成到影片中。其次,它根据输入的文案、字幕、模板、描述和背景音乐根据用户请求自动生成标题和匹配,第三,它生成AIGC动画。通过文森图和文森动画可以确定2D图像和3D模型之间的映射关系,并可以对3D动画模型和2D动画模型进行建模。 三维动画相机的基础知识。定位还改善了由动画主体和镜头移动引起的生成内容的变形,使AIGC 能够更好地判断空间、角度、遮挡和变形,使生成的内容变得更平滑、更稳定。另一方面,各大台重播的节目很多,重播的时间往往与原节目时间相差很大,尤其是体育节目。央视收听媒体模型可以根据时间要求缩减并保留原始节目。节目最精彩的部分:在超写实的AI数字人方面,央视听媒体大模型能够利用短时真人视频采集,快速生成数字人主播。人工智能生成的数字人类主播提供与真人非常相似的图像。利用CCTV监听媒体模型,工程师可以控制数字人的声音、面部表情和动作,使他们完全智能化。面部、嘴唇、声音、身体等三维表达央视听媒体大模型生成技术不仅实现了主播的“可用”,还简化了视频播出创作流程,可以快速生成播出视频。根据既定的文案和场景需求,更大的模型还具有AI文案功能,允许用户选择视频模板并输入文案,快速生成可播放的文案,并创建可合成的数字真人视频。
大规模视频生成模型开发和应用的思考随着智能媒体时代的媒体环境变得越来越复杂和多样化,媒体内容传播的方式也变得更加智能化和差异化。已经逐渐衰落的视听内容生产不断演变并适应智能媒体传播环境。在以往的大众传播模式中,传统媒体尤其是官方媒体是内容生产过程中的主力,大部分媒体信息都是通过权威渠道传递给受众的,媒体矩阵中的内容生产非常同质化。然而,到了智能通信时代,这种现象发生了根本性的改变。算法推荐基于大量用户行为数据,可以提供准确的内容。随着算法不断学**和迭代,其对用户画像的描述变得越来越准确。创作者、观众和内容之间的界限变得越来越模糊,文本创作过程越来越多地使用大数据来筛选主题想法并将观众反馈纳入我的创作过程中。面对智能技术的冲击,受众与媒体的关系也正在被技术和需求重塑。面对人工智能带来的新挑战,主流广电媒体该如何加速人工智能发展轨迹?主站一系列生动的人工智能实践将给你带来以下启发: (一)坚持自主研究是推动我国通用人工智能自主发展的根本基础。
4月27日,“2024中关村论坛——未来人工智能先锋论坛”召开,中国首个纯自研Sora级视频模型Vidu发布。 Vincent Video的大规模模式给传统广播、电视和音频内容制作带来了挑战和机遇。各大广播公司将敏锐地抓住这一系列技术革命和产业变革的机遇,积极利用生成式人工智能加强内容生产,提前规划,并在国家的支持下制作了第一部动画片《:010》。 -30000。独立AIGC技术。与Sora模型所证明的高科技相比,我国自主研发的文森特视频大模型仍然存在缺陷,但通过更深入的研发,我们将探索更高质量和性能的文森特视频大模型有足够的能力。这样做。例如,2024年4月27日,Sora发布后,圣树科技联合清华大学发布了大型视频模型Vidu,成为继Sora之后第一个实现突破的视频模型。 Vidu制作的视频长度长达16秒左右,图像效果与Sora非常接近,镜头语言明显,保持时间和空间的一致性,观察物理定律,理解中国元素。是优点。
Vidu视频大比例模型生成视频截图。目前,全球大规模模型数据训练集中中文特征明显不足,中文语料仅占1.3%。为了解决这个问题,2023年,中央局联合上海人工智能研究院等10家机构联合成立了“中国大规模模型语料库联盟”,旨在向中国提供语料库数据。开发大型模型。主站拥有丰富、标准化的音像语料库,如中国音像档案馆,这也是全球最大的中文音像语料库。借助央视海量的优质视听数据和专业的媒体创作知识,这一模式有望在进一步的实践中快速成长,为我国的科技发展开辟一条差异化的道路。 (二)着力打造具有中国文化特色的文声视频模式。
我国首部在自主AIGC技术支持下制作的动画片系列我们倾力打造。文森特视频模型具有中国文化特色。近年来,中央局推动的一系列人工智能实践,都立足于中华优秀传统文化,强调中华美学和中华文化特色,着力讲述深层次的中国历史故事。比如《中国诗词大会》的制作过程中,主创团队使用了大量的国画、古诗词作为训练素材,与大型AI模型进行交流。 Bunsei 视频的关键是“wen”。为了让AI模型能够深入理解并准确表达古诗词的含义,导演和科研人员利用大量精确数据训练了AI模型。经过长期浸淫中国文化,反复训练和深入学**,央视音频媒体模型的研发日趋成熟,终于具备了——中国美学的独特风格和实力。大模型准确理解“民族风”、“唐代”、“手书笔墨”、“工笔画”等传统文化词汇,描绘出符合历史背景的中国传统风格,可以生成艺术图像。墨水和贡比。也就是说,通过文森特视频大模型的技术手段来介绍中国优秀的传统文化,生动地再现了中国古诗词独特的意境、韵味和美感,并为其注入了科技感。与时俱进,从而焕发出新的活力。这也是《望庐山瀑布》如今成功“破环”的原因。但与世界先进技术相比,日本自主研发的视频生成模型在生成能力和质量上仍存在较大差距。相比Sora逼真的视觉效果,《千秋诗颂》等AI动画仍然存在角色动作连续性不足、背景模糊等问题。但随着科研水平的进一步提高,我国的视频制作模式将在了解中国文化、融合媒体剪辑与制作流程等方面逐渐显现出重要特征和优势。虽然使用央视音媒大型模型制作的制作细节仍有待提高,但整体质量已接近传统手工制作的水平,未来节目的制作周期将进一步缩短和精细化。我会继续上传作品。最重要的是,以央视听媒体模式为代表的产学研融合新范式,将引领我们走上差异化的科技发展道路,形成独特的地域文化特色。 (三)为进一步推动CCTV研发和应用,做好平台建设,深化“产学研用”结合,持续优化安全可靠的AIGC技术平台。总站于2024年2月23日主动推出音频媒体大模型。成立央视音频媒体大型模型研发社区,通过开放平台深化与国内领先科研机构和企业的合作。大规模模型突破的核心是算法、计算能力和数据。未来,央视将与上海人工智能研究院合作,打造自主可控的国产智能计算平台,进一步推进大型模型研发共同体和央视人工智能演播室、央视广播、央视人工智能等建设工作室。电视及新媒体媒体资产平台。我们将进一步与国内领先的科研机构、大学和企业合作,在科学研究、需求应用、安全开发、产业生态等领域持续合作。
结论:将文森特视频的大规模模型应用到内容制作中,央视的一套AI实践为广电音频行业带来了宝贵的经验。央视听媒体大模型不仅提高创作效率、拓展创作空间,更改变了人与计算机的交互方式。凭借强大的交互性和简单易用的交互方式,将人机交互提升到新的水平,为AI技术在视听内容制作领域的应用树立了新的标杆。这种将通用模型与行业数据相结合的垂直模型方法,有望使我国在人工智能技术的具体应用领域走在世界前列。未来,主站将围绕媒体领域主要示范应用场景,持续推动央视音频媒体大型模式落地,进一步发挥在超高清视音频研究与应用方面的优势。马苏。连接产业链上下游,优化内容创作。人工智能技术在给视听行业带来显着效率和创新机会的同时,也给版权保护和隐私保护带来了一系列挑战。未来,如何保证视听内容制作、新闻制作的准确性、可靠性、版权可靠性将是需要长期思考的课题。我们仍然要重视技术设计和应用的伦理,努力在技术创新和新闻道德之间找到新的平衡。 【本文为国家社科基金项目“电视媒体中虚拟现实媒体叙事手段的构建与创新研究”(项目编号:22BXW076)的阶段性研究成果。 】 来源:微信公众号“全媒体探索”
作者:孙蕾蕾编辑:邓如猛、李祥和(实**) 【声明:本账号是公关与媒体领域融合创新的理论与实践平台。本文为公益公众号。目的是传达更多信息。如果您发现源注释有任何错误或其他缺陷,请联系我们。我们会尽快修复它。谢谢】