频频上新！国产视频生成大模型迎多方布局

时间：2024-10-06 10:51 阅读量：8964 内容来源：华声在线

近段时间，多个国产视频生成大模型陆续上线、走向大众。在业内人士看来，视频生成技术在人工智能领域正日益受到重视，并且正在快速进步，未来可能会对影视制作、广告设计等多个领域产生深远影响。

日前，字节跳动旗下火山引擎发布了豆包视频生成模型，具有一致性多镜头生成、动态运镜、支持3D动画等功能。火山引擎方面介绍，全新设计的扩散模型训练方法，攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性。

在对话框输入“穿着滑冰鞋的小兔子在冰面上灵活移动的可爱场景”，随即一段高清、逼真的动画视频呈现在眼前——近日，通义万相发布视频生成模型。阿里云CTO周靖人介绍，该视频生成模型针对运动生成和物理模拟等难点优化算法，实现了大幅度主体运动和运镜控制，并有效模拟真实世界物理特性，可应用于影视创作、动画设计、广告设计等领域。

今年初，文生视频大模型Sora在全球人工智能业内外引发广泛关注。近期，快手、生数科技、智谱AI等多个中国科技企业自主研发的视频生成产品加速上线。

在业内人士看来，当前大模型已经具备文本、语音、视觉的多模态能力，能够开始完成复杂指令，技术快速迭代使其可用性大幅提升。

赛智产业研究院副院长邓道正对《经济参考报》记者表示，视频生成大模型的发展将对传媒娱乐、广告营销、教育培训、元宇宙等众多行业产生深远影响，有利于大幅降低短视频、直播、影视制作的成本和周期。

“例如，在影视制作领域，视频生成大模型可根据导演或编剧的创意需求，生成具有个性和创意的视频片段，为影视创作提供更多可能性；在广告宣传领域，视频生成大模型能够根据用户的兴趣和行为数据快速生成多种风格和主题的视频广告，满足不同客户的需求，实现精准投放和个性化推荐。”邓道正说。

不过不少业内人士也表示，国产视频生成大模型层出不穷，已解决了“有”的问题，需逐步向“优”进化。

生数科技联合创始人兼CEO唐家渝表示，视频生成大模型领域竞争激烈，尽管众多模型层出不穷，但普遍存在一个核心问题——可控性不足，或者叫一致性的不足。“在实际视频创作中，视频内容往往围绕特定对象展开，这些对象在视频中的形象需要保持连续一致。然而现有的视频模型往往难以实现这一点，常常是主体在生成过程中容易崩坏。尤其在涉及复杂动作和交互时，保持主体一致性更是一项挑战。”

邓道正认为，尽管我国视频生成大模型在技术上取得了显著进步，但生成的视频质量与连贯性仍有待提升，尤其是在处理复杂场景和动作时，模型容易出现画面崩坏、动作不连贯等问题。另外，模型对自然语言提示词的理解能力也有限，难以完全捕捉和表达用户的意图，生成结果具有很大的随机性，难以生成独特、新颖的视频内容。

火山引擎总裁谭待也表示，视频生成有很多难关亟待突破，豆包模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。

面向下一步发展，邓道正建议，加强技术创新与突破，要鼓励企业、高校和研究机构加强合作，加大在视频生成技术上的创新研发投入和人才培养，深入研究视频生成的核心算法和模型结构，包括图像生成、视频帧间关系处理、运动估计与补偿等，以提升视频生成的质量。加强高质量视频数据集建设，要支持广泛收集各类视频数据，以丰富数据集的规模和多样性，同时也要加强数据标注发展，提高数据的质量和可用性，确保数据集的准确性和完整性。拓展应用场景，要积极深入挖掘视频生成技术的应用场景，加强产业链上下游企业的合作，不断开发新的商业模式，共同推动视频生成技术的广泛应用和商业化发展。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。