中国首个“Sora级”视频大模型发布一键生成可长达16秒-上游新闻汇聚向上的力量

微博

首页 > 数字经济 > 正文

中国首个“Sora级”视频大模型发布一键生成可长达16秒

2024-04-27 15:21:55　来源:上游新闻

今年初，文生视频大模型Sora的亮相引发行业高度关注。4月27日上午，在2024中关村论坛年会“未来人工智能先锋论坛”上，生数科技联合清华大学发布了中国首个长时长、高一致性、高动态性视频大模型Vidu。这意味着，可以完全对标Sora的中国自研视频大模型正式诞生。

视频大模型Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点，这也是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。

据介绍，这一模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率为1080P的高清视频内容。

从现场演示的效果来看，Vidu能够模拟真实的物理世界，能够生成细节复杂而且符合真实物理规律的场景。例如合理的光影效果、细腻的人物表情等，它丰富的想象力能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容，例如“画室里的一艘船正在海浪中驶向镜头”这样的场景。

此外，Vidu能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里实现远景、近景、中景、特写等不同镜头的切换。

作为中国自研视频大模型，Vidu还能理解中国元素，能够在视频中生成例如熊猫、龙等特有的中国元素。值得一提的是，短片中的片段都是从头到尾连续生成，没有明显的插帧现象。据介绍，Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术 U-ViT 架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。“在Sora发布后，我们发现刚好和我们的技术路线是高度一致的，这也让我们坚定地进一步推进了自己的研究。”清华大学人工智能研究院副院长、生数科技首席科学家朱军介绍。

自今年2月Sora发布推出后，团队基于对U-ViT 架构的深入理解以及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型，显著提升视频生成的连贯性与动态性。

上游新闻记者杨昕华北京报道

编辑：杨虹责编：张松涛,陈晶晶审核：冯飞

【免责声明】上游新闻客户端未标有“来源：上游新闻”或“上游新闻LOGO、水印的文字、图片、音频、视频”等稿件均为转载稿。如转载稿涉及版权等问题，请联系上游。

点击进入频道

汽车

教育

家居

楼市

视频