可生成16秒视频的“中国版Sora”Vidu发布

作者：

文少

责任编辑：

刘沙

来源：

电脑商情在线

时间：

2024-04-28 12:04

关键字：

Vidu Sora 文生视频大模型生数科技

　　4月27日，在2024年中关村论坛年会的未来人工智能先锋论坛上，清华大学与北京生数科技有限公司联合发布了一款名为Vidu的文生视频大模型。

　　该模型能够生成最长16秒的视频，并且在视频质量上可以与OpenAI早前发布的Sora大模型相媲美。

　　Vidu的特点在于其“长时长、高一致性、高动态性”，它不仅能够生成复杂的动态镜头，还能在一段画面中实现远景、近景、中景、特写等不同镜头的切换，包括长镜头、追焦、转场等效果。同时，Vidu能够模拟真实物理世界，生成细节丰富且符合物理规律的场景，如合理的光影效果和细腻的人物表情。此外，Vidu还能够生成熊猫、龙等特有的中国元素。

　　Vidu的生成方式是“一步到位”，即视频片段是连续生成的，不涉及中间插帧和其他多步骤处理。

　　Vidu的核心技术U-ViT架构由生数科技团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个将Diffusion（扩散模型）与Transformer融合的架构。

　　生数科技成立于2023年3月，核心团队来自清华大学人工智能研究院，还有来自北京大学和阿里巴巴、腾讯、字节跳动等多家科技公司的人才。2023年，生数科技完成来自多蚂蚁集团和锦秋基金的融资，今年完成了新一轮数亿元融资，由启明创投领投，达泰资本、鸿福厚德、智谱AI、BV百度风投和卓源亚洲跟投。

　　生数科技正推进大模型的商业化落地，以API形势向B端机构提供模型能力，还有按照订阅形势收费的垂类应用产品，如视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft等产品。目前生数科技已经与多家游戏公司、个人终端厂商、互联网平台等开展合作。