可生成16秒视频的“中国版Sora”Vidu发布
文少
责任编辑:刘沙
电脑商情在线
时间:2024-04-28 12:04
Vidu Sora 文生视频大模型 生数科技
4月27日,在2024年中关村论坛年会的未来人工智能先锋论坛上,清华大学与北京生数科技有限公司联合发布了一款名为Vidu的文生视频大模型。
该模型能够生成最长16秒的视频,并且在视频质量上可以与OpenAI早前发布的Sora大模型相媲美。
Vidu的特点在于其“长时长、高一致性、高动态性”,它不仅能够生成复杂的动态镜头,还能在一段画面中实现远景、近景、中景、特写等不同镜头的切换,包括长镜头、追焦、转场等效果。同时,Vidu能够模拟真实物理世界,生成细节丰富且符合物理规律的场景,如合理的光影效果和细腻的人物表情。此外,Vidu还能够生成熊猫、龙等特有的中国元素。
Vidu的生成方式是“一步到位”,即视频片段是连续生成的,不涉及中间插帧和其他多步骤处理。
Vidu的核心技术U-ViT架构由生数科技团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个将Diffusion(扩散模型)与Transformer融合的架构。
生数科技成立于2023年3月,核心团队来自清华大学人工智能研究院,还有来自北京大学和阿里巴巴、腾讯、字节跳动等多家科技公司的人才。2023年,生数科技完成来自多蚂蚁集团和锦秋基金的融资,今年完成了新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、BV百度风投和卓源亚洲跟投。
生数科技正推进大模型的商业化落地,以API形势向B端机构提供模型能力,还有按照订阅形势收费的垂类应用产品,如视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft等产品。目前生数科技已经与多家游戏公司、个人终端厂商、互联网平台等开展合作。