可生成16秒视频的“中国版Sora”Vidu发布

作者:

文少

责任编辑:

刘沙

来源:

电脑商情在线

时间:

2024-04-28 12:04

关键字:

Vidu Sora 文生视频大模型 生数科技

  4月27日,在2024年中关村论坛年会的未来人工智能先锋论坛上,清华大学与北京生数科技有限公司联合发布了一款名为Vidu的文生视频大模型。

  该模型能够生成最长16秒的视频,并且在视频质量上可以与OpenAI早前发布的Sora大模型相媲美。

  Vidu的特点在于其“长时长、高一致性、高动态性”,它不仅能够生成复杂的动态镜头,还能在一段画面中实现远景、近景、中景、特写等不同镜头的切换,包括长镜头、追焦、转场等效果。同时,Vidu能够模拟真实物理世界,生成细节丰富且符合物理规律的场景,如合理的光影效果和细腻的人物表情。此外,Vidu还能够生成熊猫、龙等特有的中国元素。

  Vidu的生成方式是“一步到位”,即视频片段是连续生成的,不涉及中间插帧和其他多步骤处理。

  Vidu的核心技术U-ViT架构由生数科技团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个将Diffusion(扩散模型)与Transformer融合的架构。

  生数科技成立于2023年3月,核心团队来自清华大学人工智能研究院,还有来自北京大学和阿里巴巴、腾讯、字节跳动等多家科技公司的人才。2023年,生数科技完成来自多蚂蚁集团和锦秋基金的融资,今年完成了新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、BV百度风投和卓源亚洲跟投。

  生数科技正推进大模型的商业化落地,以API形势向B端机构提供模型能力,还有按照订阅形势收费的垂类应用产品,如视觉创意设计平台PixWeaver和3D资产创建工具VoxCraft等产品。目前生数科技已经与多家游戏公司、个人终端厂商、互联网平台等开展合作。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255