营口焊闯人力资源有限公司营口焊闯人力资源有限公司

中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

4月27日,在中关(guān)村论坛未来人工智能先锋论坛上,生数科技联合清华大(dà)学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该模型采用团队原创的(de)Diffusion与Transformer融合的架(jià)构U-ViT,支(zhī)持(chí)一键(jiàn)生成长(zhǎng)达16秒、分辨率高达1080P的高(gāo)清视(shì)频内容。Vidu不仅能够模(mó)拟真实(shí)物理世界,还拥有丰富想象(xiàng)力(lì),具备多镜(jìng)头生成(chéng)、时空一致性高等特点。Vidu是自Sora发(fā)布之后全球率先取得重大突(tū)破的视频大模(mó)型,性(xìng)能全面对标国际顶尖水平,并在加(jiā)速迭(dié)代提升 中。

与Sora一致,Vidu能够根据提供的(de)文本描述直接生成长达16秒的高质量视频。除了 在时长方面的突破(pò)外,Vidu在视(shì)频效果(guǒ)方面实现显(xiǎn)著提升,主要体现在几个方面:第一、模拟真实物理世界:能(néng)够生成细(xì)节复杂的场景,且符合真实的(de)物理规律,例(lì)如合理的光影效果、细腻的人物表情等;第二、具有丰富想(xiǎng)象力:能够(gòu)生(shēng)成真(zhēn)实(shí)世界不(bù)存(cún)在的虚构画面,创造(zào)出具有深(shēn)度和复杂性的超现实主义内容;第三(sān)、多(duō)镜头语言:能够生成复杂的动态镜头,不再局限于简 单(dān)的(de)推 、拉、移等固定镜头,而是能够围绕统一主体在一段画面里(lǐ)就实现远景、近景、中景、特写(xiě)等不同镜头的切(qiè)换,包括能直接(jiē)生成长(zhǎng)镜头、追焦、转场等效(xiào)果,给视频注(zhù)入镜头(tóu)语(yǔ)言;第四、时空一致性高(gāo):在16秒的时长上保持连贯(guàn)流畅(chàng),随着镜头的移动,人物和场景在时间、空间(jiān)中能够保持(chí)一致;第五、理解中国元素:能够生成特有的(de)中国元(yuán)素,例如熊猫、龙等。

值得一提的是,短片(piàn)中的片段都是从头到尾连续生成,没有明显的(突传重磅!王传福最新发声!de)插帧现象(xiàng),从(cóng)这种“一镜到底”的表现能够推测出,Vidu采用的是“一步到位”的生成方(fāng)式,与Sora一样,文(wén)本(běn)到视频的转换是直接且连续(xù)的,在底层算法实现(xiàn)上是基于单一模型完全端到端生成,不涉及中间的插(chā)帧和其他多步(bù)骤的处理。 

Vidu的快速突破源(yuán)自于(yú)团队在贝叶斯机器(qì)学习和多模态(tài)大模型的长(zhǎng)期积累和多项原创性成果。其核心(xīn)技术(shù)U-ViT架构由团队于2022年9月提(tí)出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架(jià)构,完全由团队自(zì)主研发。

2023年3月(yuè),团队开源全球首个基于U-ViT架构的多模态 扩散大模型(xíng)UniDiffuser,在全球范围内率先(xiān)完成融合架构的(de)大(dà)规模可扩展性(xìng)(Scaling Law)验证。UniDiffuser是在大规模图文数据集(jí)LAION-5B上训练出的近10亿参数量模型,支持(chí)图文(wén)模态间的(de)任意(yì)生成和转换。在架构上,UniDiffuser比(bǐ)同样DiT架构的Stable Diffusion 3领先(xiān)了一年。

自今年(nián)2月Sora发布推出后,团队基于对U-ViT架(jià)构的深入(rù)理解以及(jí)长期积累的工程与数据经验,在短短两个月(yuè)进一步突破长视频表(biǎo)示(shì)与处 理关键技术(shù),研发推出Vidu视频大模(mó)型(xíng),显著提升视频的(de突传重磅!王传福最新发声!)连贯性与动态性。

从图文任务的统一到融合视频(pín)能力,作为通用视(shì)觉模型,Vidu能够(gòu)支持(chí)生成更加多样(yàng)化、更长时长的视频内(nèi)容,同时面向未来,灵活架构也将能够兼容(róng)更广(guǎng)泛的(de)模态,进(jìn)一步拓展多模态通用能力的边界。

Vidu的问世(shì),不仅是U-ViT融合架构突传重磅!王传福最新发声!在大规模视觉任(rèn)务中(zhōng)的又一次成功验证,也(yě)代表了生数科技在(zài)多模态原生大模型领域的持续创新能力和领先性。同时生数科技表示,大模型的突破(pò)是一(yī)个(gè)多(duō)维度、跨领域的综合性(xìng)过程,需要技术与产(chǎn)业应用的深(shēn)度融合。生(shēng)数科技(jì)正式(shì)推(tuī)出(chū)“Vidu大模型合作伙伴计划”,希望产业链上下游企业、研究(jiū)机构能一起加入,共同构建(jiàn)合(hé)作(zuò)生态。

校(xiào)对:廖胜超(chāo)

未经允许不得转载:营口焊闯人力资源有限公司 突传重磅!王传福最新发声!

评论

5+2=