Stable Video Diffusion是Stability AI發(fa)布的視頻(pin)生成(cheng)大模型(xing),于2023年(nian)11月(yue)正式發(fa)布。
基于Stability AI原有(you)的Stable Diffusion文(wen)(wen)生(sheng)圖模型,Stable Video Diffusion可實現文(wen)(wen)生(sheng)視頻。
Stable Video Diffusion能夠適應各(ge)種(zhong)(zhong)下(xia)游(you)任務,包括多視圖合成(cheng),Stability AI計(ji)劃(hua)擴展這個(ge)基礎,建立各(ge)種(zhong)(zhong)模(mo)型(xing)。該模(mo)型(xing)以(yi)兩種(zhong)(zhong)形式發(fa)布,可以(yi)生成(cheng)14和(he)25幀的視頻,幀率(lv)可定制。
一、多階段訓練策略
Stable Video Diffusion采用了(le)多階段的(de)(de)(de)訓練(lian)策略,包括(kuo)文(wen)本(ben)到(dao)圖像的(de)(de)(de)預訓練(lian)、視(shi)頻(pin)(pin)預訓練(lian)以及高質(zhi)量(liang)視(shi)頻(pin)(pin)微調(diao)。這種分(fen)階段的(de)(de)(de)訓練(lian)方法使得(de)模型(xing)能夠逐步(bu)學習到(dao)從文(wen)本(ben)到(dao)圖像,再到(dao)視(shi)頻(pin)(pin)的(de)(de)(de)復雜映(ying)射關系,提(ti)高了(le)生(sheng)成視(shi)頻(pin)(pin)的(de)(de)(de)質(zhi)量(liang)和(he)準確性。
二、強大的基礎模型
該(gai)技(ji)術(shu)在訓練(lian)過程中,借助(zhu)精心(xin)準備的大(da)(da)規模數據集和系統化(hua)的策劃流程,構建了一個(ge)(ge)強大(da)(da)的基礎(chu)模型。這個(ge)(ge)基礎(chu)模型不(bu)僅為(wei)下(xia)游(you)任務提供(gong)了強大(da)(da)的運動表(biao)征,還具備多(duo)視(shi)圖3D先(xian)驗(yan)能力(li),為(wei)生(sheng)成多(duo)個(ge)(ge)視(shi)圖的對象提供(gong)基礎(chu)。
三(san)、高效的數(shu)據處理和(he)過濾策略(lve)
Stable Video Diffusion在數據處(chu)理方面采用了多種策(ce)(ce)略(lve),包括使用密集(ji)光流(liu)來注(zhu)釋數據集(ji)、應(ying)用光學(xue)字符(fu)識別(bie)來清除(chu)包含大量(liang)(liang)文本的(de)剪(jian)輯等。這(zhe)些策(ce)(ce)略(lve)有效地(di)提(ti)高了數據集(ji)的(de)質量(liang)(liang),去除(chu)了可能(neng)對模型性能(neng)產生負(fu)面影(ying)響的(de)示例(li)。同(tong)時(shi),通(tong)過CLIP嵌入來注(zhu)釋每個剪(jian)輯的(de)關(guan)鍵幀,進(jin)一步豐富了數據集(ji)的(de)信(xin)息量(liang)(liang)。
四、靈活的應用場景
由(you)于(yu)Stable Video Diffusion提供(gong)了強大的多視圖3D先(xian)驗(yan)和運動(dong)表征能力,它可(ke)以廣泛應用于(yu)各種場景,包(bao)括文本到(dao)視頻的生(sheng)(sheng)成、圖像(xiang)到(dao)視頻的生(sheng)(sheng)成以及(ji)對攝像(xiang)機運動(dong)特定的適應性等。此外,該模(mo)型還可(ke)以以前(qian)饋(kui)方式生(sheng)(sheng)成對象(xiang)的多個視圖,具有較小的算力需求和優(you)于(yu)基于(yu)圖像(xiang)方法的性能。
五、高質量的生成效(xiao)果
通過(guo)多階段的(de)訓練策略(lve)和精心準(zhun)備的(de)數據集,Stable Video Diffusion能夠生成(cheng)高質量、動作連貫且(qie)時間一致的(de)視頻(pin)內(nei)容。