Sora,美(mei)國(guo)人工(gong)智能研(yan)究公(gong)司OpenAI發布的人工(gong)智能文生視頻(pin)大模(mo)型(xing)(但OpenAI并(bing)未(wei)單純將其視為(wei)視頻(pin)模(mo)型(xing),而是作為(wei)“世界模(mo)擬(ni)器(qi)”),于2024年(nian)2月15日(ri)(美(mei)國(guo)當(dang)地時間)正(zheng)式對外(wai)發布。
Sora這(zhe)一(yi)名(ming)稱源于日文“空”(そら sora),即(ji)天(tian)空之意,以示其無限的(de)創造潛力。其背后的(de)技術是在OpenAI的(de)文本到圖像生成(cheng)模型DALL-E基(ji)礎上(shang)開發(fa)而成(cheng)的(de)。
Sora可(ke)以根據用(yong)戶(hu)的(de)(de)文本提示創(chuang)建最長(chang)60秒的(de)(de)逼(bi)真(zhen)視頻,該模型了(le)解這些(xie)物(wu)體在(zai)物(wu)理(li)世(shi)(shi)界中(zhong)的(de)(de)存(cun)在(zai)方(fang)式,可(ke)以深度模擬真(zhen)實物(wu)理(li)世(shi)(shi)界,能生成具有多個(ge)角色(se)、包(bao)含特定(ding)運動的(de)(de)復(fu)雜場景。繼承了(le)DALL-E 3的(de)(de)畫質和遵循指令能力,能理(li)解用(yong)戶(hu)在(zai)提示中(zhong)提出(chu)的(de)(de)要(yao)求。
Sora對(dui)于需要制作視頻的(de)(de)藝術家(jia)、電影制片人或學生帶來無限可能(neng),其(qi)是OpenAI“教AI理(li)解和模擬運(yun)動中(zhong)的(de)(de)物理(li)世界(jie)”計劃的(de)(de)其(qi)中(zhong)一步,也標志著人工智能(neng)在理(li)解真(zhen)實世界(jie)場景并(bing)與之互動的(de)(de)能(neng)力方(fang)面實現(xian)飛躍。
2024年12月10日,OpenAI正式向用戶(hu)開放人工智能視(shi)頻生成模(mo)型Sora。12月18日,文生視(shi)頻大(da)模(mo)型Sora入選“2024全(quan)球(qiu)十(shi)大(da)工程成就”。
OpenAI在大模型領域的成功
2022年底,OpenAI正(zheng)式推出(chu)ChatGPT,這款由人工(gong)(gong)智能(neng)技術驅動的自然語言處理工(gong)(gong)具能(neng)夠通(tong)過學習和(he)理解人類的語言來進行對話。ChatGPT是OpenAI邁出(chu)的第一步,這款讓所有人都能(neng)體(ti)會到(dao)人工(gong)(gong)智能(neng)潛力(li)的現象級(ji)產品,展現出(chu)了(le)(le)文字對于過去人工(gong)(gong)智能(neng)的理解力(li)和(he)邏輯能(neng)力(li)的超越。隨(sui)后,OpenAI的開發重點(dian)逐步過渡到(dao)圖(tu)像的生成,Dall-E模型在(zai)生成圖(tu)像方(fang)面也獲得了(le)(le)重大突破。
視覺算法的進步
視覺算(suan)法近年(nian)來的突(tu)破(po)在(zai)泛化(hua)性(xing)、可提(ti)示(shi)性(xing)、生成(cheng)質量和穩定性(xing)等方(fang)面均取得了(le)進展,這預示(shi)著技術拐點的臨近以及爆款應用的涌現。特別是在(zai)3D資產生成(cheng)和視頻生成(cheng)領(ling)域(yu)(yu),由于擴(kuo)散算(suan)法的成(cheng)熟,這些領(ling)域(yu)(yu)受益匪淺(qian)。然而,與圖像生成(cheng)相比,3D資產和視頻生成(cheng)在(zai)數據和算(suan)法方(fang)面面臨的難(nan)點更多。
盡管如此,考慮(lv)到大型(xing)語言模型(xing)(LLM)對人工智能各領域的加速(su)作用以及已(yi)經(jing)出現的優秀開源模型(xing),2024年(nian)(nian)該行(xing)業有(you)望(wang)實現更大的發展(zhan)。在2023年(nian)(nian)末(mo)至(zhi)2024年(nian)(nian)初,Pika、HeyGen等人工智能生(sheng)成(cheng)的視頻應(ying)用逐漸(jian)受到關(guan)注,這(zhe)驗證(zheng)了多模態技術的持續(xu)進步與(yu)成(cheng)熟。但與(yu)此同時,民主倡(chang)導者和人工智能研(yan)究人員警告說,這(zhe)些工具已(yi)經(jing)被用來欺(qi)騙和欺(qi)騙民眾。
Sora在日語中是“天空(kong)”(そら)的意(yi)思,引(yin)申含義還有“自由”,象征著其無(wu)限的創(chuang)造潛力(li)。
Sora對于需要(yao)制(zhi)(zhi)作視頻的(de)(de)(de)藝術家、電(dian)影制(zhi)(zhi)片人或學生來(lai)說(shuo),都帶來(lai)了(le)無限可能(neng)。該模(mo)型可以深度模(mo)擬真實(shi)物理(li)(li)世(shi)界(jie),標(biao)志著人工(gong)智能(neng)在(zai)理(li)(li)解真實(shi)世(shi)界(jie)場(chang)景并與之互動的(de)(de)(de)能(neng)力(li)方面實(shi)現飛躍(yue),也(ye)被認為(wei)是(shi)實(shi)現通用人工(gong)智能(neng)(AGI)的(de)(de)(de)重要(yao)里程碑,通過不斷(duan)深入研究(jiu)和發(fa)展Sora等先進模(mo)型,有(you)望在(zai)未(wei)來(lai)實(shi)現更加智能(neng)、高效和多樣(yang)化的(de)(de)(de)視頻生成與處(chu)理(li)(li)技術。Sora的(de)(de)(de)推出讓AIGC(生成式人工(gong)智能(neng))再度成為(wei)行業焦(jiao)點,能(neng)否徹(che)底“顛覆”行業也(ye)成為(wei)輿論議(yi)論的(de)(de)(de)中心。
估值上漲
Sora發(fa)布(bu)后,OpenAI的估值(zhi)迅速上漲(有望(wang)超過800億美(mei)元,2023年ChatGPT發(fa)布(bu)不久(jiu)時其估值(zhi)約(yue)為290億美(mei)元),且文(wen)生視頻(pin)大(da)模(mo)型(xing)將會(hui)大(da)幅推動人工智能基礎設施的需求,英(ying)偉達、OpenAI、軟銀(yin)等巨頭公司(si)都(dou)被曝正在(zai)進行(xing)AI芯片的制造布(bu)局,英(ying)偉達也因大(da)模(mo)型(xing)訓練需要(yao)GPU算力支持而股(gu)價大(da)漲。與此同(tong)時,受Sora發(fa)布(bu)的影(ying)響,美(mei)國圖(tu)片供應商Shutterstock的股(gu)價大(da)跌(die)。
在(zai)中(zhong)國(guo),龍年開市第(di)一天(tian),Sora相關概念全線“爆(bao)發”,會(hui)暢通訊(xun)、當虹科技、萬興科技、易點(dian)天(tian)下(xia)、因賽集團、東(dong)方國(guo)信(xin)、數碼視訊(xun)、華揚聯眾、國(guo)脈(mo)文化等股票均大幅上漲,多(duo)家公司回應稱,將根(gen)據自身業(ye)務特點(dian),在(zai)文生(sheng)視頻技術落地、Sora應用等方面尋找突(tu)破(po)入口。
生產變革
浙商證(zheng)券(quan)預測,Sora及同類產品(pin)將(jiang)(jiang)參與到改變信(xin)息(xi)生(sheng)產和分發兩大環節的(de)進程中,PGC(專業生(sheng)產內容)將(jiang)(jiang)廣泛采用(yong)AI工(gong)具輔助(zhu)(zhu)生(sheng)產,UGC(用(yong)戶生(sheng)成(cheng)內容)將(jiang)(jiang)借助(zhu)(zhu)AI工(gong)具逐(zhu)步替(ti)代PGC。此間(jian),AI生(sheng)成(cheng)視頻工(gong)具的(de)商業化將(jiang)(jiang)提速(su)。
Sora可(ke)生成(cheng)一段長(chang)達(da)60秒(miao)的(de)(de)視(shi)頻,遠超(chao)市(shi)面同類AI產品(pin)視(shi)頻生成(cheng)時(shi)長(chang),60秒(miao)的(de)(de)視(shi)頻時(shi)長(chang),已經超(chao)過抖音等短(duan)視(shi)頻平(ping)(ping)臺(tai)的(de)(de)平(ping)(ping)均視(shi)頻時(shi)長(chang),Sora的(de)(de)誕(dan)生也為以后短(duan)視(shi)頻平(ping)(ping)臺(tai)的(de)(de)內容生產提供了(le)更大的(de)(de)可(ke)能性。
職業取代
截至(zhi)2024年2月,已有一些視(shi)覺藝(yi)術家、設計師和電影制作人(ren)以及OpenAI員工(gong)獲得了(le)Sora訪問權限,他們也已開始在社交(jiao)平臺不斷曬出使用Sora生(sheng)成的新作品,為人(ren)們展(zhan)示AI生(sheng)成視(shi)頻的創意可能。許多網(wang)友(you)稱“不少人(ren)要丟工(gong)作了(le)”,甚至(zhi)有人(ren)開始“悼(dao)念”一整個素材行業。
功能綜述
Sora可(ke)(ke)以快(kuai)速制(zhi)作最長(chang)一分鐘、準確(que)(que)反映用戶提示、可(ke)(ke)一鏡到(dao)底的(de)視頻(pin)(其他AI視頻(pin)工具(ju)還(huan)在突(tu)破幾秒內的(de)連貫(guan)性),視頻(pin)可(ke)(ke)以呈現“具(ju)有(you)多個角色、特定類(lei)型的(de)動作、以及主題和背景的(de)準確(que)(que)細節(jie)的(de)復(fu)雜場(chang)景”。
靜態圖生成視頻
Sora還具(ju)備根據靜(jing)態圖(tu)像(xiang)生(sheng)成視頻的能力(li),能夠讓(rang)圖(tu)像(xiang)內(nei)容動(dong)起來,并(bing)關注細節部分(fen),使得生(sheng)成的視頻更(geng)加生(sheng)動(dong)逼真(zhen),這一功(gong)能在動(dong)畫制(zhi)作、廣告(gao)設計(ji)等領(ling)域具(ju)有應用前(qian)景。
視頻擴展與缺失幀填充
Sora能夠獲取現(xian)有視(shi)(shi)頻并對(dui)其(qi)進行擴展或填充缺(que)失的(de)幀,這一功(gong)能在視(shi)(shi)頻編輯、電影特效(xiao)等領域具有應(ying)用(yong)(yong)前景,可以幫助用(yong)(yong)戶快速完成(cheng)視(shi)(shi)頻內容的(de)補充和完善。
連接視頻
可以使用Sora連接兩(liang)個輸(shu)入(ru)視頻,在具有完全不同主(zhu)題和(he)場景組成的視頻之間實現無縫(feng)過渡。
多幀預測生成
Sora是一種擴散(san)模(mo)型,具備從(cong)噪(zao)聲中生(sheng)成(cheng)完整視(shi)(shi)頻的能力,它生(sheng)成(cheng)的視(shi)(shi)頻一開始看起來像靜態(tai)噪(zao)音,通過多個步(bu)驟逐(zhu)漸去(qu)除噪(zao)聲后,視(shi)(shi)頻也從(cong)最初的隨機像素轉化為清晰(xi)的圖像場(chang)景,其能夠(gou)一次生(sheng)成(cheng)多幀(zhen)預測,確保(bao)畫面主體在暫時離開視(shi)(shi)野時仍保(bao)持一致(zhi)。
特殊架構
Sora采(cai)用(yong)與GPT模(mo)(mo)(mo)(mo)型(xing)(xing)相(xiang)似的(de)(de)(de)Transformer架構(gou),OpenAI用(yong)Transformer結構(gou)替代Diffusion模(mo)(mo)(mo)(mo)型(xing)(xing)中常用(yong)的(de)(de)(de)U-Net結構(gou),提升了原來Diffusion模(mo)(mo)(mo)(mo)型(xing)(xing)在(zai)深度和(he)寬度上的(de)(de)(de)可擴展(zhan)性,為視(shi)頻模(mo)(mo)(mo)(mo)型(xing)(xing)增加輸出時長(chang)奠定基礎。Transformer架構(gou)能夠處理(li)長(chang)序列數據,并通(tong)過自注(zhu)意(yi)力(li)(li)機制(zhi)捕捉數據中的(de)(de)(de)依賴關系,從(cong)而(er)提高模(mo)(mo)(mo)(mo)型(xing)(xing)的(de)(de)(de)生成能力(li)(li)。但為了解決Transformer架構(gou)在(zai)長(chang)文(wen)本和(he)高分(fen)辨率圖像(xiang)處理(li)上的(de)(de)(de)問題,擴散(san)模(mo)(mo)(mo)(mo)型(xing)(xing)采(cai)用(yong)更可擴展(zhan)的(de)(de)(de)狀(zhuang)態(tai)空間模(mo)(mo)(mo)(mo)型(xing)(xing)(SSM)主(zhu)干(gan)替代了傳統的(de)(de)(de)注(zhu)意(yi)力(li)(li)機制(zhi),從(cong)而(er)減少了算力(li)(li)需求,并能夠生成高分(fen)辨率圖像(xiang)。
重述提示詞
Sora借鑒(jian)DALL-E 3的“重述提示詞技術”,為視覺訓練數據生成(cheng)高(gao)度(du)描述性(xing)的標注,這使(shi)得模型能夠更忠實地遵循用戶的文本指令,生成(cheng)符合(he)用戶需求的視頻內容,同時也提高(gao)了模型的靈活性(xing)和可(ke)控性(xing)。
數據表示
OpenAI將視(shi)頻和(he)圖像表示為Patch,類似于GPT中的(de)token,這種(zhong)統一(yi)的(de)數(shu)據表示方式使得(de)Sora能夠在更(geng)廣泛(fan)的(de)視(shi)覺數(shu)據上進行訓練(lian),涵蓋不同的(de)持續時間、分辨率和(he)縱橫比,有助于模型學習到更(geng)豐富(fu)的(de)視(shi)覺特征,提(ti)高生成視(shi)頻的(de)質量和(he)多樣性。
原生規模訓練
Sora采用“原(yuan)(yuan)生規(gui)模(mo)訓練”,過往的(de)圖像和視頻生成通常(chang)會將視頻調(diao)整(zheng)為(wei)標準大小,但這樣(yang)(yang)會失去視頻的(de)原(yuan)(yuan)始長寬比和細節,而原(yuan)(yuan)生規(gui)模(mo)的(de)訓練方法可(ke)以帶(dai)來更(geng)好的(de)效果(guo)。Sora可(ke)以對各種尺(chi)(chi)寸和縱橫比的(de)視頻進行采樣(yang)(yang),允許直接為(wei)不同(tong)尺(chi)(chi)寸的(de)設(she)備創建內容,并快速原(yuan)(yuan)型化較低(di)分辨率的(de)內容。與(yu)將視頻裁剪為(wei)正方形的(de)模(mo)型相比,Sora可(ke)以生成更(geng)完整(zheng)、更(geng)美觀的(de)視頻。
故事板模版
Sora還包含一(yi)個名(ming)為故事板(Storyboard)的(de)選項(xiang),允許(xu)用(yong)(yong)戶(hu)通過它詳細描述希望視頻(pin)在(zai)不(bu)同時間(jian)點發生(sheng)(sheng)的(de)內容,從而更好地(di)指(zhi)導(dao)一(yi)系列片段的(de)生(sheng)(sheng)成,用(yong)(yong)戶(hu)可(ke)以瀏(liu)覽其他(ta)人創作的(de)視頻(pin)集錦(jin)。