2022年6月,浪潮“源(yuan)(yuan)1.0”大模型(xing)登頂(ding)中文語言(yan)能力理(li)解(jie)和(he)生成(cheng)評測基(ji)準CUGE總(zong)榜(bang)榜(bang)首(shou),并獲得語言(yan)理(li)解(jie)(篇章級)、語言(yan)生成(cheng)、對話(hua)交互(hu)、多語言(yan)、數學推理(li)等5項(xiang)評測最佳成(cheng)績。這(zhe)是繼源(yuan)(yuan)1.0攬獲權威中文語言(yan)評測基(ji)準CLUE榜(bang)單的零樣本(ben)學習和(he)小樣本(ben)學習兩(liang)類總(zong)榜(bang)冠軍(jun)后,再次在評測中展現強(qiang)大實力。
CUGE(Chinese Language Understanding and Generation Evaluation)智(zhi)源指(zhi)數是由(you)清華(hua)大(da)學、北京大(da)學、北京智(zhi)源研究院(yuan)等高(gao)校機構(gou)共同建立的中文(wen)機器語言能(neng)(neng)(neng)力(li)評測(ce)基(ji)準(zhun),該基(ji)準(zhun)針(zhen)對(dui)當前(qian)自然語言處理和人工(gong)智(zhi)能(neng)(neng)(neng)發展新范式,面向具有(you)“通用語言能(neng)(neng)(neng)力(li)”的預訓練模(mo)型,全(quan)面系統、多層(ceng)次、多維度(du)地評測(ce)大(da)模(mo)型能(neng)(neng)(neng)力(li)。
源1.0領跑多類綜合語言場景
在(zai)語言理解(jie)(篇章級(ji))評測中(zhong),源(yuan)1.0僅用(yong)時(shi)11分鐘,便完成數(shu)千篇閱(yue)讀理解(jie)回(hui)答4000多個問題,以86.9高分的成績位居(ju)榜(bang)首,展現出頂尖的語言理解(jie)能(neng)(neng)力(li)。基于源(yuan)1.0大模(mo)型強大的閱(yue)讀理解(jie)能(neng)(neng)力(li)及(ji)高速(su)處(chu)(chu)理大量樣本的特(te)點,未來將加(jia)速(su)勞(lao)動密集型文本處(chu)(chu)理等行(xing)業變革,如(ru)應用(yong)于智(zhi)能(neng)(neng)客服根據用(yong)戶提供的信息在(zai)產(chan)品文檔中(zhong)快速(su)找到解(jie)決(jue)方案(an)及(ji)智(zhi)能(neng)(neng)司(si)法、智(zhi)能(neng)(neng)招聘系統等。
在(zai)語言生(sheng)(sheng)成評測中,源(yuan)1.0僅用時70秒,就(jiu)完成近800條摘要內容的(de)生(sheng)(sheng)成,登頂該項(xiang)榜單。源(yuan)大模型(xing)強(qiang)大的(de)文(wen)本(ben)(ben)生(sheng)(sheng)成能(neng)(neng)(neng)力可提(ti)升智能(neng)(neng)(neng)問(wen)答與對(dui)話(hua)、新聞摘要、報告(gao)生(sheng)(sheng)成等場(chang)景(jing)中AI智能(neng)(neng)(neng)化(hua)水平,如從長篇幅(fu)的(de)新聞資訊等文(wen)本(ben)(ben)中提(ti)取出簡明扼要的(de)文(wen)字(zi)描述,便于及(ji)時、高效的(de)獲取有價值的(de)信息(xi)及(ji)智能(neng)(neng)(neng)文(wen)案、協助寫作等場(chang)景(jing)。
在多語(yu)言機器翻(fan)譯(yi)評測中,基于源1.0大(da)模(mo)型(xing)蒸餾出來的翻(fan)譯(yi)模(mo)型(xing)在完成近4000千對中英文(wen)(wen)互譯(yi)后,登(deng)頂榜首,領先(xian)第二(er)名15%。翻(fan)譯(yi)模(mo)型(xing)在基于源1.0大(da)模(mo)型(xing)閱讀的海量(liang)高質量(liang)數(shu)據集基礎上,采用(yong)(yong)維基百科、書(shu)籍、聯(lian)合國文(wen)(wen)件及字幕組等近80G高質量(liang)數(shu)據集進(jin)行(xing)強化訓(xun)練,因此翻(fan)譯(yi)不僅專業準確,同時更符合中文(wen)(wen)表述。未來可廣泛應用(yong)(yong)于新聞、哲學(xue)、小說(shuo)等日常的語(yu)言翻(fan)譯(yi)場(chang)景(jing)中。
在(zai)對(dui)(dui)話(hua)交互評測(ce)中(zhong),基于(yu)源(yuan)1.0大模(mo)型(xing)蒸餾出來的對(dui)(dui)話(hua)模(mo)型(xing)回答了(le)電(dian)影、音樂、旅行(xing)3個(ge)領域共近萬個(ge)主題對(dui)(dui)話(hua),成績位居榜(bang)首(shou),領先第二名成績30%,展現了(le)極(ji)強的智能(neng)對(dui)(dui)話(hua)能(neng)力。在(zai)繼承(cheng)源(yuan)1.0大模(mo)型(xing)能(neng)力的基礎上,對(dui)(dui)話(hua)模(mo)型(xing)采(cai)用(yong)了(le)2660萬條(tiao)醫療(liao)、法律(lv)、保險等不(bu)同行(xing)業(ye),歷史、電(dian)影、娛樂等不(bu)同場景的對(dui)(dui)話(hua)語料數(shu)據進行(xing)強化(hua)訓(xun)練,在(zai)知識問答、高(gao)頻閑聊(liao)等開(kai)放式任務上表現突出,此前已獲得業(ye)界(jie)權威測(ce)評WebQA開(kai)放問答數(shu)據集(ji)榜(bang)單冠軍(jun)。
當前(qian),智(zhi)能(neng)對(dui)話(hua)(hua)普遍存在內容(rong)乏味、主題(ti)不連貫等問題(ti),往(wang)往(wang)幾(ji)輪對(dui)話(hua)(hua)后,回答便(bian)空洞重復,大(da)(da)大(da)(da)降低用(yong)(yong)戶體驗。知(zhi)識(shi)(shi)(shi)驅動的(de)對(dui)話(hua)(hua)模型直接連接到廣(guang)泛的(de)知(zhi)識(shi)(shi)(shi)庫,大(da)(da)大(da)(da)增加對(dui)話(hua)(hua)內容(rong)的(de)豐富度,在一(yi)(yi)定知(zhi)識(shi)(shi)(shi)背景下也不會(hui)偏題(ti),更趨向于人(ren)類之(zhi)間的(de)交談。不久前(qian),源開(kai)發(fa)者(zhe)社區的(de)一(yi)(yi)位開(kai)發(fa)者(zhe)基于源的(de)對(dui)話(hua)(hua)模型創(chuang)建了一(yi)(yi)位能(neng)與人(ren)類玩(wan)劇本殺(sha)的(de)AI虛擬玩(wan)家(jia),一(yi)(yi)位人(ren)類玩(wan)家(jia)與AI虛擬玩(wan)家(jia)聊天到深夜凌(ling)晨仍興趣盎然。以知(zhi)識(shi)(shi)(shi)驅動的(de)對(dui)話(hua)(hua)模型,可廣(guang)泛應用(yong)(yong)于各(ge)類虛擬人(ren)、智(zhi)能(neng)助手、智(zhi)能(neng)客服等場(chang)景,并極大(da)(da)提升(sheng)對(dui)話(hua)(hua)的(de)智(zhi)能(neng)水平和用(yong)(yong)戶體驗。
源1.0在數學推理鋒芒初露
當前業界(jie)各類大模型在(zai)(zai)自然語言處理(li)領(ling)域展(zhan)示出了強大的能力,但(dan)在(zai)(zai)數(shu)學(xue)領(ling)域卻還(huan)存在(zai)(zai)盲區(qu)。數(shu)學(xue)對(dui)邏輯和(he)推(tui)(tui)理(li)能力有極強的要(yao)求(qiu),Open AI開發出多種方法訓練GPT-3的數(shu)學(xue)推(tui)(tui)理(li)能力,但(dan)在(zai)(zai)挑戰(zhan)小學(xue)數(shu)學(xue)應用題時(shi),GPT-3也(ye)尚(shang)未(wei)及格(ge),數(shu)學(xue)推(tui)(tui)理(li)能力甚至(zhi)低于9-12歲兒(er)童。
為更好評測大模型(xing)(xing)邏輯推(tui)理能(neng)(neng)(neng)力(li)(li),CUGE專(zhuan)門設立了(le)數(shu)學(xue)(xue)推(tui)理能(neng)(neng)(neng)力(li)(li)榜(bang)單(dan),主要考察(cha)(cha)模型(xing)(xing)數(shu)值計算(suan)能(neng)(neng)(neng)力(li)(li),即考察(cha)(cha)對應用情景和任務的理解(jie)抽象能(neng)(neng)(neng)力(li)(li)以及(ji)數(shu)值計算(suan)能(neng)(neng)(neng)力(li)(li),類似(si)于小學(xue)(xue)數(shu)學(xue)(xue)應用題。數(shu)學(xue)(xue)推(tui)理能(neng)(neng)(neng)力(li)(li)榜(bang)單(dan)數(shu)據庫內的數(shu)學(xue)(xue)題來(lai)自(zi)在線教育(yu)網站(zhan)提供(gong)的小學(xue)(xue)數(shu)學(xue)(xue)應用題。
在CUGE數學推(tui)理評測中,源1.0大(da)模型(xing)完成(cheng)1000道小學數學應用題,以76.9的高分大(da)幅(fu)領先高居(ju)榜(bang)首。
為(wei)應對(dui)大(da)模型(xing)在(zai)數學(xue)(xue)(xue)推理方面的(de)挑(tiao)戰,浪潮為(wei)源1.0開(kai)發了(le)(le)一(yi)套相似啟發式數據增(zeng)強的(de)方案,給(gei)每(mei)一(yi)個(ge)要求解的(de)數學(xue)(xue)(xue)問題(ti)(ti)從數據庫中(zhong)檢(jian)索并匹配一(yi)個(ge)相似的(de)題(ti)(ti)目(mu)(mu)并與(yu)原題(ti)(ti)目(mu)(mu)進(jin)行(xing)拼接,通過(guo)類比(bi)學(xue)(xue)(xue)習(xi),啟發大(da)模型(xing)能夠根(gen)據兩道相似問題(ti)(ti)更好(hao)地學(xue)(xue)(xue)習(xi)如何給(gei)出解題(ti)(ti)表達式,進(jin)而學(xue)(xue)(xue)會(hui)每(mei)一(yi)類題(ti)(ti)目(mu)(mu)的(de)解法(fa),類似于(yu)(yu)人(ren)類在(zai)學(xue)(xue)(xue)習(xi)過(guo)程(cheng)中(zhong)會(hui)通過(guo)連(lian)續學(xue)(xue)(xue)習(xi)同(tong)(tong)一(yi)類型(xing)的(de)題(ti)(ti)目(mu)(mu)來(lai)提高對(dui)這一(yi)類型(xing)題(ti)(ti)目(mu)(mu)的(de)理解能力;同(tong)(tong)時,浪潮在(zai)源1.0改進(jin)了(le)(le)算法(fa)掩碼策略,使得模型(xing)在(zai)學(xue)(xue)(xue)習(xi)過(guo)程(cheng)中(zhong)只關(guan)注(zhu)于(yu)(yu)連(lian)續的(de)相似的(de)題(ti)(ti)目(mu)(mu),不受同(tong)(tong)一(yi)個(ge)輸入序列中(zhong)不相關(guan)題(ti)(ti)目(mu)(mu)的(de)影(ying)響,這樣模型(xing)可(ke)以(yi)更專注(zhu)于(yu)(yu)學(xue)(xue)(xue)習(xi)同(tong)(tong)一(yi)類型(xing)的(de)題(ti)(ti)目(mu)(mu),極大(da)地提升了(le)(le)解題(ti)(ti)準確度,全方面培養一(yi)個(ge)數學(xue)(xue)(xue)學(xue)(xue)(xue)霸。
源1.0開源開放計劃收效顯著
目前(qian),浪潮(chao)“源(yuan)(yuan)(yuan)1.0”已經將模(mo)(mo)型(xing)API、高質量數據集、模(mo)(mo)型(xing)訓練代碼、推理(li)代碼和應(ying)用(yong)代碼等等工具和能力開源(yuan)(yuan)(yuan)開放,超(chao)過300家行(xing)業用(yong)戶(hu)和開發(fa)者,通(tong)過“源(yuan)(yuan)(yuan)1.0”提供(gong)的數據和API顯著提升了(le)金(jin)融、互聯網、醫療(liao)和自動(dong)駕駛等行(xing)業應(ying)用(yong)的精度(du)。浪潮(chao)源(yuan)(yuan)(yuan)1.0將持續助力行(xing)業用(yong)戶(hu)和開發(fa)者,攜手(shou)推動(dong)技術創新、場(chang)景融合(he)、應(ying)用(yong)開發(fa),共同促進大模(mo)(mo)型(xing)的健康發(fa)展與產業落(luo)地,加速AI產業化(hua)和產業AI化(hua)發(fa)展。