浪潮“源1.0”大模型登頂中文語言能力評測基準CUGE榜首

本文章由注冊用戶熱點芝士上傳提供 2023-11-12 ☆ 評論 0

摘要：浪潮“源1.0”大模型登頂中文語言能力理解和生成評測基準CUGE總榜榜首，獲得語言理解（篇章級）、語言生成、對話交互、多語言、數學推理等5項評測最佳成績。這表現出浪潮在中文機器語言能力的強大實力。未來，浪潮源1.0將持續助力行業用戶和開發者，攜手推動技術創新、場景融合、應用開發，共同促進大模型的健康發展與產業落地，加速AI產業化和產業AI化發展。

2022年6月，浪潮“源(yuan)(yuan)1.0”大模型(xing)登頂(ding)中文語言(yan)能力理(li)解(jie)和(he)生成(cheng)評測基(ji)準CUGE總(zong)榜(bang)榜(bang)首(shou)，并獲得語言(yan)理(li)解(jie)（篇章級）、語言(yan)生成(cheng)、對話(hua)交互(hu)、多語言(yan)、數學推理(li)等5項(xiang)評測最佳成(cheng)績。這(zhe)是繼源(yuan)(yuan)1.0攬獲權威中文語言(yan)評測基(ji)準CLUE榜(bang)單的零樣本(ben)學習和(he)小樣本(ben)學習兩(liang)類總(zong)榜(bang)冠軍(jun)后，再次在評測中展現強(qiang)大實力。

CUGE(Chinese Language Understanding and Generation Evaluation)智(zhi)源指(zhi)數是由(you)清華(hua)大(da)學、北京大(da)學、北京智(zhi)源研究院(yuan)等高(gao)校機構(gou)共同建立的中文(wen)機器語言能(neng)(neng)(neng)力(li)評測(ce)基(ji)準(zhun)，該基(ji)準(zhun)針(zhen)對(dui)當前(qian)自然語言處理和人工(gong)智(zhi)能(neng)(neng)(neng)發展新范式，面向具有(you)“通用語言能(neng)(neng)(neng)力(li)”的預訓練模(mo)型，全(quan)面系統、多層(ceng)次、多維度(du)地評測(ce)大(da)模(mo)型能(neng)(neng)(neng)力(li)。

源1.0領跑多類綜合語言場景

在(zai)語言理解(jie)(篇章級(ji))評測中(zhong)，源(yuan)1.0僅用(yong)時(shi)11分鐘，便完成數(shu)千篇閱(yue)讀理解(jie)回(hui)答4000多個問題，以86.9高分的成績位居(ju)榜(bang)首，展現出頂尖的語言理解(jie)能(neng)(neng)力(li)。基于源(yuan)1.0大模(mo)型強大的閱(yue)讀理解(jie)能(neng)(neng)力(li)及(ji)高速(su)處(chu)(chu)理大量樣本的特(te)點，未來將加(jia)速(su)勞(lao)動密集型文本處(chu)(chu)理等行(xing)業變革，如(ru)應用(yong)于智(zhi)能(neng)(neng)客服根據用(yong)戶提供的信息在(zai)產(chan)品文檔中(zhong)快速(su)找到解(jie)決(jue)方案(an)及(ji)智(zhi)能(neng)(neng)司(si)法、智(zhi)能(neng)(neng)招聘系統等。

在(zai)語言生(sheng)(sheng)成評測中，源(yuan)1.0僅用時70秒，就(jiu)完成近800條摘要內容的(de)生(sheng)(sheng)成，登頂該項(xiang)榜單。源(yuan)大模型(xing)強(qiang)大的(de)文(wen)本(ben)(ben)生(sheng)(sheng)成能(neng)(neng)(neng)力可提(ti)升智能(neng)(neng)(neng)問(wen)答與對(dui)話(hua)、新聞摘要、報告(gao)生(sheng)(sheng)成等場(chang)景(jing)中AI智能(neng)(neng)(neng)化(hua)水平，如從長篇幅(fu)的(de)新聞資訊等文(wen)本(ben)(ben)中提(ti)取出簡明扼要的(de)文(wen)字(zi)描述，便于及(ji)時、高效的(de)獲取有價值的(de)信息(xi)及(ji)智能(neng)(neng)(neng)文(wen)案、協助寫作等場(chang)景(jing)。

在多語(yu)言機器翻(fan)譯(yi)評測中，基于源1.0大(da)模(mo)型(xing)蒸餾出來的翻(fan)譯(yi)模(mo)型(xing)在完成近4000千對中英文(wen)(wen)互譯(yi)后，登(deng)頂榜首，領先(xian)第二(er)名15%。翻(fan)譯(yi)模(mo)型(xing)在基于源1.0大(da)模(mo)型(xing)閱讀的海量(liang)高質量(liang)數(shu)據集基礎上，采用(yong)(yong)維基百科、書(shu)籍、聯(lian)合國文(wen)(wen)件及字幕組等近80G高質量(liang)數(shu)據集進(jin)行(xing)強化訓(xun)練，因此翻(fan)譯(yi)不僅專業準確，同時更符合中文(wen)(wen)表述。未來可廣泛應用(yong)(yong)于新聞、哲學(xue)、小說(shuo)等日常的語(yu)言翻(fan)譯(yi)場(chang)景(jing)中。

在(zai)對(dui)(dui)話(hua)交互評測(ce)中(zhong)，基于(yu)源(yuan)1.0大模(mo)型(xing)蒸餾出來的對(dui)(dui)話(hua)模(mo)型(xing)回答了(le)電(dian)影、音樂、旅行(xing)3個(ge)領域共近萬個(ge)主題對(dui)(dui)話(hua)，成績位居榜(bang)首(shou)，領先第二名成績30%，展現了(le)極(ji)強的智能(neng)對(dui)(dui)話(hua)能(neng)力。在(zai)繼承(cheng)源(yuan)1.0大模(mo)型(xing)能(neng)力的基礎上，對(dui)(dui)話(hua)模(mo)型(xing)采(cai)用(yong)了(le)2660萬條(tiao)醫療(liao)、法律(lv)、保險等不(bu)同行(xing)業(ye)，歷史、電(dian)影、娛樂等不(bu)同場景的對(dui)(dui)話(hua)語料數(shu)據進行(xing)強化(hua)訓(xun)練，在(zai)知識問答、高(gao)頻閑聊(liao)等開(kai)放式任務上表現突出，此前已獲得業(ye)界(jie)權威測(ce)評WebQA開(kai)放問答數(shu)據集(ji)榜(bang)單冠軍(jun)。

當前(qian)，智(zhi)能(neng)對(dui)話(hua)(hua)普遍存在內容(rong)乏味、主題(ti)不連貫等問題(ti)，往(wang)往(wang)幾(ji)輪對(dui)話(hua)(hua)后，回答便(bian)空洞重復，大(da)(da)大(da)(da)降低用(yong)(yong)戶體驗。知(zhi)識(shi)(shi)(shi)驅動的(de)對(dui)話(hua)(hua)模型直接連接到廣(guang)泛的(de)知(zhi)識(shi)(shi)(shi)庫，大(da)(da)大(da)(da)增加對(dui)話(hua)(hua)內容(rong)的(de)豐富度，在一(yi)(yi)定知(zhi)識(shi)(shi)(shi)背景下也不會(hui)偏題(ti)，更趨向于人(ren)類之(zhi)間的(de)交談。不久前(qian)，源開(kai)發(fa)者(zhe)社區的(de)一(yi)(yi)位開(kai)發(fa)者(zhe)基于源的(de)對(dui)話(hua)(hua)模型創(chuang)建了一(yi)(yi)位能(neng)與人(ren)類玩(wan)劇本殺(sha)的(de)AI虛擬玩(wan)家(jia)，一(yi)(yi)位人(ren)類玩(wan)家(jia)與AI虛擬玩(wan)家(jia)聊天到深夜凌(ling)晨仍興趣盎然。以知(zhi)識(shi)(shi)(shi)驅動的(de)對(dui)話(hua)(hua)模型，可廣(guang)泛應用(yong)(yong)于各(ge)類虛擬人(ren)、智(zhi)能(neng)助手、智(zhi)能(neng)客服等場(chang)景，并極大(da)(da)提升(sheng)對(dui)話(hua)(hua)的(de)智(zhi)能(neng)水平和用(yong)(yong)戶體驗。

源1.0在數學推理鋒芒初露

當前業界(jie)各類大模型在(zai)(zai)自然語言處理(li)領(ling)域展(zhan)示出了強大的能力，但(dan)在(zai)(zai)數(shu)學(xue)領(ling)域卻還(huan)存在(zai)(zai)盲區(qu)。數(shu)學(xue)對(dui)邏輯和(he)推(tui)(tui)理(li)能力有極強的要(yao)求(qiu)，Open AI開發出多種方法訓練GPT-3的數(shu)學(xue)推(tui)(tui)理(li)能力，但(dan)在(zai)(zai)挑戰(zhan)小學(xue)數(shu)學(xue)應用題時(shi)，GPT-3也(ye)尚(shang)未(wei)及格(ge)，數(shu)學(xue)推(tui)(tui)理(li)能力甚至(zhi)低于9-12歲兒(er)童。

為更好評測大模型(xing)(xing)邏輯推(tui)理能(neng)(neng)(neng)力(li)(li)，CUGE專(zhuan)門設立了(le)數(shu)學(xue)(xue)推(tui)理能(neng)(neng)(neng)力(li)(li)榜(bang)單(dan)，主要考察(cha)(cha)模型(xing)(xing)數(shu)值計算(suan)能(neng)(neng)(neng)力(li)(li)，即考察(cha)(cha)對應用情景和任務的理解(jie)抽象能(neng)(neng)(neng)力(li)(li)以及(ji)數(shu)值計算(suan)能(neng)(neng)(neng)力(li)(li)，類似(si)于小學(xue)(xue)數(shu)學(xue)(xue)應用題。數(shu)學(xue)(xue)推(tui)理能(neng)(neng)(neng)力(li)(li)榜(bang)單(dan)數(shu)據庫內的數(shu)學(xue)(xue)題來(lai)自(zi)在線教育(yu)網站(zhan)提供(gong)的小學(xue)(xue)數(shu)學(xue)(xue)應用題。

在CUGE數學推(tui)理評測中，源1.0大(da)模型(xing)完成(cheng)1000道小學數學應用題，以76.9的高分大(da)幅(fu)領先高居(ju)榜(bang)首。

為(wei)應對(dui)大(da)模型(xing)在(zai)數學(xue)(xue)(xue)推理方面的(de)挑(tiao)戰，浪潮為(wei)源1.0開(kai)發了(le)(le)一(yi)套相似啟發式數據增(zeng)強的(de)方案，給(gei)每(mei)一(yi)個(ge)要求解的(de)數學(xue)(xue)(xue)問題(ti)(ti)從數據庫中(zhong)檢(jian)索并匹配一(yi)個(ge)相似的(de)題(ti)(ti)目(mu)(mu)并與(yu)原題(ti)(ti)目(mu)(mu)進(jin)行(xing)拼接，通過(guo)類比(bi)學(xue)(xue)(xue)習(xi)，啟發大(da)模型(xing)能夠根(gen)據兩道相似問題(ti)(ti)更好(hao)地學(xue)(xue)(xue)習(xi)如何給(gei)出解題(ti)(ti)表達式，進(jin)而學(xue)(xue)(xue)會(hui)每(mei)一(yi)類題(ti)(ti)目(mu)(mu)的(de)解法(fa)，類似于(yu)(yu)人(ren)類在(zai)學(xue)(xue)(xue)習(xi)過(guo)程(cheng)中(zhong)會(hui)通過(guo)連(lian)續學(xue)(xue)(xue)習(xi)同(tong)(tong)一(yi)類型(xing)的(de)題(ti)(ti)目(mu)(mu)來(lai)提高對(dui)這一(yi)類型(xing)題(ti)(ti)目(mu)(mu)的(de)理解能力；同(tong)(tong)時，浪潮在(zai)源1.0改進(jin)了(le)(le)算法(fa)掩碼策略，使得模型(xing)在(zai)學(xue)(xue)(xue)習(xi)過(guo)程(cheng)中(zhong)只關(guan)注(zhu)于(yu)(yu)連(lian)續的(de)相似的(de)題(ti)(ti)目(mu)(mu)，不受同(tong)(tong)一(yi)個(ge)輸入序列中(zhong)不相關(guan)題(ti)(ti)目(mu)(mu)的(de)影(ying)響，這樣模型(xing)可(ke)以(yi)更專注(zhu)于(yu)(yu)學(xue)(xue)(xue)習(xi)同(tong)(tong)一(yi)類型(xing)的(de)題(ti)(ti)目(mu)(mu)，極大(da)地提升了(le)(le)解題(ti)(ti)準確度，全方面培養一(yi)個(ge)數學(xue)(xue)(xue)學(xue)(xue)(xue)霸。

源1.0開源開放計劃收效顯著

目前(qian)，浪潮(chao)“源(yuan)(yuan)(yuan)1.0”已經將模(mo)(mo)型(xing)API、高質量數據集、模(mo)(mo)型(xing)訓練代碼、推理(li)代碼和應(ying)用(yong)代碼等等工具和能力開源(yuan)(yuan)(yuan)開放，超(chao)過300家行(xing)業用(yong)戶(hu)和開發(fa)者，通(tong)過“源(yuan)(yuan)(yuan)1.0”提供(gong)的數據和API顯著提升了(le)金(jin)融、互聯網、醫療(liao)和自動(dong)駕駛等行(xing)業應(ying)用(yong)的精度(du)。浪潮(chao)源(yuan)(yuan)(yuan)1.0將持續助力行(xing)業用(yong)戶(hu)和開發(fa)者，攜手(shou)推動(dong)技術創新、場(chang)景融合(he)、應(ying)用(yong)開發(fa)，共同促進大模(mo)(mo)型(xing)的健康發(fa)展與產業落(luo)地，加速AI產業化(hua)和產業AI化(hua)發(fa)展。

標簽： 浪潮inspur 服務器機頂盒服務器機柜工作站

網站提醒和聲明

本站為注冊用戶提(ti)(ti)供(gong)信(xin)息存儲(chu)空間服務，非“MAIGOO編輯上(shang)傳(chuan)提(ti)(ti)供(gong)”的(de)文章/文字均是(shi)注冊用戶自主發(fa)布(bu)上(shang)傳(chuan)，不代表本站觀點，版(ban)權歸原作者所有(you)，如有(you)侵權、虛(xu)假(jia)信(xin)息、錯誤信(xin)息或任何(he)問題，請及時(shi)聯系我(wo)們，我(wo)們將在第一時(shi)間刪除或更正。申請刪除>> 糾錯>> 投訴侵權>> 網頁(ye)上相關信(xin)息的知識產權歸網站方所有(you)(包括但不限于文字、圖片、圖表、著作權、商標(biao)權、為用戶(hu)提供(gong)的商業(ye)信(xin)息等(deng))，非經(jing)許可不得抄襲或使用。

提交說明(ming)：快速提交發布>> 提交資訊幫助>> 注冊登錄>>