2019年12月8日,機器學習(xi)領(ling)域國(guo)際頂級會議NeurIPS于(yu)加拿大溫哥華拉開帷幕(mu),吸引(yin)了(le)全球(qiu)13000余名專家學者共(gong)赴盛(sheng)會。本(ben)年度,自然(ran)語言處理領(ling)域在(zai)深度學習(xi)浪(lang)潮下取得了(le)顯著成就,成為(wei)大會的(de)重要議題之一。百度也(ye)成為(wei)本(ben)屆大會的(de)重度參(can)與者,向各國(guo)參(can)與者展(zhan)示了(le)其最新(xin)的(de)NLP技術。
本(ben)屆NeurIPS大會共收到6743篇論文投稿,兩年(nian)時間翻了一番。其中1428篇論文入(ru)選(xuan),入(ru)選(xuan)率僅21.1%。百度(du)共有8篇論文被收錄,覆蓋量化壓縮(suo)、對抗訓練等諸多前沿方向。
競(jing)賽方面,在NeurIPS 2019: Learn to Move強化學習賽事(shi)中(zhong)(zhong)百度(du)(du)再(zai)度(du)(du)蟬聯(lian)冠軍,并(bing)受邀(yao)在Deep RL workshop中(zhong)(zhong)進行專題(ti)報告。本(ben)次(ci)比賽的難度(du)(du)非常(chang)大,在參(can)賽的近300支(zhi)隊伍中(zhong)(zhong),僅有3支(zhi)隊伍完(wan)成(cheng)了(le)最后挑(tiao)戰(zhan)(zhan)。百度(du)(du)基于飛(fei)槳的強化學習框(kuang)架PARL不僅成(cheng)功完(wan)成(cheng)挑(tiao)戰(zhan)(zhan),還大幅領(ling)先第二名(1490vs1346)。除了(le)在Best Performance Track獲得了(le)第一,相關技術論文也(ye)在該賽事(shi)的Machine Learning Track中(zhong)(zhong)獲得了(le)Best Paper Reward。
百度(du)(du)舉辦了自(zi)然(ran)(ran)語言(yan)處(chu)理專題(ti)研討(tao)會,百度(du)(du)技術委員會主席、自(zi)然(ran)(ran)語言(yan)處(chu)理首席科(ke)學家吳華(hua)博士以及(ji)多名研究員和工程師,向現場參會者全(quan)(quan)面介紹了百度(du)(du)在這一(yi)領域的長期積(ji)累與全(quan)(quan)新突破。基于具有(you)完全(quan)(quan)自(zi)主知識產權的飛槳平臺(tai),百度(du)(du)自(zi)然(ran)(ran)語言(yan)處(chu)理在語義計算、閱(yue)讀理解、多輪對話、機器翻譯、開放(fang)平臺(tai)與數據(ju)等方向均(jun)取得了突破性(xing)進展,并進行了大規模(mo)產業化應用。
預訓練方面,百(bai)度(du)(du)提出知識(shi)增強的(de)語義表(biao)示模型ERNIE及持(chi)續學習語義理解框架ERNIE2.0,在(zai)共(gong)計(ji)16個中英文(wen)任務上(shang)超(chao)越(yue)BERT、XLNET,取得了 SOTA 的(de)效果。11月,百(bai)度(du)(du)發布基(ji)于ERNIE的(de)語義理解開發套(tao)件。從原理、應用到開源及平臺化(hua),百(bai)度(du)(du)在(zai)NLP預訓練領域進(jin)行了極具價值(zhi)的(de)創新(xin)及實(shi)踐。
機器閱讀(du)理(li)解,已成為(wei)評(ping)估機器語(yu)言理(li)解能力的重要方(fang)式,也是搜(sou)索引擎和對話系(xi)統等行業應用(yong)中的關鍵技術。百度(du)建設及發布了最大規(gui)模的中文閱讀(du)理(li)解數(shu)據集(ji)DuReader;在泛化方(fang)面(mian)提出訓(xun)練框架D-NET,從(cong)多模型融合、多任(ren)務學(xue)習的角度(du)提升模型的泛化能力;
對于對抗(kang)樣(yang)本的(de)攻擊,提出了一種面向閱(yue)(yue)讀(du)理(li)解(jie)的(de)對抗(kang)訓練(lian)方法(fa);提出文本表(biao)示和知識表(biao)示的(de)融合模型(xing)KT-NET,以解(jie)決需要(yao)外部(bu)知識和常識的(de)問題。其中(zhong)具有高魯(lu)棒性和遷移(yi)能力的(de)閱(yue)(yue)讀(du)理(li)解(jie)模型(xing)在(zai)2019年MRQA閱(yue)(yue)讀(du)理(li)解(jie)評(ping)測中(zhong)奪(duo)得冠軍(jun)。
對(dui)(dui)話(hua)(hua)方(fang)面,提(ti)(ti)出了基于深度(du)注意網絡的(de)多(duo)(duo)輪(lun)響應(ying)選擇匹配(pei)模(mo)型DAM(Deep Attention Matching Network),顯著提(ti)(ti)高了口語理解(jie)能(neng)力。在(zai)對(dui)(dui)話(hua)(hua)系(xi)統(tong)框架中,百(bai)(bai)(bai)度(du)一方(fang)面提(ti)(ti)供(gong)(gong)了可(ke)編(bian)程的(de)對(dui)(dui)話(hua)(hua)管(guan)理框架,并內置了多(duo)(duo)個常用(yong)標準對(dui)(dui)話(hua)(hua)范式,為在(zai)云(yun)端開發靈活可(ke)變的(de)業(ye)務(wu)對(dui)(dui)話(hua)(hua)邏輯(ji)提(ti)(ti)供(gong)(gong)了便利。另一方(fang)面,提(ti)(ti)供(gong)(gong)了需求分發和全(quan)局(ju)記(ji)憶機(ji)制(zhi),支(zhi)持多(duo)(duo)個對(dui)(dui)話(hua)(hua)任務(wu)的(de)集成與聯動(dong),提(ti)(ti)高了對(dui)(dui)話(hua)(hua)技能(neng)的(de)可(ke)復用(yong)性,降低了新(xin)業(ye)務(wu)的(de)重復開發成本。百(bai)(bai)(bai)度(du)可(ke)定(ding)制(zhi)對(dui)(dui)話(hua)(hua)技術依托百(bai)(bai)(bai)度(du)大腦(nao)UNIT3.0平臺,支(zhi)持5萬多(duo)(duo)個對(dui)(dui)話(hua)(hua)技能(neng),廣泛(fan)應(ying)用(yong)于行(xing)業(ye)客戶。
機器(qi)(qi)翻譯(yi)領域(yu),百度(du)相繼提(ti)(ti)出了(le)多(duo)任務(wu)學(xue)習(xi)、多(duo)智能體(ti)聯(lian)合訓練等(deng)前(qian)沿(yan)方法,并在(zai)2019年國際權威WMT評(ping)測(ce)(ce)中(zhong)取(qu)得中(zhong)英翻譯(yi)第一(yi)。機器(qi)(qi)同聲(sheng)傳(chuan)譯(yi)方面百度(du)走(zou)在(zai)領域(yu)前(qian)沿(yan),提(ti)(ti)出了(le)首(shou)個具有預測(ce)(ce)和可控時(shi)(shi)延的(de)(de)同傳(chuan)模(mo)型(xing),首(shou)個語(yu)義單元(yuan)驅(qu)動的(de)(de)上下文同傳(chuan)模(mo)型(xing),并研(yan)發(fa)了(le)業(ye)內(nei)首(shou)個語(yu)音(yin)到語(yu)音(yin)的(de)(de)同傳(chuan)系(xi)統,為(wei)用戶提(ti)(ti)供高質量(liang)、低時(shi)(shi)延的(de)(de)同傳(chuan)體(ti)驗。值(zhi)得一(yi)提(ti)(ti)的(de)(de)是(shi),基(ji)于在(zai)此(ci)領域(yu)取(qu)得的(de)(de)進步(bu),由(you)百度(du)主導,聯(lian)合Google、Facebook、Upenn、清華(hua)等(deng)海內(nei)外頂(ding)尖企業(ye)及高校共同組(zu)織首(shou)屆機器(qi)(qi)同傳(chuan)研(yan)討(tao)會(hui)(hui),將在(zai)本領域(yu)頂(ding)級會(hui)(hui)議ACL 2020召(zhao)開,并將舉辦(ban)國際首(shou)屆同傳(chuan)評(ping)測(ce)(ce),以進一(yi)步(bu)促進技術(shu)發(fa)展(zhan)。此(ci)外,百度(du)還將在(zai)領域(yu)權威會(hui)(hui)議EMNLP 2020中(zhong)舉辦(ban)機器(qi)(qi)同傳(chuan)tutorial,就機器(qi)(qi)同傳(chuan)的(de)(de)原理、方法、前(qian)沿(yan)進展(zhan)進行講座。
百度自然語言(yan)處理(li)領域(yu)產出的(de)卓越成(cheng)果背后所運(yun)用(yong)的(de)底層框架(jia),是自研的(de)開(kai)源深(shen)(shen)度學(xue)習(xi)(xi)平(ping)臺百度飛槳。近兩年來,飛槳圍(wei)繞深(shen)(shen)度學(xue)習(xi)(xi)框架(jia)的(de)基(ji)本功(gong)能(neng)、性(xing)能(neng)、芯(xin)片支(zhi)持(chi)的(de)完(wan)備(bei)性(xing)等(deng)(deng)技術(shu)指標進(jin)行了(le)(le)一系列的(de)易用(yong)性(xing)開(kai)發(fa)(fa)和性(xing)能(neng)迭代,為開(kai)發(fa)(fa)者(zhe)提供(gong)了(le)(le)優于其他(ta)深(shen)(shen)度學(xue)習(xi)(xi)框架(jia)的(de)使(shi)用(yong)體驗(yan)。在開(kai)發(fa)(fa)能(neng)力方面(mian),飛槳除了(le)(le)支(zhi)持(chi)對常用(yong)API的(de)調用(yong)之(zhi)外(wai),還(huan)在編(bian)程范式(shi)上同時支(zhi)持(chi)聲明式(shi)編(bian)程和命令式(shi)編(bian)程,兼具很好的(de)靈活(huo)性(xing)和穩(wen)定性(xing),可滿足不同開(kai)發(fa)(fa)者(zhe)的(de)開(kai)發(fa)(fa)習(xi)(xi)慣(guan),更(geng)易上手。在訓(xun)(xun)練方面(mian),飛槳平(ping)臺突(tu)破了(le)(le)超大規模深(shen)(shen)度學(xue)習(xi)(xi)模型(xing)訓(xun)(xun)練技術(shu),研制了(le)(le)千億特征、萬(wan)億參數(shu)(shu)、數(shu)(shu)百節點(dian)的(de)開(kai)源大規模訓(xun)(xun)練平(ping)臺,實(shi)現了(le)(le)萬(wan)億規模參數(shu)(shu)深(shen)(shen)度學(xue)習(xi)(xi)模型(xing)的(de)實(shi)時更(geng)新。在自然語言(yan)處理(li)領域(yu),PADDLE-NLP提供(gong)了(le)(le)面(mian)向(xiang)6類任務(wu)下的(de)30+算法(fa)模型(xing),包括上述工作中ERNIE、D-NET等(deng)(deng)多個國(guo)際競賽的(de)冠軍模型(xing)。
百(bai)(bai)(bai)度(du)是全球較大的(de)(de)(de)中文(wen)(wen)搜(sou)索(suo)引擎、較大的(de)(de)(de)中文(wen)(wen)網站。2000年(nian)1月由(you)李(li)彥宏創立(li)于(yu)北京中關村,向人們提供“簡(jian)單,可(ke)依賴”的(de)(de)(de)信息(xi)獲(huo)取(qu)方式(shi)。“百(bai)(bai)(bai)度(du)”二字源于(yu)中國宋朝詞人辛棄疾(ji)的(de)(de)(de)《青(qing)玉(yu)案(an)·元(yuan)夕》詞句“眾里尋他千百(bai)(bai)(bai)度(du)”,象征著百(bai)(bai)(bai)度(du)對中文(wen)(wen)信息(xi)檢索(suo)技術的(de)(de)(de)執著追求。而“熊(xiong)掌”圖(tu)標的(de)(de)(de)想(xiang)法來源于(yu)“獵(lie)人巡跡熊(xiong)爪”的(de)(de)(de)刺(ci)激,與李(li)彥宏博士(shi)的(de)(de)(de)“分析搜(sou)索(suo)技術”非常相似,從而構成百(bai)(bai)(bai)度(du)的(de)(de)(de)搜(sou)索(suo)概念,也成為了百(bai)(bai)(bai)度(du)的(de)(de)(de)圖(tu)標形象。
1999年底(di),身在(zai)美國硅谷的李彥宏看到了中(zhong)(zhong)(zhong)(zhong)國互聯網及中(zhong)(zhong)(zhong)(zhong)文搜索引擎服務(wu)的巨大發(fa)展(zhan)潛力,抱著技術改變世界的夢想,他毅然辭掉硅谷的高薪工(gong)作,攜搜索引擎專利技術,于2000年1月1日在(zai)中(zhong)(zhong)(zhong)(zhong)關村創建了百度公司(si)。從不足10人發(fa)展(zhan)至今,員工(gong)人數超(chao)過17000人。如今的百度,已成為(wei)中(zhong)(zhong)(zhong)(zhong)國受歡迎、影響力較大的中(zhong)(zhong)(zhong)(zhong)文網站(zhan)。
在(zai)面對用戶的(de)(de)搜(sou)索產品不斷(duan)豐富的(de)(de)同時,百(bai)度(du)還創新性(xing)地推(tui)出了基(ji)于搜(sou)索的(de)(de)營銷推(tui)廣(guang)服務,并(bing)成(cheng)為(wei)受企(qi)業(ye)(ye)青睞的(de)(de)互(hu)聯網(wang)營銷推(tui)廣(guang)平臺。目前,中(zhong)(zhong)國已有數十萬家企(qi)業(ye)(ye)使(shi)用了百(bai)度(du)的(de)(de)搜(sou)索推(tui)廣(guang)服務,不斷(duan)提升著(zhu)企(qi)業(ye)(ye)自身的(de)(de)品牌及運營效率。通過持續的(de)(de)商(shang)業(ye)(ye)模(mo)式創新,百(bai)度(du)正進一步帶動(dong)整個(ge)互(hu)聯網(wang)行業(ye)(ye)和中(zhong)(zhong)小企(qi)業(ye)(ye)的(de)(de)經(jing)(jing)濟增長,推(tui)動(dong)社會(hui)經(jing)(jing)濟的(de)(de)發展和轉型。
為推(tui)動中(zhong)國數百萬(wan)中(zhong)小網(wang)站(zhan)(zhan)的發(fa)展,百度借(jie)助超大(da)(da)流量的平臺優勢,聯(lian)(lian)合(he)所有(you)優質(zhi)的各類(lei)網(wang)站(zhan)(zhan),建立(li)了世界上較大(da)(da)的網(wang)絡聯(lian)(lian)盟,使各類(lei)企業(ye)的搜索推(tui)廣(guang)、品牌營(ying)銷的價值、覆(fu)蓋面均大(da)(da)面積提升。與(yu)(yu)此(ci)同(tong)時,各網(wang)站(zhan)(zhan)也(ye)在聯(lian)(lian)盟大(da)(da)家庭的互助下,獲得(de)生存與(yu)(yu)發(fa)展機會。
2009年,百度(du)更是推出框計(ji)算技術概念,并(bing)基于此(ci)理念推出百度(du)開放(fang)平(ping)臺,幫助(zhu)更多第三方利用(yong)(yong)互聯網平(ping)臺自主創(chuang)新、自主創(chuang)業(ye),在大(da)幅提升網民互聯網使(shi)用(yong)(yong)體驗(yan)的同(tong)時(shi),帶動(dong)起圍繞(rao)用(yong)(yong)戶需求進行(xing)研發的產業(ye)創(chuang)新熱潮,對中國互聯網產業(ye)的升級和發展(zhan)產生巨大(da)的拉動(dong)效應。
這是(shi)一個充滿朝氣、求實坦誠的公司(si),以搜索改變生活,推(tui)動人(ren)類的文明(ming)與進(jin)(jin)步,促進(jin)(jin)中國經濟(ji)的發展為(wei)己任(ren),正(zheng)朝著(zhu)更為(wei)遠大的目標(biao)而(er)邁進(jin)(jin)。
隨(sui)著信息技術的突飛猛進,軟(ruan)件(jian)產(chan)業在生(sheng)活中的地位越來越高(gao)。基于此(ci)我(wo)國把軟(ruan)件(jian)產(chan)業作(zuo)為發展經濟的...
二三四五發布季度報告(gao),報告(gao)顯示,報告(gao)期營業(ye)收(shou)入同(tong)比下滑65.26%,歸屬于上市公司股(gu)東(dong)的(de)凈...
在互聯網(wang)保險江(jiang)湖中,除了BAT(百度、阿(a)里巴(ba)巴(ba)、騰訊)等“老牌”互聯網(wang)巨頭(tou)之外,以京(jing)東、蘇...
全(quan)球最大(da)的社交網絡Facebook宣布推出(chu)一項5000萬(wan)美元的基金,與Africa No ...
近日,暴(bao)風TV的9名(ming)(ming)外(wai)地員工(gong)來到北京(jing)暴(bao)風集團總部,就“涉(she)及(ji)400多名(ming)(ming)員工(gong)的拖欠(qian)半年工(gong)資”等(deng)...
美國雅虎(hu)公(gong)司宣(xuan)布正式停(ting)止了其在中國大(da)陸地區的所有服務,同時關(guan)閉旗下科技媒體Engadget...