所(suo)謂智能(neng)(neng)語音(yin)產(chan)業(ye)主要指通過語音(yin)合(he)成技術和語音(yin)識別技術,為(wei)(wei)用(yong)戶提供各(ge)(ge)種服務的產(chan)業(ye)。一(yi)般來說(shuo),用(yong)戶只需要用(yong)說(shuo)話的方式給(gei)服務終(zhong)端發送命令,就能(neng)(neng)實現相應(ying)的服務。這一(yi)產(chan)業(ye)從上世(shi)紀六十年代就已經出(chu)現,但并不為(wei)(wei)普(pu)通消費(fei)者所(suo)熟知(zhi),消費(fei)者對(dui)其(qi)認知(zhi)度也(ye)(ye)比較低。近年來,隨著(zhu)各(ge)(ge)大科技公司先后(hou)推出(chu)Siri等智能(neng)(neng)語音(yin)服務,這一(yi)服務以及相關產(chan)業(ye)也(ye)(ye)開始被(bei)普(pu)通消費(fei)者和投資(zi)界所(suo)關注。
“您好,我的(de)(de)朋(peng)友,到吃藥(yao)的(de)(de)時間了!”當(dang)某個聲(sheng)音在你耳邊出現的(de)(de)時候,你可能不會想到,這也許僅是預設好的(de)(de)一段程(cheng)序。
語音交互是家庭智能機器人中的重要部分。這臺機器人可以和你(ni)(ni)進(jin)行語(yu)音交流(liu)。當你(ni)(ni)高興地夸獎它(ta)時,他會呵(he)呵(he)地笑出聲(sheng)來,當你(ni)(ni)和它(ta)聊天時,它(ta)會根據你(ni)(ni)的話題說出相關的內容。當然,如(ru)果你(ni)(ni)家里有(you)老人和孩子(zi)(zi),它(ta)還將扮演一(yi)位保姆的角色(se)。為(wei)老人提(ti)供(gong)心理慰藉,與孩子(zi)(zi)唱歌玩耍,它(ta)都是一(yi)個最佳的幫手(shou)。
只需喊一(yi)聲“Hi,TV”,電視(shi)(shi)就(jiu)可以開(kai)啟(qi)語(yu)音控(kong)制系統,比如你說“最(zui)近天氣(qi)預報”,然后電視(shi)(shi)屏幕(mu)上就(jiu)會閃現出最(zui)近一(yi)周(zhou)的本(ben)地天氣(qi)情況。隨著智能(neng)電視(shi)(shi)功能(neng)的日漸豐富(fu)和強大,僅依靠一(yi)個簡單的電視(shi)(shi)遙控(kong)器(qi)已經滿(man)足不了智能(neng)電視(shi)(shi)的操控(kong)需求。
引入(ru)語音(yin)識別和語音(yin)合成技術的(de)智能語音(yin)電(dian)視不僅能聽懂用(yong)(yong)戶說(shuo)話并作出(chu)反(fan)應(ying),而(er)且還(huan)能“說(shuo)出(chu)話”來。用(yong)(yong)戶憑借語音(yin)指令可以輕(qing)松完成換臺、電(dian)視節目查詢、網絡瀏覽/搜索(suo)、文字輸入(ru)等操作,而(er)電(dian)視能做(zuo)的(de),就是根據用(yong)(yong)戶的(de)需求讀出(chu)搜索(suo)到(dao)的(de)內(nei)容。
未(wei)來,在(zai)每個家庭網絡上所有通過電力運轉的設備,都(dou)可以(yi)(yi)被(bei)人們的語音控(kong)制(zhi),比如可以(yi)(yi)控(kong)制(zhi)室內(nei)的燈(deng)光、溫度(du)等。
在(zai)駕(jia)駛環(huan)境下,用戶與車(che)的交(jiao)流,可以通(tong)過對(dui)話(hua)來實現,說出“想回(hui)家”,汽車(che)會根據你(ni)家的位置(zhi)設定好最佳路線,并開(kai)始(shi)導航。說出“加油站(zhan)”,幾公里范圍內的加油站(zhan)將(jiang)逐一(yi)由車(che)載語(yu)音系統播報(bao)出來。
在(zai)車(che)(che)載環境下,用(yong)戶的(de)(de)注意力(li)主(zhu)要集中(zhong)在(zai)于(yu)駕駛,人與車(che)(che)的(de)(de)交互必須在(zai)不影(ying)響駕駛的(de)(de)前提條件下進(jin)行(xing),語音識(shi)別技術(shu)提供了安全(quan)便捷的(de)(de)交互方式(shi),用(yong)戶只需動(dong)口(kou),就可以滿足在(zai)行(xing)車(che)(che)過程中(zhong)的(de)(de)相關需求。
語音操(cao)控作為人機溝通的重要(yao)手段,拍照、打電話、錄像,你(ni)只需說(shuo)出(chu)你(ni)的需求,它就將在你(ni)眼前展現出(chu)你(ni)想要(yao)的結果。
智(zhi)(zhi)能(neng)眼(yan)鏡、智(zhi)(zhi)能(neng)手環、智(zhi)(zhi)能(neng)手表,這些互聯網時代的(de)智(zhi)(zhi)能(neng)化設(she)備,最大限度地利用了語音(yin)控(kong)制技術(shu),它將讓未來(lai)的(de)生(sheng)活變得不(bu)可思議。
“聽話(hua)”的瀏(liu)(liu)覽器離我們并(bing)不遙遠。或許要不了多(duo)久,我們就(jiu)能拋(pao)開(kai)鼠標和觸摸板,通過聲控(kong)瀏(liu)(liu)覽器完成瀏(liu)(liu)覽網頁、發送郵件等。比如,你可以通過“暗一(yi)點”“亮一(yi)點”“字體大一(yi)號(hao)”等語音命(ming)令(ling)來控(kong)制(zhi)瀏(liu)(liu)覽器。
傳統的(de)密碼恢復機制(zhi)是回(hui)答一些(xie)預(yu)設的(de)安全(quan)問題(ti),如“你的(de)出生地在哪里”等,但這類(lei)問題(ti)有些(xie)時(shi)候容易(yi)被黑客破(po)解(jie),用(yong)戶也可能記不起預(yu)設的(de)問題(ti)和答案,特別是企(qi)業員工,就常常因(yin)為(wei)忘(wang)記密碼而求助于IT部門。
為此,一家外國(guo)公(gong)司推出了(le)一項名為FastReset(快速設置)的新服(fu)務。該服(fu)務可先讓員(yuan)(yuan)工(gong)通過手機或(huo)電話注冊自己的聲紋,一旦員(yuan)(yuan)工(gong)忘記密碼需要重置,只(zhi)需對著登錄界(jie)面(mian)念一段短語(yu)(比方說“芝(zhi)麻開(kai)門”)即可完(wan)成。
很多小朋(peng)友(you)都有(you)(you)這樣的夢(meng)想:擁(yong)有(you)(you)一(yi)個會說話的玩具(ju),就像喜劇(ju)電影《泰迪熊》里面的TED一(yi)樣。
在ToyTalk的官方網站上,這個夢想有了變成現實的可能:小女孩完成家庭作業后,把平板立起來,打開ToyTalk應用,把泰迪熊玩具放在平板攝像頭前方,小女孩就能和在平板里“活過(guo)來”的泰迪(di)熊對話了!
語音交互對于智能家居最(zui)直接(jie)的(de)(de)意義在于把(ba)智(zhi)能(neng)(neng)家居變得真正的(de)(de)智(zhi)能(neng)(neng)起來(lai),不(bu)管品牌與(yu)技術(shu)多(duo)么(me)的(de)(de)先進,人機交互界面多(duo)么(me)的(de)(de)友善,都沒(mei)有語(yu)音交互控制(zhi)來(lai)的(de)(de)簡便直接(jie)。科技讓生(sheng)活更智(zhi)能(neng)(neng),語(yu)音讓交互更便捷(jie)、快捷(jie)。所以,如果智(zhi)能(neng)(neng)家居能(neng)(neng)與(yu)語(yu)音交互融于一(yi)體,那么(me)智(zhi)能(neng)(neng)家居產業也許會迎來(lai)一(yi)次劃(hua)時代的(de)(de)突破。
用(yong)(yong)戶(hu)必須在(zai)離(li)手機比較近(jin)的(de)距(ju)離(li)內說話,但在(zai)智(zhi)(zhi)能家居環(huan)境中,用(yong)(yong)戶(hu)和智(zhi)(zhi)能終(zhong)端之(zhi)間的(de)距(ju)離(li)被大大增加了,用(yong)(yong)戶(hu)能隨意用(yong)(yong)語音(yin)控制智(zhi)(zhi)能家居的(de)一個必要條件(jian)就是在(zai)無論你在(zai)客廳哪個角落發出指令,設備都能準確的(de)識別,語音(yin)識別技術(shu)必須突(tu)破距(ju)離(li)的(de)障(zhang)礙(ai)。目前室內的(de)語音(yin)交互受到背景(jing)噪音(yin)、其他人聲干擾、回聲、混響等多(duo)重復雜因素影響,只(zhi)能在(zai)相對安靜(jing)、近(jin)距(ju)離(li)的(de)環(huan)境下使用(yong)(yong)。
加之中國的(de)語(yu)系、方言、口音相當(dang)多,再加上(shang)中文(wen)的(de)多語(yu)義性,導(dao)致(zhi)語(yu)音識別(bie)率能力不高。同時(shi),在(zai)語(yu)義識別(bie)上(shang),也存在(zai)上(shang)下文(wen)的(de)關(guan)聯(lian)帶來(lai)識別(bie)的(de)學習難(nan)、定位難(nan)和建立模(mo)型難(nan)等問題(ti)。
語(yu)(yu)(yu)音(yin)(yin)(yin)識(shi)(shi)別技(ji)術(shu)就是讓機器(qi)(qi)通過(guo)識(shi)(shi)別和理解(jie)過(guo)程把語(yu)(yu)(yu)音(yin)(yin)(yin)信(xin)號轉變(bian)為相應的(de)文本(ben)或(huo)命令(ling)的(de)技(ji)術(shu),與機器(qi)(qi)進(jin)行語(yu)(yu)(yu)音(yin)(yin)(yin)交流,讓機器(qi)(qi)明白你說什么。語(yu)(yu)(yu)音(yin)(yin)(yin)識(shi)(shi)別是一門交叉學科,語(yu)(yu)(yu)音(yin)(yin)(yin)識(shi)(shi)別技(ji)術(shu)與語(yu)(yu)(yu)音(yin)(yin)(yin)合成(cheng)技(ji)術(shu)結合使人們能夠甩掉(diao)鍵盤,通過(guo)語(yu)(yu)(yu)音(yin)(yin)(yin)命令(ling)進(jin)行操作,語(yu)(yu)(yu)音(yin)(yin)(yin)技(ji)術(shu)的(de)應用已經成(cheng)為一個(ge)具(ju)有競爭性的(de)新興高(gao)技(ji)術(shu)產業。
語(yu)(yu)音(yin)(yin)識(shi)別(bie)(bie)技術(shu)相當于給計算機(ji)系統裝(zhuang)上“耳朵”,使(shi)其具備“能(neng)聽”的(de)(de)功(gong)能(neng),該技術(shu)經過語(yu)(yu)音(yin)(yin)信號(hao)處理、語(yu)(yu)音(yin)(yin)特征處理、模型訓練(lian)及解碼引擎(qing)等(deng)復雜步(bu)驟,使(shi)機(ji)器最終能(neng)夠將(jiang)語(yu)(yu)音(yin)(yin)中的(de)(de)內(nei)容、說話人、語(yu)(yu)種等(deng)信息識(shi)別(bie)(bie)出來(lai)。語(yu)(yu)音(yin)(yin)控制(zhi)功(gong)能(neng)的(de)(de)實現,與用戶的(de)(de)使(shi)用習慣高(gao)度關聯,目(mu)前的(de)(de)語(yu)(yu)音(yin)(yin)控制(zhi)功(gong)能(neng)實現方(fang)式(shi)可分為近場語(yu)(yu)音(yin)(yin)識(shi)別(bie)(bie)和遠場語(yu)(yu)音(yin)(yin)識(shi)別(bie)(bie)二個大類(lei)。
在對(dui)(dui)(dui)音(yin)(yin)箱(xiang)等設備進行(xing)語(yu)音(yin)(yin)控制時,往往該設備處于(yu)(yu)播(bo)放(fang)歌(ge)曲的(de)(de)(de)(de)狀(zhuang)態。由于(yu)(yu)麥克(ke)(ke)(ke)風(feng)(feng)安裝(zhuang)在音(yin)(yin)箱(xiang)上,麥克(ke)(ke)(ke)風(feng)(feng)和(he)說話人(ren)之(zhi)間的(de)(de)(de)(de)距離要遠(yuan)大于(yu)(yu)麥克(ke)(ke)(ke)風(feng)(feng)和(he)揚聲器之(zhi)間的(de)(de)(de)(de)距離,在這樣的(de)(de)(de)(de)情況下,采用(yong)內(nei)外(wai)兼顧的(de)(de)(de)(de)方法(fa)進行(xing)解(jie)決。內(nei)部(bu)使用(yong)特殊的(de)(de)(de)(de)回聲消(xiao)除算法(fa)從(cong)內(nei)部(bu)減小(xiao)(xiao)噪音(yin)(yin)對(dui)(dui)(dui)麥克(ke)(ke)(ke)風(feng)(feng)的(de)(de)(de)(de)影響(xiang)。另外(wai)對(dui)(dui)(dui)于(yu)(yu)震動(dong)帶來的(de)(de)(de)(de)非線性干(gan)(gan)擾,傳統的(de)(de)(de)(de)線性回聲消(xiao)除方法(fa)失效(xiao)(xiao)了(le),因(yin)此可以使用(yong)非線性回聲消(xiao)除算法(fa)提高(gao)內(nei)部(bu)噪聲消(xiao)除的(de)(de)(de)(de)效(xiao)(xiao)果。在外(wai)部(bu)結構設計(ji)方面,使用(yong)精心設計(ji)的(de)(de)(de)(de)麥克(ke)(ke)(ke)風(feng)(feng)陣列減震結構,使多個麥克(ke)(ke)(ke)風(feng)(feng)和(he)它所連接的(de)(de)(de)(de)電路板之(zhi)間的(de)(de)(de)(de)震動(dong)減小(xiao)(xiao)到最小(xiao)(xiao),從(cong)而(er)最大程度的(de)(de)(de)(de)控制高(gao)聲強導(dao)致的(de)(de)(de)(de)音(yin)(yin)箱(xiang)本體(ti)震動(dong)對(dui)(dui)(dui)拾音(yin)(yin)的(de)(de)(de)(de)干(gan)(gan)擾。
近(jin)場(chang)語音識別需(xu)要用戶(hu)點(dian)擊啟動,并且用戶(hu)與終端設(she)(she)備(bei)的距離比(bi)較(jiao)近(jin),如手機(ji)或其(qi)他(ta)終端設(she)(she)備(bei),可直(zhi)接借助(zhu)這些終端設(she)(she)備(bei)直(zhi)接實現控制功(gong)能。
遠(yuan)場語(yu)(yu)音(yin)(yin)(yin)識(shi)別(bie)(bie),以麥(mai)(mai)克(ke)風陣列(lie)遠(yuan)距離(li)拾取(qu)的(de)(de)語(yu)(yu)音(yin)(yin)(yin)數據(ju)(ju)作為輸入數據(ju)(ju),通過(guo)語(yu)(yu)音(yin)(yin)(yin)識(shi)別(bie)(bie)的(de)(de)算法將(jiang)語(yu)(yu)音(yin)(yin)(yin)信(xin)號轉寫成(cheng)文(wen)字(zi)的(de)(de)技(ji)(ji)術。雖然和(he)近(jin)場語(yu)(yu)音(yin)(yin)(yin)識(shi)別(bie)(bie)技(ji)(ji)術在原理上是相同的(de)(de),但是由于音(yin)(yin)(yin)源和(he)麥(mai)(mai)克(ke)風之間的(de)(de)空間距離(li)增大,在聲(sheng)波(bo)傳播(bo)過(guo)程中會出現信(xin)號強度的(de)(de)衰減(jian)和(he)各種噪音(yin)(yin)(yin)干擾,因(yin)此需(xu)(xu)要特殊的(de)(de)語(yu)(yu)音(yin)(yin)(yin)數據(ju)(ju)拾取(qu)和(he)預(yu)(yu)處(chu)理技(ji)(ji)術;不同的(de)(de)拾取(qu)設(she)備和(he)預(yu)(yu)處(chu)理技(ji)(ji)術常常會使用于語(yu)(yu)音(yin)(yin)(yin)識(shi)別(bie)(bie)的(de)(de)聲(sheng)波(bo)信(xin)號特征發生改變,因(yin)此針對不同的(de)(de)遠(yuan)場語(yu)(yu)音(yin)(yin)(yin)拾取(qu)技(ji)(ji)術,需(xu)(xu)要對語(yu)(yu)音(yin)(yin)(yin)識(shi)別(bie)(bie)引擎進行(xing)定制化適配和(he)優化。
當語(yu)音(yin)信號(hao)(hao)(hao)在(zai)傳播過程中有(you)所衰(shuai)減(jian),影響(xiang)(xiang)采集信號(hao)(hao)(hao)的(de)(de)(de)(de)(de)(de)強(qiang)度和(he)分辨(bian)率,使用的(de)(de)(de)(de)(de)(de)靈敏度非常高的(de)(de)(de)(de)(de)(de)指(zhi)(zhi)向(xiang)性(xing)麥(mai)克風(feng),同時將麥(mai)克風(feng)的(de)(de)(de)(de)(de)(de)參數(shu)調整到適合遠(yuan)場語(yu)音(yin)數(shu)據的(de)(de)(de)(de)(de)(de)模式,可以最大限度采集清晰的(de)(de)(de)(de)(de)(de)遠(yuan)場語(yu)音(yin)信號(hao)(hao)(hao)。語(yu)音(yin)指(zhi)(zhi)令聲(sheng)(sheng)波(bo)(bo)在(zai)傳輸過程中受到周圍(wei)噪音(yin)的(de)(de)(de)(de)(de)(de)污染,降低聲(sheng)(sheng)波(bo)(bo)信號(hao)(hao)(hao)的(de)(de)(de)(de)(de)(de)信噪比,使用定向(xiang)波(bo)(bo)速成形技術,抑制方向(xiang)外的(de)(de)(de)(de)(de)(de)噪音(yin),從(cong)而減(jian)少噪音(yin)對(dui)語(yu)音(yin)信號(hao)(hao)(hao)的(de)(de)(de)(de)(de)(de)干擾(rao)。在(zai)一(yi)個房間(jian)里,麥(mai)克風(feng)拾取的(de)(de)(de)(de)(de)(de)聲(sheng)(sheng)波(bo)(bo)不僅僅直接(jie)來(lai)自于音(yin)源,還有(you)音(yin)源發出后經過墻壁反射(she)的(de)(de)(de)(de)(de)(de)遲到的(de)(de)(de)(de)(de)(de)聲(sheng)(sheng)波(bo)(bo),形成聲(sheng)(sheng)音(yin)的(de)(de)(de)(de)(de)(de)殘留,造成混響(xiang)(xiang)。利用多(duo)個麥(mai)克風(feng)采集的(de)(de)(de)(de)(de)(de)數(shu)據,通過多(duo)通道回聲(sheng)(sheng)消(xiao)除(chu)算法,將這些(xie)不同時間(jian)達到的(de)(de)(de)(de)(de)(de)聲(sheng)(sheng)音(yin)數(shu)據分離開來(lai),從(cong)而消(xiao)除(chu)了混響(xiang)(xiang)對(dui)聲(sheng)(sheng)音(yin)數(shu)據的(de)(de)(de)(de)(de)(de)影響(xiang)(xiang)。
在遠距(ju)離用語音(yin)(yin)進行(xing)操控的(de)時(shi)候,聲(sheng)音(yin)(yin)可(ke)能來自(zi)不(bu)(bu)同(tong)方向(xiang)的(de)不(bu)(bu)同(tong)人。因此首先要確定哪些是發指令的(de)聲(sheng)音(yin)(yin),哪些不(bu)(bu)是。使用的(de)麥(mai)(mai)(mai)克(ke)風(feng)陣列波速(su)成形算法,將(jiang)360度空間垂直劃(hua)分(fen)成若干區域(yu),每個(ge)麥(mai)(mai)(mai)克(ke)風(feng)負責檢(jian)(jian)測一個(ge)指定的(de)區域(yu)。當某個(ge)空間區域(yu)里面檢(jian)(jian)測到有喚醒詞(ci)出(chu)現(xian)時(shi),對(dui)(dui)應(ying)于該(gai)空間區域(yu)的(de)麥(mai)(mai)(mai)克(ke)風(feng)拾音(yin)(yin)功能就被增強,其(qi)他(ta)區域(yu)的(de)麥(mai)(mai)(mai)克(ke)風(feng)拾音(yin)(yin)就被抑制。從(cong)而實(shi)現(xian)對(dui)(dui)聲(sheng)音(yin)(yin)進行(xing)有方向(xiang)有角度的(de)拾取,避(bi)免(mian)了(le)周圍電(dian)視機里的(de)說話聲(sheng)音(yin)(yin)、其(qi)他(ta)人交談對(dui)(dui)語音(yin)(yin)指令的(de)影響。
語(yu)(yu)音喚(huan)醒(xing)(xing),是(shi)(shi)指通過含(han)有(you)(you)特定喚(huan)醒(xing)(xing)詞(ci)的(de)語(yu)(yu)音輸(shu)入(ru)(ru)來“觸(chu)發”語(yu)(yu)音識別系統(tong)以實現(xian)后續的(de)語(yu)(yu)音交(jiao)互。由于(yu)功耗(hao)等方面的(de)限制(zhi),智(zhi)(zhi)能設(she)備(bei)很難24小(xiao)時都(dou)保持在(zai)(zai)激(ji)活狀態;因(yin)此,如果(guo)要(yao)在(zai)(zai)家(jia)里自由地(di)控制(zhi)智(zhi)(zhi)能家(jia)居設(she)備(bei),還(huan)需(xu)要(yao)有(you)(you)即時“喚(huan)醒(xing)(xing)”功能,也就(jiu)是(shi)(shi)給智(zhi)(zhi)能設(she)備(bei)加(jia)入(ru)(ru)“語(yu)(yu)音喚(huan)醒(xing)(xing)”技術。通過該(gai)技術,任(ren)何(he)人在(zai)(zai)任(ren)何(he)環境(jing)、任(ren)何(he)時間,無(wu)論是(shi)(shi)近(jin)場(chang)還(huan)是(shi)(shi)遠場(chang),面向設(she)備(bei)直接(jie)說出預設(she)的(de)喚(huan)醒(xing)(xing)詞(ci),就(jiu)能激(ji)活產品(pin)的(de)識別引擎,從而真正實現(xian)全程無(wu)觸(chu)控的(de)語(yu)(yu)音交(jiao)互。
通過上面的介紹,相信大家對智能家居語音控制技術有了一定的了解,對智能家居語音控制技術的背景和功能有了深刻認識。生活在當代的我們,除了追求物質上的溫飽、衣服上的溫暖同時,還更加追求于精神上的方便、輕松、舒適。因此我們要不斷與時俱進,掌握新的智能技術。相信在不久的將來這種智能家居會成(cheng)為你生活中的好伙伴,好幫手(shou)!