從語(yǔ)言學(xué)角度說,自然語(yǔ)言包括詞法、語(yǔ)法、語(yǔ)義、語(yǔ)用四個(gè)階段。目前語(yǔ)音識(shí)別從詞法、語(yǔ)法的理解,逐步進(jìn)入多種表達(dá)方式的語(yǔ)義階段。如果說人臉識(shí)別讓安全進(jìn)入生物階段,那么語(yǔ)音識(shí)別則讓人工智能進(jìn)入感官時(shí)代。真正學(xué)會(huì)主動(dòng)思考的機(jī)器人時(shí)代似乎也不遙遠(yuǎn)了。
繼馬云年初在德國(guó)刷臉支付淘寶后,上周招商銀行也推出刷臉ATM取款。相比于人臉識(shí)別、指紋識(shí)別等生物特征在金融領(lǐng)域大放異彩,語(yǔ)音識(shí)別則不溫不火地滲透到人們的生活細(xì)節(jié)中。10月初,科大訊飛發(fā)布客家話版本,這是其第14種地方方言;上周,出門問問則獲得G oogle的C輪融資,這也是Google2010年退出中國(guó)后第一筆投資。
從語(yǔ)言學(xué)角度說,自然語(yǔ)言包括詞法、語(yǔ)法、語(yǔ)義、語(yǔ)用四個(gè)階段。目前語(yǔ)音識(shí)別從詞法、語(yǔ)法的理解,逐步進(jìn)入多種表達(dá)方式的語(yǔ)義階段。如果說人臉識(shí)別讓安全進(jìn)入生物階段,那么語(yǔ)音識(shí)別則讓人工智能進(jìn)入感官時(shí)代。真正學(xué)會(huì)主動(dòng)思考的機(jī)器人時(shí)代似乎也不遙遠(yuǎn)了。
從“聽得到”到“聽得懂”
語(yǔ)音識(shí)別,用人類比喻就是先用耳朵(前端模塊)聽進(jìn)去,然后通過大腦(識(shí)別系統(tǒng))理解,然后再通過嘴巴(后端解碼)表達(dá)出來。耳朵與嘴巴需要的是靈敏度,而大腦則需要不斷訓(xùn)練學(xué)習(xí)。
關(guān)于前端,漢王科技常務(wù)副總裁徐冬堅(jiān)告訴南都記者:“這部分難度主要在于算法,因?yàn)槟壳暗恼Z(yǔ)音樣本主要來自于移動(dòng)設(shè)備,都是非標(biāo)準(zhǔn)的、自然場(chǎng)景的。”一般情況需要信號(hào)處理與特征處理,前者去除環(huán)境噪音,后者則對(duì)某些特定語(yǔ)言進(jìn)行標(biāo)注,從而使語(yǔ)言成為機(jī)器能理解的“信號(hào)”。
標(biāo)注之后就進(jìn)入了識(shí)別系統(tǒng),一套語(yǔ)音系統(tǒng)包括聲學(xué)模型與語(yǔ)言模型。語(yǔ)言模型一般采用N -G ram模型,就是統(tǒng)計(jì)每個(gè)詞前面的單詞出現(xiàn)的概率;聲學(xué)模型主要有深度網(wǎng)絡(luò)與遞進(jìn)網(wǎng)絡(luò)兩種,微信、科大訊飛、出門問問都采用前者,和人腦類似,模型中的神經(jīng)元獲得標(biāo)注后,對(duì)比已有的標(biāo)注數(shù)據(jù),通過不斷反饋錯(cuò)誤,使得每個(gè)神經(jīng)元重新學(xué)習(xí)。
但出門問問C T O雷欣告訴南都記者,深度學(xué)習(xí)網(wǎng)絡(luò)需要人工標(biāo)準(zhǔn),“語(yǔ)音分析數(shù)據(jù)人工標(biāo)注只需要聽懂普通話就行,但對(duì)于語(yǔ)義分析的一些特定任務(wù),要求語(yǔ)言學(xué)研究生以上級(jí)別,這導(dǎo)致其數(shù)據(jù)標(biāo)注獲取十分昂貴?!?/p>
大量數(shù)據(jù)的訓(xùn)練也是語(yǔ)音識(shí)別的門檻之一,像科大訊飛對(duì)一套語(yǔ)言系統(tǒng)訓(xùn)練至少需要2萬小時(shí)及過百萬詞匯量,沒有足夠的樣本量也無法讓其理解語(yǔ)言與文字之間的內(nèi)在關(guān)系,而云數(shù)據(jù)就在這里面發(fā)揮了作用?!耙郧暗淖R(shí)別只能是在PC或嵌入式的設(shè)備上運(yùn)行,現(xiàn)在通過云端來提供服務(wù)是識(shí)別技術(shù)發(fā)展的必然趨勢(shì)?!毙於瑘?jiān)表示,漢王向語(yǔ)音開發(fā)者開放A P I接口,而也是這些云平臺(tái)的數(shù)據(jù)讓語(yǔ)音識(shí)別變得不那么“高大上”。
同時(shí),一套語(yǔ)言系統(tǒng)更多的學(xué)習(xí)還在于投入應(yīng)用之后。這也能有效解決方言數(shù)據(jù)不足問題,比如說科大訊飛10月份剛上線客家話版本,但實(shí)際上客家話方言差異很大,目前只是以梅州為主音,在未來需要用戶反饋去優(yōu)化。
“目前微軟人工智能機(jī)器人小冰上線一年多,一開始的訓(xùn)練數(shù)據(jù)來自必應(yīng)的搜索大數(shù)據(jù),而現(xiàn)在小冰已經(jīng)實(shí)現(xiàn)了自我成長(zhǎng),超過50%的數(shù)據(jù)量來自于后期用戶的反饋?!蔽④浶”?fù)責(zé)人李笛告訴南都記者,“同時(shí),小冰還具有情感計(jì)算的能力,可以通過用戶的客觀檔案、重要時(shí)間節(jié)點(diǎn)以及行為習(xí)慣三方面進(jìn)行采集,去理解每個(gè)用戶的不同。”
說比聽容易。如果“大腦”能夠理解,解碼便成了最容易的事。像小冰還聽不懂粵語(yǔ),但可以根據(jù)用戶的定位和行為習(xí)慣表達(dá)粵語(yǔ)等方言俚語(yǔ)。根據(jù)不同場(chǎng)景,比如作為輸入法的科大訊飛注重口語(yǔ)翻譯文字,而出門問問的智能手表ticw atch則是將用戶搜索內(nèi)容通過發(fā)音字典“說”出來。
商業(yè)化前景
一個(gè)語(yǔ)音系統(tǒng)經(jīng)過大量工程師、語(yǔ)言學(xué)家的訓(xùn)練推向市場(chǎng),就要考慮商業(yè)化問題?!半m然語(yǔ)音不像人臉、指紋一樣具有唯一性,可作為金融領(lǐng)域等的身份辨別功能,但語(yǔ)言的輸入與交互更加自然”,雷欣如是表示。
目前,語(yǔ)音識(shí)別面向消費(fèi)者的應(yīng)用場(chǎng)景主要包括翻譯文字、垂直搜索、定向推送,不同互聯(lián)網(wǎng)公司根據(jù)其需求疊加不同服務(wù)。比如說在翻譯文字上,搜索引擎谷歌、百度更注重網(wǎng)頁(yè)翻譯,阿里巴巴注重商品信息,而科大訊飛則偏重口語(yǔ);而定向推送及垂直搜索主要是根據(jù)用戶的上下文關(guān)聯(lián),推送更多生活服務(wù),比如出門問問的可穿戴設(shè)備ticw atch.
“一個(gè)通用的語(yǔ)音識(shí)別引擎(常見的輸入法)在識(shí)別某種特定領(lǐng)域(如垂直類生活服務(wù)搜索時(shí)),效果不會(huì)很好,這需要特定聲音模型與語(yǔ)音模型的訓(xùn)練?!崩仔琅e例說,“比如‘幫我找一下附近的酒店,3星級(jí)以上,帶W IFI,今晚入住,明天退房’,這需要理解用戶核心需求找酒店以及其他關(guān)鍵信息?!?/p>
在長(zhǎng)時(shí)間訓(xùn)練下,語(yǔ)音識(shí)別系統(tǒng)可以從理解語(yǔ)法到理解語(yǔ)義,應(yīng)用于更多垂直行業(yè)領(lǐng)域———教育、車聯(lián)網(wǎng)、智能家居是多家語(yǔ)音平臺(tái)提到的最主要的垂直應(yīng)用領(lǐng)域。比如科大訊飛介入普通話考試以及汽車互聯(lián)網(wǎng)服務(wù)等領(lǐng)域;而漢王則結(jié)合其OCR識(shí)別(手寫與文字識(shí)別),來表達(dá)公式、圖像等教育內(nèi)容。
比如車聯(lián)網(wǎng),“語(yǔ)音可以實(shí)現(xiàn)盲操作,不會(huì)分散司機(jī)注意力,比起圖像更適用于高速駕駛狀態(tài)”,達(dá)晨創(chuàng)投南區(qū)T M T投資總經(jīng)理程仁田告訴南都記者,但實(shí)現(xiàn)車聯(lián)網(wǎng)的前提是硬件上要先有聯(lián)網(wǎng)功能。
“人臉可以作為身份辨別,但語(yǔ)言卻是人工智能的感官系統(tǒng)?!蔽④?亞洲)互聯(lián)網(wǎng)工程院院長(zhǎng)王永東告訴南都記者,“人工智能助理小娜屬于有用的工具階段,這也是目前語(yǔ)音識(shí)別最廣泛的應(yīng)用領(lǐng)域,而小冰希望通過情感學(xué)習(xí)成為‘可信任’的朋友。你可以發(fā)現(xiàn)現(xiàn)在的語(yǔ)言輸入基本是命令式的,而不是真正的交互式。”
“如果它能取得用戶信任,理解用戶的喜好,它的商業(yè)價(jià)值就更明顯,比如說電商推薦。”王永東說,目前小冰肯定不考慮商業(yè)化問題?!罢l喜歡一個(gè)沒多熟,還天天‘安利’的朋友?。 ?/p>