緒論:寫(xiě)作既是個(gè)人情感的抒發(fā),也是對(duì)學(xué)術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的11篇語(yǔ)音識(shí)別技術(shù)范文,希望它們能為您的寫(xiě)作提供參考和啟發(fā)。
該文主要致力于解決通話(huà)中的語(yǔ)音識(shí)別技術(shù),長(zhǎng)期可推廣至QQ語(yǔ)音聊天等即時(shí)聊天軟件中,相較于目前大多數(shù)語(yǔ)音識(shí)別軟件需要手動(dòng)打開(kāi)更為主動(dòng),讓用戶(hù)感覺(jué)不到軟件的存在,將該技術(shù)深度整合到系統(tǒng)或QQ服務(wù)中在通話(huà)結(jié)束后針對(duì)通話(huà)中涉及的電話(huà)號(hào)碼、地點(diǎn)、時(shí)間等關(guān)鍵信息進(jìn)行信息的推送,大大提高了效率,并對(duì)聽(tīng)力有障礙的人士有更為重要的意義。
一、語(yǔ)音識(shí)別基本原理
語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),包括特征提取、模式匹配、參考模式庫(kù)等三個(gè)基本單元,未知語(yǔ)音經(jīng)過(guò)話(huà)筒變換成電信號(hào)后加在識(shí)別系統(tǒng)的輸入端,首先經(jīng)過(guò)預(yù)處理,再根據(jù)人的語(yǔ)音特點(diǎn)建立語(yǔ)音模型,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的模板,然后根據(jù)此模板的定義,通過(guò)查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。 [1]
二、通話(huà)中語(yǔ)音識(shí)別技術(shù)
2.1技術(shù)原理:
1、基本架構(gòu):Smartalk通話(huà)系統(tǒng)基于“云之訊”開(kāi)放平臺(tái)提供的語(yǔ)音視頻通話(huà)服務(wù)和“科大訊飛”開(kāi)放平臺(tái)提供的語(yǔ)音識(shí)別服務(wù),并加以對(duì)手機(jī)GPS位置、通訊錄、社交軟件信息的分析,在“云”的輔助下對(duì)之進(jìn)行處理和交換。Smartalk架構(gòu)分為4個(gè)部分:客戶(hù)端、語(yǔ)音視頻服務(wù)、語(yǔ)音識(shí)別服務(wù)、云數(shù)據(jù)處理分析。利用“云之訊”開(kāi)放平臺(tái)提供的語(yǔ)音視頻通話(huà)服務(wù)和“科大訊飛”開(kāi)放平臺(tái)提供的語(yǔ)音識(shí)別服務(wù)可將用戶(hù)在通話(huà)中涉及的地點(diǎn)、人名、電話(huà)號(hào)碼等關(guān)鍵詞提取出來(lái)并加以分析對(duì)行程和下一步操作提供幫助。
2、基本平臺(tái):本系統(tǒng)基于APIcloud開(kāi)發(fā),兼容云端和第三方SDK,可跨平臺(tái)(Android、IOS、Windows等)使用,采用標(biāo)準(zhǔn)的c++語(yǔ)言實(shí)現(xiàn)。
2.2功能實(shí)現(xiàn):
1、基于“云之訊”開(kāi)放平臺(tái)的通話(huà)系統(tǒng):云之訊融合通訊開(kāi)放平臺(tái)為企業(yè)及個(gè)人開(kāi)發(fā)者提供各種通訊服務(wù),包括在線語(yǔ)音服務(wù)、短信服務(wù)、視頻服務(wù)、會(huì)議服務(wù)等,開(kāi)發(fā)者通過(guò)嵌入云通訊API在應(yīng)用中輕松實(shí)現(xiàn)各種通訊功能。
2、基于“科大訊飛”開(kāi)放平臺(tái)的語(yǔ)音識(shí)別系統(tǒng):。訊飛開(kāi)放平臺(tái)使用戶(hù)可通過(guò)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng),使用任何設(shè)備方便的介入訊飛開(kāi)放平臺(tái)提供的“聽(tīng)、說(shuō)、讀、寫(xiě)”等全方位的人工智能服務(wù)。目前開(kāi)放平臺(tái)向開(kāi)發(fā)者提供語(yǔ)音合成、語(yǔ)音識(shí)別、語(yǔ)音喚醒、語(yǔ)義理解、移動(dòng)應(yīng)用分析等多項(xiàng)服務(wù)。
3、語(yǔ)音識(shí)別與云端大數(shù)據(jù)結(jié)合分析:。利用基于“云之訊”通話(huà)系統(tǒng)和“科大訊飛”語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)了實(shí)時(shí)的語(yǔ)音識(shí)別,加以云端大數(shù)據(jù)的結(jié)合,和實(shí)時(shí)的分析用戶(hù)當(dāng)前的需求和問(wèn)題,及時(shí)的跟用戶(hù)產(chǎn)生交流反饋,并根據(jù)用戶(hù)長(zhǎng)期的使用時(shí)間分析智能提前推送相關(guān)信息。
2.3未來(lái)展望:
基于大數(shù)據(jù)和互聯(lián)網(wǎng)+技術(shù)的日益發(fā)展與完善,并隨著通信傳輸速度的逐漸提高,可在實(shí)時(shí)的條件下分析與推送更多豐富的內(nèi)容,加以與即時(shí)聊天軟件的結(jié)合,將該技術(shù)深度整合到系統(tǒng)或QQ服務(wù)中在通話(huà)結(jié)束后針對(duì)通話(huà)中涉及的電話(huà)號(hào)碼、地點(diǎn)、時(shí)間等關(guān)鍵信息進(jìn)行信息的推送,并對(duì)聽(tīng)力有障礙的人士有更為重要的意義,未來(lái)的市場(chǎng)前景廣闊。
三、語(yǔ)音識(shí)別技術(shù)應(yīng)用
3.1 語(yǔ)音指令控制在汽車(chē)上的應(yīng)用:
語(yǔ)音控制人員只需要用嘴說(shuō)出命令控制字,就可以實(shí)現(xiàn)對(duì)系統(tǒng)的控制。在汽車(chē)上,可用于汽車(chē)導(dǎo)航、控制車(chē)載設(shè)備。如車(chē)燈、音響、天窗、座椅、雨刮器等。
3.2語(yǔ)音識(shí)別技術(shù)在醫(yī)療系統(tǒng)中的應(yīng)用:
醫(yī)療語(yǔ)音識(shí)別技術(shù),已有廠商開(kāi)發(fā)了基于云平臺(tái)的語(yǔ)音識(shí)別系統(tǒng),可直接內(nèi)嵌到醫(yī)院電子病歷系統(tǒng)中,讓醫(yī)生通過(guò)語(yǔ)音輸入病人信息,填寫(xiě)醫(yī)療記錄,下達(dá)醫(yī)囑信息。
四、相關(guān)市場(chǎng)調(diào)研
1、國(guó)內(nèi)外市場(chǎng)分析:2015年全球智能語(yǔ)音產(chǎn)業(yè)規(guī)模達(dá)到61.2億美元,較2014年增長(zhǎng)34.2%。其中,中國(guó)智能語(yǔ)音產(chǎn)業(yè)規(guī)模達(dá)到40.3億元,較2014年增長(zhǎng)增長(zhǎng)41.0%,遠(yuǎn)高于全球語(yǔ)音產(chǎn)業(yè)增長(zhǎng)速度預(yù)計(jì)到2016年,中國(guó)語(yǔ)音產(chǎn)業(yè)規(guī)模預(yù)計(jì)達(dá)到59億元。[2]
2、相關(guān)應(yīng)用發(fā)展:拉斯維加斯消費(fèi)電子展(CES)上展示的MindMeld。在通話(huà)中,如果參與者點(diǎn)擊應(yīng)用的一個(gè)按鈕,那么MindMeld將利用Nuance的語(yǔ)音識(shí)別技術(shù),分析此前15至30秒對(duì)話(huà)。隨后,MindMeld將確定對(duì)話(huà)中的關(guān)鍵詞,以及其他多個(gè)信息來(lái)源,查找具有相關(guān)性的信息,并在屏幕上向用戶(hù)提供圖片和鏈接地址。[3]
參 考 文 獻(xiàn)
中圖分類(lèi)號(hào):TP391.42 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 19-0000-02
近年來(lái),隨著科學(xué)技術(shù)的進(jìn)步,語(yǔ)音識(shí)別技術(shù)的發(fā)展,通過(guò)語(yǔ)言操縱機(jī)器的夢(mèng)想正在逐步變?yōu)楝F(xiàn)實(shí)。語(yǔ)音識(shí)別是語(yǔ)音信號(hào)處理的一個(gè)重要的研究方向,經(jīng)過(guò)50多年的積累研究,尤其是近20年來(lái),語(yǔ)音識(shí)別技術(shù)取得了顯著進(jìn)步,并且廣泛應(yīng)用于商業(yè),比如蘋(píng)果的siri系統(tǒng)。本文從語(yǔ)音識(shí)別的發(fā)展歷史、發(fā)展方向來(lái)著重分析未來(lái)語(yǔ)音識(shí)別技術(shù)的發(fā)展趨勢(shì)。
1 語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史
1.1 語(yǔ)音識(shí)別技術(shù)在國(guó)際的發(fā)展
早在三四十年前,美國(guó)的一些大學(xué)和實(shí)驗(yàn)室就開(kāi)始了語(yǔ)音識(shí)別技術(shù)的研究,50年代的AT& T Bell實(shí)驗(yàn)室研發(fā)的Audry系統(tǒng)第一個(gè)實(shí)現(xiàn)了可識(shí)別十個(gè)英文數(shù)字。60和70年代,提出了線性預(yù)測(cè)分析技術(shù)(LP)等相關(guān)理論并深入研究,創(chuàng)造出可以實(shí)現(xiàn)特定人孤立語(yǔ)音識(shí)別系統(tǒng);80年代和90年代是語(yǔ)音識(shí)別技術(shù)應(yīng)用研究方向的,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語(yǔ)音識(shí)別系統(tǒng)的性能比以往更優(yōu)異;伴隨著多媒體時(shí)代的來(lái)臨,微軟,Apple等著名公司都研發(fā)出相當(dāng)成功的商業(yè)應(yīng)用語(yǔ)音識(shí)別系統(tǒng),比如,Apple的Siri系統(tǒng),微軟的Phone Query (電話(huà)語(yǔ)音識(shí)別)引擎等。
1.2 語(yǔ)音識(shí)別技術(shù)在國(guó)內(nèi)的發(fā)展
我國(guó)的語(yǔ)音識(shí)別研究工作雖然起步較晚,但由于國(guó)家的重視,研究工作進(jìn)展順利,相關(guān)研究緊跟國(guó)際水平。由于中國(guó)有不可忽視的龐大市場(chǎng),國(guó)外對(duì)中國(guó)的語(yǔ)音識(shí)別技術(shù)也非常重視,漢語(yǔ)語(yǔ)音語(yǔ)義的特殊性也使得中文語(yǔ)音識(shí)別技術(shù)的研究更具有挑戰(zhàn)。但是,國(guó)內(nèi)研究機(jī)構(gòu)在進(jìn)行理論研究的同時(shí),應(yīng)注重語(yǔ)音識(shí)別系統(tǒng)在商業(yè)中的應(yīng)用,加快從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化。
現(xiàn)如今,許多用戶(hù)已經(jīng)能享受到語(yǔ)音識(shí)別技術(shù)帶來(lái)的方便,比如智能手機(jī)的語(yǔ)音操作等。但是,這與實(shí)現(xiàn)真正的人機(jī)交流還有相當(dāng)遙遠(yuǎn)的距離。目前,計(jì)算機(jī)對(duì)用戶(hù)語(yǔ)音的識(shí)別程度不高,人機(jī)交互上還存在一定的問(wèn)題,語(yǔ)音識(shí)別技術(shù)還有很長(zhǎng)的一段路要走,必須取得突破性的進(jìn)展,才能做到更好的商業(yè)應(yīng)用,這也是未來(lái)語(yǔ)音識(shí)別技術(shù)的發(fā)展方向。
2 語(yǔ)音識(shí)別技術(shù)的技術(shù)實(shí)現(xiàn)及困難
語(yǔ)音識(shí)別技術(shù)的實(shí)現(xiàn)方式是聲音通過(guò)轉(zhuǎn)換裝置進(jìn)入機(jī)器,而機(jī)器配有“語(yǔ)音辨識(shí)”程序,程序?qū)⒌玫降穆曇魳颖九c數(shù)據(jù)庫(kù)存儲(chǔ)的樣本進(jìn)行比對(duì),輸出最匹配的結(jié)果,轉(zhuǎn)化為機(jī)器語(yǔ)言,進(jìn)而執(zhí)行命令。真正建立辨識(shí)率高的語(yǔ)音辨識(shí)程序組,是非常困難而專(zhuān)業(yè)的,專(zhuān)家學(xué)者們研究出許多破解這個(gè)問(wèn)題的方法,如傅立葉轉(zhuǎn)換、倒頻譜參數(shù)等,使目前的語(yǔ)音辨識(shí)系統(tǒng)已達(dá)到一個(gè)可接受的程度,并具有較高辨識(shí)度。
2.1 語(yǔ)音識(shí)別的技術(shù)實(shí)現(xiàn)方式
語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面,其中,最基礎(chǔ)的就是語(yǔ)音識(shí)別單元的選取。
(1)語(yǔ)音識(shí)別單元的選取。語(yǔ)音識(shí)別研究的基礎(chǔ)是選擇語(yǔ)音識(shí)別單元。語(yǔ)音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種語(yǔ)音識(shí)別單元由具體研究任務(wù)的類(lèi)型決定:
單詞(句)單元在中小詞匯語(yǔ)音識(shí)別系統(tǒng)中應(yīng)用廣泛,但由于模型庫(kù)過(guò)于龐大,模型匹配算法復(fù)雜,實(shí)時(shí)性不強(qiáng),所以不適合大詞匯系統(tǒng);
音節(jié)單元主要應(yīng)用于漢語(yǔ)語(yǔ)音識(shí)別,因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言,雖然有大約1300個(gè)音節(jié),但無(wú)調(diào)音節(jié)共408個(gè),相對(duì)較少,所以音節(jié)單元在中、大詞匯量的漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)上是可行的。
音素單元之前曾廣泛應(yīng)用于英語(yǔ)語(yǔ)音識(shí)別,也越來(lái)越多的應(yīng)用于中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)中。原因在于漢語(yǔ)音節(jié)僅由22個(gè)聲母和28個(gè)韻母構(gòu)成,把聲母細(xì)化,雖然增加了模型數(shù)量,但是提高了易混淆音節(jié)的區(qū)分能力
(2)特征參數(shù)提取技術(shù)。特征提取就是對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,把豐富的語(yǔ)音信息中的冗余信息去除,獲得對(duì)語(yǔ)音識(shí)別有用的信息。這是一個(gè)對(duì)語(yǔ)音信號(hào)進(jìn)行信息壓縮的過(guò)程,目前經(jīng)常采用的特征參數(shù)提取技術(shù)是線性預(yù)測(cè)(LP)分析技術(shù)。基于LP技術(shù)提取的倒譜參數(shù)再加上Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜對(duì)人耳處理聲音的模擬,進(jìn)一步提高了語(yǔ)音識(shí)別系統(tǒng)的性能。
(3)模式匹配及模型訓(xùn)練技術(shù)。早期的語(yǔ)音識(shí)別應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)是動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW),它在孤立詞語(yǔ)音識(shí)別中獲得了良好性能,但是由于對(duì)大詞匯量以及連續(xù)語(yǔ)音識(shí)別的不準(zhǔn)確,目前已經(jīng)被隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)所取代。
2.2 語(yǔ)音識(shí)別遇到的困難
目前,語(yǔ)音識(shí)別研究工作進(jìn)展緩慢,困難具體表現(xiàn)在:
(一)語(yǔ)音識(shí)別系統(tǒng)對(duì)環(huán)境敏感,采集到的語(yǔ)音訓(xùn)練系統(tǒng)只能應(yīng)用于與之對(duì)應(yīng)的環(huán)境,而且當(dāng)用戶(hù)輸入錯(cuò)誤時(shí)不能正確響應(yīng),應(yīng)用起來(lái)相對(duì)困難;(二)必須采取新的新號(hào)處理方法來(lái)處理人在高噪聲環(huán)境下的發(fā)音變化的問(wèn)題;(三)語(yǔ)言模型、語(yǔ)法及詞法模型在中、大詞匯量連續(xù)語(yǔ)音識(shí)別中無(wú)法正確、合理的運(yùn)用,需要有效地利用語(yǔ)言學(xué)、心理學(xué)及生理學(xué)等方面的研究成果;現(xiàn)階段的科學(xué)技術(shù)對(duì)人類(lèi)生理學(xué)諸如聽(tīng)覺(jué)系統(tǒng)分析理解功能、大腦神經(jīng)系統(tǒng)的控制功能等還不夠,更無(wú)法應(yīng)用于語(yǔ)音識(shí)別;語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)向商品的轉(zhuǎn)化過(guò)程中還有許多具體細(xì)節(jié)技術(shù)問(wèn)題需要解決。
3 語(yǔ)音識(shí)別技術(shù)的發(fā)展趨勢(shì)
3.1 進(jìn)一步提高可靠性
目前語(yǔ)音識(shí)別系統(tǒng)很難做到排除各種聲學(xué)環(huán)境因素的影響,而人類(lèi)語(yǔ)言在日常生活中的隨意性和不確定性給語(yǔ)音識(shí)別系統(tǒng)造成極大的識(shí)別困難。所以,要應(yīng)用現(xiàn)代技術(shù)智能化語(yǔ)音識(shí)別系統(tǒng),以達(dá)到更好的識(shí)別效果;
3.2 增加詞匯量
目前語(yǔ)音識(shí)別系統(tǒng)使用的聲學(xué)模型和語(yǔ)音模型過(guò)于局限,需要通過(guò)改進(jìn)系統(tǒng)建模方法、提高搜索算法的效率來(lái)做到詞匯量無(wú)限制和多重語(yǔ)言混合,減少詞匯量對(duì)語(yǔ)音識(shí)別系統(tǒng)的限制;
3.3 微型化并降低成本
語(yǔ)音識(shí)別系統(tǒng)在商業(yè)上的用途相當(dāng)廣泛,利用先進(jìn)的微電子技術(shù),將具有先進(jìn)功能和性能的語(yǔ)音識(shí)別應(yīng)用系統(tǒng)固化到更加微小的芯片或模塊上,可以縮減成本,更方便的推廣和使用。語(yǔ)音識(shí)別系統(tǒng)和微電子芯片技術(shù)的發(fā)展將引領(lǐng)信息技術(shù)革命到一個(gè)新的臺(tái)階。語(yǔ)音識(shí)別系統(tǒng)使人溝通更加自由,使人可以方便地享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù)。這必然會(huì)成為語(yǔ)音識(shí)別技術(shù)研究和應(yīng)用的重要發(fā)展趨勢(shì)。
4 結(jié)束語(yǔ)
21世紀(jì),信息和網(wǎng)絡(luò)飛速發(fā)展,信息和網(wǎng)絡(luò)的時(shí)代已經(jīng)來(lái)臨,人與人之間的距離隨著Internet和移動(dòng)電話(huà)網(wǎng)的連接和普及變得越來(lái)越近,信息資源擴(kuò)散的越來(lái)越迅速,人與機(jī)器的交互顯得尤為重要。語(yǔ)音識(shí)別技術(shù)的研究和應(yīng)用可以讓人無(wú)論何時(shí)何地都可以通過(guò)語(yǔ)音交互的方式實(shí)現(xiàn)任何事,可以使人更方便的享受更多的社會(huì)信息資源和現(xiàn)代化服務(wù),所以,如何將這一技術(shù)可靠的、低成本的應(yīng)用于商業(yè)和日常生活,是語(yǔ)音識(shí)別技術(shù)的發(fā)展方向和趨勢(shì)。
參考文獻(xiàn):
[1]劉鈺.語(yǔ)音識(shí)別技術(shù)概述[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2010:14-17.
[2]盛青.語(yǔ)音自動(dòng)識(shí)別技術(shù)及其軟件實(shí)時(shí)實(shí)現(xiàn)[J].西北工業(yè)大學(xué),2001:45-47.
[3]廖锎.淺析語(yǔ)音識(shí)別技術(shù)的發(fā)展及趨勢(shì)[J].科技傳播,2010:34-36.
談到語(yǔ)音識(shí)別,就不得不提到李開(kāi)復(fù)------前微軟研究院院長(zhǎng),他在哥倫比亞大學(xué)時(shí)主攻的就是語(yǔ)音識(shí)別,即通過(guò)機(jī)器來(lái)識(shí)別語(yǔ)音。語(yǔ)音識(shí)別是現(xiàn)代社會(huì)背景下的一門(mén)新興學(xué)科,它最主要的功能就是可以讓計(jì)算機(jī)聽(tīng)懂人說(shuō)的話(huà),進(jìn)而為人們提供更高效且方便的服務(wù)。它是人類(lèi)和計(jì)算機(jī)之間利用語(yǔ)言進(jìn)行交流 的橋梁,也是一門(mén)與多種學(xué)科緊密聯(lián)系的實(shí)用技術(shù)。現(xiàn)階段,人們對(duì)連續(xù)語(yǔ)音識(shí)別的研究已經(jīng)取得了一定的成就。目前,我們研究語(yǔ)音識(shí)別的重點(diǎn)正在向特定應(yīng)用領(lǐng)域口語(yǔ)的識(shí)別和理解方面轉(zhuǎn)變。在這個(gè)研究中,有幾種關(guān)鍵技術(shù),下面我們就對(duì)其中幾種關(guān)鍵技術(shù)進(jìn)行簡(jiǎn)單的分析。
1、詞語(yǔ)定位技術(shù)
詞語(yǔ)定位技術(shù),在語(yǔ)音識(shí)別技術(shù)中非常重要的技術(shù)。主要通過(guò)對(duì)關(guān)鍵詞進(jìn)行定位,這種技術(shù)跟語(yǔ)言的語(yǔ)法特點(diǎn)有很大關(guān)系,是將語(yǔ)句中的關(guān)鍵詞語(yǔ)提取出來(lái)的一種定位技術(shù)。比如主語(yǔ),謂語(yǔ),賓語(yǔ)就是關(guān)鍵語(yǔ)素,先將這些語(yǔ)素定位對(duì)于完善整句話(huà)有著非常重要的意義,因?yàn)檫@些語(yǔ)素已經(jīng)勾勒出了語(yǔ)句的骨架。打個(gè)比方,蓋個(gè)房子要加鋼筋,來(lái)增加建筑物的強(qiáng)度和支撐作用,關(guān)鍵語(yǔ)素就是語(yǔ)句意群的鋼筋。通常詞語(yǔ)定位是通過(guò)設(shè)置并及時(shí)更新關(guān)鍵詞庫(kù)來(lái)實(shí)現(xiàn)的。
2、關(guān)聯(lián)搜索技術(shù)
在確定完基本語(yǔ)素后,就要根據(jù)語(yǔ)素之間的關(guān)聯(lián)性,進(jìn)行搜索,那些語(yǔ)素是一個(gè)意群,同在一個(gè)意群中的語(yǔ)素如何排列。利用相關(guān)性確定意群非常重要,因?yàn)樵~語(yǔ)詞之間不是任意搭配的,而是有規(guī)律的,這種規(guī)律就是語(yǔ)法,包括書(shū)面語(yǔ)語(yǔ)法和口語(yǔ)的語(yǔ)法。語(yǔ)法是語(yǔ)音識(shí)別的規(guī)則,因此是非常重要的。關(guān)聯(lián)的方式在語(yǔ)法的約束下主要有以下幾種:1.相關(guān)詞語(yǔ)出現(xiàn)的概率;2.相關(guān)詞語(yǔ)的詞性;3.相關(guān)詞語(yǔ)出現(xiàn)的語(yǔ)境的重復(fù)率等等。
連接詞識(shí)別就是說(shuō),系統(tǒng)中存儲(chǔ)的HMM針對(duì)的是孤立詞,但識(shí)別的語(yǔ)音是由這些詞組成的詞串。由于這一技術(shù)是一個(gè)連接序列,即根據(jù)給定發(fā)音序列來(lái)找到與其最匹配的參考模塊詞,所以,下面的問(wèn)題必須得到解決:(1)在序列中,有些時(shí)候即使知道詞長(zhǎng)度的大概范圍,也不知道詞的具體數(shù)量;(2)除整個(gè)序列的首末端點(diǎn)之外,序列之中每個(gè)詞的邊界位置并不知道。
3、抗阻礙性
在語(yǔ)音識(shí)別系統(tǒng)中,阻礙無(wú)處不在,具體說(shuō)來(lái),阻礙包括以下幾個(gè)方面:1.方言帶來(lái)的語(yǔ)音識(shí)別的阻礙;2.口音帶來(lái)的語(yǔ)音識(shí)別的阻礙;3.外界干擾(噪聲)帶來(lái)的語(yǔ)音識(shí)別的阻礙;4.系統(tǒng)設(shè)備局限性帶來(lái)的語(yǔ)音識(shí)別的阻礙等等。
一般情況下,在實(shí)驗(yàn)室(環(huán)境相對(duì)安靜)中訓(xùn)練合格的語(yǔ)音識(shí)別系統(tǒng)用在實(shí)際環(huán)境(環(huán)境與訓(xùn)練的實(shí)驗(yàn)室環(huán)境不相匹配)的時(shí)候性能就會(huì)明顯下降。所以,運(yùn)用頑健語(yǔ)音識(shí)別技術(shù)就是為了研究一些補(bǔ)償技術(shù)借以提高系統(tǒng)在不同環(huán)境中的性能。
根據(jù)語(yǔ)音系統(tǒng)中噪聲的特點(diǎn),我們研究出了一些抑制噪聲的方法,如根據(jù)信號(hào)與噪聲在各個(gè)尺度上的小波譜表現(xiàn)不一樣的特點(diǎn),可以運(yùn)用小波變換的噪聲抑制;根據(jù)含噪語(yǔ)音信號(hào)能量譜就是噪聲信號(hào)和語(yǔ)音信號(hào)能量譜之和這一特點(diǎn),可以運(yùn)用EVRC編碼噪聲抑制方法,等等。
4、搜索策略技術(shù)
在利用計(jì)算機(jī)來(lái)識(shí)別語(yǔ)音的時(shí)候,未知的模式,即從輸入語(yǔ)音中求出的特征參數(shù),與事前所定的標(biāo)準(zhǔn)模式是否一致,這個(gè)問(wèn)題必須檢查。目前語(yǔ)音識(shí)別的實(shí)現(xiàn)主要是通過(guò)聲音識(shí)別芯片分析聲音的波形來(lái)實(shí)現(xiàn)的,人的說(shuō)話(huà)聲音有音調(diào)、音色的不同,因而所形成的生意的波形也不同,芯片通過(guò)比對(duì)聲音圖譜來(lái)確定語(yǔ)音內(nèi)容,達(dá)到聲音識(shí)別的目的,這也就是聲音識(shí)別的原理。然而,在實(shí)際情況中,由于語(yǔ)音具有許多的不確定的因素,想達(dá)到完全一致比較困難。搜索策略是連續(xù)語(yǔ)音識(shí)別研究中的一個(gè)是否重要的課題。它的基本思路是,把幀作為搜索單位,在每一時(shí)刻對(duì)每一條路徑都假定當(dāng)前幀有可能是這一路徑的后續(xù),借此進(jìn)行一個(gè)完整的搜索。
總體來(lái)說(shuō),搜索策略技術(shù)受到容量的限制。所以,我們必須確定應(yīng)該保留哪些路徑,這就要求我們確定一定閥值,這個(gè)閥值既不能過(guò)嚴(yán)也不能過(guò)寬。對(duì)于這個(gè)問(wèn)題,我們一定要采用合適的算法,如傳統(tǒng)的幀同步算法、基于統(tǒng)計(jì)知識(shí)的幀同步搜索算法原理和受詞法約束的詞搜索樹(shù)等算法都是比較適合這一部分的。
結(jié)論:
本文總結(jié)了連續(xù)語(yǔ)音識(shí)別中幾種關(guān)鍵技術(shù),并對(duì)它們進(jìn)行了簡(jiǎn)單的介紹和分析。目前連續(xù)語(yǔ)音識(shí)別技術(shù)的研究并不成熟,它要向正確的方向健康發(fā)展就必須把詞語(yǔ)定位技術(shù)、關(guān)聯(lián)搜索技術(shù)、抗阻礙性技術(shù)、搜索策略技術(shù)等技術(shù)都正確運(yùn)用于實(shí)際工作中。
參考文獻(xiàn):
中圖分類(lèi)號(hào):TP316.9
文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.3969/j.issn.1003-6970.2015.07.021
0 引言
隨著計(jì)算機(jī)的發(fā)展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)家居設(shè)備集成,為用戶(hù)提供了更加舒適高效的環(huán)境。近幾年人們對(duì)智能家居的便利程度提出了更高的要求,同時(shí)語(yǔ)音識(shí)別技術(shù)也進(jìn)一步的發(fā)展,但是語(yǔ)音在智能家居中的應(yīng)用還是相對(duì)較少,一般還要依靠遙控、手機(jī)等中控設(shè)備。語(yǔ)言是信息交流的重要手段,語(yǔ)音識(shí)別可以用聲音來(lái)控制設(shè)備完成一些特定的命令,減少用戶(hù)如手機(jī),遙控等中控設(shè)備的依賴(lài),使生活更加方便。
本文通過(guò)對(duì)語(yǔ)音識(shí)別技術(shù)與嵌入式控制技術(shù)的研究,用語(yǔ)音命令實(shí)現(xiàn)直接管控從而可以取代以往利用手機(jī)或者遙控方式來(lái)控制的方法,方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語(yǔ)音芯片VS1003實(shí)現(xiàn)語(yǔ)音采集,并采用當(dāng)今語(yǔ)音識(shí)別領(lǐng)域的主流技術(shù)一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實(shí)現(xiàn)對(duì)人語(yǔ)音命令的識(shí)別主要是進(jìn)行模型訓(xùn)練和匹配。實(shí)驗(yàn)證明在多個(gè)語(yǔ)音樣本對(duì)系統(tǒng)的訓(xùn)練識(shí)別下,系統(tǒng)在非特定人、孤立詞語(yǔ)識(shí)別上具有良好的效果。
1 語(yǔ)音識(shí)別與智能家居
1.1 語(yǔ)音識(shí)別技術(shù)
語(yǔ)音識(shí)別技術(shù)本質(zhì)上是一種模式匹配識(shí)別的過(guò)程,是機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變成相應(yīng)的文本文件或命令的技術(shù)。根據(jù)模式匹配過(guò)程語(yǔ)音識(shí)別系統(tǒng)可以如下圖表示。語(yǔ)音識(shí)別系統(tǒng)可以分為:特定人和非特定人的識(shí)別、獨(dú)立詞和連續(xù)詞的識(shí)別等,無(wú)論哪種識(shí)別系統(tǒng)識(shí)別過(guò)程都主要包括了語(yǔ)音信號(hào)預(yù)處理、特征提取、訓(xùn)練等。分別通過(guò)對(duì)信號(hào)的預(yù)處理分析和計(jì)算建立模板,當(dāng)對(duì)語(yǔ)音進(jìn)行識(shí)別時(shí),需要將輸入的語(yǔ)音與系統(tǒng)中存放的語(yǔ)音進(jìn)行比較從而得到識(shí)別結(jié)果。
1.2 語(yǔ)音識(shí)別算法
人的言語(yǔ)過(guò)程是一個(gè)雙重隨機(jī)過(guò)程。因?yàn)檎Z(yǔ)音信號(hào)本身是一個(gè)可觀察的序列,而它又是由大腦里的不可觀察的、根據(jù)言語(yǔ)需要和語(yǔ)法知識(shí)狀態(tài)選擇所發(fā)出的音素(詞、句)的參數(shù)流,大量實(shí)驗(yàn)表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語(yǔ)音信號(hào)的產(chǎn)生過(guò)程。隱馬爾可夫模型是對(duì)語(yǔ)音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過(guò)程,采用HMM進(jìn)行語(yǔ)音識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算,根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型參數(shù)后,測(cè)試集數(shù)據(jù)只需分別計(jì)算各模型的條件概率(Viterbi算法),取此概率最大者即為識(shí)別結(jié)果。一階離散馬爾可夫模型可表示為:有N個(gè)狀態(tài),Sl,S2... SN,存在一個(gè)離散的時(shí)間序列t=0,t=1…在每個(gè)時(shí)刻t,系統(tǒng)只能處于唯一一個(gè)狀態(tài)qt,下一個(gè)時(shí)刻所處的狀態(tài)是隨機(jī)出現(xiàn)的,當(dāng)前狀態(tài)qt只與前面相鄰的一個(gè)狀態(tài)qt-l有關(guān), 與其他狀態(tài)無(wú)關(guān),用表達(dá)式
HMM語(yǔ)音識(shí)別的一般過(guò)程:
1.前向后向算法計(jì)算
已知觀測(cè)序列 和模型 ,如何有效的計(jì)算在給定模型條件下產(chǎn)生觀測(cè)序列O的概率
2.Baum-Welch算法求出最優(yōu)解 :
(1)初始化
(2)迭代計(jì)算
(3)最后計(jì)算
3.Viterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列:
已知觀測(cè)序列 和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。
(1)初始化
(2)迭代計(jì)算:
4.根據(jù)最佳狀態(tài)序列對(duì)應(yīng)的九給出候選音節(jié)或聲韻母
5.通過(guò)語(yǔ)言模型形成詞和句子
2 基于NL6621嵌入式硬件設(shè)計(jì)
語(yǔ)音識(shí)別的硬件平臺(tái)主要包括中央處理器NL6621,可讀寫(xiě)存儲(chǔ)器,聲卡芯片vs1003以及一些設(shè)備,硬件體系結(jié)構(gòu)如圖2所示。
主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護(hù)設(shè)置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據(jù)通信是通過(guò)SPI總線方式進(jìn)行的。它集成了麥克風(fēng)輸入接口,音頻輸出接口,對(duì)話(huà)筒輸入或者線路輸入進(jìn)行IMA ADPCM編碼,能有效的接受和播放音頻信息。
硬件電路實(shí)現(xiàn):VS1003通過(guò)xCS、xDCS引腳的置高或低來(lái)確認(rèn)是哪一個(gè)接口處于傳送狀態(tài)。通過(guò)串行命令接口(SCI)和串行數(shù)據(jù)接口(SDI)來(lái)接收NL6621的控制命令和數(shù)據(jù),通過(guò)SCI HDAT1來(lái)獲取語(yǔ)音流;VS1003的功能控制,如初始化、軟復(fù)位、暫停、音量控制、播放時(shí)間的讀取等,均是通過(guò)SCI口寫(xiě)入特定寄存器實(shí)現(xiàn)的。兩條SCI指令之間要通過(guò)DREQ引腳信號(hào)判斷上一次處理是否完成。
3 基于NL6621嵌入式軟件設(shè)計(jì)
軟件設(shè)計(jì)主要包括兩部分實(shí)現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術(shù)的語(yǔ)音識(shí)別算法編寫(xiě),基本的軟件架構(gòu)如圖3所示。
針對(duì)嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號(hào)。主要是使用NL6621提供的軟件開(kāi)發(fā)包,利用SDK編寫(xiě)應(yīng)用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉(zhuǎn)化、程序編寫(xiě)完成后需要用燒寫(xiě)工具進(jìn)行燒寫(xiě)。系統(tǒng)啟動(dòng)后,先初始化硬件模塊。然后系統(tǒng)開(kāi)始工作,通過(guò)語(yǔ)音輸入設(shè)備MIC采集語(yǔ)音,并通過(guò)聲卡VS1003輸入語(yǔ)音。當(dāng)系統(tǒng)監(jiān)聽(tīng)到語(yǔ)音輸入,開(kāi)始語(yǔ)音識(shí)別,判斷識(shí)別是否正確,若正確,將命令發(fā)送給執(zhí)行設(shè)備,入耳不正確,給出相應(yīng)
中圖分類(lèi)號(hào):TN912 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2012)02-0082-01
由于生活節(jié)奏的加快,汽車(chē)已經(jīng)成為了人們生活中重要的工具,人們?cè)谲?chē)內(nèi)的時(shí)間也更多。同時(shí)也希望能夠在車(chē)內(nèi)接收到外界的信息繼續(xù)進(jìn)行工作,還要求汽車(chē)有娛樂(lè)功能,因此促進(jìn)了車(chē)載多媒體的發(fā)展。而車(chē)載多媒體傳統(tǒng)的人機(jī)交互方式會(huì)增加潛在的駕駛危險(xiǎn),為此將語(yǔ)音識(shí)別應(yīng)用于車(chē)載多媒體系統(tǒng)中,將會(huì)是車(chē)載多媒體發(fā)展的重要方向。端點(diǎn)檢測(cè)、特征參數(shù)提取以及識(shí)別是語(yǔ)音識(shí)別的主要內(nèi)容,本文也將從這三個(gè)方向?qū)?chē)在多媒體系統(tǒng)的語(yǔ)音識(shí)別進(jìn)行研究。
1、端點(diǎn)檢測(cè)
在進(jìn)行語(yǔ)音識(shí)別時(shí),首先需要通過(guò)端點(diǎn)檢測(cè)來(lái)對(duì)語(yǔ)音信號(hào)中的無(wú)聲片段和有聲片段進(jìn)行分割。目前,語(yǔ)音端點(diǎn)識(shí)別已經(jīng)從開(kāi)始的單一門(mén)限發(fā)展到了基于模糊理論的判決。但是對(duì)于車(chē)載多媒體而言,計(jì)算量較大、識(shí)別響應(yīng)時(shí)間較長(zhǎng)端點(diǎn)檢測(cè)的方法顯然不使用,所以主要采用基于短平均過(guò)零率和短時(shí)間平均幅度的方法來(lái)進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),這種方法利用短時(shí)間內(nèi)幅度的檢測(cè)和過(guò)零率來(lái)作為語(yǔ)音端點(diǎn)的檢測(cè)。
首先,利用短時(shí)幅度可以有效判斷語(yǔ)音端點(diǎn),同時(shí)語(yǔ)音的濁音部分平均幅度會(huì)明顯大于噪聲的平均幅度,然后同時(shí)再輔以短時(shí)過(guò)零率的方法來(lái)判斷語(yǔ)音開(kāi)始的濁音,從而進(jìn)一步對(duì)端點(diǎn)檢測(cè)進(jìn)行校準(zhǔn),兩者的結(jié)合能夠更加精確的判斷語(yǔ)音端點(diǎn),并且兩種算法都較為簡(jiǎn)單,能夠滿(mǎn)足車(chē)在多媒體的需求。
2、特征參數(shù)提取
在完成語(yǔ)音的端點(diǎn)檢測(cè)之后,需要提取語(yǔ)音的特征參數(shù),然后進(jìn)行語(yǔ)音識(shí)別。目前用于語(yǔ)音特征參數(shù)提取的算法主要有LPCC(線性預(yù)測(cè)倒譜系數(shù))和MFCC(Mel頻率倒譜),由于MFCC具有更強(qiáng)的抗干擾能力等特點(diǎn),更適合與噪聲較多、司機(jī)不能離輸入設(shè)備很近的車(chē)載環(huán)境。
分析MFCC的語(yǔ)音特征參數(shù)提取可以分成預(yù)加重、加窗、FFT(快速傅里葉變換)、濾波、自然對(duì)數(shù)提取、自然對(duì)數(shù)DCT計(jì)算這六個(gè)步驟。由于MFCC其計(jì)算精度以及計(jì)算量都較大,因此,使用MFCC作為車(chē)載系統(tǒng)的語(yǔ)音特征參數(shù)提取時(shí),需要進(jìn)行相應(yīng)的改進(jìn):
(1)在MFCC實(shí)現(xiàn)的六個(gè)步驟中,例如加窗等步驟就可以實(shí)現(xiàn)進(jìn)行計(jì)算,然后存儲(chǔ)在數(shù)組中,在使用時(shí)進(jìn)行查表提取,從而避免每一次語(yǔ)音識(shí)別時(shí)重復(fù)計(jì)算,從而加快了計(jì)算速度。
(2)FFT需要花費(fèi)大量的時(shí)間(據(jù)統(tǒng)計(jì),F(xiàn)FT需要花費(fèi)MFCC56.32%的時(shí)間[2]),由于FFT算法是對(duì)復(fù)數(shù)進(jìn)行處理,而語(yǔ)音信號(hào)的處理只涉及到實(shí)數(shù)部分,其虛數(shù)部分為零,因此增加了運(yùn)算時(shí)間,因此可以利用文獻(xiàn)3所提出的FFT運(yùn)算方法,將長(zhǎng)度為N的FFT預(yù)算降低到長(zhǎng)度為N/2的FFT運(yùn)算,從而提高了語(yǔ)音特征參數(shù)提取效率。
3、識(shí)別模式
語(yǔ)音識(shí)別的原理是模式匹配,通過(guò)計(jì)算現(xiàn)有語(yǔ)音模式與語(yǔ)音模板庫(kù)中的模板的距離,來(lái)獲得最佳的匹配模式。匹配的方法主要有DTW(動(dòng)態(tài)時(shí)間規(guī)整)、HMM(隱馬爾科夫模型)和ANN(人工神經(jīng)元網(wǎng)絡(luò))。由于ANN計(jì)算量較大,因此不適合用于車(chē)載多媒體系統(tǒng)中,HMM需要繁雜的程序結(jié)構(gòu),包含眾多功能模塊,需要大量的計(jì)算。因此, DTW模式更適合用于車(chē)載多媒體系統(tǒng)中。能夠滿(mǎn)足車(chē)載系統(tǒng)孤立詞、小詞匯量的語(yǔ)音識(shí)別。
為了更好的在車(chē)在多媒體系統(tǒng)中的嵌入式平臺(tái)上實(shí)現(xiàn)DTW,對(duì)DTW進(jìn)行進(jìn)一步的改進(jìn):
(1)由于在語(yǔ)音識(shí)別匯總,對(duì)音頭和音尾的判斷存在一定的誤差,因此,使用傳統(tǒng)DTW方法在進(jìn)行固定端點(diǎn)匹配時(shí)會(huì)存在一定的誤差,從而降低了語(yǔ)音匹配成功率。為此,可以采用放寬端點(diǎn)限制的方法來(lái)使用DTW進(jìn)行語(yǔ)音識(shí)別。其主要的思路是取消傳統(tǒng)DTW中對(duì)音頭和音尾嚴(yán)格對(duì)其的限制。從而,只要兩次語(yǔ)音在開(kāi)始的W幀內(nèi)能夠匹配成功,同時(shí)在結(jié)束的W幀內(nèi)匹配成功,即認(rèn)為兩次語(yǔ)音匹配成功。在降低了對(duì)端點(diǎn)檢測(cè)的精度要求,符合車(chē)載系統(tǒng)小詞匯量的特點(diǎn),不會(huì)降低車(chē)載系統(tǒng)語(yǔ)音識(shí)別效率。
(2)在使用DTW進(jìn)行語(yǔ)音模板匹配時(shí),需要計(jì)算兩個(gè)模板各幀的距離來(lái)計(jì)算模板之間的距離。加入模板庫(kù)中的某個(gè)模板T有N幀,待識(shí)別的語(yǔ)音R有M幀,那么通常需要申請(qǐng)M×N長(zhǎng)度的空間,再根據(jù)兩個(gè)模板所有幀間距離計(jì)算整體長(zhǎng)度。但是在實(shí)際的應(yīng)用中,只需要M長(zhǎng)度的空間來(lái)存放模板T第n-1幀與模板R中M幀之間的距離,在計(jì)算完第n幀與模板R中M幀之間的距離對(duì)M長(zhǎng)度空間的數(shù)據(jù)進(jìn)行替換,從而進(jìn)行模板T第n+1幀與模板R中M幀之間的距離,從而節(jié)省了(N-1)×M的存儲(chǔ)空間,這對(duì)車(chē)載系統(tǒng)有限存儲(chǔ)空間的系統(tǒng)中有著非常重要的意義。
4、結(jié)語(yǔ)
相比于傳統(tǒng)的按鈕式、觸摸屏式人機(jī)交互系統(tǒng),語(yǔ)音識(shí)別對(duì)于車(chē)載多媒體系統(tǒng)有著非常重要的意義,將是車(chē)載多媒體系統(tǒng)重要的發(fā)展方向,本文針對(duì)車(chē)載多媒體系統(tǒng)對(duì)低CPU運(yùn)算時(shí)間和地存儲(chǔ)空間的特點(diǎn),對(duì)語(yǔ)音識(shí)別中的端點(diǎn)檢測(cè)、語(yǔ)音特征參數(shù)提取以及識(shí)別模式的實(shí)現(xiàn)和優(yōu)化進(jìn)行了研究。
參考文獻(xiàn)
[1]方敏,浦劍濤,李成榮.嵌入式語(yǔ)音識(shí)別系統(tǒng)的研究和實(shí)現(xiàn)[J].中國(guó)信息學(xué)報(bào),2004,(6):73~78.
[2]萬(wàn)春,黃杰圣,曹煦暉.基于DTW的孤立詞語(yǔ)音識(shí)別研究和算法改進(jìn)[J].計(jì)算機(jī)與現(xiàn)代化,2005,(13):4~6.
市場(chǎng)調(diào)研機(jī)構(gòu)Opus Research的高級(jí)分析師兼創(chuàng)始人丹?米勒(Dan Miller)表示,提供語(yǔ)音技術(shù)的公司已投入巨資,研發(fā)“個(gè)人數(shù)字助理”概念,比如蘋(píng)果的Siri以及出現(xiàn)在許多谷歌手機(jī)上的谷歌語(yǔ)音操作(Google Voice Actions),它們懂自然語(yǔ)言命令。他表示,實(shí)際上最近在語(yǔ)音識(shí)別技術(shù)方面的突破大多出現(xiàn)在移動(dòng)設(shè)備端的基于云計(jì)算的自然語(yǔ)言搜索領(lǐng)域。
主要進(jìn)展就是,語(yǔ)音工具現(xiàn)在離用戶(hù)更近了――出現(xiàn)在我們?nèi)粘J褂玫氖謾C(jī)和平板電腦上,許多工具在云端使用,這提供了立即處理功能和不斷擴(kuò)展的語(yǔ)言數(shù)據(jù)庫(kù)。不像老式的桌面端軟件,這些新工具不需要語(yǔ)音訓(xùn)練,這歸功于算法方面取得的進(jìn)步。
當(dāng)然,今天的語(yǔ)音識(shí)別技術(shù)并非盡善盡美。即使在移動(dòng)設(shè)備上,語(yǔ)音識(shí)別軟件也并不適用于每個(gè)人。而有些自然語(yǔ)言句子仍然讓智能化程度最高的語(yǔ)音控制系統(tǒng)都犯難,比如“告訴我的老板我開(kāi)會(huì)要遲到”。Nuance、微軟和蘋(píng)果等公司已建立了龐大的語(yǔ)言數(shù)據(jù)庫(kù),供自己的語(yǔ)音識(shí)別產(chǎn)品使用。但即使在今天,這類(lèi)軟件有時(shí)還很難懂得牛肉制品“漢堡包”(hamburger)與德國(guó)城市“漢堡”(Hamburg)之間的區(qū)別。
米勒說(shuō),我們需要在云端運(yùn)行更高程度的人工智能。他說(shuō):“我們離目標(biāo)越來(lái)越近。各個(gè)層面都面臨挑戰(zhàn),但正在取得進(jìn)展――不過(guò)可能永遠(yuǎn)不會(huì)盡善盡美。”
可是,雖然越來(lái)越好的結(jié)果正在促使移動(dòng)設(shè)備采用語(yǔ)音識(shí)別技術(shù),但這項(xiàng)技術(shù)在工作場(chǎng)所還沒(méi)有產(chǎn)生太大的影響:步入美國(guó)的隨便一個(gè)企業(yè)園區(qū),很難看到有員工在下達(dá)語(yǔ)音命令。我們將探討什么因素在阻礙語(yǔ)音識(shí)別技術(shù),并介紹這項(xiàng)技術(shù)在辦公桌前和辦公室都有望造福員工的幾個(gè)方面。
工作站前的語(yǔ)音
對(duì)于視力欠佳的用戶(hù)或患有重復(fù)性勞損(如腕管綜合癥)的那些人來(lái)說(shuō),通過(guò)語(yǔ)音控制電腦大有意義,可用于瀏覽及操控界面和應(yīng)用程序、進(jìn)行搜索以及口述內(nèi)容很長(zhǎng)的電子郵件和工作文檔。其他用戶(hù)也能從中受益,尤其是打字很慢的人、移動(dòng)用戶(hù)以及想記錄會(huì)議紀(jì)要的與會(huì)人士。
米勒表示,該技術(shù)現(xiàn)在就出現(xiàn)在世人面前。基本的語(yǔ)音控制功能多年前就內(nèi)置到Mac OS X和Windows中。今年夏天,蘋(píng)果將為其OS X美洲獅版本添加語(yǔ)音到文本口述功能。去年,谷歌往臺(tái)式機(jī)和筆記本電腦上的Chrome瀏覽器引入了最初出現(xiàn)在移動(dòng)設(shè)備上的語(yǔ)音發(fā)起的搜索這一功能。
至于更高級(jí)的口述和個(gè)人電腦控制功能,專(zhuān)用的語(yǔ)音識(shí)別軟件(如Nuance公司的Dragon NaturallySpeaking)這些年來(lái)逐步改進(jìn)。在美國(guó)某雜志的測(cè)評(píng)人員拉蒙特?伍德(Lamont Wood)進(jìn)行的測(cè)試中,最新版的NaturallySpeaking Premium從語(yǔ)音到文本的轉(zhuǎn)換準(zhǔn)確率超過(guò)99%。
伍德表示,對(duì)他來(lái)說(shuō),通過(guò)語(yǔ)音寫(xiě)東西的速度大約2倍于通過(guò)打字寫(xiě)東西。其他用戶(hù)獲得的效果有所不同,這取決于他們的打字速度以及使用語(yǔ)音軟件的熟練程度。他還指出,使用最新的降噪耳機(jī)意味著這種軟件不會(huì)受到背景聲音的困擾,在過(guò)去這常常是個(gè)問(wèn)題。
那么,為什么沒(méi)有更多的人通過(guò)語(yǔ)音與電腦進(jìn)行交互呢?米勒說(shuō),人們往往很怕難為情。在辦公室環(huán)境,不是每個(gè)人都習(xí)慣于脫口說(shuō)出自己的想法和言語(yǔ),要是只有少數(shù)人在這么做,更是如此。
不過(guò),他認(rèn)為移動(dòng)設(shè)備語(yǔ)音搜索有助于讓語(yǔ)音技術(shù)總體上更受歡迎。他表示,最近的一項(xiàng)調(diào)查顯示,11%的調(diào)查對(duì)象稱(chēng)自己習(xí)慣于將Siri用于語(yǔ)音搜索。目前這個(gè)比例并不高,但是隨著越來(lái)越多的人采用,而且越來(lái)越習(xí)慣,在辦公室使用語(yǔ)音應(yīng)用軟件對(duì)許多人來(lái)說(shuō)似乎更加切實(shí)可行。這將遵循總體趨勢(shì):人們先在家里或私下使用技術(shù),然后希望在工作場(chǎng)所也能使用。
此外,研發(fā)人員在探究語(yǔ)音的新用途,尤其是在游戲和娛樂(lè)領(lǐng)域(比如在Xbox上開(kāi)始播放電影)。語(yǔ)音命令在各個(gè)場(chǎng)合似乎都很自然,這只是個(gè)時(shí)間問(wèn)題。米勒說(shuō):“人們很快會(huì)發(fā)現(xiàn),同樣可以通過(guò)語(yǔ)音控制CAD軟件、個(gè)人電腦及其他個(gè)人設(shè)備和辦公工具。”
值得關(guān)注的是,語(yǔ)音硬件在辦公室已經(jīng)很普遍。任何一臺(tái)新購(gòu)的辦公筆記本電腦都已經(jīng)內(nèi)置了視頻會(huì)議功能,帶網(wǎng)絡(luò)攝像頭和高品質(zhì)麥克風(fēng)。當(dāng)你步入許多公司的會(huì)議室,會(huì)看到帶高級(jí)麥克風(fēng)的免提電話(huà)。新機(jī)型甚至?xí)?duì)準(zhǔn)講話(huà)的那個(gè)人,降低背景噪聲。
J. Markowitz咨詢(xún)公司的著名語(yǔ)音技術(shù)專(zhuān)家朱迪思?馬科維茨(Judith Markowitz)也認(rèn)為,硬件不是阻礙語(yǔ)音技術(shù)在辦公室流行起來(lái)的因素。他表示,問(wèn)題在于讓自然語(yǔ)言命令得到更廣泛的應(yīng)用。而自然語(yǔ)言命令只是另一種交互方式,就像我們敲打的鍵盤(pán)或點(diǎn)擊的圖標(biāo)那樣。
她說(shuō):“語(yǔ)音無(wú)法查明是否存在過(guò)熱問(wèn)題,也無(wú)法提醒你有約會(huì)。那是后端系統(tǒng)或應(yīng)用軟件的任務(wù)。Siri的語(yǔ)音識(shí)別部分也沒(méi)有這種功能。自然語(yǔ)言理解能力、人工智能和應(yīng)用程序的功能共同造就了Siri這款出色的個(gè)人助理。語(yǔ)音技術(shù)把語(yǔ)音輸入轉(zhuǎn)換成Siri的后端及其他iPhone應(yīng)用軟件能使用的一種形式。”
馬科維茨表示,如果開(kāi)發(fā)人員決定為企業(yè)應(yīng)用軟件添加語(yǔ)音命令和聲音提醒,語(yǔ)音在辦公室就派得上用場(chǎng)。米勒贊同這個(gè)觀點(diǎn),不過(guò)他指出,這有點(diǎn)像先有雞還是先有蛋的情況。開(kāi)發(fā)人員將語(yǔ)音功能添加到應(yīng)用軟件之前,希望知道企業(yè)環(huán)境的用戶(hù)習(xí)慣使用的語(yǔ)音(而且不會(huì)妨礙同事),但是只有這些功能廣泛出現(xiàn),用戶(hù)才有可能習(xí)慣使用它們。
米勒表示,想讓語(yǔ)言更被辦公室環(huán)境的用戶(hù)所熟悉,一個(gè)簡(jiǎn)單的方法就是為企業(yè)應(yīng)用軟件添加語(yǔ)音提醒。比如說(shuō),應(yīng)用軟件可能告訴你數(shù)據(jù)中心存在一個(gè)問(wèn)題,而不是顯示文本提醒信息。用戶(hù)可以根據(jù)需要,將提醒由語(yǔ)音方式改為文本方式。
當(dāng)然,兩位專(zhuān)家都一致認(rèn)為,語(yǔ)言并不是在每種計(jì)算環(huán)境下都是最合適的輸入方法。它給藝術(shù)家、攝影師、視頻編輯和程序員帶來(lái)的幫助不像給普通的辦公室員工、管理人員和IT人員帶來(lái)的幫助一樣大。Photoshop中精細(xì)的像素級(jí)編輯可能根本無(wú)法得益于語(yǔ)音輸入,不過(guò)人工智能可能會(huì)發(fā)展到這個(gè)程度:我們說(shuō)“修復(fù)照片的左下角1/4部分”,Photoshop就會(huì)進(jìn)行相應(yīng)的操作。
辦公室周?chē)恼Z(yǔ)音
Nuance公司總經(jīng)理彼得?馬奧尼(Peter Mahoney)認(rèn)為,遍地開(kāi)花的云計(jì)算將有助于推動(dòng)語(yǔ)音技術(shù),從電腦擴(kuò)大到工作場(chǎng)所的其他地方。比如設(shè)想一下:能夠使用內(nèi)嵌式麥克風(fēng)在會(huì)議室口述電子郵件,或者坐在大廳等待時(shí)查閱日程表,哪怕你把移動(dòng)設(shè)備落在辦公桌上。
他表示,這一幕要成為現(xiàn)實(shí),語(yǔ)音系統(tǒng)就要連接到其他辦公室系統(tǒng)。比如說(shuō),語(yǔ)音系統(tǒng)可能連接到公司的聯(lián)系人和日歷系統(tǒng),知道你的會(huì)議日程表(及其他與會(huì)者的日程表)。它還可能連接到建筑物的安全和網(wǎng)絡(luò)管理系統(tǒng),那樣它能告訴你是否在辦公室、登錄到辦公電腦上。
互連系統(tǒng)可以在白天收集關(guān)于你的數(shù)據(jù),而且正如人的大腦保留短期記憶那樣,它會(huì)確定你的具體背景。這可能意味著,語(yǔ)音系統(tǒng)知道你晨會(huì)要遲到,因?yàn)槟銢](méi)有登錄到電腦上;它可以查閱你的會(huì)議日程表,找到相應(yīng)的一個(gè)或多個(gè)聯(lián)系人,告知你會(huì)遲到。
馬奧尼表示,如今這些信息往往是孤立的。但他預(yù)測(cè),在今后一兩年,語(yǔ)音技術(shù)會(huì)逐漸變得有更強(qiáng)的互連性。“它可能會(huì)先聯(lián)系日歷程序,知道你要會(huì)見(jiàn)約翰,然后日歷程序會(huì)通過(guò)語(yǔ)音聯(lián)絡(luò)聯(lián)系人數(shù)據(jù)庫(kù)。”
米勒表示,許多公司已經(jīng)在現(xiàn)有的系統(tǒng)中擁有關(guān)于聯(lián)系人和角色的信息,比如活動(dòng)目錄列表和人力資源數(shù)據(jù);許多公司還有內(nèi)部建筑圖。那么,到底是什么因素在阻礙這一切呢?
馬奧尼表示,自然語(yǔ)言命令正在改進(jìn),但系統(tǒng)不是足夠清楚地明白信息的上下文。他說(shuō):“需要構(gòu)建數(shù)據(jù)模型,找到人們可能會(huì)問(wèn)的前100個(gè)問(wèn)題,然后找到合適的信息源,以明白那些問(wèn)題,比如地圖應(yīng)用軟件。”畢竟,這與Siri等虛擬助理在移動(dòng)設(shè)備上進(jìn)行的操作沒(méi)什么太大的不同:查詢(xún)不同的信息源(基于云和本地),找到相關(guān)信息,發(fā)送提醒信息,等等。
馬奧尼設(shè)想,隨著互連系統(tǒng)在將來(lái)擴(kuò)大語(yǔ)音技術(shù)的應(yīng)用范圍,它們還有望改進(jìn)語(yǔ)音軟件的準(zhǔn)確性和理解能力。借助無(wú)處不在的云連接,語(yǔ)音系統(tǒng)可以根據(jù)你所在的位置、所做的事情、身邊的人以及接下來(lái)要做的事,明白你想表達(dá)的意思。“即使你沒(méi)有明說(shuō),系統(tǒng)也知道你想表達(dá)的意思。”
鏈接:語(yǔ)音應(yīng)用軟件如何知道你說(shuō)的是什么?
Opus Research公司的丹?米勒表示,今天的語(yǔ)音識(shí)別系統(tǒng)使用統(tǒng)計(jì)語(yǔ)言建模,這本質(zhì)上是一種最佳猜測(cè),結(jié)合你整個(gè)句子的上下文,猜測(cè)想要說(shuō)的意思。比如說(shuō),今天的系統(tǒng)借助前后單詞,知道你想說(shuō)的是“you’re”(你是),而不是“your”(你的)。
要是說(shuō)話(huà)者口音重,或者采用罕見(jiàn)的方言,這些系統(tǒng)還是經(jīng)常無(wú)能為力。為了明白這些人說(shuō)的話(huà),語(yǔ)言系統(tǒng)必須建立一個(gè)發(fā)音庫(kù)、去除任何背景噪音,并不斷拿所說(shuō)的單詞與已正確識(shí)別的那些單詞進(jìn)行比對(duì)。
中圖分類(lèi)號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A
1語(yǔ)音識(shí)別技術(shù)
1.1語(yǔ)音識(shí)別技術(shù)簡(jiǎn)介
語(yǔ)音識(shí)別技術(shù)主要分為兩類(lèi),一是語(yǔ)音意義的識(shí)別,一種是目標(biāo)聲識(shí)別。第一個(gè)被稱(chēng)為語(yǔ)音識(shí)別,它是根據(jù)聲音的成詞特點(diǎn)對(duì)聲音進(jìn)一步分析,主要應(yīng)用在人工智能,人機(jī)對(duì)話(huà)和快速輸入等領(lǐng)域。通過(guò)訪問(wèn)聲音的特征,從目標(biāo)語(yǔ)音中進(jìn)行提取,該項(xiàng)技術(shù)可以區(qū)分多目標(biāo)語(yǔ)音的種類(lèi),確定目標(biāo),主要用于戰(zhàn)場(chǎng)目標(biāo)識(shí)別領(lǐng)域,海上偵察系統(tǒng),預(yù)警系統(tǒng),軍事聲納識(shí)別,車(chē)輛聲音識(shí)別,火車(chē)預(yù)警系統(tǒng),動(dòng)物個(gè)體的語(yǔ)音識(shí)別和家庭安全系統(tǒng)等。
科技研究人員通過(guò)對(duì)語(yǔ)音信號(hào)處理技術(shù)進(jìn)行深入的研究,結(jié)果發(fā)現(xiàn):人的聽(tīng)覺(jué)系統(tǒng)的聲音配合具有獨(dú)特的優(yōu)勢(shì),它能準(zhǔn)確地提取目標(biāo)的聲音特征,準(zhǔn)確地辨別聲音的方向和內(nèi)容分類(lèi),所以基于仿生聽(tīng)覺(jué)系統(tǒng)的目標(biāo)聲識(shí)別技術(shù)備受現(xiàn)代前沿科技的關(guān)注。針對(duì)目標(biāo)聲音識(shí)別系統(tǒng)的研究工作成為了現(xiàn)代語(yǔ)音識(shí)別技術(shù)研究的一個(gè)熱門(mén)方向,不少科技研究人員正在積極探索先進(jìn)可行的仿生學(xué)理論,特征提取技術(shù)和語(yǔ)音識(shí)別技術(shù)。
1.2語(yǔ)音識(shí)別技術(shù)的研究現(xiàn)狀
語(yǔ)音識(shí)別技術(shù)主要是通過(guò)對(duì)監(jiān)測(cè)數(shù)據(jù)的聲音特性分析,得到聲音特性的樣本文件。語(yǔ)音識(shí)別技術(shù)是一種非接觸技術(shù),用戶(hù)可以很自然地接受。但語(yǔ)音識(shí)別技術(shù)和其他行為識(shí)別技術(shù)具有共同的缺點(diǎn),即輸入樣本的變化太大,所以很難完成一些精確的匹配,聲音也會(huì)伴隨著速度,音質(zhì)的變化而影響到信號(hào)的采集和結(jié)果的比較。
在語(yǔ)音識(shí)別中,語(yǔ)音識(shí)別是最早也是比較成熟的領(lǐng)域。隨著越來(lái)越多的應(yīng)用需求,識(shí)別聲音并不局限于語(yǔ)音識(shí)別,人們開(kāi)始深入研究目標(biāo)識(shí)別技術(shù)的非語(yǔ)音識(shí)別,該項(xiàng)技術(shù)已經(jīng)參照了成熟的語(yǔ)音識(shí)別技術(shù)的一部分,但由于各自的應(yīng)用環(huán)境和實(shí)際的音頻特征之間的差異,該技術(shù)還存在一些差異。
1.3語(yǔ)音識(shí)別技術(shù)的實(shí)際應(yīng)用
在民用方面,目標(biāo)聲音識(shí)別系統(tǒng)可以應(yīng)用于門(mén)禁系統(tǒng),網(wǎng)絡(luò)安全,認(rèn)證,智能機(jī)器人,動(dòng)物語(yǔ)音識(shí)別,電子商務(wù)和智能交通等領(lǐng)域。在智能交通領(lǐng)域,利用來(lái)自車(chē)輛識(shí)別模型的運(yùn)動(dòng)音頻信號(hào),可以實(shí)現(xiàn)交通信息的智能化管理。在智能機(jī)器人領(lǐng)域,機(jī)器人目標(biāo)聲音識(shí)別系統(tǒng)可以作為機(jī)器人的耳朵,通過(guò)環(huán)境聲音識(shí)別并確定聲音的方位,然后再反應(yīng)外界的聲音,因此可以將其當(dāng)作家庭自動(dòng)化服務(wù)系統(tǒng)和安全系統(tǒng)。在動(dòng)物的語(yǔ)音識(shí)別領(lǐng)域,可以根據(jù)害蟲(chóng)聲特征來(lái)區(qū)分害蟲(chóng)種類(lèi),根據(jù)不同的害蟲(chóng)采取不同的措施。在網(wǎng)絡(luò)應(yīng)用領(lǐng)域,在關(guān)于各種在線服務(wù)支持的語(yǔ)音識(shí)別技術(shù)新項(xiàng)目開(kāi)發(fā)中,可以提高網(wǎng)絡(luò)的服務(wù)質(zhì)量,給人們的生活帶來(lái)方便。現(xiàn)在,美國(guó),德國(guó)和日本都開(kāi)了電話(huà)銀行,語(yǔ)音代替原來(lái)的密碼和使用印章,簡(jiǎn)化了工作服務(wù)流程,提高工作效率。
在軍事上,目標(biāo)聲音識(shí)別技術(shù)來(lái)自于第二次世界大戰(zhàn),在探測(cè)敵人的炮火和潛艇時(shí),起著重要的識(shí)別和定位作用。但由于計(jì)算機(jī)技術(shù),信號(hào)處理技術(shù),光電檢測(cè)和雷達(dá)檢測(cè)技術(shù)快速的發(fā)展,使聲探測(cè)技術(shù)發(fā)展得十分緩慢。直到現(xiàn)代的戰(zhàn)爭(zhēng),研發(fā)了使用于戰(zhàn)爭(zhēng)中的三維信息,全方位定向,反欺詐、欺騙、干擾和反偵察、監(jiān)視,在隱身與反隱身的現(xiàn)代戰(zhàn)爭(zhēng)中為國(guó)家的國(guó)防事業(yè)做出了不可磨滅的杰出貢獻(xiàn)。通過(guò)電,磁,光學(xué)和雷達(dá)探測(cè)技術(shù)和主動(dòng)檢測(cè)技術(shù)來(lái)完成偵察任務(wù)已經(jīng)不能滿(mǎn)足現(xiàn)代戰(zhàn)爭(zhēng)的需求。在武裝直升機(jī)技術(shù)成熟的當(dāng)代,隱形轟炸機(jī)和其他高科技武器都有了反射功率,抗電磁干擾,反輻射的功能,特別是快速發(fā)展的數(shù)字技術(shù)和計(jì)算機(jī)技術(shù),迫使各國(guó)為了實(shí)現(xiàn)對(duì)目標(biāo)的定位跟蹤和噪聲識(shí)別而重新開(kāi)始研究被動(dòng)聲探測(cè)技術(shù),關(guān)注聲檢測(cè)技術(shù)。在未來(lái)戰(zhàn)爭(zhēng)中,武器裝備發(fā)展的一個(gè)重要趨勢(shì)是智能化、小型化,一個(gè)重要的特點(diǎn)是具備目標(biāo)識(shí)別的能力,并根據(jù)不同的對(duì)象使用不同的攻擊方法。
2聽(tīng)覺(jué)系統(tǒng)
為了設(shè)計(jì)一個(gè)更精確的目標(biāo)聲音識(shí)別系統(tǒng),越來(lái)越多的學(xué)者開(kāi)始深入研究仿生學(xué)領(lǐng)域。通過(guò)研究發(fā)現(xiàn),人類(lèi)的聽(tīng)覺(jué)系統(tǒng)在聲音的物理方面具有獨(dú)特的優(yōu)勢(shì),聲音特征可以準(zhǔn)確提取目標(biāo)識(shí)別中聲音的方向,種類(lèi)和含量,而且還可以提高抗噪聲能力,所以基于人基于語(yǔ)音識(shí)別技術(shù)的聽(tīng)覺(jué)系統(tǒng)已經(jīng)成為目前的研究熱點(diǎn)。
人類(lèi)聽(tīng)覺(jué)仿生學(xué)是模仿人耳的聽(tīng)覺(jué)系統(tǒng)和生理功能,并通過(guò)建立數(shù)學(xué)模型,根據(jù)數(shù)學(xué)分析原理得到的聽(tīng)覺(jué)系統(tǒng)。它涉及聲學(xué),生理學(xué),信號(hào)處理,模式識(shí)別和人工智能等學(xué)科,是一個(gè)跨學(xué)科研究領(lǐng)域的綜合應(yīng)用。該技術(shù)已在軍事,交通,銀行,醫(yī)療治療的許多方面取得了重要應(yīng)用,是人類(lèi)實(shí)現(xiàn)智能生命的重要研究課題之一。
人類(lèi)聽(tīng)覺(jué)系統(tǒng)的處理能力大大超過(guò)目前的聲音信號(hào)處理水平。從人類(lèi)聽(tīng)覺(jué)系統(tǒng)的心理和生理特點(diǎn)視角,許多研究人員對(duì)接聽(tīng)過(guò)程中的語(yǔ)音識(shí)別進(jìn)行深入的研究。目前,許多學(xué)者提出了不同的聽(tīng)覺(jué)模型,這些模型大多是一些基于語(yǔ)音識(shí)別和語(yǔ)音質(zhì)量評(píng)價(jià)系統(tǒng)的聽(tīng)覺(jué)模型,模擬人耳聽(tīng)覺(jué)功能的生理結(jié)構(gòu),這些應(yīng)用處理方法大大提高了系統(tǒng)的性能。
1 項(xiàng)目建設(shè)目標(biāo)
1.1 項(xiàng)目背景
目前,固網(wǎng)用戶(hù)撥打電話(huà),必須先查出被叫的號(hào)碼,并按鍵進(jìn)行撥叫。而隨著通信業(yè)的發(fā)展,要記的電話(huà)號(hào)碼越來(lái)越多,而目前大部分的固定電話(huà)都沒(méi)有號(hào)碼存儲(chǔ)的功能,所以很多時(shí)候使用固話(huà)打電話(huà)時(shí),要么從手機(jī)上查找被叫的電話(huà),或者是從紙制電話(huà)簿去查找,既不方便,又浪費(fèi)時(shí)間。
“語(yǔ)音電話(huà)本”完全可以幫助用戶(hù)解決以上問(wèn)題,用戶(hù)只需撥打一個(gè)號(hào)碼接入系統(tǒng)平臺(tái),說(shuō)出聯(lián)系人的姓名,系統(tǒng)就可以自動(dòng)將話(huà)路轉(zhuǎn)到該人的電話(huà)上。整個(gè)過(guò)程通過(guò)自然的語(yǔ)音方式交互,即感到親切自然方便快捷,又節(jié)省時(shí)間,提高工作效率。
從服務(wù)管理的角度來(lái)看,隨著信息通信客服業(yè)務(wù)受理的不斷發(fā)展,座席客服話(huà)務(wù)量越來(lái)越多,用戶(hù)對(duì)服務(wù)的質(zhì)量要求也越來(lái)越高,傳統(tǒng)客服系統(tǒng)在傳統(tǒng)語(yǔ)音信息處理上的局限性制約了系統(tǒng)服務(wù)和管理能力的提升。
服務(wù)方面,由于業(yè)務(wù)的多樣性和復(fù)雜性帶來(lái)的海量數(shù)據(jù)信息不能得到快速、有效的關(guān)聯(lián)處理而產(chǎn)生的問(wèn)題,影響了客戶(hù)服務(wù)體驗(yàn)。
運(yùn)營(yíng)管理方面,雇傭人工座席每天接聽(tīng)大量的信息查詢(xún)電話(huà),座席業(yè)務(wù)人員的更替帶來(lái)的培訓(xùn),消耗了部分運(yùn)維成本,影響了服務(wù)質(zhì)量。
1.2 建設(shè)目標(biāo)
本項(xiàng)目通過(guò)研究智能語(yǔ)音技術(shù)在國(guó)網(wǎng)遼寧公司信息通信客服系統(tǒng)中的應(yīng)用,將語(yǔ)音識(shí)別及客服查號(hào)業(yè)務(wù)相結(jié)合,使用先進(jìn)的語(yǔ)音識(shí)別技術(shù)來(lái)代替繁重的人工勞動(dòng),提高省公司內(nèi)部溝通的效率。目前,語(yǔ)音電話(huà)本技術(shù)實(shí)現(xiàn)主要包含:ASR 、TTS 、IVR 三項(xiàng)技術(shù),其中TTS和IVR技術(shù)對(duì)于語(yǔ)音電話(huà)本業(yè)務(wù)來(lái)說(shuō)已經(jīng)非常成熟。
ASR語(yǔ)音識(shí)別技術(shù)近年來(lái)發(fā)展十分迅速,其應(yīng)用也逐步得到推廣,佳都新太也一直開(kāi)發(fā)、調(diào)試、應(yīng)用這項(xiàng)重要的語(yǔ)音技術(shù),自2001年以來(lái)佳都新太先后在廣西、天津、廣東、河北、湖北、江蘇、遼寧等省的多個(gè)項(xiàng)目中使用了ASR 自動(dòng)語(yǔ)音識(shí)別系統(tǒng),佳都新太通過(guò)對(duì)ASR測(cè)試、改進(jìn),自動(dòng)語(yǔ)音識(shí)別率達(dá)到95%以上。
語(yǔ)音電話(huà)本業(yè)務(wù)可以說(shuō)是CTI平臺(tái)上的典型應(yīng)用,佳都新太把ASR語(yǔ)音自動(dòng)識(shí)別技術(shù)、TTS語(yǔ)音合成技術(shù)與CTI 的IVR技術(shù)三者融合為一體,為語(yǔ)音電話(huà)本業(yè)務(wù)的技術(shù)實(shí)現(xiàn)提供了可靠的保障。
本項(xiàng)目可以達(dá)到目標(biāo):
1.2.1 對(duì)語(yǔ)音信息的自動(dòng)化處理
通過(guò)建立具備智能語(yǔ)音分析能力的語(yǔ)音識(shí)別平臺(tái),實(shí)現(xiàn)對(duì)用戶(hù)查號(hào)業(yè)務(wù)的語(yǔ)音實(shí)時(shí)識(shí)別及關(guān)聯(lián)處理,同時(shí)實(shí)現(xiàn)對(duì)語(yǔ)音文件的統(tǒng)一分析,提供支撐客服業(yè)務(wù)受理的有效工具。
1.2.2 文件分析處理
通過(guò)語(yǔ)音分析引擎對(duì)送入的語(yǔ)音進(jìn)行文字轉(zhuǎn)寫(xiě)、維度結(jié)合后生成索引文件,這些結(jié)構(gòu)化的索引文件中包含了語(yǔ)音中的所有信息。索引文件存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,通過(guò)對(duì)有效的海量錄音文件、音頻文件進(jìn)行分析處理。
1.2.3 實(shí)現(xiàn)自助查號(hào)功能
通過(guò)實(shí)現(xiàn)語(yǔ)音中的知識(shí)挖掘和語(yǔ)音文件的快速檢索,實(shí)現(xiàn)自動(dòng)語(yǔ)音查號(hào)功能。
2 項(xiàng)目技術(shù)方案
2.1 項(xiàng)目設(shè)計(jì)原則
本次項(xiàng)目是對(duì)省公司固定電話(huà)語(yǔ)音自動(dòng)查號(hào)系統(tǒng)的功能完善,使用先進(jìn)的語(yǔ)音識(shí)別技術(shù)來(lái)代替繁重的人工勞動(dòng),提高省公司內(nèi)部溝通的效率。
本次項(xiàng)目的關(guān)鍵點(diǎn)和技術(shù)難點(diǎn)在于語(yǔ)音識(shí)別,因此在方案設(shè)計(jì)過(guò)程中我們著重考慮了這個(gè)問(wèn)題,選用了國(guó)內(nèi)領(lǐng)先的智能語(yǔ)音技術(shù)來(lái)作為語(yǔ)音識(shí)別引擎,結(jié)合座席客服系統(tǒng)的需求提供定制化專(zhuān)業(yè)服務(wù)。
2.2 整體架構(gòu)設(shè)計(jì)
如圖1,用戶(hù)通過(guò)撥打查號(hào)服務(wù)電話(huà),系統(tǒng)為用戶(hù)播放自動(dòng)語(yǔ)音并引導(dǎo)用戶(hù)按鍵選擇功能和需要查號(hào)的人名,系統(tǒng)根據(jù)語(yǔ)音分析出內(nèi)容,并在數(shù)據(jù)庫(kù)中查詢(xún)對(duì)應(yīng)的號(hào)碼,系統(tǒng)將查到的號(hào)碼以自動(dòng)語(yǔ)音方式播報(bào)給用戶(hù)。
系統(tǒng)部署需新增接入網(wǎng)關(guān)1臺(tái),用于與電力內(nèi)部電話(huà)程控交換機(jī)對(duì)接,實(shí)現(xiàn)平臺(tái)電話(huà)呼入呼出。采用電信級(jí)語(yǔ)音接入網(wǎng)關(guān)Dialogic DMG2030,接入規(guī)模1E1(即30路通話(huà)),PRI信令,通過(guò)電路中繼上聯(lián)到遼寧電力內(nèi)部程控交換機(jī)。遼寧電力內(nèi)部程控交換系統(tǒng)為語(yǔ)音電話(huà)本系統(tǒng)分配一個(gè)內(nèi)部接入服務(wù)號(hào)碼和一個(gè)外部接入服務(wù)號(hào)碼。同時(shí)網(wǎng)關(guān)接入虛擬資源池虛機(jī)網(wǎng)絡(luò)。
新增虛擬資源池虛機(jī)1臺(tái),用于部署媒體處理軟件、CTI平臺(tái)、語(yǔ)音電話(huà)本業(yè)務(wù)應(yīng)用軟件、科大訊飛ASR軟件和TTS軟件、Oracle數(shù)據(jù)庫(kù)。
新增核心網(wǎng)絡(luò)交換機(jī)1臺(tái),用于系統(tǒng)組網(wǎng)。
2.3 系統(tǒng)邏輯結(jié)構(gòu)
IVR與TTS、ASR通過(guò)語(yǔ)音引擎實(shí)現(xiàn)整個(gè)語(yǔ)音交互過(guò)程的自動(dòng)識(shí)別、自動(dòng)播放功能。系統(tǒng)采用B/S結(jié)構(gòu),方便用戶(hù)對(duì)電話(huà)本的修改,也便于各營(yíng)業(yè)網(wǎng)點(diǎn)的開(kāi)戶(hù)、受理以及對(duì)用戶(hù)的電話(huà)本進(jìn)行維護(hù)等。整個(gè)系統(tǒng)采用模塊化結(jié)構(gòu),具有很高的可靠性和可擴(kuò)充性。
邏輯結(jié)構(gòu)見(jiàn)圖2。
2.4 系統(tǒng)建設(shè)方案
新建“語(yǔ)音電話(huà)本”業(yè)務(wù)平臺(tái),其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖3所示。
設(shè)備組成說(shuō)明:
系統(tǒng)平臺(tái)需要以下設(shè)備:
(1)IPS數(shù)字排隊(duì)機(jī);
(2)信令網(wǎng)關(guān)節(jié)點(diǎn);
(3)數(shù)據(jù)庫(kù)服務(wù)器: 實(shí)現(xiàn)用戶(hù)數(shù)據(jù)的存儲(chǔ)和系統(tǒng)認(rèn)證等功能;
(4)TTS服務(wù)器: 通過(guò)IPS平臺(tái)的MS模塊來(lái)實(shí)現(xiàn)資源調(diào)用;
(5)ASR服務(wù)器:通過(guò)IPS平臺(tái)的MS模塊來(lái)實(shí)現(xiàn)資源調(diào)用;
(6)WEB服務(wù)器:實(shí)現(xiàn)用戶(hù)通過(guò)互聯(lián)網(wǎng)對(duì)電話(huà)簿的維護(hù)管理功能;
(7)業(yè)務(wù)處理服務(wù)器:用于處理個(gè)人語(yǔ)音電話(huà)本業(yè)務(wù)流程;
(8)管理維護(hù)節(jié)點(diǎn);
(9)路由器和防火墻等網(wǎng)絡(luò)設(shè)備;
2.5 配置計(jì)算依據(jù)
2.5.1 中繼和語(yǔ)音的配置比例
語(yǔ)音電話(huà)本業(yè)務(wù),用戶(hù)報(bào)出要找的人的姓名后,ASR進(jìn)行識(shí)別,系統(tǒng)根據(jù)ASR識(shí)別出的名字,找出對(duì)應(yīng)的電話(huà)號(hào)碼并進(jìn)行外呼,被叫接通后,主被叫進(jìn)行通話(huà)的過(guò)程中,語(yǔ)音資源即可釋放。整個(gè)業(yè)務(wù)實(shí)現(xiàn)和呼叫卡類(lèi)業(yè)務(wù)的資源配置非常相似,根據(jù)200業(yè)務(wù)的實(shí)際運(yùn)行經(jīng)驗(yàn)數(shù)據(jù),建議中繼和語(yǔ)音的比例為4:1。
2.5.2 中繼和ASR的配置比例
在一個(gè)呼叫的過(guò)程中,用戶(hù)說(shuō)出要找人的姓名,ASR資源進(jìn)行識(shí)別,在識(shí)別完成系統(tǒng)呼通被叫后,ASR資源釋放,主被叫雙方進(jìn)行通話(huà),按平均呼叫時(shí)長(zhǎng)為150秒,其中ASR識(shí)別的時(shí)間大概為30秒,而在一次通話(huà)中占用一入一出兩個(gè)通道,按上面的估算數(shù)據(jù),中繼和ASR的配比大約為 2×150/30=10:1。
2.5.3 中繼容量和所能支持的用戶(hù)數(shù)的比例
假設(shè)一些呼叫參數(shù)如下:
系統(tǒng)中繼容量A
用戶(hù)數(shù) B
每用戶(hù)每天使用次數(shù)C:8次
每次呼叫時(shí)長(zhǎng)D:150秒
忙時(shí)集中系統(tǒng)E:10%
忙時(shí)中繼Erl數(shù)F:0.8
根據(jù)公式:A=B*C*D*E/F/3600
則 A:B=8×150×10%/0.8/3600=1:24
因?yàn)檎Z(yǔ)音電話(huà)本業(yè)務(wù)每次呼叫要占用一入一出兩個(gè)端口,所以中繼容量和所支持的用戶(hù)數(shù)的比例約為1:10。
2.5.4 數(shù)據(jù)庫(kù)處理能力計(jì)算
忙時(shí)TPMC=(忙時(shí)呼叫次數(shù)×(平均每次呼叫數(shù)據(jù)庫(kù)訪問(wèn)次數(shù)+其他應(yīng)用模塊平均每次呼叫事務(wù)訪問(wèn)處理次數(shù)))/60
按4.3.3假設(shè)的數(shù)據(jù),當(dāng)使用語(yǔ)音電話(huà)本的用戶(hù)數(shù)為10,000用戶(hù)時(shí),系統(tǒng)的忙時(shí)呼叫次數(shù)為 10000×8×10%=8000次/小時(shí)
按每次呼叫對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)操作次數(shù)為10次來(lái)計(jì)算,則10,000用戶(hù)時(shí),對(duì)數(shù)據(jù)庫(kù)的TPMC值的要求為:
TPMC=8000×10/60=1333
2.6 業(yè)務(wù)系統(tǒng)功能
2.6.1 業(yè)務(wù)流程(如圖4)
2.6.2 聲控?fù)芴?hào)
用戶(hù)使用綁定電話(huà)撥打接入號(hào)碼“***”進(jìn)入系統(tǒng)后,系統(tǒng)直接會(huì)提示用戶(hù)報(bào)出用戶(hù)想找的人的姓名,并進(jìn)行呼叫。
(1)“聯(lián)系人名字” 選中默認(rèn)呼叫號(hào)碼:
(2)用戶(hù)撥打“語(yǔ)音電話(huà)本”服務(wù)號(hào)碼;
(3)說(shuō)出對(duì)方姓名,如:張三;
(4)系統(tǒng)識(shí)別語(yǔ)音,查詢(xún)對(duì)應(yīng)的默認(rèn)電話(huà)號(hào)碼;
(5)系統(tǒng)通過(guò)語(yǔ)音播報(bào)查詢(xún)到的電話(huà)號(hào)碼。
(6)“聯(lián)系人名字+電話(huà)類(lèi)型” 精確查詢(xún):
(7)用戶(hù)撥打“語(yǔ)音電話(huà)本”服務(wù)號(hào)碼;
(8)說(shuō)出對(duì)方姓名+電話(huà)類(lèi)型,如:張三 手機(jī);
(9)系統(tǒng)識(shí)別語(yǔ)音,查詢(xún)對(duì)應(yīng)的電話(huà)類(lèi)型的號(hào)碼;
系統(tǒng)通過(guò)語(yǔ)音播報(bào)查詢(xún)到的電話(huà)號(hào)碼。用戶(hù)通過(guò)綁定電話(huà)使用語(yǔ)音電話(huà)本業(yè)務(wù)流程如圖5所示。
用戶(hù)使用非綁定電話(huà)使用語(yǔ)音電話(huà)本業(yè)務(wù)時(shí),必須先通過(guò)輸入帳號(hào)和密碼,經(jīng)過(guò)系統(tǒng)鑒權(quán)后才能使用。
2.6.3 原始通訊錄的錄入
語(yǔ)音電話(huà)業(yè)務(wù)開(kāi)展的一個(gè)關(guān)鍵問(wèn)題,就是用戶(hù)申請(qǐng)?jiān)摌I(yè)務(wù)后首批通訊錄的錄入問(wèn)題,首批通訊錄相對(duì)來(lái)說(shuō)量比較大,錄入的方式建議采用營(yíng)業(yè)廳前臺(tái)填表錄入、通過(guò)WEB錄入的方式,也可以采用電話(huà)、傳真、信函的方式進(jìn)行錄入。在首批通訊錄錄入后,用戶(hù)在使用過(guò)程中做一些號(hào)碼本的修改和維護(hù),維護(hù)量都比較小,可以通過(guò)WEB方式、電話(huà)、短消息、傳真等多種方式進(jìn)行修改。
批量導(dǎo)入電話(huà)本:
通過(guò)Excel文件導(dǎo)入企業(yè)通訊錄,可以參考如表1格式。
可以根據(jù)實(shí)際需求增加其他列。
2.6.4 電話(huà)本維護(hù)(Web)
系統(tǒng)提供后臺(tái)管理界面,管理員登錄后臺(tái)對(duì)電話(huà)本進(jìn)行管理,如圖6。
個(gè)人電話(huà)本資料可通過(guò)Web、人工坐席、電話(huà)、傳真、短消息等多種方式進(jìn)行電話(huà)本資料的維護(hù)管理,包括修改用戶(hù)密碼等。
業(yè)務(wù)流程如圖7所示。
“增加、刪除、修改”用戶(hù)記錄:
系統(tǒng)提供對(duì)單個(gè)記錄的“增加”、“刪除”、“修改”功能,方便對(duì)電話(huà)本進(jìn)行靈活管理。
2.6.5 多個(gè)號(hào)碼優(yōu)先呼功能
當(dāng)用戶(hù)錄入的某個(gè)聯(lián)系人有多個(gè)通訊號(hào)碼時(shí),如有手機(jī)、小靈通、固定電話(huà),可以把這些號(hào)碼都錄入在系統(tǒng)中,在呼叫時(shí),用戶(hù)可以自行設(shè)置優(yōu)先呼叫的號(hào)碼,在號(hào)碼不通時(shí)再按設(shè)置的優(yōu)先策略逐一呼叫被叫其他的聯(lián)系方式。
2.6.6 信息查詢(xún)(Web)
系統(tǒng)提供電話(huà)本查詢(xún)界面給座席和管理員使用。
座席和管理員可根據(jù)聯(lián)系人姓名,查詢(xún)聯(lián)系人對(duì)應(yīng)的所有電話(huà)信息。
該功能主要在座席提供人工服務(wù)時(shí)使用。
3 技術(shù)創(chuàng)新點(diǎn)
本次項(xiàng)目采用國(guó)內(nèi)領(lǐng)先的智能語(yǔ)音識(shí)別技術(shù)(ASR)結(jié)合客服后臺(tái)定制化查詢(xún)需求,在滿(mǎn)足用戶(hù)傳統(tǒng)的查詢(xún)基礎(chǔ)上,語(yǔ)音定制化為用戶(hù)報(bào)出相關(guān)信息,由用戶(hù)按鍵選擇即可,大大方便了用戶(hù)的操作和客服的工作時(shí)間。
4 總體性能指標(biāo)
通過(guò)研究智能語(yǔ)音技術(shù)在信息通信客服系統(tǒng)中的應(yīng)用,實(shí)現(xiàn)客服查號(hào)業(yè)務(wù)的自能化,實(shí)現(xiàn)語(yǔ)音的自動(dòng)識(shí)別及數(shù)據(jù)分析,減少人工運(yùn)維成本,提高客服服務(wù)質(zhì)量及服務(wù)效率。
5 技術(shù)展望
語(yǔ)音識(shí)別技術(shù)使人與機(jī)器的交流成為現(xiàn)實(shí),它開(kāi)創(chuàng)了口語(yǔ)移動(dòng)學(xué)習(xí)的全新教育方式,受到越來(lái)越多的關(guān)注。借助互聯(lián)網(wǎng),移動(dòng)學(xué)習(xí)以其學(xué)習(xí)時(shí)間靈活,學(xué)習(xí)內(nèi)容豐富、精煉且片段化等特點(diǎn),開(kāi)辟了學(xué)習(xí)的新理念,讓口語(yǔ)學(xué)習(xí)真正擺脫了時(shí)間和空間的限制,使任何人在任何時(shí)間、任何地點(diǎn)根據(jù)需要進(jìn)行自主學(xué)習(xí)成為可能。目前,已有的基于PC的智能英語(yǔ)學(xué)習(xí)軟件,能提供基于計(jì)算機(jī)的輔助技術(shù),讓學(xué)習(xí)者及時(shí)得到發(fā)音質(zhì)量評(píng)分的智能化功能,但是基于手機(jī)端的口語(yǔ)學(xué)習(xí)應(yīng)用不多。
本終端是一款基于Android系統(tǒng)開(kāi)發(fā)的,進(jìn)行英語(yǔ)口語(yǔ)學(xué)習(xí)的安卓語(yǔ)音軟件。產(chǎn)品結(jié)合Google語(yǔ)音識(shí)別技術(shù),使用GPRS或WiFi進(jìn)行移動(dòng)終端與Google云服務(wù)端之間的數(shù)據(jù)交流,并通過(guò)對(duì)語(yǔ)音識(shí)別結(jié)果的處理,最終設(shè)計(jì)成一個(gè)可以進(jìn)行英語(yǔ)口語(yǔ)專(zhuān)線訓(xùn)練和自主訓(xùn)練的應(yīng)用Oral Storm。
1 研究基礎(chǔ)
Android平臺(tái)自底層向上由四個(gè)層次組成:Linux內(nèi)核層、Android運(yùn)行時(shí)庫(kù)與其他庫(kù)層、應(yīng)用框架層、應(yīng)用程序?qū)印K捎密浖褜樱╯oftware stack),又名軟件疊層的構(gòu)架,主要分為3部分:底層以Linux內(nèi)核工作為基礎(chǔ),由C語(yǔ)言開(kāi)發(fā),只提供基本功能;中間層包括函數(shù)庫(kù)Library和虛擬機(jī)(virtual machine),用C++開(kāi)發(fā),最上層是各種應(yīng)用軟件。
2 應(yīng)用架構(gòu)及功能說(shuō)明
專(zhuān)項(xiàng)訓(xùn)練模塊主要是對(duì)英語(yǔ)口語(yǔ)比較重要的四個(gè)發(fā)音類(lèi)別進(jìn)行系統(tǒng)訓(xùn)練,這4個(gè)發(fā)音類(lèi)別分別是清輔音、濁輔音、摩擦音和爆破音。在進(jìn)入訓(xùn)練界面之前,有對(duì)各類(lèi)發(fā)音方法和技巧的介紹,利于用戶(hù)方便快速地學(xué)習(xí)口語(yǔ)的正確發(fā)音。我們將每種發(fā)音訓(xùn)練模式中的單詞都分成10個(gè)小組,這些單詞都是由學(xué)校專(zhuān)業(yè)英語(yǔ)教師挑選的有代表性的詞,適合用于英語(yǔ)口語(yǔ)基礎(chǔ)訓(xùn)練。用戶(hù)在進(jìn)行完每個(gè)小組的單詞訓(xùn)練后,系統(tǒng)都會(huì)對(duì)用戶(hù)的發(fā)音作出評(píng)價(jià)和打分,對(duì)經(jīng)常出現(xiàn)發(fā)音錯(cuò)誤的單詞,用戶(hù)可以選擇保存,用于以后專(zhuān)門(mén)的訓(xùn)練。
自主學(xué)習(xí)模塊是用戶(hù)根據(jù)自身實(shí)際需求進(jìn)行訓(xùn)練的板塊。用戶(hù)先輸入想要訓(xùn)練的單詞或語(yǔ)句,如果不知道如何發(fā)音,可以求助于應(yīng)用中的英文朗讀功能。英文朗讀功能是將文本轉(zhuǎn)換成語(yǔ)音信號(hào),幫助用戶(hù)輕松方便地學(xué)習(xí)每一個(gè)英語(yǔ)發(fā)音。用戶(hù)還可以選擇性地保存輸入的學(xué)習(xí)內(nèi)容,方便以后復(fù)習(xí)使用。
總之,專(zhuān)項(xiàng)訓(xùn)練模塊針對(duì)學(xué)生英語(yǔ)學(xué)習(xí)中的四大類(lèi)發(fā)音難題設(shè)計(jì),通過(guò)專(zhuān)題式的學(xué)習(xí)、測(cè)試和智能評(píng)分,給用戶(hù)提供隨身的英語(yǔ)單詞學(xué)習(xí)和測(cè)試環(huán)境;自主訓(xùn)練模塊則專(zhuān)注于為用戶(hù)提供可定制的英語(yǔ)單詞學(xué)習(xí)專(zhuān)題,通過(guò)學(xué)習(xí)內(nèi)容的自定義給用戶(hù)最大限度的學(xué)習(xí)自由度。
3 研究技術(shù)
應(yīng)用功能的實(shí)現(xiàn)主要使用了兩大技術(shù),獲取語(yǔ)音識(shí)別技術(shù)和語(yǔ)音合成技術(shù)。
3.1 獲取語(yǔ)音識(shí)別技術(shù)
單詞發(fā)音練習(xí)需要使用Google語(yǔ)音搜索服務(wù),因此必須判斷當(dāng)前用戶(hù)手機(jī)是否支持該服務(wù),所采用的方法是通過(guò)queryIntentActivities()方法,查詢(xún)Android系統(tǒng)所有具備RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的應(yīng)用程序,點(diǎn)擊后能啟動(dòng)該應(yīng)用。
在Android語(yǔ)音識(shí)別應(yīng)用研究與開(kāi)發(fā)的同時(shí),Google語(yǔ)音服務(wù)需要網(wǎng)絡(luò)支持,所以也需要判斷當(dāng)前用戶(hù)的網(wǎng)絡(luò)連接狀況,在類(lèi)中寫(xiě)一方法check--NetWorkStatus()引用ConnectivityManager cwjManager來(lái)判斷網(wǎng)絡(luò)是否連接正常。
3.2 語(yǔ)音合成技術(shù)
語(yǔ)音合成技術(shù),是一種將文本轉(zhuǎn)換為語(yǔ)音輸出的技術(shù),其主要工作是將文本按字或詞分解為音素,然后將音素生成的數(shù)字音頻用揚(yáng)聲器播放或者保存為聲音文件,然后通過(guò)多媒體軟件播放。
Android手機(jī)平臺(tái),綁定了英文語(yǔ)音引擎,對(duì)英文語(yǔ)音提供內(nèi)置的支持。要將文本轉(zhuǎn)換為語(yǔ)音,首先要檢查T(mén)TS數(shù)據(jù)可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回結(jié)果為真,表明TTSEngine可以使用。除此之外,還有語(yǔ)音數(shù)據(jù)損壞和缺少發(fā)音數(shù)據(jù)等原因?qū)е耇TSEngine不能使用,這些因素都要考慮。之后是初始化TTS接口,這部分要設(shè)置發(fā)音語(yǔ)言引擎setLanguage(Locale.US)、發(fā)音音量Len(Volume)等。在這個(gè)過(guò)程中,還需要檢測(cè)設(shè)置的發(fā)音語(yǔ)言類(lèi)型是否可用。
4 結(jié)束語(yǔ)
我們開(kāi)發(fā)的口語(yǔ)學(xué)習(xí)軟件Oral Storm,可為訓(xùn)練單詞發(fā)音提供專(zhuān)業(yè)、智能及終端化的一體化學(xué)習(xí)和測(cè)試環(huán)境,專(zhuān)題分類(lèi)科學(xué)、全面,涵蓋了爆破音、摩擦音等發(fā)音難點(diǎn),可在專(zhuān)題學(xué)習(xí)后提供智能評(píng)分和語(yǔ)音糾正。用戶(hù)使用這款應(yīng)用,可以方便快速地學(xué)習(xí)英語(yǔ)口語(yǔ)的正確發(fā)音。
參考文獻(xiàn)
[1] 邢銘生,朱浩,王宏斌.語(yǔ)音識(shí)別技術(shù)綜述[J].科協(xié)論壇:下半月,2010(3):62-63.
[2] 詹青龍,張靜然,邵銀娟.移動(dòng)學(xué)習(xí)的理論研究和實(shí)踐探索[J].中國(guó)電化教育,2010(3):1-7.
[3] 周麗嫻,梁昌銀,沈澤.Android語(yǔ)音識(shí)別應(yīng)用的研究與開(kāi)發(fā)[J].廣東通信技術(shù),2013,33(4):15-18.
DOIDOI:10.11907/rjdk.162740
中圖分類(lèi)號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005005703
0引言
隨著智能自動(dòng)化技術(shù)的迅速發(fā)展[14],智能化研究越來(lái)越受到人們關(guān)注,在日常生活中的應(yīng)用需求也日益增多[56]。在書(shū)房、辦公室等場(chǎng)所中,書(shū)籍一般是由人工查找并取出的,在一定程度上影響了人們查閱書(shū)籍的時(shí)效性。如果能設(shè)計(jì)一種識(shí)別語(yǔ)音查找并推出書(shū)籍的書(shū)架,將解決人們?cè)跁?shū)房中對(duì)書(shū)籍定位難、查找耗時(shí)長(zhǎng)等問(wèn)題。
在圖書(shū)查閱過(guò)程中,書(shū)籍定位是較為常見(jiàn)的問(wèn)題之一。針對(duì)這類(lèi)問(wèn)題,張郁松等[7]以物聯(lián)網(wǎng)圖書(shū)館智能書(shū)架的結(jié)構(gòu)化、通用化設(shè)計(jì)為目標(biāo),利用超高頻(UHF)射頻識(shí)別(RFID)技術(shù),設(shè)計(jì)了一種具有實(shí)時(shí)檢測(cè)與定位功能的智能書(shū)架,較好地提高了書(shū)架工作效率;舒遠(yuǎn)仲等[8]基于改進(jìn)的RFID室內(nèi)定位技術(shù)設(shè)計(jì)了一款應(yīng)用于圖書(shū)館中的智能書(shū)架系統(tǒng),將書(shū)架定位到每一層,精確到書(shū)架的最小單元格,并且降低了系統(tǒng)的復(fù)雜度和成本,較為有效地提高了讀者借閱效率和館員工作效率。
隨著射頻技術(shù)的不斷發(fā)展,圖書(shū)館等場(chǎng)所中對(duì)圖書(shū)的定位方式有很大改善,但是由于條件限制,語(yǔ)音識(shí)別定位書(shū)架在圖書(shū)館等禁止喧嘩場(chǎng)所禁止使用。在可喧嘩環(huán)境下,如家庭、辦公室等場(chǎng)所中,語(yǔ)音識(shí)別可作為簡(jiǎn)單易用、無(wú)需接觸、無(wú)需攜帶外部設(shè)備的定位方法,具有較好的應(yīng)用前景。本系統(tǒng)首先將書(shū)籍信息存儲(chǔ)到可擴(kuò)展標(biāo)記語(yǔ)言(XML)中,然后通過(guò)語(yǔ)音識(shí)別將語(yǔ)音信息與文本信息進(jìn)行匹配,最后將定位結(jié)果發(fā)送至控制中心,通過(guò)電機(jī)執(zhí)行動(dòng)作完成推出書(shū)籍功能。
1硬件平臺(tái)架構(gòu)
本系統(tǒng)采用UPAtom510平臺(tái)作為系統(tǒng)的語(yǔ)音識(shí)別終端,同時(shí)采用STC89C52單片機(jī)[9]作為系統(tǒng)的控制中心。由于系統(tǒng)功能需求,開(kāi)發(fā)平臺(tái)需要擴(kuò)展外部設(shè)備。因此,除選用UPAtom510平臺(tái)和STC89C52單片機(jī)外,還需外接話(huà)筒、TB6600步進(jìn)電機(jī)驅(qū)動(dòng)模塊與42BYGH47401A步進(jìn)電機(jī),作為整個(gè)系統(tǒng)的硬件平臺(tái)架構(gòu)。
系統(tǒng)采用UPAtom510平臺(tái)作為識(shí)別終端,該平臺(tái)是北京博創(chuàng)科技有限公司針對(duì)嵌入式系統(tǒng)和微機(jī)原理課程研發(fā)的教學(xué)與實(shí)驗(yàn)平臺(tái)。目前在UPAtom510上已經(jīng)成功移植了Ubuntu、WinCE和Windows XP等操作系統(tǒng)。根據(jù)系統(tǒng)功能需求,在該平臺(tái)上搭建了Ubuntu操作系統(tǒng),并使用QT開(kāi)發(fā)工具完成了人機(jī)交互界面的開(kāi)發(fā)。UPAtom510平臺(tái)底板如圖1所示。
電機(jī)選用42BYGH47401A步進(jìn)電機(jī)[1011],該電機(jī)為兩項(xiàng)四線步進(jìn)電機(jī),電流1.5A,輸出力矩0.55Nm。此模塊有兩種用途:書(shū)籍定位以及將書(shū)籍從書(shū)架中推出,方便用戶(hù)取書(shū)。
本系統(tǒng)采用TB6600步進(jìn)電機(jī)驅(qū)動(dòng)器,它具有如下特性:輸入電壓為DC9~42V,可以驅(qū)動(dòng)42BYGH47401A步進(jìn)電機(jī)正常轉(zhuǎn)動(dòng);含有撥碼開(kāi)關(guān),針對(duì)不同電流要求,具有不同選擇;模塊上集成大面積散熱片,具有較好的散熱效果,可滿(mǎn)足實(shí)際應(yīng)用需求。
智能書(shū)架的硬件連接仿真結(jié)果如圖2所示,智能書(shū)架的模擬三視效果如圖3所示。
2系統(tǒng)框架設(shè)計(jì)
本系統(tǒng)的框架設(shè)計(jì)主要利用話(huà)筒采集語(yǔ)音信息,并將語(yǔ)音傳遞給UPAtom510平臺(tái),UPAtom510平臺(tái)經(jīng)過(guò)語(yǔ)音識(shí)別后,將書(shū)籍位置信息發(fā)送給STC89C52單片機(jī),單片機(jī)根據(jù)書(shū)籍位置信息給電機(jī)驅(qū)動(dòng)器發(fā)送控制命令,電機(jī)驅(qū)動(dòng)器控制電機(jī)轉(zhuǎn)動(dòng),帶動(dòng)整個(gè)智能書(shū)架運(yùn)行。書(shū)架在書(shū)籍定位后將書(shū)籍推出,使得該書(shū)架具有智能化、人性化的特點(diǎn)。系統(tǒng)框架如圖4所示。
3語(yǔ)音識(shí)別方法設(shè)計(jì)
目前,常見(jiàn)的電子產(chǎn)品中的語(yǔ)音識(shí)別均由單片機(jī)(MCU)或數(shù)字信號(hào)處理(DSP)作為硬件平臺(tái)來(lái)實(shí)現(xiàn)。這一類(lèi)語(yǔ)音識(shí)別[1217]產(chǎn)品主要采用孤立詞識(shí)別,一般有如下兩種方案:一種是使用隱馬爾科夫統(tǒng)計(jì)模型(HMM)框架設(shè)計(jì)的非特定人群識(shí)別,另一種是基于動(dòng)態(tài)規(guī)劃(DP)原理的特定人群識(shí)別。這兩種方法在應(yīng)用上各有優(yōu)缺點(diǎn)。
語(yǔ)音情感識(shí)別是人工智能、心理學(xué)和生物學(xué)等多學(xué)科交叉的新興領(lǐng)域。蘊(yùn)藏在語(yǔ)音中的情感信息是人們相互交流的重要信息,例如同樣一句話(huà),說(shuō)話(huà)人在不同的情感狀態(tài)時(shí)所表達(dá)的含義會(huì)截然不同。當(dāng)今人們不斷深入對(duì)情感信息處理的研究,也越來(lái)越重視語(yǔ)音信號(hào)中情感信息處理的研究。語(yǔ)音信號(hào)具有便攜性好和采集方便等優(yōu)勢(shì),因此語(yǔ)音識(shí)別技術(shù)在智能人機(jī)交互、人機(jī)交互教學(xué)、娛樂(lè)業(yè)、醫(yī)學(xué)、刑偵與安全領(lǐng)域得到了廣泛的應(yīng)用。
1997年,美國(guó)麻省理工大學(xué)的Picard教授首先提出了情感識(shí)別的概念,隨后美國(guó)麻省理工大學(xué)、美國(guó)洛杉磯南加州大學(xué)、新加坡南陽(yáng)理工大學(xué)等高校科研機(jī)構(gòu)陸續(xù)并展了情感識(shí)別領(lǐng)域的研究。在國(guó)內(nèi),東南大學(xué)、中科院自動(dòng)化研究所、清華大學(xué)、東南大學(xué)、西北工業(yè)大學(xué)、江蘇大學(xué)等高校和科研機(jī)構(gòu)也都開(kāi)展了情感識(shí)別方面的研究。
二、語(yǔ)音情感識(shí)別模塊構(gòu)成
語(yǔ)音情感識(shí)別技術(shù)是根據(jù)人在不同情感下的語(yǔ)音信號(hào)非平穩(wěn)性特征等比較明顯的特點(diǎn),通過(guò)提取語(yǔ)音的音質(zhì)特征、韻律特征和頻譜特征等聲學(xué)特征來(lái)判斷情緒的變化,語(yǔ)音情感識(shí)別模塊大體包括語(yǔ)音采樣、語(yǔ)音預(yù)處理、語(yǔ)音特征提取、語(yǔ)音特征處理、特征識(shí)別、情緒判斷幾個(gè)部分。
首先可設(shè)定采樣的頻率和時(shí)間長(zhǎng)短,對(duì)語(yǔ)音進(jìn)行采樣并進(jìn)行去噪、加窗、分幀等預(yù)處理,然后根據(jù)對(duì)不同情緒判斷的需要分別提取語(yǔ)音的音質(zhì)特征、韻律特征和頻譜特征等聲學(xué)特征如基音頻率、共振峰、Mel頻率倒譜系數(shù)、能量、樣本熵等,再將提取的多種特征通過(guò)各種時(shí)頻分析方法進(jìn)行處理,如短時(shí)傅里葉變換(FFT)、希爾伯特變換(Hilbert transform)、經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)等,之后將特征參數(shù)送入相應(yīng)的函數(shù)識(shí)別器(常用的一般為支持向量機(jī)SVM)識(shí)別特征參數(shù)的歸屬范圍,最后根據(jù)多種語(yǔ)音特征融合后的識(shí)別結(jié)果來(lái)綜合判斷采樣語(yǔ)音的情感種類(lèi)。
三、語(yǔ)音情感識(shí)別技術(shù)應(yīng)用的必要性
隨著社會(huì)進(jìn)步和生活水平的改善,客戶(hù)對(duì)呼叫中心熱線服務(wù)質(zhì)量的要求也在不斷提高,而呼叫中心主要通過(guò)電話(huà)與客戶(hù)交流,依賴(lài)語(yǔ)音獲取信息,與客戶(hù)的接觸渠道比較單一,這就需要我們結(jié)合國(guó)內(nèi)外發(fā)展的新形勢(shì)來(lái)積極尋求提升服務(wù)質(zhì)量及客戶(hù)感知的新方法以應(yīng)對(duì)如下問(wèn)題。
1 海量錄音抽樣質(zhì)檢的限制性
客服質(zhì)檢人員每天從幾萬(wàn)條錄音中只抽取幾百或幾十條錄音進(jìn)行質(zhì)檢,錄音抽取范圍一般是客戶(hù)做出滿(mǎn)意度參評(píng)或客服代表的專(zhuān)席轉(zhuǎn)接的錄音,無(wú)形中限制了錄音質(zhì)檢的范圍,而實(shí)際的問(wèn)題是錄音可能客戶(hù)既沒(méi)有參評(píng)、客服代表也未進(jìn)行專(zhuān)席轉(zhuǎn)接,故此很難發(fā)現(xiàn)錄音背后隱藏的客戶(hù)實(shí)際問(wèn)題,錄音質(zhì)檢的目的也會(huì)因此而大打折扣。
2 投訴處理缺少統(tǒng)一的標(biāo)準(zhǔn)
面對(duì)客戶(hù)各種不同情況的投訴錄音,不同的投訴處理人員會(huì)有不同的判斷標(biāo)準(zhǔn),繼而會(huì)執(zhí)行不同的處理流程,帶給客戶(hù)與客服代表的感知也會(huì)因此而有所差異,對(duì)客戶(hù)投訴的判責(zé)依賴(lài)于個(gè)人感知的成分較多,缺少說(shuō)服力和理論依據(jù)。
3 客戶(hù)情緒感知的滯后性
若客戶(hù)帶著情緒或疑問(wèn)撥入熱線卻在音調(diào)上故作平靜,客服代表將很難在第一時(shí)間了解客戶(hù)的切實(shí)想法和真實(shí)情感,無(wú)法對(duì)癥下藥、做出準(zhǔn)確的應(yīng)答,進(jìn)而會(huì)放大客戶(hù)的痛苦,激化客戶(hù)的不滿(mǎn)情緒,嚴(yán)重影響客戶(hù)的感知。
4 客服代表的服務(wù)熱情降低
客服代表常年工作在一線,每天面對(duì)大量不同客戶(hù)近乎相同的問(wèn)題,重復(fù)給出近乎相似的答案,容易產(chǎn)生一定的職業(yè)疲勞,在與客戶(hù)的互動(dòng)中會(huì)出現(xiàn)語(yǔ)音語(yǔ)調(diào)平淡的問(wèn)題,自己本身卻察覺(jué)不到,無(wú)形中影響了客戶(hù)的感知和呼叫中心的服務(wù)質(zhì)量。
四、語(yǔ)音情感識(shí)別的具體應(yīng)用
結(jié)合目前國(guó)內(nèi)外語(yǔ)音情感研究新興領(lǐng)域的語(yǔ)音情感識(shí)別技術(shù),可構(gòu)建語(yǔ)音情感分析模塊,針對(duì)以上提到的幾點(diǎn)問(wèn)題,實(shí)現(xiàn)在客服代表與客戶(hù)人機(jī)交互的過(guò)程中的四項(xiàng)重要作用。
1 自動(dòng)將語(yǔ)音篩選分類(lèi)
語(yǔ)音情感識(shí)別模塊可以將海量的錄音根據(jù)客戶(hù)情感的不同區(qū)分成不同的客戶(hù)情感錄音庫(kù),質(zhì)檢人員可以根據(jù)質(zhì)檢的需要和目的將分類(lèi)后的情感錄音庫(kù)做為抽檢錄音的來(lái)源,再輔以日常常用的抽檢標(biāo)準(zhǔn)進(jìn)行質(zhì)檢,這樣就精簡(jiǎn)了錄音的抽檢范圍,提高了錄音質(zhì)檢的針對(duì)性,增強(qiáng)了質(zhì)檢工作的目的性,更易于發(fā)現(xiàn)實(shí)際存在的問(wèn)題。
2 投訴校準(zhǔn)
語(yǔ)音情感識(shí)別模塊可以通過(guò)采樣客戶(hù)的投訴錄音,綜合判斷客戶(hù)和客服代表情緒的歸屬類(lèi)別,為投訴的判責(zé)提供標(biāo)準(zhǔn)和理論依據(jù),進(jìn)而規(guī)范和統(tǒng)一后續(xù)的處理流程,這樣,即使不同的投訴處理人員也會(huì)給客戶(hù)和客服代表做出相同的處理結(jié)果,使投訴處理工作更具有說(shuō)服力。
3 客戶(hù)情緒及時(shí)識(shí)別
語(yǔ)音情感識(shí)別模塊可以通過(guò)實(shí)時(shí)采樣客戶(hù)的聲音,在客戶(hù)電話(huà)接入的前幾秒對(duì)客戶(hù)的情緒做出判斷,特別是針對(duì)客戶(hù)帶著情緒或疑問(wèn)撥入熱線卻在音調(diào)上故作平靜、人耳難以識(shí)別的情況下,進(jìn)而通過(guò)情感識(shí)別系統(tǒng)的反饋信息及時(shí)提醒客服代表客戶(hù)情緒的異常,客服代表可以靈活轉(zhuǎn)變問(wèn)題處理的方式從而縮小客戶(hù)的痛苦,提高客戶(hù)的滿(mǎn)意度。