語言識(shí)別技術(shù)的現(xiàn)狀及應(yīng)用
湖南化工職業(yè)技術(shù)學(xué)院 歐陽志紅 2014/8/11 15:47:35
摘要:如同人與人之間的相互對話那樣,用語音對設(shè)備、機(jī)械等發(fā)出控制命令和信息,這不僅對于從事計(jì)算機(jī)的工作者,而且對于普通的人們,也曾是一個(gè)令人神往的夢想。近些年來,由于集成電路技術(shù)、數(shù)字信號(hào)處理技術(shù)和圖形識(shí)別等技術(shù)的不斷取得進(jìn)展,語音識(shí)別技術(shù)也在長足地向前發(fā)展。如今,以聲音為輸入信號(hào)的自動(dòng)控制系統(tǒng)已在不少場合開始得到應(yīng)用。
關(guān)鍵詞: 特點(diǎn) 方法 現(xiàn)狀 應(yīng)用
一、語音識(shí)別的優(yōu)點(diǎn)和方法
直接用語音作為輸入控制信號(hào)方法具有許多優(yōu)點(diǎn):對人來說,作為最自然的輸入控制信號(hào)的手段,不必進(jìn)行特殊的訓(xùn)練;信息的產(chǎn)生速度較快,一般為鍵盤輸入方法的2~4倍;操作者在用眼和手共同進(jìn)行其它作業(yè)的同時(shí)能輸入信息;操作者能邊走動(dòng)邊輸入信息;能遠(yuǎn)距離用電話輸入;可以省略鍵盤、發(fā)光字母讀出器等中間輸入設(shè)備;即使在某些緊急的場合,也能在轉(zhuǎn)瞬之間投入使用。
說明語音識(shí)別的方法,應(yīng)首先從語音的分析談起。語音大體上包含著兩種信息:即具有一定含義的信息和發(fā)音者固有的信息。前者的識(shí)別處理稱為:“狹義聲音識(shí)別”,而后者的識(shí)別處理則叫作“發(fā)言人辨認(rèn)”。
在聲音頻譜中,能量集中的頻帶稱為共振峰。共振峰頻率隨著發(fā)音者性別及其他條件的不同而變化。分析輸入的語音,找出其特征是語音識(shí)別的第一步。
識(shí)別輸入的語言是語音識(shí)別的下一步。對此在“單詞識(shí)別”和“單音識(shí)別”兩種方式。前者是在識(shí)別裝置內(nèi)設(shè)有以單詞為單位的模擬型詞匯標(biāo)準(zhǔn),進(jìn)而選出與輸入語音最類似模式的方式。后者的方式是在識(shí)別裝置內(nèi)設(shè)有以此單詞低次的單音、音節(jié)為單位的模擬型標(biāo)準(zhǔn),將輸入的語音按單音的不同進(jìn)行變換,再進(jìn)行單詞的識(shí)別。
單詞(單間)與單詞(單音)之間是否有間隔,這是語音識(shí)別技術(shù)要考慮的一個(gè)重要問題!半x散話音”指的是在單詞間有200毫秒左右時(shí)間間隔的輸入方法。還有所謂“連續(xù)會(huì)話”方式,其作為識(shí)別對象的是多個(gè)單詞連續(xù)一氣講出的語句,相應(yīng)的識(shí)別處理將較復(fù)雜一些。
另外,講話人是否受到限制的問題,對語音識(shí)別裝置來說,在技術(shù)上和造價(jià)方面都是必須考慮的。所謂“特別指定說話人”識(shí)別,就是將識(shí)別對象的全部單詞,經(jīng)數(shù)次練習(xí)預(yù)先進(jìn)行話音輸入,使之在裝置中存儲(chǔ)發(fā)音人個(gè)人所特有的單詞模式,使用時(shí)將輸入的語音與比單詞模式進(jìn)行比較而加以識(shí)別的方式。這種方式以比較簡單的識(shí)別處理就能得到較高的識(shí)別率。還有“可更換發(fā)音人”的識(shí)別方式,它是預(yù)先用多人的語音信號(hào)瞬時(shí)值作成標(biāo)準(zhǔn)模式,這樣在更換了發(fā)音人、口音有所差異的情況下,識(shí)別裝置也能進(jìn)行正確的識(shí)別。
語音識(shí)別的最高發(fā)展階段是識(shí)別人們以普通速度講的會(huì)話語言。眾所周知,一般人的會(huì)話中包含著無意義用語(口頭語),因此要一字一句地準(zhǔn)確識(shí)別人的普通會(huì)話語言是極難的。作為解決方法,產(chǎn)生了被稱之為“語音理解”的新概念:就是將輸入的語音中所包含的冗余信息(方言、單調(diào)等)進(jìn)行引用,作為理解輸入信息內(nèi)容的近似方法,而不要求一定將輸入語音逐一正確地加以識(shí)別,這是與其它的語音識(shí)別方式根本不同的。采用此種識(shí)別方式的語音識(shí)別裝置作文章理解系統(tǒng),它在聲音打字機(jī)和口語自動(dòng)翻譯等方面可得廣泛的應(yīng)用。
二、語音識(shí)別技術(shù)的現(xiàn)狀
按功能分類,語音識(shí)別裝置有數(shù)據(jù)輸入型、自然口語輸入型和發(fā)音人辨認(rèn)三種。
語音識(shí)別裝置首先在美國開始實(shí)用并最早出現(xiàn)商用產(chǎn)品的,現(xiàn)在實(shí)用的語音識(shí)別主要采用的還是對專人的并基于以單詞為單位的離散信息的識(shí)別方式,識(shí)別率達(dá)99%以上,適用于識(shí)別語句較少而且在較肅靜的室內(nèi)場合使用。作為一般用戶為對象的(例如:旅客問詢)系統(tǒng),則要求使用“可更換發(fā)音人”方式的語音識(shí)別裝置。
對于自然口語輸入型的語音識(shí)別,美國國防部作為ARPA計(jì)劃,進(jìn)行了大量的研究工作。在日本也以電子技術(shù)綜合研究所為中心,作為圖形識(shí)別研究大型計(jì)劃的一環(huán)進(jìn)行了研究。目前已有聲音打字機(jī)那樣的應(yīng)用。
“發(fā)音人辨認(rèn)”是語音識(shí)別最完善的方式。由于不同的發(fā)音人在發(fā)同一語音時(shí),可以產(chǎn)生有顯著差別的聲學(xué)圖案,這種差別便體現(xiàn)了個(gè)人的特征。人的聽覺區(qū)別個(gè)人特征的能力是很強(qiáng)的。目前用電子設(shè)備辨認(rèn)發(fā)音人常用的簡便方法是:檢出語音基頻隨時(shí)間變化的圖形作為辨認(rèn)的依據(jù)。它的應(yīng)用前景是相當(dāng)廣泛的,比如用存儲(chǔ)某人的語音代替簽字(有人稱之為“聲紋”)進(jìn)而利用電話等實(shí)現(xiàn)遠(yuǎn)距離的身分確認(rèn)將成可能。
三、語音識(shí)別在鐵路系統(tǒng)的應(yīng)用
語音識(shí)別裝置按應(yīng)用分類:有控制、指令型,利用電話(包括無線電話)型,OA(事務(wù)自動(dòng)化)應(yīng)用型和“發(fā)音人辨認(rèn)”型等。
在控制、指令型的應(yīng)用方面,采用“專人”語音識(shí)別裝置可以進(jìn)行選排調(diào)車進(jìn)路、調(diào)車機(jī)車的無人駕駛、行包自動(dòng)分揀等;采用(未完,下一頁)
|