語音識別技術分析
來源:數字音視工程網 編輯:數字音視工程 2013-01-06 10:17:10 加入收藏 咨詢

所在單位: | * |
姓名: | * |
手機: | * |
職位: | |
郵箱: | * |
其他聯系方式: | |
咨詢內容: | |
驗證碼: |
|
聲音識別系統的發展得益于便宜的硬件,大多數的計算機都有聲卡和麥克風。
但是聲音識別系統比指紋識別系統有更高的誤識率,因為人的聲音不像指紋那樣具備唯一性。
生物識別指從生理和行為特征上自動辨識人類的身份,包括面部、虹膜、靜脈、語音、簽名和指紋識別,以及掌形識別。要被辨識的人必須親自站在識別器前,這樣的辨識技術不需要記密碼或攜帶識別證和智能卡。
隨著個人身份號碼和密碼使用的快速增長,有必要限制對這些敏感數據的訪問。替代了個人身份號碼和密碼,讓生物識別技術使用更方便,能夠阻止對ATM機、識別證和智能卡、移動電話、PC機、工作站和計算機網絡等未授權的訪問或是欺詐性地使用。個人身份號碼和密碼可能會被忘掉,識別證類的方法如護照、駕照和保險卡也可能被遺忘、被偷竊或丟失。
各種各樣的生物識別系統現在被用作實時識別。最常見的是面部識別和指紋識別,此外,還有其他運用虹膜和視網膜掃描、語音、面部和掌形等的生物識別系統。
語音識別
語音信號表明了語言、語音生理上的呈現方式和類型,以及說話者的身體和情緒狀態。20世紀60年代早期,貝爾實驗室的Lawrence Kersta在計算機語者驗證技術上邁出了重要的第一步,他在由復雜的電動機械設備產生的聲譜圖中引入了聲波紋的概念,聲波紋同視覺比較的驗證運算法則相匹配。
為了進行語者辨識而記錄人們的聲音,這需要用語音來展現說話的行為和方式,語音識別是生物行為識別的一部分。語音信號是十分復雜的,它可以很容易地被普通的麥克風捕捉。然而,同其他生物識別技術如指紋識別相比,聲音識別不是很穩定。
自動語者識別的先進方法要求隨機的語者模型,模型具有不同的語音特點,它可以區分高級和低級信息。高級信息包括方言、口音、談話風格和主題樣式,這些特征現在只能被人辨識和分析。低級信息包括音高周期、節奏、音調、聲譜級和個人聲音的頻率和帶寬。
雖然較高質量的聲音采集設備可以提高辨識的性能,但通過麥克風或普通電話也可進行。硬件的價格現在非常低,幾乎每一臺PC都有麥克風,或是很容易連接麥克風。
聲音識別對沙啞或是模仿的聲音不是很有效。如果遇到這種情況,系統將不能辨認使用者。此外如果麥克風質量很差或背景很嘈雜,辨識的準確率會降低。聲音識別由于有較高的誤識率,所以它較少被單獨用到,往往會輔以更高辨識率的技術,如指紋掃描。而且語音會隨著時間變化而改變,所以需要相應的樣版和方法。
不同語者的語音變化和同一語者的語音變化
不同語者的語音變化是由個人不同的嗓音特征造成的,為區分不同的語者提供有用的信息。同一語者的語音變化是指語者不能以完全相同的方式重復同一詞匯或句子的發音。
同一語者的語音變化包括不同說話速度、情緒狀態和說話環境,它會導致語音識別系統表現的下降。所以需要選擇可以顯示較少同一語者語音變化,而較多不同語者語音變化的參數。在許多語音識別的應用中,通過要求使用者說出含有和訓練語句相同文本和詞匯的測試語句,來減少同一語者的語音變化。
語音識別系統被分為文本相關的和文本無關兩種。文本相關系統要求使用者重復指定的話語,通常包含與訓練信息相同的文本,文本無關的系統則沒有這樣的限制。在文本相關的系統中,大家熟知的詞匯或詞組信息可以用來提高辨識的表現。
語音識別系統提示客戶在新的場合使用新的口令密碼,這樣使用者不需要記住固定的口令,系統也不會被錄音欺騙。文本相關的聲音識別方法可以分為動態時間伸縮或隱馬爾可夫模型方法。文本無關聲音識別已經被研究很長時間了,不一致環境造成的性能下降是應用中的一個很大的障礙。
工作原理
動態時間伸縮方法使用瞬間的、變動倒頻。1963年Bogert et al出版了《回聲的時序倒頻分析》。通過交換字母順序,他們用一個含義廣泛的詞匯定義了一個新的信號處理技術,倒頻譜的計算通常使用快速傅立葉變換。
從1975年起,隱馬爾可夫模型變得很流行。運用隱馬爾可夫模型的方法,頻譜特征的統計變差得以測量。文本無關語音識別方法的例子有平均頻譜法、矢量量化法和多變量自回歸法。
平均頻譜法使用有利的倒頻距離,語音頻譜中的音位影響被平均頻譜去除。使用矢量量化法,語者的一套短期訓練的特征向量可以直接用來描繪語者的本質特征。但是,當訓練向量的數量很大時,這種直接的描繪是不切實際的,因為存儲和計算的量變得離奇的大。所以嘗試用矢量量化法去尋找有效的方法來壓縮訓練數據。Montacie et al在倒頻向量的時序中應用多變量自回歸模式來確定語者特征,取得了很好的效果。
想騙過語音識別系統要有高質量的錄音機,那不是很容易買到的。一般的錄音機不能記錄聲音的完整頻譜,錄音系統的質量損失也必須是非常低的。對于大多數的語音識別系統,模仿的聲音都不會成功。用語音識別來辨認身份是非常復雜的,所以語音識別系統會結合個人身份號碼識別或芯片卡。
語音識別系統得益于廉價的硬件設備,大多數的計算機都有聲卡和麥克風,也很容易使用。但語音識別還是有一些缺點的。語音隨時間而變化,所以必須使用生物識別模板。語音也會由于傷風、嗓音沙啞、情緒壓力或是青春期而變化。語音識別系統比指紋識別系統有著較高的誤識率,因為人們的聲音不像指紋那樣獨特和唯一。對快速傅立葉變換計算來說,系統需要協同處理器和比指紋系統更多的效能。目前語音識別系統不適合移動應用或以電池為電源的系統。
評論comment