智能語音技術：Siri

來源：數字音視工程網編輯：ann 2011-10-19 04:05:25 加入收藏咨詢

咨詢

所在單位:	*
姓名:	*
手機:	*
職位:
郵箱:	*
其他聯系方式:
咨詢內容:
驗證碼:	不能為空驗證碼錯誤

確定

根據美國電話電報公司（AT&T）透露，iphone4S在發布12小時之內就接到了20萬份訂單，而其中最引入注目的一大新功能，就是被稱為Siri的語音助手功能。

　　一、不僅僅是語音，還是人工智能

　　盡管蘋果“教主”喬布斯離開了我們，盡管iphone5沒有入人們期望的那樣出現，但是iphone4S的推出仍然成功吸引了蘋果粉絲和業界的所有關注。根據美國電話電報公司(AT&T)透露，iphone4S在發布12小時之內就接到了20萬份訂單，而其中最引入注目的一大新功能，就是被稱為Siri的語音助手功能。

　　10月4日上午，蘋果全球產品副總裁Phil Schiller與負責iOS軟件的副總裁Scott Forstall在新品發布會上，隆重介紹了Siri。

　　什么是Siri?

　　Forstall在現場進行了演示，他拿起iPhone 4S，對手機問道：“今天天氣如何?”屏幕上立刻顯示出今天的天氣狀況。他又接著問，我用帶傘嗎?Siri馬上回答，今天會下雨。隨后，他還用這款應用演示了搜索和設置鬧鐘提、預約等功能。

　　Siri跟普通的語音搜索不一樣，它能明白你所說的，了解你的意思，甚至還能回答你的問題。那感覺就像真正擁有私人助理似的，而且是一位善解人意的私人助理。無論你用何種方式提問，它都能以人的思維去思考和反應，而不是以預設的程序答非所問。

　　Siri能為你做的不僅僅是提供答.案，它還可以親自替你完成一些基本的事情。比如，你可以吩咐Siri發短信給你父親、提醒你預約牙醫、幫你查找到達目的地的路線，不用擔心Siri不夠聰明，因為它能夠思考完成這些事情需要運行哪些應用程序，還能明白你要打電話的準確對象。

　　Siri還包括傳聞中的“語音轉文字”的功能，你只需按下麥克風，把你想發送的內容說出來，Siri就可以將你所說的內容轉換成文字，并發送出去。除了發送短信外，Siri還集成到一些第三方應用，這樣，你只需動動嘴皮子，就能更新Facebook、發送Twitter消息或者即時聊天。

　　如果你認為Siri只是一個簡單的聲音控制軟件，而你的Android手機上的語音助手或NOKIA語音提示也可做到這點，那你就錯了。

　　我們不妨探究一下Siri的血統，這家最近剛被蘋果收購的公司，直接發端于美國軍方的CALO(Cognitive Assistant that Learns and Organizes)項目，這也是史上最大的人工智能項目，匯聚了全球人工智能方面的頂尖專家。

　　你如果看過好萊塢大導演斯皮爾伯格的電影《A I》，相信會對人工智能有一定了解，通過人工智能技術，機器人可以把“對話、自然語言理解、視覺、演說、機器學習、制定計劃、理性思考、服務代表全部融合到一起”。Siri的技術正源自人工智能，而不是簡單的搜索和語音識別。它能夠自主分析用戶發出的口語指令，并給出確切的回應和指導，完全不需要用戶預選學習使用方法。

　　在國外某科技博客錄制的一段視頻中，評測人員對Siri提出了許多含義模糊或有歧義的問題。比如：“附近有沒有什么浪漫的法國餐廳?”，比如：“天空為何是藍色的?”比如“鋼琴上有多少個八度?”對人類而言，這些句子再平常不過了，但要讓機器去理解這些變化多端的棘手詞匯，尤其是“浪漫”這種形容詞，那就極端困難了，然而這些問題Siri都可以回答。

　　你甚至還可以對Siri表白，對它說：“我愛你!”它的回答也很妙：“希望你不會對其它手機也這么說。”

　　該評測人員隨后在博客中寫到：“Android系統的Voice Actions也是一項偉大的技術，但說真的，它和Siri不是同一個層面的產品。Siri非?？幔c之相比Voice Actions雖說確實讓我們省去了打字輸入、觸摸操作的工序，但操作太復雜，只有那些Geek會使用它。然而，媽媽們會選擇Siri。”

　　二、語音技術的三大種類

　　除了人工智能，Siri的核心功能仍是基于語音識別的語音技術，其語音引擎來自Nuance，這家公司在全球手機輸入法上處于壟斷地位。

　　這一技術并非革命性的變革，早在計算機發明之前，自動語音識別的設想就已經被提上了議事日程，早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產的“Radio Rex”玩具狗可能是最早的語音識別器，當這只狗的名字被呼喚的時候，它能夠從底座上彈出來。

　　近二十年來，語音識別技術取得顯著進步，開始逐漸從實驗室走向市場。據了解，許多大公司如IBM、蘋果、微軟、Google、AT&T和NTT等早在多年前都對語音識別系統的實用化研究投以巨資。目前主流的語音技術方案包括IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, ，Nuance公司的Nuance Voice Platform語音平臺，Microsoft的Whisper,Sun的VoiceTone，以及科大訊飛的口訊等。

　　“語音技術是一個典型的交叉科學，涉及到很多方面，不是說有錢就能做的，是有一定門檻的。你可以去APP下載一個我們的軟件體驗一下”。根據科大訊飛副總江濤對筆者的介紹，目前語音技術大體上有三個分支：

　　第一類是語音合成技術(TTS)，就是把文字變成語音，能夠把文字讀出來的技術，這個技術相對來說發展最早，也比較成熟。

　　第二類是語音識別技術(ASR)，它又有幾個細分，比較技術成熟的有命令識別(voice command)，在有限的指定空間中實現你說的命令，早期很多手機上的語音識別很多就是這個層面。還有一個分支是語音評測，能夠對你說的不同語言的標準程度進行打分、評價與指導。

　　第三類是聲紋識別技術，因為語言中人的聲帶帶有獨特的物理特性，跟指紋、虹膜一樣每個人的聲音都是獨特的，目前這種技術主要用在聲音加密方面，可以識別不同人的聲音。

　　據江濤透露，目前最難實現的就是語音識別技術(ASR)，盡管業內普遍以識別率作為軟件評測的標準，但語音受影響的環境因素太多了，說話人的語氣、語速、外圍的噪音程度，麥克風的情況，尤其是云端識別，傳輸的信道好壞，很多很多因素都是不可控制的，“所以讓官方去測一個系統識別率是多少其實意義不大，因為每個人用的具體環境都不大一樣。最終做決定的還是消費者，他們會用自己的手機去投票”。

　　三、語音技術面臨的諸多挑戰

　　據江濤介紹，目前語音識別技術在實現上還有幾大難點需要解決：

　　1、自適應方面

　　目前，象IBM的ViaVoice和Asiaworks的SPK都需要用戶在使用前進行幾百句話的訓練，以讓計算機適應你的聲音特征。這必然限制了語音識別技術的進一步應用，大量的訓練不僅讓用戶感到厭煩，而且加大了系統的負擔?，F實世界的用戶類型是多種多樣的，就聲音特征來講有男音、女音和童音的區別，此外，許多人的發音離標準發音差距甚遠，這就涉及到對口音或方言的處理。事實上，ViaVoice的應用前景也因為這一點打了折扣，只有普通話說得很好的用戶才可以在其中文版連續語音識別方面取得相對滿意的成績。

　　2、強健性方面

　　語音識別技術需要能排除各種環境因素的影響。目前，對語音識別效果影響最大的就是環境雜音或嗓音，在公共場合，你幾乎不可能指望手機能聽懂你的話，來自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語音技術的應用范圍，目前，要在嘈雜環境中使用語音識別技術必須有特殊的抗嗓(Noise Cancellation)麥克風才能進行，這對多數用戶來說是不現實的。在公共場合中，個人能有意識地摒棄環境嗓音并從中獲取自己所需要的特定聲音，如何讓語音識別技術也能達成這一點呢?這的確是一個艱巨的任務。

　　某位業內人士在微博上表示：“與iPhone 4一樣，iPhone 4S也配有副麥克風，用來過濾背景雜音。使用過Nuance Dragon語音到文本產品的用戶無疑會對這種情形非常熟悉：在語音輸入時必須保證良好的音質并且減少雜音，即便這樣語音輸入結果也并非100%準確?；诖?，我們認為iPad和iPod touch上的低音質麥克風無法讓語音輸入獲得最佳效果，從而無法在短時間內用上Siri。”

　　此外，帶寬問題也可能影響語音的有效傳送，語音技術的流量要求主要看語音的質量，越保真的語音傳輸量越大，現在主流的語音技術采用的都是16bit編碼和8bit編碼兩種。在速率低于1000比特/秒的極低比特率下，語音編碼的研究將大大有別于正常情況，比如要在某些帶寬特別窄的信道上傳輸語音，以及水聲通信、地下通信、戰略及保密話音通信等，要在這些情況下實現有效的語音識別，就必須處理聲音信號的特殊特征，如因為帶寬而延遲或減損等。

　　3、多語言混合識別以及無限詞匯識別方面

　　由于目前使用的聲學模型和語音模型太過于局限，以至用戶只能使用特定語音進行特定詞匯的識別。如果突然從中文轉為英文，或者法文、俄文，計算機就會不知如何反應，而給出一堆不知所云的句子;或者用戶偶爾使用了某個專門領域的專業術語，如 “信噪比"等，可能也會得到奇怪的反應。根據筆者的使用體驗，中文與英文夾雜，包括數字的夾雜識別會比較困難。

　　目前正在做語音方面的開發，還不方便公布。

　　云計算在安全和識別方面，凡是涉及到云端的，都要在服務器上實現，就以打電話、發短信來說，其實運營商那里都有備份，本身有沒有安全問題，其實只要管理規范，并且控制在幾家大公司范圍內，我相信不會太亂。電子郵件做了這么多年，安全性問題也有，但是不能因為這樣就不用。

　　4、實用性方面

　　國外科技博主Michael Okuda對Siri的實用性抱懷疑態度。“這只是一個DEMO，目前來看根本談不上革命。Siri無法進行大段文字錄入和現場翻譯的語音識別，而且限定了必須在App內的特定識別，總覺得又是個蘋果拋磚引玉教育用戶的動作。”

　　他認為，語音輸入可能并非如此高效。“設想一下，我在搜索圖片，我會說‘上、上、左、往下一個，圖片編號3362，不對，左邊那個。’這簡直比直接點擊那張圖片要慢很多。”Michael說。“我認為，自然語言必然會遇到諸多限制。”

　　四、云平臺加速中文語音識別的來臨

　　Siri的推出吸引了業內對于語音識別技術的關注，據了解，此次Siri僅推出了英文、法文、德文版本，并且只能在iPhone4S上面使用，這無疑對于專注中文語音技術的國內廠商帶來巨大利好。不過由于Siri并非單純語音識別，而更是語義識別，即理解自然語言并作出合理回應。中文自然語言的語義識別是Siri面對的難點與障礙。蘋果本身十分注重中國市場，從iPhone第一代的iPhoneOS在發布之時就已包含中文語言及輸入法即可看出。

　　事實上，早在1997年，IBM公司就開發出漢語ViaVoice語音識別系統，可以識別上海話、廣東話和四川話等地方口音的語音識別系統ViaVoice'98。它帶有一個32,000詞的基本詞匯表，可以擴展到65,000詞,還包括辦公常用詞條，具有“糾錯機制”，其平均識別率可以達到95%。而中科院自動化所及其所屬模式科技(Pattek)公司2002年發布了他們共同推出的面向不同計算平臺和應用的“天語”中文語音系列產品——PattekASR，結束了中文語音識別產品自1998年以來一直由國外公司壟斷的歷史。

　　你可能還記得幾年前電視上出現過的“金立語音王”廣告，該款手機可以通過語音收發短信，同時還可以通過語音閱讀文檔資料，可以說是國內手機廠商在語音識別上的最早嘗試。

　　國筆科技副總裁莊傳坤對筆者表示，類似于金立語音王這種產品就屬于命令識別技術，事先設定一些命令，或者命令組合，早期的金立語音王基本上就是在手機CPU上進行處理，運算速度和存儲空間有限，只能識別有限的一千多條指令，體驗也不好?？拼笥嶏w副總江濤則透露，今年金立基于科大訊飛的語音云做了一個新的版本，在云服務器上可以做到幾十萬條的識別。

　　據了解，目前國內客戶對于語音技術的了解還處于起步階段，市面上完整成熟的中文語音解決方案還不多。科大訊飛董秘徐景明就體表示，蘋果推廣Siri將從實際應用等方面加速行業發展與普及。

　　根據徐景明的介紹，科大訊飛目前通過兩種方式來培育語音識別業務，一是開發自身的產品訊飛口訊和訊飛語音輸入法，發展語音云、豐富數據庫，公司語音輸入法目前對標準普通話的識別正確率已提升到95%以上;二是向應用軟件開發商們開放語音云平臺接入，目前包括挖財在內的理財記賬軟件、凱立德在內的地圖軟件，都已內置了科大訊飛的語音識別功能。此外，公司還與中國電信合作推出了應用相關技術的通訊增強軟件。

　　自2010年10月28日科大訊飛“語音云”成功發布之日起，訊飛語音云合作伙伴已經超過500家，包括新浪、搜狐、騰訊、聯想、挖財、樂么樂么等,語音云的用戶量也已經超過2000萬，而除了科大訊飛，Nuance也在同樣搭建開放的語音云平臺，開發者可以給予其語音引擎開發各種第三方的語音應用。

　　至于Siri所應用的人工智能方面，國內廠商中目前騰訊聯合中科院推出的小Q機器人是一大嘗試，可以實現部分思考和理解能力，相信隨著iphone4s的大力推動和智能手機的進一步發展，中國廠商自行研發的具有人工智能的語音軟件將會很快問世。

免責聲明：本文來源于網絡收集，本文僅代表作者個人觀點，本站不作任何保證和承諾，若有任何疑問，請與本文作者聯系或有侵權行為聯系本站刪除。(原創稿件未經許可,不可轉載,轉載請注明來源)