『壹』 語音識別的技術原理是什麼,請簡單說下
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),
其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼
或者字元序列。與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人
而非其中所包含的詞彙內容。
『貳』 想做款語音識別,全自動的。想監聽麥克風判斷一句話的開始和結束。應該怎麼判斷給點思路
語音的頻率是有一定范圍的,大約是2kHz以下,這也是普遍運用於電話的PCM壓縮的采樣率在0~2000Hz范圍的原因
你可以對語音分段采樣後做頻譜分析,比如fft,求每段能量值在2000Hz以下的能量是否超過閾值,如果超過則算是有人聲,當然還可以輔助增加一些其他的特徵值來判斷人聲,這樣可以在復雜音頻背景下進行判斷
如果要簡化情況,可以用靜音判斷來分割語音,假設沒有人聲時,麥克風的輸入是基本靜音的(fft得到的平均能量值小於有聲的閾值),也可以進行有效的分割
『叄』 語音識別系統是什麼原理
我們可以設想,在不久的將來坐在辦公司里的經理會對電腦說:「嗨!伙計,幫我通知一下公司所有員工,今天下午3:00准時開會。」這是科學家在幾十年前的設想,語音識別長久以來一直是人們的美好願望,讓計算機領會人所說的話,實現人機對話是發展人機通信的主要目標。進入2l世紀,隨著計算機的日益普及,怎樣給不熟悉計算機的人提供一個友好而又簡易的操作平台,是我們非常感興趣的問題,而語音識別技術就是其中最直接的方法之一。
20世紀80年代中期以來,新技術的逐漸成熟和發展使語音識別技術有了實質性的進展,尤其是隱馬爾可夫模型(HMM)的研究和廣泛應用,推動了語音識別的迅速發展,同時,語音識別領域也正處在一個黃金開發的關鍵時期,各國的開發人員正在向特定人到非特定人,孤立詞彙向連接詞,小詞彙量向大詞彙量來擴展研究領域,可以毫不猶豫地說,語音識別會讓計算機變得「善解人意」,許多事情將不再是「對牛彈琴」,最終用戶的口述會取代滑鼠,鍵盤這些傳統輸入設備,只需要用戶的嘴和麥克風就能實現對計算機的絕對控制。
1、隱馬爾可夫模型HMM的引入
現在假定HMM是一個輸出符號序列的統計模型,具有N個狀態S1,S2⋯Sn,在一個周期內從一個狀態轉到另一個狀態,每次轉移時輸出一個符號,轉移到了哪個狀態以及輸出什麼符號,分別由狀態轉移概率和轉移時的輸出概率來決定,由於只能觀測到輸出符號序列,不能觀測到狀態轉移序列,因此成為隱藏的馬爾可夫模型。
2、語音識別的特點
語音識別的意思是將人說話的內容和意思轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字元序列等。與說話人的識別不同,後者主要是識別和確認發出語音的人而非其中所包含的內容。語音識別的目的就是讓機器聽懂人類口述的語言,包括了兩方面的含義:第一是逐字逐句聽懂而不是轉化成書面的語言文字;第二是對作者簡介:賈聰,中國地質大學機械與電子信息學院。口述語言中所包含的命令或請求加以領會,做出正確回應,而不僅僅只是拘泥於所有詞彙的正確轉換。
3、語音識別系統的工作流程
一般來說,一套完整的語音識別系統其工作過程分為7步:①對語音信號進行分析和處理,除去冗餘信息。②提取影響語音識別的關鍵信息和表達語言含義的特徵信息。③緊扣特徵信息,用最小單元識別字詞。④按照不同語言的各自語法,依照先後次序識別字詞。⑤把前後意思當作輔助識別條件,有利於分析和識別。⑥按照語義分析,給關鍵信息劃分段落,取出所識別出的字詞並連接起來,同時根據語句意思調整句子構成。⑦結合語義,仔細分析上下文的相互聯系,對當前正在處理的語句進行適當修正。
4、音識別系統基本原理框圖及原理
語音識別系統基本原理結構如圖1所示。語音識別原理有三點:①對語音信號中的語言信息編碼是按照幅度譜的時間變化來進行;②由於語音是可以閱讀的,也就是說聲學信號可以在不考慮說話人說話傳達的信息內容的前提下用多個具有區別性的、離散的符號來表示;③語音的交互是一個認知過程,所以絕對不能與語法、語義和用語規范等方面分裂開來。
預處理,其中就包括對語音信號進行采樣、克服混疊濾波、去除部分由個體發音的差異和環境引起的雜訊影響,此外還會考慮到語音識別基本單元的選取和端點檢測問題。反復訓練是在識別之前通過讓說話人多次重復語音,從原始語音信號樣本中去除冗餘信息,保留關鍵信息,再按照一定規則對數據加以整理,構成模式庫。再者是模式匹配,它是整個語音識別系統的核心部分,是根據一定規則以及計算輸入特徵與庫存模式之間的相似度,進而判斷出輸入語音的意思。
前端處理,先對原始語音信號進行處理,再進行特徵提取,消除雜訊和不同說話人的發音差異帶來的影響,使處理後的信號能夠更完整地反映語音的本質特徵提取,消除雜訊和不同說話人的發音差異帶來的影響,使處理後的信號能夠更完整地反映語音的本質特徵。
5、當前亟待解決的問題
語音識別系統的性能受到許多因素的影響,包括不同說話人的發音方式、說話方式、環境噪音、傳輸信道衰落等等。具體要解決的問題有四點:①增強系統的魯棒性,也就是說如果條件狀況變得與訓練時很不相同,系統的性能下降不能是突變的。②增加系統的適應能力,系統要能穩定連續的適應條件的變化,因為說話人存在著年齡、性別、口音、語速、語音強度、發音習慣等方面的差異。所以,系統應該有能力排除掉這些差異。達到對語音的穩定識別。③尋求更好的語言模型,系統應該在語言模型中得到盡可能多的約束,從而解決由於詞彙量增長所帶來的影響。④進行動力學建模,語音識別系統提前假定片段和單詞是相互獨立的,但實際上詞彙和音素的線索要求對反映了發聲器官運動模型特點的整合。所以,應該進行動力學建模,從而將這些信息整合到語音識別系統中去。
6、統的組成和分類
根據識別的對象不同語音識別大致上可分為3類:對孤立詞識別,對關鍵詞識別和對連續語音識別。其中,孤立詞識別的任務是識別事先已知的孤立的詞;連續語音識別的任務則是識別任意的連續語音;連續語音流中的關鍵詞檢測針對的是連續語音,但它並不識別全③部文字,而只是檢測已知的若干關鍵詞在何處出現,根據針對的發音人,可以把語音識別技術分為特定人語音識別和非特定人語音識別,前者只能識別一個或幾個人的語音,而後者則可以被任何人使用。
7、語音識別技術應用領域及前景展望
語音識別技術藉助飛速發展的高速信息網,可實現計算機的全球聯網和信息資源共享,因此被廣泛應用的系統有:語音輸入和控制系統,語音撥號系統、智能家電及玩具,智能電話查詢系統,資料庫檢索等方面,在咨詢服務、教育等行業,正潛移默化地改變和便利著我們的生活。此外,語音識別系統還在多媒體手機、個人掌上電腦、車載導航器GPS等方面有著巨大的應用和市場前景。
8、結語
語音識別是非常有發展潛力的一門學科,你可以設想。我們平時生活中很多地方都可以用到它,可以大大便利我們的生活和工作,比如智能手機,智能空調及冰箱,電動門,汽車導航,機器人控制,醫療設施,軍事設備等。可以毫不誇張的說,21世紀將會是語音識別廣泛流行和普及的時代,而語音識別產品和設備也會以其獨特的魅力引領時代潮流,成為時代追逐的寵兒和焦點。
『肆』 如何解釋語音識別的技術原理
語音識別,是人工智慧的重要入口,越來越火。從京東科大訊飛合作的叮咚,亞馬遜的明星產品Echo,到最近一個月谷歌Master和網路小度掀起的人機大戰,賺夠了眼球。但語音只是個入口,內容或者說引導用戶做決策乃至消費,才是王道。.語音識別系統,分訓練和解碼兩階段。訓練,即通過大量標注的語音數據訓練聲學模型,包括GMM-HMM、DNN-HMM和RNN+CTC等;解碼,即通過聲學模型和語言模型將訓練集外的語音數據識別成文字。目前常用的開源工具有HTK Speech Recognition Toolkit,Kaldi ASR以及基於Tensorflow(speech-to-text-wavenet)實現端到端系統。我以古老而又經典的HTK為例,來闡述語音識別領域涉及到的概念及其原理。HTK提供了豐富的語音數據處理,以及訓練和解碼的工具。語音識別,分為孤立詞和連續詞語音識別系統。早期,1952年貝爾實驗室和1962年IBM實現的都是孤立詞(特定人的數字及個別英文單詞)識別系統。連續詞識別,因為不同人在不同的場景下會有不同的語氣和停頓,很難確定詞邊界,切分的幀數也未必相同;而且識別結果,需要語言模型來進行打分後處理,得到合乎邏輯的結果。
『伍』 什麼是語音識別技術
音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術,也就是讓機器聽懂人類的語音。也就是說,如果電腦配置有「語音辨識」的程序組,那麼當你的聲音通過一個轉換裝置輸入電腦內部、並以數位方式儲存後,語音辨識程序便開始以你輸入的聲音樣本與事先儲存好的聲音樣本進行對比工作。聲音對比工作完成之後,電腦就會輸入一個它認為最「象」的聲音樣本序號,就可以知道你剛才念的聲音是什麼意義,進而執行此命令。說起來簡單,但要真正建立辨識率高的語音辨識程序組,卻是非常困難而專業的,世界各地的學者們也還在努力研究最好的方式。專家學者們研究出許多破解這個問題的方法,如傅立葉轉換、倒頻譜參數等,使目前的語音辨識系統已達到一個可接受的程度,並且辨識度愈來愈高。
詳細可參考中電網網路詞條:語音識別技術~
『陸』 什麼是語音技術
語音技術,一般指語音合成技術和語音識別技術。
分為:
語音合成即Text to Speech(TTS),就是讓設備將文本信息轉換成語音的形式朗讀出來,就像給設備安裝上了嘴巴。微軟在此領域處於領先地位並有釋出產品Microsoft Reader,一個優秀且免費的標准美音TTS。而中文TTS領域則有安徽科大訊飛,其產品訊飛語音電子書,收費軟體價格 49元。
語音識別即Automatic Speech Recognition(ASR),就是讓設備聽懂人的語言。就像給設備安裝了耳朵。
總之,語音技術就是讓設備「能聽會說」,使其更加智能化、人性化。
『柒』 語音識別的原理是什麼
目前,主流的大詞彙量語音識別系統多採用統計模式識別技術。典型的基於統計模式識別方法的 語音識別系統由以下幾個基本模塊所構成
信號處理及特徵提取模塊。該模塊的主要任務是從輸入信號中提取特徵,供聲學模型處理。同時,它一般也包括了一些信號處理技術,以盡可能降低環境雜訊、信道、說話人等因素對特徵造成的影響。 統計聲學模型。典型系統多採用基於一階隱馬爾科夫模型進行建模。 發音詞典。發音詞典包含系統所能處理的詞彙集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。 語言模型。語言模型對系統所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍採用的還是基於統計的N元文法及其變體。 解碼器。解碼器是語音識別系統的核心之一,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。 從數學角度可以更加清楚的了解上述模塊之間的關系。首先,統計語音識別的最基本問題是,給定輸入信號或特徵序列,符號集(詞典),求解符號串使得:
W = argmaxP(W | O) 通過貝葉斯公式,上式可以改寫為
由於對於確定的輸入串O,P(O)是確定的,因此省略它並不會影響上式的最終結果,因此,一般來說語音識別所討論的問題可以用下面的公式來表示,可以將它稱為語音識別的基本公式。 W = argmaxP(O | W)P(W)
從這個角度來看,信號處理模塊提供了對輸入信號的預處理,也就是說,提供了從採集的語音信號(記為S)到 特徵序列O的映射。而聲學模型本身定義了一些更具推廣性的聲學建模單元,並且提供了在給定輸入特徵下,估計P(O | uk)的方法。
為了將聲學模型建模單元串映射到符號集,就需要發音詞典發揮作用。它實際上定義了映射的映射。為了表示方便,也可以定義一個由到U的全集的笛卡爾積,而發音詞典則是這個笛卡爾積的一個子集。並且有:
最後,語言模型則提供了P(W)。這樣,基本公式就可以更加具體的寫成:
對於解碼器來說,就是要在由,,ui以及時間標度t張成的搜索空間中,找到上式所指明的W。
語音識別是一門交叉學科,語音識別正逐步成為信息技術中人機介面的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的應用已經成為一個具有競爭性的新興高技術產業。
與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。
『捌』 語音識別技術的簡介
語音識別技術的應用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加復雜的應用,例如語音到語音的翻譯。
語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。
『玖』 語音識別技術的原理
語音識別系統提示客戶在新的場合使用新的口令密碼,這樣使用者不需要記住固定的口令,系統也不會被錄音欺騙。文本相關的聲音識別方法可以分為動態時間伸縮或隱馬爾可夫模型方法。文本無關聲音識別已經被研究很長時間了,不一致環境造成的性能下降是應用中的一個很大的障礙。
其工作原理:
動態時間伸縮方法使用瞬間的、變動倒頻。1963年Bogert et al出版了《回聲的時序倒頻分析》。通過交換字母順序,他們用一個含義廣泛的詞彙定義了一個新的信號處理技術,倒頻譜的計算通常使用快速傅立葉變換。
從1975年起,隱馬爾可夫模型變得很流行。運用隱馬爾可夫模型的方法,頻譜特徵的統計變差得以測量。文本無關語音識別方法的例子有平均頻譜法、矢量量化法和多變數自回歸法。
平均頻譜法使用有利的倒頻距離,語音頻譜中的音位影響被平均頻譜去除。使用矢量量化法,語者的一套短期訓練的特徵向量可以直接用來描繪語者的本質特徵。但是,當訓練向量的數量很大時,這種直接的描繪是不切實際的,因為存儲和計算的量變得離奇的大。所以嘗試用矢量量化法去尋找有效的方法來壓縮訓練數據。Montacie et al在倒頻向量的時序中應用多變數自回歸模式來確定語者特徵,取得了很好的效果。
想騙過語音識別系統要有高質量的錄音機,那不是很容易買到的。一般的錄音機不能記錄聲音的完整頻譜,錄音系統的質量損失也必須是非常低的。對於大多數的語音識別系統,模仿的聲音都不會成功。用語音識別來辨認身份是非常復雜的,所以語音識別系統會結合個人身份號碼識別或晶元卡。
語音識別系統得益於廉價的硬體設備,大多數的計算機都有音效卡和麥克風,也很容易使用。但語音識別還是有一些缺點的。語音隨時間而變化,所以必須使用生物識別模板。語音也會由於傷風、嗓音沙啞、情緒壓力或是青春期而變化。語音識別系統比指紋識別系統有著較高的誤識率,因為人們的聲音不像指紋那樣獨特和唯一。對快速傅立葉變換計算來說,系統需要協同處理器和比指紋系統更多的效能。目前語音識別系統不適合移動應用或以電池為電源的系統。
『拾』 語音識別技術的基本方法
一般來說,語音識別的方法有三種:基於聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網路的方法。 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於復雜,現階段沒有達到實用的階段。
通常認為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區分。這樣該方法分為兩步實現:
第一步,分段和標號
把語音信號按時間分成離散的段,每段對應一個或幾個語音基元的聲學特性。然後根據相應聲學特性對每個分段給出相近的語音標號
第二步,得到詞序列
根據第一步所得語音標號序列得到一個語音基元網格,從詞典得到有效的詞序列,也可結合句子的文法和語義同時進行。 模板匹配的方法發展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經過四個步驟:特徵提取、模板訓練、模板分類、判決。常用的技術有三種:動態時間規整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術。
1、動態時間規整(DTW)
語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特徵訓練和識別的基礎。所謂端點檢測就是在語音信號中的各種段落(如音素、音節、詞素)的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據是能量、振幅和過零率。但效果往往不明顯。60年代日本學者Itakura提出了動態時間規整演算法(DTW:DynamicTimeWarping)。演算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特徵與模型特徵對正。
2、隱馬爾可夫法(HMM)
隱馬爾可夫法(HMM)是70年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破。HMM方法現已成為語音識別的主流技術,目前大多數大詞彙量、連續語音的非特定人語音識別系統都是基於HMM模型的。HMM是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程:一個是用具有有限狀態數的Markov鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態相關聯的觀測序列的隨機過程。前者通過後者表現出來,但前者的具體參數是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的參數流。可見HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性,是較為理想的一種語音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用於小詞彙量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點的每一幀,或有k個參數的每一參數幀,構成k維空間中的一個矢量,然後對矢量進行量化。量化時,將k維無限空間劃分為M個區域邊界,然後將輸入矢量與這些邊界進行比較,並被量化為「距離」最小的區域邊界的中心矢量值。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜索和計算失真的運算量,實現最大可能的平均信噪比。
核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優化設計的,那麼由這一信息源產生的信號與該碼書的平均量化失真就應小於其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區分能力。
在實際的應用過程中,人們還研究了多種降低復雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。 利用人工神經網路的方法是80年代末期提出的一種新的語音識別方法。人工神經網路(ANN)本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由於存在訓練、識別時間太長的缺點,目前仍處於實驗探索階段。
由於ANN不能很好的描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別。