導航:首頁 > 信息技術 > 百度語音識別都用了哪些技術

百度語音識別都用了哪些技術

發布時間:2024-06-01 12:29:28

㈠ 語音識別的技術原理是什麼

語音識別的技術原理是將一段語音信號轉換成相對應的文本信息,系統主要包含特徵提取、聲學模型,語言模型以及字典與解碼四大部分,其中為了更有效地提取特徵往往還需要對所採集到的聲音信號進行濾波、分幀等預處理工作,把要分析的信號從原始信號中提取出來。

之後,特徵提取工作將聲音信號從時域轉換到頻域,為聲學模型提供合適的特徵向量;聲學模型中再根據聲學特性計算每一個特徵向量在聲學特徵上的得分;而語言模型則根據語言學相關的理論,計算該聲音信號對應可能片語序列的概率;最後根據已有的字典,對片語序列進行解碼,得到最後可能的文本表示。

作為語音識別的前提與基礎,語音信號的預處理過程至關重要。在最終進行模板匹配的時候,是將輸入語音信號的特徵參數同模板庫中的特徵參數進行對比,因此,只有在預處理階段得到能夠表徵語音信號本質特徵的特徵參數,才能夠將這些特徵參數進行匹配進行識別率高的語音識別。

㈡ 手機語音識別並且轉化為文字的技術原理是什麼,請簡單說下

不管是微軟家的Cortana、三星家的S-voice蘋果家的Siri,還是國內一些獨立做語音辨認的比方訊飛、Rokid,在原理在實質上沒有幾差別:就是語音輸入後,停止特徵提取,將提取的特徵值放進模型庫里,再不時地停止鍛煉和匹配,最終解碼得到結果。

假如要細說的話就比擬復雜了,比方模型庫中又分為聲學模型和言語模型。其中言語模型是依據不同品種的言語,對詞串停止統計建模,目前普遍採用的是基於(n-1)階馬爾可夫鏈統計的n元語法模型。
這里細致說下聲學建模吧。首先經過前端特徵提取取得聲學特徵,再進一步對聲學特徵停止統計建模。建模運用到的貝葉斯統計建模框架,也就是最大後驗概率決策原則。這里演算法這種深奧的東西就不說了,除非深度開發,否則直接套用就行了,我本人也是博古通今,還是念書的時分學的。
說說提取聲學特徵該如何完成:當語音輸入之後,首先停止模電轉換,將模仿信號轉變為數字信號,再停止靜音切除去掉無關噪音,然後停止分幀。將此時的信號分紅一幀一幀之後(每一幀並不是獨立存在的而是相互關聯的),還要停止一系列的信號處置,包括預加重、加窗之後,再停止FFT變換之後,再經過Mel參數的濾波和取對數、離散餘弦變換等一系列演算法處置後,能夠停止用梅爾頻率倒譜系數(MFCC)停止特徵提取,得到聲學特徵。
覺得越說越復雜了……後面簡單點說吧。前面說了言語模型,而聲學模型就是將聲學特徵統計建模後得到的。得到了模型庫之後就能夠停止模型鍛煉和形式匹配了。
所謂模型鍛煉就是指依照一定的原則,從大量已知語音形式中獲取一個最具特徵的模型參數。而形式匹配則相反,是依據一定原則,將未知語音形式與模型庫中的某一個模型取得最佳匹配。
最後的解碼過程又能夠分紅動態解碼網路和靜態解碼網路兩種:動態網路會編譯一個狀態網路並構成搜索空間,把單詞轉換成一個個的音素後將其依照語序拆分紅狀態序列,再依據音素上下文分歧性准繩將狀態序列停止銜接。

而靜態網路普通是針對一些特殊詞(孤立詞)的辨認網路,它的構造就簡單多了:先將每條特殊詞擴展成HMM狀態序列,然後再計算得分,選擇得分最大的作為辨認輸出結果。由於靜態網路是依據聲學概率計算權重,不需求查詢言語模型概率,因而解碼速度很快。
這樣的一個流程大致上就是語音辨認技術的主要原理。
最後再說點題外話吧,語音辨認技術其實應用以及很普遍了,比方在北美很多企業的電話自動效勞都會用到,只需用戶直接說出想要的命令,就能夠自動查詢到需求的效勞,不需求像過去那樣按鍵。手機應用里運用語音辨認技術比方微信的聲音鎖,訊飛、搜狗語音輸入等等很多就不說了,而個人最看好的是聲控語音撥號系統、家用機器人、智能家電等范疇,以語音交流的方式取代過去的傳統人機互動。國內在這個范疇的語音辨認嘗試也是相當多的,比方Rokid這樣能夠語音辨認命令還具有深度學習才能的家用機器人,能夠自動播放視頻、音樂,以至以後能夠語音對話機器人叫個餓了么外賣,叫個滴滴出行等等。我今年夏天去參觀過他們的語音辨認開發部門,他們用的是本人獨立開發的一套流程在跑,整個語音模型庫也是依據中國人發音習氣(連讀、口音)做的。當時測試的產品辨認度挺冷艷的,有種真正在人機交互的覺得,等於經過這個機器人接入口來控制其他電子產品,令人耳目一新。

㈢ 語音識別技術的基本方法

一般來說,語音識別的方法有三種:基於聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網路的方法。 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於復雜,現階段沒有達到實用的階段。
通常認為常用語言中有有限個不同的語音基元,而且可以通過其語音信號的頻域或時域特性來區分。這樣該方法分為兩步實現:
第一步,分段和標號
把語音信號按時間分成離散的段,每段對應一個或幾個語音基元的聲學特性。然後根據相應聲學特性對每個分段給出相近的語音標號
第二步,得到詞序列
根據第一步所得語音標號序列得到一個語音基元網格,從詞典得到有效的詞序列,也可結合句子的文法和語義同時進行。 模板匹配的方法發展比較成熟,目前已達到了實用階段。在模板匹配方法中,要經過四個步驟:特徵提取、模板訓練、模板分類、判決。常用的技術有三種:動態時間規整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術。
1、動態時間規整(DTW)
語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特徵訓練和識別的基礎。所謂端點檢測就是在語音信號中的各種段落(如音素、音節、詞素)的始點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據是能量、振幅和過零率。但效果往往不明顯。60年代日本學者Itakura提出了動態時間規整演算法(DTW:DynamicTimeWarping)。演算法的思想就是把未知量均勻的升長或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特徵與模型特徵對正。
2、隱馬爾可夫法(HMM)
隱馬爾可夫法(HMM)是70年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破。HMM方法現已成為語音識別的主流技術,目前大多數大詞彙量、連續語音的非特定人語音識別系統都是基於HMM模型的。HMM是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程:一個是用具有有限狀態數的Markov鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態相關聯的觀測序列的隨機過程。前者通過後者表現出來,但前者的具體參數是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的參數流。可見HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性,是較為理想的一種語音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用於小詞彙量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點的每一幀,或有k個參數的每一參數幀,構成k維空間中的一個矢量,然後對矢量進行量化。量化時,將k維無限空間劃分為M個區域邊界,然後將輸入矢量與這些邊界進行比較,並被量化為「距離」最小的區域邊界的中心矢量值。矢量量化器的設計就是從大量信號樣本中訓練出好的碼書,從實際效果出發尋找到好的失真測度定義公式,設計出最佳的矢量量化系統,用最少的搜索和計算失真的運算量,實現最大可能的平均信噪比。
核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優化設計的,那麼由這一信息源產生的信號與該碼書的平均量化失真就應小於其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區分能力。
在實際的應用過程中,人們還研究了多種降低復雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。 利用人工神經網路的方法是80年代末期提出的一種新的語音識別方法。人工神經網路(ANN)本質上是一個自適應非線性動力學系統,模擬了人類神經活動的原理,具有自適應性、並行性、魯棒性、容錯性和學習特性,其強的分類能力和輸入-輸出映射能力在語音識別中都很有吸引力。但由於存在訓練、識別時間太長的缺點,目前仍處於實驗探索階段。
由於ANN不能很好的描述語音信號的時間動態特性,所以常把ANN與傳統識別方法結合,分別利用各自優點來進行語音識別。

閱讀全文

與百度語音識別都用了哪些技術相關的資料

熱點內容
成都公眾信息網是多少 瀏覽:422
跳單的信息費有哪些 瀏覽:538
會計代理記賬什麼價格 瀏覽:552
經濟信息錄入有哪些 瀏覽:813
武漢乙烯產品發展前景如何 瀏覽:783
南京稅務代理如何製作 瀏覽:957
生化模式怎麼提高技術 瀏覽:722
四川集成牆面如何代理 瀏覽:128
釘釘怎麼製作小程序 瀏覽:453
消防車需要哪些技術 瀏覽:823
蘋果手機互發信息怎麼關閉 瀏覽:614
快遞驛站信息包含哪些信息 瀏覽:377
管件一般是怎麼交易的 瀏覽:357
什麼時候可以找律師代理 瀏覽:305
女人不回自己信息心裡怎麼想的 瀏覽:775
烽火通信產品是什麼意思 瀏覽:749
100萬代理什麼最賺錢 瀏覽:216
it技術從哪裡開始學 瀏覽:916
輪胎怎麼回訪代理 瀏覽:956
電子信息安全運營掙多少錢 瀏覽:571