首頁 > 文章中心 > 語音識別

          語音識別

          前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇語音識別范文,相信會為您的寫作帶來幫助,發現更多的寫作思路和靈感。

          語音識別范文第1篇

          【關鍵詞】語音識別 語言模型 聲學模型 人工智能

          使用智能手機的朋友們都會對語音助手產生極大的興趣,不管是微軟的Cortana,還是蘋果的Siri,都是將語音識別融入現代技術的典范。Z音識別是解決機器“聽懂”人類語言的一項技術,也是人工智能重要部分。

          語音識別技術(speech recognition),也被稱為自動語音識別 (ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而前者的目標是語音中所包含的詞匯內容。

          探究語音識別技術的框架、應用與發展有利于全面了解語音識別。本文將從語音識別簡介、主流語言識別框架以及語言識別近年來的發展三個方面探究語音識別。

          1 語音識別簡介

          1.1 傳統語言識別技術發展

          對語音識別技術的研究可以追述到上世紀五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數字發音的實驗系統,開創了語音識別的先河。上世紀六十年代,人工神經網絡被引入了語音識別。上世紀七十年代以后,大規模的語音識別在小詞匯量、孤立詞的識別方面取得了實質性的進展。傳統語音識別技術最大突破是隱式馬爾可夫模型的應用,這一模型極大提高了語音識別的準確率[1]。

          1.2 語言識別的應用

          作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別一直受到各國科學界的廣泛關注。如今,隨著語音識別技術的研究的突破,其對計算機發展和社會生活的重要性日益凸現出來。在現實生活中,語音識別技術的應用相當廣泛,它改變了人與計算機交互的方式,使計算機更加智能。和鍵盤輸入相比,語音識別更符合人的日常習慣;使用語言控制系統,相比手動控制,語音識別更加方便快捷,可以用在工業控制、智能家電等設備;通過智能對話查詢系統,企業可以根據用戶的語音進行操作,為用戶提供自然、友好的數據檢索服務。

          2 語音識別框架

          目前主流的語音識別框架可以分為以下幾個模塊:信號處理,特征提取,聲學模型,語言模型,解碼器。

          2.1 信號處理

          信號處理模塊是對語音文件進行預處理。聲音是一種縱波,在識別語音時,輸入為WMV,MP3等格式的文件會被轉換成非壓縮的純波文件wav格式。然后在進行語音識別前,需要檢測該文件中的語音信號,該技術被稱之為語音活性檢測[2]。使用語言活性檢測技術可以有效降低噪音,去除非語音片段,提高語音識別的準確率。經典的語音活性檢測算法由如下步驟組成:

          (1)使用spectral subtraction等方法對語言序列進行降噪。(2)將輸入信號的分成區塊并提取特征。(3)設計分類器判斷該區塊是否為語音信號。

          2.2 特征提取

          特征提取目的是提取出語音文件的特征,以一定的數學方式表達,從而可以參與到后續模塊處理中。在這一模塊,首先要將連續的聲音分成離散的幀。每一幀的時間既要足夠長,使得我們能夠判斷它屬于哪個聲韻母的信息,若過短則包含信息過少;每一幀時間也要盡量短,語音信號需要足夠平穩,能夠通過短時傅里葉分析進行特征提取,過長則會使信號不夠平穩。分幀時使用如下改進技術可以有效提高識別準確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個語音幀堆疊起來。通過分幀處理,連續的語音被分為離散的小段,但還缺乏數學上的描述能力,因此需要對波形作特征提取。常見的方法是根據人耳的生理特征,把每一幀波形變換成一個多維向量。因此,這些向量包含了這些語音的內容信息。該過程被稱為聲學特征提取,常見的聲學特征有MFCC、CPE、LPC等。

          MFCC是目前最常用、最基本的聲學特征,提取MFCC特征可以分為如下四個步驟:首先對每一幀進行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個三角形相乘并積分,求出頻譜在每一個三角形下的能量,這樣處理可以減少數據量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結果的對數,這可以放大低能量處的能量差異。最后對得到的對數進行離散余弦變換,并保留前12~20個點進一步壓縮數據。通過特征提取,聲音序列就被轉換為有特征向量組成的矩陣。

          2.3 聲學模型

          聲學模型是語音識別中最重要的組成部分之一,其用于語音到音節概率的計算。目前主流的方法多數采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個離散時域有限狀態自動機。

          隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內部狀態x1,x2,x3外界不可見,外界只能看到各個時刻的輸出值y1,y2,y3。對語音識別系統,輸出值通常就是從各個幀計算而得的聲學特征,輸入是由特征提取模塊提取的特征。用HMM刻畫語音信號需作出兩個假設,一是內部狀態的轉移只與上一狀態有關,另一是輸出值Y只與當前狀態X(或當前的狀態轉移)有關,這兩個假設大大降低了模型的復雜度。HMM的打分、解碼和訓練相應的算法是前向算法、維特比算法和前向后向算法。

          早期的聲學模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對于連續取值的特征應當采用連續的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數過多的問題,可以使用某些聚類方法來減小模型中的參數數量,提高模型的可訓練性。聚類可以在模型層次,狀態層次乃至混合高斯模型中每個混合的層次進行。

          2.4 語言模型

          語言模型音節到字概率的計算。 語言模型主要分為規則模型和統計模型兩種。相比于統計模型,規則模型魯棒性較差,對非本質錯誤過于嚴苛,泛化能力較差,研究強度更大。因此主流語音識別技術多采用統計模型。統計模型采用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。

          N-Gram基于如下假設:第N個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率即為各個詞出現概率的乘積。詞與詞之間的概率可以直接從語料中統計N個詞同時出現的次數得到。考慮計算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。

          2.5 解碼器

          解碼器是語音識別系統的核心之一,其任務是對輸入信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。在實踐中較多采用維特比算法[3]搜索根據聲學、語言模型得出的最優詞串。

          基于動態規劃的維特比算法在每個時間點上的各個狀態,計算解碼狀態序列對觀察序列的后驗概率,保留概率最大的路徑,并在每個節點記錄下相應的狀態信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優解的條件下,同時解決了連續語音識別中HMM模型狀態序列與聲學觀察序列的非線性時間對準、詞邊界檢測和詞的識別,從而使這一算法成為語音識別搜索的基本策略。

          維特比(Viterbi)算法的時齊特性使得同一時刻的各條路徑對應于同樣的觀察序列,因而具有可比性,Beam搜索在每一時刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當前語音識別搜索中最有效的算法。

          3 語音識別技術的發展

          近幾年來,特別是2009年以來,借助機器學習領域深度學習研究的發展,以及大數據語料的積累,語音識別技術得到突飛猛進的發展。

          在模型方面,傳統語音識別模型逐步被神經網絡替代,使用神經網絡可以更好地提取特征,擬合曲線。使用人工神經網絡來提高語音識別性能的概念最早在80年代就提出了,但當時高斯混合模型在大詞匯語音識別上表現得更好,因此人工神經網絡并沒有進行商業應用。隨著相關技術的進一步發展,微軟研究院利用深度神經網絡建立了數千個音素的模型,比傳統方法減少了16%的相對誤差。其在建立起有超過660萬神經聯系的網絡后,將總的語音識別錯誤率降低了30%,實現了語音識別巨大的突破[4]。

          同時目前多數主流語言識別解碼器采用了基于有限狀態機的解碼網絡,該網絡將語音模型、詞典、聲學共享音字集統一為大的解碼網絡,大幅度提高了解碼速度。

          在數據量上,由于移動互聯網的急速發展,從多個渠道獲取的海量語言原料為聲學模型和語言模型的訓練提供了豐富的資源,不斷提升語音識別的準確率。

          4 結語

          語音是人們工作生活中最自然的交流媒介,所以語音識別技術在人機交互中成為非常重要的方式,語音識別技術具有非常廣泛的應用領域和非常廣闊的市場前景。而隨著深度神經網絡發展,硬件計算能力的提高,以及海量數據積累,語音識別系統的準確率和實用性將得到持續提高。

          參考文獻:

          [1]S基百科編者.語音識別[G/OL].維基百科,2016(20160829)[2016-08-29].

          [2]維基百科編者.語音活性檢測[G/OL].維基百科,2016(20160629)[2016-06-29].

          [3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].

          [4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.

          語音識別范文第2篇

          >> Linux平臺下的ALSA聲音編程 基于Sphinx的機器人語音識別系統構建與研究 linux平臺下智能卡的支持方案 Linux平臺下的MySQL存儲管理技術研究 Linux平臺下FTP客戶端的設計思路 自主學習平臺下英語語音教學模式的構建 TensorFlow平臺下的手寫字符識別 Linux平臺下數據包過濾防火墻的研究與實踐 基于SkyEye的虛擬嵌式平臺下Linux內核移植技術的研究 Windows和Linux平臺下的腰椎治療儀實時仿真 嵌入式Linux平臺下隨機序列算法的設計 IP多播技術在Linux平臺下電子教室中的應用與研究 基于ARM11在Linux平臺下網絡通信的設計與實現 Linux系統平臺下會計軟件的發展前景展望 虛擬機linux平臺下基于Xshell的遠程登錄服務的設計與實現 在Linux平臺下基于MPI的并行PC集群搭建的實現 基于Sphinx4的語音解碼模塊設計 云服務安全平臺研究開發與語音識別應用 基于車聯網平臺下自然語音辨識系統的研發 .NET平臺下中文語音合成技術的研究與實踐 常見問題解答 當前所在位置:l。提交文件后,會產生由4個數字和后綴名組成的文件,假設其中包括的兩個文件為8521.dic字典文件和8521.lm語言模型文件即我們所需要的文件。可以用兩個線程處理這一過程,從而提高程序的性能:一個線程用來監聽和處理語音命令,一個線程用來執行命令對應的應用程序,如圖1所示。

          假設C語言源程序名為hello_ps.c則可以編寫如下的Makefile文件:

          #Makefile for hello_ps.c

          obj=hello_ps

          modeldir=$(shell pkg-config--variable=modeldir pocketsphinx)

          flags=$(shell pkg-config--cflags--libs pocketsphinx sphinxbase)

          $(obj):$(obj).c

          gcc $(obj).c-o $(obj)-DMODELDIR=\"$(modeldir)\"$(flags)

          運行make命令編譯即可產生hello_ps文件。然后運行./hello_ps-lm 8521.lm -dict 8521.dic就可以測試了。

          五、結束語

          本文介紹了語音識別引擎pocketsphinx在Linux環境下的應用程序編程,語音識別有著廣泛的應用。如我們常見的聲控撥號電話,語音識別鎖等等。語音識別技術是非常重要的人機交互技術,有著非常廣泛的應用領域和市場前景色。

          參考文獻:

          [1]Carnegie Mellon University./wiki/

          [2]/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB

          語音識別范文第3篇

          關鍵詞:連續語音識別;關鍵技術;創新

          談到語音識別,就不得不提到李開復------前微軟研究院院長,他在哥倫比亞大學時主攻的就是語音識別,即通過機器來識別語音。語音識別是現代社會背景下的一門新興學科,它最主要的功能就是可以讓計算機聽懂人說的話,進而為人們提供更高效且方便的服務。它是人類和計算機之間利用語言進行交流 的橋梁,也是一門與多種學科緊密聯系的實用技術。現階段,人們對連續語音識別的研究已經取得了一定的成就。目前,我們研究語音識別的重點正在向特定應用領域口語的識別和理解方面轉變。在這個研究中,有幾種關鍵技術,下面我們就對其中幾種關鍵技術進行簡單的分析。

          1、詞語定位技術

          詞語定位技術,在語音識別技術中非常重要的技術。主要通過對關鍵詞進行定位,這種技術跟語言的語法特點有很大關系,是將語句中的關鍵詞語提取出來的一種定位技術。比如主語,謂語,賓語就是關鍵語素,先將這些語素定位對于完善整句話有著非常重要的意義,因為這些語素已經勾勒出了語句的骨架。打個比方,蓋個房子要加鋼筋,來增加建筑物的強度和支撐作用,關鍵語素就是語句意群的鋼筋。通常詞語定位是通過設置并及時更新關鍵詞庫來實現的。

          2、關聯搜索技術

          在確定完基本語素后,就要根據語素之間的關聯性,進行搜索,那些語素是一個意群,同在一個意群中的語素如何排列。利用相關性確定意群非常重要,因為詞語詞之間不是任意搭配的,而是有規律的,這種規律就是語法,包括書面語語法和口語的語法。語法是語音識別的規則,因此是非常重要的。關聯的方式在語法的約束下主要有以下幾種:1.相關詞語出現的概率;2.相關詞語的詞性;3.相關詞語出現的語境的重復率等等。

          連接詞識別就是說,系統中存儲的HMM針對的是孤立詞,但識別的語音是由這些詞組成的詞串。由于這一技術是一個連接序列,即根據給定發音序列來找到與其最匹配的參考模塊詞,所以,下面的問題必須得到解決:(1)在序列中,有些時候即使知道詞長度的大概范圍,也不知道詞的具體數量;(2)除整個序列的首末端點之外,序列之中每個詞的邊界位置并不知道。

          3、抗阻礙性

          在語音識別系統中,阻礙無處不在,具體說來,阻礙包括以下幾個方面:1.方言帶來的語音識別的阻礙;2.口音帶來的語音識別的阻礙;3.外界干擾(噪聲)帶來的語音識別的阻礙;4.系統設備局限性帶來的語音識別的阻礙等等。

          一般情況下,在實驗室(環境相對安靜)中訓練合格的語音識別系統用在實際環境(環境與訓練的實驗室環境不相匹配)的時候性能就會明顯下降。所以,運用頑健語音識別技術就是為了研究一些補償技術借以提高系統在不同環境中的性能。

          根據語音系統中噪聲的特點,我們研究出了一些抑制噪聲的方法,如根據信號與噪聲在各個尺度上的小波譜表現不一樣的特點,可以運用小波變換的噪聲抑制;根據含噪語音信號能量譜就是噪聲信號和語音信號能量譜之和這一特點,可以運用EVRC編碼噪聲抑制方法,等等。

          4、搜索策略技術

          在利用計算機來識別語音的時候,未知的模式,即從輸入語音中求出的特征參數,與事前所定的標準模式是否一致,這個問題必須檢查。目前語音識別的實現主要是通過聲音識別芯片分析聲音的波形來實現的,人的說話聲音有音調、音色的不同,因而所形成的生意的波形也不同,芯片通過比對聲音圖譜來確定語音內容,達到聲音識別的目的,這也就是聲音識別的原理。然而,在實際情況中,由于語音具有許多的不確定的因素,想達到完全一致比較困難。搜索策略是連續語音識別研究中的一個是否重要的課題。它的基本思路是,把幀作為搜索單位,在每一時刻對每一條路徑都假定當前幀有可能是這一路徑的后續,借此進行一個完整的搜索。

          總體來說,搜索策略技術受到容量的限制。所以,我們必須確定應該保留哪些路徑,這就要求我們確定一定閥值,這個閥值既不能過嚴也不能過寬。對于這個問題,我們一定要采用合適的算法,如傳統的幀同步算法、基于統計知識的幀同步搜索算法原理和受詞法約束的詞搜索樹等算法都是比較適合這一部分的。

          結論:

              本文總結了連續語音識別中幾種關鍵技術,并對它們進行了簡單的介紹和分析。目前連續語音識別技術的研究并不成熟,它要向正確的方向健康發展就必須把詞語定位技術、關聯搜索技術、抗阻礙性技術、搜索策略技術等技術都正確運用于實際工作中。

          參考文獻:

          [1]馮麗娟,吾守爾·斯拉木.維吾爾語連續語音識別技術研究[J].現代計算機:下半月,2010,(1)

          語音識別范文第4篇

          2、進入控制面板后,將查看的類別設置為大圖標或者小圖標,語音識別功能就會顯現出來。

          3、在所有控制面板項的最下方選擇語音識別功能,會進入語音識別功能設置的頁面。

          4、啟動語音識別,啟動的步驟按照電腦的提示走即可。

          語音識別范文第5篇

          調試不可少

          連接好麥克風,然后打開“控制面板輕松訪問語音識別”,打開“語音識別設置”(如圖1)。在正式使用語音識別功能前,我們需要對相關設備進行調試。

          1.單擊“設置麥克風”啟動麥克風設置向導,按向導提示完成麥克風的設置,這里主要配置麥克風的音量和靈敏度。

          2.單擊“學習語音教程”啟動學習向導。現在按照屏幕的提示一步步使用語音操作電腦即可。比如屏幕提示“說出‘下一步’以繼續”,我們只要對著麥克風說出“下一步”,向導的操作就會自動進入下一步。這里可以對“聽寫”、“命令”和“操作Windows”進行全方位的訓練,整個教程也設計得十分漂亮(如圖2)。

          系統操作,“聽”我的

          完成上述設置后,返回圖1所示的窗口,單擊“啟動語音識別”。語音識別啟動后會在屏幕上方出現語音識別狀態欄。現在對著麥克風說出“開始聆聽”,語音識別顯示框會出現“正在聽”的字樣。接下來,我們就能用嘴給計算機下達命令了。

          例如我們要啟動Vista的側邊欄,就需要依次說出“開始”“所有程序”“附件”“Windows邊欄”。不過很多時候,語音識別在初次使用時并不能準確識別所有命令,比如在說出“Windows邊欄”時,語音識別會將類似的識別項目全部標注出來,只要按提示說出正確項目的序號并確定即可(說“4”,然后再說“確定”,如圖3)。

          經過一段時間試用,筆者發現無論是用普通話還是用筆者的本地方言(重慶話),系統都能做出比較準確的判斷。但操作的效率還是不高,而且一些特定的指令也需要慢慢熟悉。