精品国产一区二区三区四_av网站免费观看_国产一区二区免费视频_成人免费在线观看视频_久久精品一区二区三区四区_亚洲国产99

語音識別技術(shù)優(yōu)選九篇

時(shí)間:2023-02-27 11:16:52

引言:易發(fā)表網(wǎng)憑借豐富的文秘實(shí)踐,為您精心挑選了九篇語音識別技術(shù)范例。如需獲取更多原創(chuàng)內(nèi)容,可隨時(shí)聯(lián)系我們的客服老師。

語音識別技術(shù)

第1篇

關(guān)鍵詞:語音識別 應(yīng)用領(lǐng)域 熱點(diǎn) 難點(diǎn)

中圖分類號:TN912 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-3973 (2010) 03-062-02

1應(yīng)用領(lǐng)域

如今,一些語音識別的應(yīng)用已經(jīng)應(yīng)用到實(shí)際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統(tǒng)等。語音識別的應(yīng)用領(lǐng)域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號系統(tǒng)、、家庭服務(wù)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、聽寫機(jī)、計(jì)算機(jī)控制、工業(yè)控制、語音通信系統(tǒng)等。預(yù)計(jì)在不遠(yuǎn)的將來,語音識別技術(shù)將在工業(yè)、家電、通信、、醫(yī)療、家庭服務(wù)等各個(gè)領(lǐng)域深刻改變?nèi)祟惉F(xiàn)有的日常生活方式。語音識別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。

2發(fā)展歷史

語音識別的研究工作開始于50年代,Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識別十個(gè)英文數(shù)字的語音識別系統(tǒng)―Audry系統(tǒng)。但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開展研究則是在60年代末70年代初。60年代,提出了動態(tài)規(guī)劃(DP)和線性預(yù)測分析技術(shù)(LP),其中后者較好地解決了語音信號產(chǎn)生模型的問題,極大地促進(jìn)了語音識別的發(fā)展。70年代,動態(tài)時(shí)間歸正技術(shù)(DTW)解決了語音特征不等長匹配問題,對特定人孤立詞語音識別十分有效,在語音識別領(lǐng)域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。

80年代語音識別研究進(jìn)一步深入,HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識別中成功應(yīng)用。1988年,FULEE Kai等用VQ/I-IMM方法實(shí)現(xiàn)了997個(gè)詞匯的非特定人連續(xù)語音識別系統(tǒng)SPHINX。這是世界上第1個(gè)高性能的非特定人、大詞匯量、連續(xù)語音識別系統(tǒng)。人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,并以此確定了統(tǒng)計(jì)方法和模型在語音識別和語言處理中的主流地位。使得借助人工智能中的啟發(fā)式搜索和語音模型自身的特點(diǎn),高效、快捷的算法使得建立實(shí)時(shí)的連續(xù)語音識別系統(tǒng)成為可能。

90年代,人們開始進(jìn)一步研究語音識別與自然語言處理的結(jié)合,逐步發(fā)展到基于自然口語識別和理解的人機(jī)對話系統(tǒng)。人工神經(jīng)元網(wǎng)絡(luò)(ANN)也開始應(yīng)用于語音識別,它和HMM模型建立的語音識別系統(tǒng)性能相當(dāng),在很多系統(tǒng)中還被結(jié)合在一起使用以提高識別率及系統(tǒng)的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進(jìn)一步深入中。

現(xiàn)在語音識別系統(tǒng)已經(jīng)開始從實(shí)驗(yàn)室走向?qū)嵱?出現(xiàn)了比較成熟的已推向市場的產(chǎn)品。許多發(fā)達(dá)國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。

3研究的熱點(diǎn)與難點(diǎn)

目前語音識別領(lǐng)域的研究熱點(diǎn)包括:穩(wěn)健語音識別(識別的魯棒性)、語音輸入設(shè)備研究 、聲學(xué)HMM模型的細(xì)化、說話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識別、高效的識別(搜索)算法研究 、可信度評測算法研究、ANN的應(yīng)用、語言模型及深層次的自然語言理解。

目前研究的難點(diǎn)主要表現(xiàn)在:(1)語音識別系統(tǒng)的適應(yīng)性差。主要體現(xiàn)在對環(huán)境依賴性強(qiáng)。(2)高噪聲環(huán)境下語音識別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,必須尋找新的信號分析處理方法。(3)如何把語言學(xué)、生理學(xué)、心理學(xué)方面知識量化、建模并有效用于語音識別,目前也是一個(gè)難點(diǎn)。(4)由于我們對人類的聽覺理解、知識積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等方面的認(rèn)識還很不清楚,這必將阻礙語音識別的進(jìn)一步發(fā)展。

4語音識別系統(tǒng)

一個(gè)典型的語音識別系統(tǒng)如圖所示:

輸入的語言信號首先要進(jìn)行反混疊濾波、采樣、A/D轉(zhuǎn)換等過程進(jìn)行數(shù)字化,之后要進(jìn)行預(yù)處理,包括預(yù)加重、加窗和分幀、端點(diǎn)檢測等。我們稱之為對語音信號進(jìn)行預(yù)處理。

語音信號的特征參數(shù)主要有:短時(shí)能量En,反映語音振幅或能量隨著時(shí)間緩慢變化的規(guī)律;短時(shí)平均過零率Zn,對于離散信號來講,簡單的說就是樣本改變符號的次數(shù),可以粗略分辨清音和濁音;短時(shí)自相關(guān)函數(shù);經(jīng)過FFT或LPC運(yùn)算得到的功率譜,再經(jīng)過對數(shù)運(yùn)算和傅里葉反變換以后得到的倒譜參數(shù);根據(jù)人耳聽覺特性變換的美爾(MEL);線性預(yù)測系數(shù)等。通常識別參數(shù)可選擇上面的某一種或幾種的組合。

語音識別是語音識別系統(tǒng)最核心的部分。包括語音的聲學(xué)模型(訓(xùn)練學(xué)習(xí))與模式匹配(識別算法)以及相應(yīng)的語言模型與語言處理2大部分。聲學(xué)模型用于參數(shù)匹配,通常在模型訓(xùn)練階段按照一定的準(zhǔn)則,由用語音特征參數(shù)表征的大量已知模式中通過學(xué)習(xí)算法來獲取代表該模式本質(zhì)特征的模型參數(shù)而產(chǎn)生。在識別(模式匹配)時(shí)將輸入的語音特征同聲學(xué)模型(模式)根據(jù)一定準(zhǔn)則進(jìn)行匹配與比較,使未知模式與模型庫中的某一個(gè)模型獲得最佳匹配以得到最佳的識別結(jié)果。語言模型一般指在匹配搜索時(shí)用于字詞和路徑約束的語言規(guī)則,它包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語言模型,語言處理則可以進(jìn)行語法、語義分析。

聲學(xué)模型是語音識別系統(tǒng)中最關(guān)鍵的一部分。目前最常用也最有效的幾種聲學(xué)識別模型包括動態(tài)時(shí)間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)模型(ANN)等。

DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù),它把整個(gè)單詞作為識別單元,在訓(xùn)練階段將詞匯表中每個(gè)詞的特征矢量序列作為模板存入模板庫,在識別階段將待識別語音的特征矢量序列依次與庫中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識別結(jié)果輸出。DTW應(yīng)用動態(tài)規(guī)劃方法成功解決了語音信號特征參數(shù)序列比較時(shí)時(shí)長不等的難題,在小詞匯量、孤立詞語音識別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識別系統(tǒng),目前已逐漸被HMM和ANN模型替代。

HMM模型是語音信號時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過程共同描述信號的統(tǒng)計(jì)特性,其中一個(gè)是隱蔽的(不可觀測的)具有有限狀態(tài)的Markor鏈,另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過程(可觀測的)。HMM很好的模擬了人得語言過程,目前應(yīng)用十分廣泛。HMM模型的模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)(狀態(tài)數(shù)目N、狀態(tài)之間的轉(zhuǎn)移方向等)、每個(gè)狀態(tài)可以觀察到的符號數(shù)M(符號集合O)、狀態(tài)轉(zhuǎn)移概率A及描述觀察符號統(tǒng)計(jì)特性的一組隨機(jī)函數(shù),包括觀察符號的概率分布B和初始狀態(tài)概率分布 ,因此一個(gè)HMM模型可以由{N,M,A,B, }來確定,對詞匯表中的每一個(gè)詞都要建立相應(yīng)的HMM模型。

模型參數(shù)得到后可以用Viterbi算法來確定與觀察序列對應(yīng)的最佳的狀態(tài)序列。建好模型后,在識別階段就是要計(jì)算每個(gè)模型產(chǎn)生觀察符號序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識別結(jié)果。這個(gè)過程計(jì)算量很大,有人提出了前向-后向算法,大大減少了計(jì)算量,已經(jīng)被廣泛采用,關(guān)于它們的各種改進(jìn)方法也被大量提出。

ANN在語音識別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動力學(xué)系統(tǒng),是由結(jié)點(diǎn)互連組成的計(jì)算網(wǎng)絡(luò),模擬了人類大腦神經(jīng)元活動的基本原理,具有自學(xué)習(xí)能力、記憶、聯(lián)想、推理、概括能力和快速并行實(shí)現(xiàn)的特點(diǎn),同時(shí)還具備自組織、自適應(yīng)的功能。這些能力是HMM模型不具備的,可用于處理一些環(huán)境信息十分復(fù)雜,背景知識不清楚,推理規(guī)則不明確的問題,允許樣品有較大的缺損、畸變,因此對于噪聲環(huán)境下非特定人的語音識別問題來說是一種很好的解決方案。目前大部分應(yīng)用神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)都采用了BP網(wǎng)并取得了較好的識別效果。

將ANN與HMM結(jié)合分別利用各自優(yōu)點(diǎn)進(jìn)行識別將是今后的一條研究途徑。二者結(jié)合的混合語音識別方法的研究開始于上世紀(jì)90年代,目前已有一些方法將ANN輔助HMM進(jìn)行計(jì)算和學(xué)習(xí)概率參數(shù)。

語言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。統(tǒng)計(jì)語言模型是用概率統(tǒng)計(jì)的方法來揭示語言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設(shè):第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料庫中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5總結(jié)

盡管語音識別技術(shù)已經(jīng)取得了長足的進(jìn)步,而語音識別系統(tǒng)也層出不窮,不斷的改變?nèi)祟惉F(xiàn)有的生活方式,但其比較成功的應(yīng)用也只是在某些特定的領(lǐng)域,談不上大規(guī)模廣泛的應(yīng)用。只有建立從聲學(xué)、語音學(xué)到語言學(xué)的知識為基礎(chǔ)、以信息論、模式識別數(shù)理統(tǒng)計(jì)和人工智能為主要實(shí)現(xiàn)手段的語音處理機(jī)制,把整個(gè)語音識別過程從系統(tǒng)工程的高度進(jìn)行分析構(gòu)建,才有可能獲得能與人類相比的高性能的、完整的計(jì)算機(jī)語音識別系統(tǒng)。

參考文獻(xiàn):

[1]易克初,田斌.付強(qiáng).語音信號處理[M].國防工業(yè)出版社,2000.

[2]胡航.語音信號處理[M].哈爾濱工業(yè)大學(xué)出版社,2000.

[3]趙力.語音信號處理[M].機(jī)械工業(yè)出版社,2003.

第2篇

關(guān)鍵詞: 語音識別; 識別原理; 聲學(xué)建模方法; 多維模式識別系統(tǒng)

中圖分類號: TN912.3?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學(xué)表現(xiàn),與機(jī)器進(jìn)行語音交流是人類一直以來的夢想。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,語音識別技術(shù)也取得突破性的成就,人與機(jī)器用自然語言進(jìn)行對話的夢想逐步接近實(shí)現(xiàn)。語音識別技術(shù)的應(yīng)用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領(lǐng)域也發(fā)揮著極其重要的作用。它是信息社會朝著智能化和自動化發(fā)展的關(guān)鍵技術(shù),使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。

1 語音識別技術(shù)的發(fā)展

語音識別技術(shù)起始于20世紀(jì)50年代。這一時(shí)期,語音識別的研究主要集中在對元音、輔音、數(shù)字以及孤立詞的識別。

20世紀(jì)60年代,語音識別研究取得實(shí)質(zhì)性進(jìn)展。線性預(yù)測分析和動態(tài)規(guī)劃的提出較好地解決了語音信號模型的產(chǎn)生和語音信號不等長兩個(gè)問題,并通過語音信號的線性預(yù)測編碼,有效地解決了語音信號的特征提取。

20世紀(jì)70年代,語音識別技術(shù)取得突破性進(jìn)展。基于動態(tài)規(guī)劃的動態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)技術(shù)基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。

20世紀(jì)80年代,語音識別任務(wù)開始從孤立詞、連接詞的識別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語音的識別,識別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計(jì)模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語音時(shí)變性和平穩(wěn)性,開始被廣泛應(yīng)用于大詞匯量連續(xù)語音識別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學(xué)建模[2?3];在語言模型方面,以N元文法為代表的統(tǒng)計(jì)語言模型開始廣泛應(yīng)用于語音識別系統(tǒng)[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語音建模方法開始廣泛應(yīng)用于LVCSR系統(tǒng),語音識別技術(shù)取得新突破。

20世紀(jì)90年代以后,伴隨著語音識別系統(tǒng)走向?qū)嵱没Z音識別在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進(jìn)展[5]。同時(shí),人們更多地關(guān)注話者自適應(yīng)、聽覺模型、快速搜索識別算法以及進(jìn)一步的語言模型的研究等課題[6]。此外,語音識別技術(shù)開始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合,以提高識別的準(zhǔn)確率,便于實(shí)現(xiàn)語音識別技術(shù)的產(chǎn)品化。

2 語音識別基礎(chǔ)

2.1 語音識別概念

語音識別是將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程[7]。語音識別以語音為研究對象,它是語音信號處理的一個(gè)重要研究方向,是模式識別的一個(gè)分支。語音識別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號處理、模式識別、聲學(xué)、語言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個(gè)多學(xué)科綜合性研究領(lǐng)域[8]。

根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據(jù)對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識別系統(tǒng);根據(jù)對說話人的依賴程度,可分為特定人和非特定人語音識別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。

2.2 語音識別基本原理

從語音識別模型的角度講,主流的語音識別系統(tǒng)理論是建立在統(tǒng)計(jì)模式識別基礎(chǔ)之上的。語音識別的目標(biāo)是利用語音學(xué)與語言學(xué)信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉(zhuǎn)化成詞序列[W=w1,w2,…,wN]并輸出。基于最大后驗(yàn)概率的語音識別模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要尋找的最可能的詞序列[W],應(yīng)該使[P(X|W)]與[P(W)]的乘積達(dá)到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學(xué)模型決定。[P(W)]是[W]獨(dú)立于語音特征矢量的先驗(yàn)概率,由語言模型決定。由于將概率取對數(shù)不影響[W]的選取,第四個(gè)等式成立。[logP(X|W)]與[logP(W)]分別表示聲學(xué)得分與語言得分,且分別通過聲學(xué)模型與語言模型計(jì)算得到。[λ]是平衡聲學(xué)模型與語言模型的權(quán)重。從語音識別系統(tǒng)構(gòu)成的角度講,一個(gè)完整的語音識別系統(tǒng)包括特征提取、聲學(xué)模型、語言模型、搜索算法等模塊。語音識別系統(tǒng)本質(zhì)上是一種多維模式識別系統(tǒng),對于不同的語音識別系統(tǒng),人們所采用的具體識別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數(shù)送入模型庫模塊,由聲音模式匹配模塊根據(jù)模型庫對該段語音進(jìn)行識別,最后得出識別結(jié)果[9]。

語音識別系統(tǒng)基本原理框圖如圖1所示,其中:預(yù)處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預(yù)加重、模/數(shù)轉(zhuǎn)換、自動增益控制等處理過程,將語音信號數(shù)字化;特征提取模塊對語音的聲學(xué)參數(shù)進(jìn)行分析后提取出語音特征參數(shù),形成特征矢量序列。語音識別系統(tǒng)常用的特征參數(shù)有短時(shí)平均幅度、短時(shí)平均能量、線性預(yù)測編碼系數(shù)、短時(shí)頻譜等。特征提取和選擇是構(gòu)建系統(tǒng)的關(guān)鍵,對識別效果極為重要。

圖1 語音識別基本原理框圖

由于語音信號本質(zhì)上屬于非平穩(wěn)信號,目前對語音信號的分析是建立在短時(shí)平穩(wěn)性假設(shè)之上的。在對語音信號作短時(shí)平穩(wěn)假設(shè)后,通過對語音信號進(jìn)行加窗,實(shí)現(xiàn)短時(shí)語音片段上的特征提取。這些短時(shí)片段被稱為幀,以幀為單位的特征序列構(gòu)成語音識別系統(tǒng)的輸入。由于梅爾倒譜系數(shù)及感知線性預(yù)測系數(shù)能夠從人耳聽覺特性的角度準(zhǔn)確刻畫語音信號,已經(jīng)成為目前主流的語音特征。為補(bǔ)償幀間獨(dú)立性假設(shè),人們在使用梅爾倒譜系數(shù)及感知線性預(yù)測系數(shù)時(shí),通常加上它們的一階、二階差分,以引入信號特征的動態(tài)特征。

聲學(xué)模型是語音識別系統(tǒng)中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類、模型參數(shù)估計(jì)等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關(guān)的模型作為基本建模單元,以刻畫連續(xù)語音的協(xié)同發(fā)音現(xiàn)象。在考慮了語境的影響后,聲學(xué)模型的數(shù)量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類的方法壓縮聲學(xué)參數(shù)的數(shù)量,以簡化模型的訓(xùn)練。在訓(xùn)練過程中,系統(tǒng)對若干次訓(xùn)練語音進(jìn)行預(yù)處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓(xùn)練語音的參考模式庫。

搜索是在指定的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,尋找最優(yōu)詞序列的過程。搜索的本質(zhì)是問題求解,廣泛應(yīng)用于語音識別、機(jī)器翻譯等人工智能和模式識別的各個(gè)領(lǐng)域。它通過利用已掌握的知識(聲學(xué)知識、語音學(xué)知識、詞典知識、語言模型知識等),在狀態(tài)(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對輸入的語音信號在一定準(zhǔn)則下的一個(gè)最優(yōu)描述。在識別階段,將輸入語音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫中的模式進(jìn)行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結(jié)果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結(jié)果繼續(xù)處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結(jié)果的可靠程度等。最終通過增加約束,得到更可靠的識別結(jié)果。

2.3 聲學(xué)建模方法

常用的聲學(xué)建模方法包含以下三種:基于模式匹配的動態(tài)時(shí)間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡(luò)識別法(ANN)等。

DTW 是較早的一種模式匹配的方法。它基于動態(tài)規(guī)劃的思想,解決孤立詞語音識別中的語音信號特征參數(shù)序列比較時(shí)長度不一的模板匹配問題。在實(shí)際應(yīng)用中,DTW通過計(jì)算已預(yù)處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計(jì)算出模板間的相似度并選擇最佳路徑。

HMM是對語音信號的時(shí)間序列結(jié)構(gòu)所建立的統(tǒng)計(jì)模型,是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的,它是一種基于參數(shù)模型的統(tǒng)計(jì)識別方法。HMM可模仿人的言語過程,可視作一個(gè)雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來模擬語音信號統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與馬爾可夫鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程[10]。

ANN以數(shù)學(xué)模型模擬神經(jīng)元活動,將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運(yùn)算的原理、高效的學(xué)習(xí)算法以及對人的認(rèn)知系統(tǒng)的模仿能力充分運(yùn)用到語音識別領(lǐng)域,并結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時(shí)間動態(tài)特性方面的缺點(diǎn),進(jìn)一步提高了語音識別的魯棒性和準(zhǔn)確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計(jì)音素或狀態(tài)的后驗(yàn)概率。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機(jī)形成的混合模型系統(tǒng)大大提高了語音識別的準(zhǔn)確率。

3 語音識別的應(yīng)用

語音識別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應(yīng),這樣既可以克服人工鍵盤輸入速度慢,極易出差錯(cuò)的缺點(diǎn),又有利于縮短系統(tǒng)的反應(yīng)時(shí)間,使人機(jī)交流變得簡便易行,比如用于聲控語音撥號系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語音識別技術(shù)還可以應(yīng)用于自動口語翻譯,即通過將口語識別技術(shù)、機(jī)器翻譯技術(shù)、語音合成技術(shù)等相結(jié)合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實(shí)現(xiàn)跨語言交流[11]。

語音識別技術(shù)在軍事斗爭領(lǐng)域里也有著極為重要的應(yīng)用價(jià)值和極其廣闊的應(yīng)用空間。一些語音識別技術(shù)就是著眼于軍事活動而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對語音識別系統(tǒng)的識別精度、響應(yīng)時(shí)間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識別技術(shù)已在軍事指揮和控制自動化方面得以應(yīng)用。比如,將語音識別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān),飛行員利用語音輸入來代替?zhèn)鹘y(tǒng)的手動操作和控制各種開關(guān)和設(shè)備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時(shí)間和精力集中于對攻擊目標(biāo)的判斷和完成其他操作上來,以便更快獲得信息來發(fā)揮戰(zhàn)術(shù)優(yōu)勢。

4 結(jié) 語

語音識別的研究工作對于信息化社會的發(fā)展,人們生活水平的提高等方面有著深遠(yuǎn)的意義。隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,語音識別技術(shù)將取得更多重大突破,語音識別系統(tǒng)的研究將會更加深入,有著更加廣闊的發(fā)展空間。

參考文獻(xiàn)

[1] 馬志欣,王宏,李鑫.語音識別技術(shù)綜述[J].昌吉學(xué)院學(xué)報(bào),2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報(bào),2009,23(1):112?123.

[6] 顧亞強(qiáng).非特定人語音識別關(guān)鍵技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2009.

[7] 中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局.GB/T21023?2007 中文語音識別系統(tǒng)通用技術(shù)規(guī)范[S].北京:中國標(biāo)準(zhǔn)出版社,2007.

[8] 王文慧.基于ARM的嵌入式語音識別系統(tǒng)研究[D].天津:天津大學(xué),2008.

[9] 何湘智.語音識別的研究與發(fā)展[J].計(jì)算機(jī)與現(xiàn)代化,2002(3):3?6.

第3篇

關(guān)鍵詞:連續(xù)語音識別;關(guān)鍵技術(shù);創(chuàng)新

談到語音識別,就不得不提到李開復(fù)------前微軟研究院院長,他在哥倫比亞大學(xué)時(shí)主攻的就是語音識別,即通過機(jī)器來識別語音。語音識別是現(xiàn)代社會背景下的一門新興學(xué)科,它最主要的功能就是可以讓計(jì)算機(jī)聽懂人說的話,進(jìn)而為人們提供更高效且方便的服務(wù)。它是人類和計(jì)算機(jī)之間利用語言進(jìn)行交流 的橋梁,也是一門與多種學(xué)科緊密聯(lián)系的實(shí)用技術(shù)。現(xiàn)階段,人們對連續(xù)語音識別的研究已經(jīng)取得了一定的成就。目前,我們研究語音識別的重點(diǎn)正在向特定應(yīng)用領(lǐng)域口語的識別和理解方面轉(zhuǎn)變。在這個(gè)研究中,有幾種關(guān)鍵技術(shù),下面我們就對其中幾種關(guān)鍵技術(shù)進(jìn)行簡單的分析。

1、詞語定位技術(shù)

詞語定位技術(shù),在語音識別技術(shù)中非常重要的技術(shù)。主要通過對關(guān)鍵詞進(jìn)行定位,這種技術(shù)跟語言的語法特點(diǎn)有很大關(guān)系,是將語句中的關(guān)鍵詞語提取出來的一種定位技術(shù)。比如主語,謂語,賓語就是關(guān)鍵語素,先將這些語素定位對于完善整句話有著非常重要的意義,因?yàn)檫@些語素已經(jīng)勾勒出了語句的骨架。打個(gè)比方,蓋個(gè)房子要加鋼筋,來增加建筑物的強(qiáng)度和支撐作用,關(guān)鍵語素就是語句意群的鋼筋。通常詞語定位是通過設(shè)置并及時(shí)更新關(guān)鍵詞庫來實(shí)現(xiàn)的。

2、關(guān)聯(lián)搜索技術(shù)

在確定完基本語素后,就要根據(jù)語素之間的關(guān)聯(lián)性,進(jìn)行搜索,那些語素是一個(gè)意群,同在一個(gè)意群中的語素如何排列。利用相關(guān)性確定意群非常重要,因?yàn)樵~語詞之間不是任意搭配的,而是有規(guī)律的,這種規(guī)律就是語法,包括書面語語法和口語的語法。語法是語音識別的規(guī)則,因此是非常重要的。關(guān)聯(lián)的方式在語法的約束下主要有以下幾種:1.相關(guān)詞語出現(xiàn)的概率;2.相關(guān)詞語的詞性;3.相關(guān)詞語出現(xiàn)的語境的重復(fù)率等等。

連接詞識別就是說,系統(tǒng)中存儲的HMM針對的是孤立詞,但識別的語音是由這些詞組成的詞串。由于這一技術(shù)是一個(gè)連接序列,即根據(jù)給定發(fā)音序列來找到與其最匹配的參考模塊詞,所以,下面的問題必須得到解決:(1)在序列中,有些時(shí)候即使知道詞長度的大概范圍,也不知道詞的具體數(shù)量;(2)除整個(gè)序列的首末端點(diǎn)之外,序列之中每個(gè)詞的邊界位置并不知道。

3、抗阻礙性

在語音識別系統(tǒng)中,阻礙無處不在,具體說來,阻礙包括以下幾個(gè)方面:1.方言帶來的語音識別的阻礙;2.口音帶來的語音識別的阻礙;3.外界干擾(噪聲)帶來的語音識別的阻礙;4.系統(tǒng)設(shè)備局限性帶來的語音識別的阻礙等等。

一般情況下,在實(shí)驗(yàn)室(環(huán)境相對安靜)中訓(xùn)練合格的語音識別系統(tǒng)用在實(shí)際環(huán)境(環(huán)境與訓(xùn)練的實(shí)驗(yàn)室環(huán)境不相匹配)的時(shí)候性能就會明顯下降。所以,運(yùn)用頑健語音識別技術(shù)就是為了研究一些補(bǔ)償技術(shù)借以提高系統(tǒng)在不同環(huán)境中的性能。

根據(jù)語音系統(tǒng)中噪聲的特點(diǎn),我們研究出了一些抑制噪聲的方法,如根據(jù)信號與噪聲在各個(gè)尺度上的小波譜表現(xiàn)不一樣的特點(diǎn),可以運(yùn)用小波變換的噪聲抑制;根據(jù)含噪語音信號能量譜就是噪聲信號和語音信號能量譜之和這一特點(diǎn),可以運(yùn)用EVRC編碼噪聲抑制方法,等等。

4、搜索策略技術(shù)

在利用計(jì)算機(jī)來識別語音的時(shí)候,未知的模式,即從輸入語音中求出的特征參數(shù),與事前所定的標(biāo)準(zhǔn)模式是否一致,這個(gè)問題必須檢查。目前語音識別的實(shí)現(xiàn)主要是通過聲音識別芯片分析聲音的波形來實(shí)現(xiàn)的,人的說話聲音有音調(diào)、音色的不同,因而所形成的生意的波形也不同,芯片通過比對聲音圖譜來確定語音內(nèi)容,達(dá)到聲音識別的目的,這也就是聲音識別的原理。然而,在實(shí)際情況中,由于語音具有許多的不確定的因素,想達(dá)到完全一致比較困難。搜索策略是連續(xù)語音識別研究中的一個(gè)是否重要的課題。它的基本思路是,把幀作為搜索單位,在每一時(shí)刻對每一條路徑都假定當(dāng)前幀有可能是這一路徑的后續(xù),借此進(jìn)行一個(gè)完整的搜索。

總體來說,搜索策略技術(shù)受到容量的限制。所以,我們必須確定應(yīng)該保留哪些路徑,這就要求我們確定一定閥值,這個(gè)閥值既不能過嚴(yán)也不能過寬。對于這個(gè)問題,我們一定要采用合適的算法,如傳統(tǒng)的幀同步算法、基于統(tǒng)計(jì)知識的幀同步搜索算法原理和受詞法約束的詞搜索樹等算法都是比較適合這一部分的。

結(jié)論:

    本文總結(jié)了連續(xù)語音識別中幾種關(guān)鍵技術(shù),并對它們進(jìn)行了簡單的介紹和分析。目前連續(xù)語音識別技術(shù)的研究并不成熟,它要向正確的方向健康發(fā)展就必須把詞語定位技術(shù)、關(guān)聯(lián)搜索技術(shù)、抗阻礙性技術(shù)、搜索策略技術(shù)等技術(shù)都正確運(yùn)用于實(shí)際工作中。

參考文獻(xiàn):

[1]馮麗娟,吾守爾·斯拉木.維吾爾語連續(xù)語音識別技術(shù)研究[J].現(xiàn)代計(jì)算機(jī):下半月,2010,(1)

第4篇

語音識別算法雖然還有很多問題沒有解決,但語音識別技術(shù)已經(jīng)開始逐步進(jìn)入實(shí)用階段。在發(fā)達(dá)國家語音識別技術(shù)已經(jīng)用于信息服務(wù)系統(tǒng)和查詢系統(tǒng),人們可以通過電話網(wǎng)絡(luò)查詢有關(guān)的信息,并且取得很好的結(jié)果。用戶交換機(jī)、電話機(jī)、手機(jī)也包含了語音識別撥號功能。調(diào)查統(tǒng)計(jì)表明多達(dá)80%以上的人對這些服務(wù)表示滿意。中小詞匯量的語音識別系統(tǒng)(

語音芯片的應(yīng)用

近年來語音芯片應(yīng)用越來越廣泛,主要包括:

1.電話通信中的語音撥號。特別是在中、高檔移動電話上,現(xiàn)已普遍具有語音撥號的功能。隨著語音識別芯片的價(jià)格降低,普通電話上也將具備語音撥號的功能。

2. 汽車的語音控制。由于在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的門、窗、空調(diào)、照明以及音響等設(shè)備,同樣也可以由語音來方便地進(jìn)行控制。

3. 工業(yè)控制及醫(yī)療領(lǐng)域。當(dāng)操作人員的眼或手已經(jīng)被占用的情況下,在增加控制操作時(shí),最好的辦法就是增加人與機(jī)器的語音交互界面。由語音對機(jī)器發(fā)出命令,機(jī)器用語音做出應(yīng)答。

4. 個(gè)人數(shù)字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機(jī)界面一直是其應(yīng)用和技術(shù)的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現(xiàn)多采用手寫體識別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現(xiàn)在業(yè)界一致認(rèn)為,PDA的最佳人機(jī)交互界面是以語音作為傳輸介質(zhì)的交互方法,并且已有少量應(yīng)用。隨著語音識別技術(shù)的提高,可以預(yù)見,在不久的將來,語音將成為PDA主要的人機(jī)交互界面。

5. 智能玩具。通過語音識別技術(shù),我們可以與智能娃娃對話,可以用語音對玩具發(fā)出命令,讓其完成一些簡單的任務(wù),甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關(guān)鍵在于語音芯片價(jià)格的降低。

6. 家電遙控。用語音可以控制電視機(jī)、VCD、空調(diào)、電扇、窗簾的操作,而且一個(gè)遙控器就可以把家中的電器皆用語音控制起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。

語音識別專用芯片系統(tǒng)有如下幾個(gè)特點(diǎn): 1. 多為中、小詞匯量的語音識別系統(tǒng),即只能夠識別10~100詞條。只有近一兩年來,才有連續(xù)數(shù)碼或連續(xù)字母語音識別專用芯片實(shí)現(xiàn)。2. 一般僅限于特定人語音識別的實(shí)現(xiàn),即需要讓使用者對所識別的詞條先進(jìn)行學(xué)習(xí)或訓(xùn)練,這一類識別功能對語種、方言和詞條沒有限制。有的芯片也能夠?qū)崿F(xiàn)非特定人語音識別,即預(yù)先將所要識別的語句碼本訓(xùn)練好而裝入芯片,用戶使用時(shí)不需要再進(jìn)行學(xué)習(xí)就可直接應(yīng)用。但這一類識別功能只適用于規(guī)定的語種和方言,而且所識別的語句只限于預(yù)先已訓(xùn)練好的語句。3. 由此芯片組成一個(gè)完整的語音識別系統(tǒng)。因此,除了語音識別功能以外,為了有一個(gè)好的人機(jī)界面和識別正確與否的驗(yàn)證,該系統(tǒng)還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。4. 多為實(shí)時(shí)系統(tǒng),即當(dāng)用戶說完待識別的詞條后,系統(tǒng)立即完成識別功能并有所回應(yīng),這就對電路的運(yùn)算速度有較高的要求。5. 除了要求有盡可能好的識別性能外,還要求體積盡可能小、可靠性高、耗電省、價(jià)錢低等特點(diǎn)。

語音識別技術(shù)發(fā)展

在發(fā)達(dá)國家各種各樣基于語音識別技術(shù)的產(chǎn)品已經(jīng)可以買到,如具有聲控?fù)芴栯娫挘Z音記事本等等。語音電話服務(wù)、數(shù)據(jù)查詢服務(wù)也已經(jīng)部分實(shí)現(xiàn)。基于特定任務(wù)和環(huán)境的聽寫機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。語音識別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用前景。

說話者自適應(yīng)技術(shù)近年在語音識別系統(tǒng)的研究中也備受重視,這是由于與人有關(guān)的語音識別系統(tǒng)比與人無關(guān)的語音識別系統(tǒng)的識別率要高很多。通過有效的自適應(yīng)手段可以很快地提高系統(tǒng)的識別能力。實(shí)際上說話人自適應(yīng)技術(shù)和穩(wěn)健語音自適應(yīng)技術(shù)是相通的。由于不同的說話人在聲道長度,說話口音方式都很不一樣。說話者自適應(yīng)技術(shù)也主要是從以下兩方面著手。

靜態(tài)處理方法。從特征提取或訓(xùn)練階段就盡可能減少來自說話人的變化因素對模型的貢獻(xiàn)。可以進(jìn)行聲道參數(shù)的歸一化處理或?qū)φf話人進(jìn)行分類處理,如分男女聲的識別系統(tǒng)就是其中的一個(gè)典型,但實(shí)際上僅僅從男女聲上對模型分類還是太粗,可以通過有效的聚類方法進(jìn)行分類。這類方法統(tǒng)稱為聲學(xué)歸一化處理方法。

動態(tài)處理方法。對預(yù)先訓(xùn)練好的與人無關(guān)識別系統(tǒng),通過臨時(shí)得到的特定人語音數(shù)據(jù)對系統(tǒng)的模板或特征參數(shù)進(jìn)行自適應(yīng)修正,從而在原有系統(tǒng)基礎(chǔ)上建立一個(gè)用于特定任務(wù)、特定環(huán)境或特定說話人的系統(tǒng),這類方法統(tǒng)稱為自適應(yīng)方法。自適應(yīng)方法可分為: 批模式、累進(jìn)模式、即時(shí)模式; 按自適應(yīng)學(xué)習(xí)策略又分為無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。從用戶使用的方便程度來看是由難到易,而算法實(shí)現(xiàn)則是由易到難。采用何種策略取決于應(yīng)用背景,對識別率的要求等因素。對于聽寫機(jī)等應(yīng)用來說,最具吸引力的是累進(jìn)、無監(jiān)督的自適應(yīng)方式,也稱在線自適應(yīng)。

語言模型也是目前研究的一個(gè)重要方面。目前的語言模型是與任務(wù)有關(guān)的,典型的統(tǒng)計(jì)語言模型是通過大量任務(wù)特定的語料訓(xùn)練出來的。通過新聞?wù)Z料訓(xùn)練出來的模型不能很好地工作于法律方面的文件語音識別。有幾種方法用于解決這些問題。一種是使用自適應(yīng)語言模型。在靜態(tài)語言模型的基礎(chǔ)上,通過一個(gè)高速緩沖存儲器對語言模型進(jìn)行動態(tài)的修正; 另一種是先訓(xùn)練多領(lǐng)域語言模型,然后通過混合高斯模型將這些模型結(jié)合在一起; 還有一種比較好的辦法是使用大顆粒的語言模型,如基于類的語言模型,而不是基于詞的語言模型,類可以是詞性類,詞義類,以及由一定的數(shù)據(jù)驅(qū)動的聚類算法產(chǎn)生的各種類。

由于不同詞可以屬于同一類,這樣類比較大,構(gòu)成的語言模型就比較穩(wěn)健。其關(guān)鍵的問題是如何決定詞的分類,由于詞的分類比較復(fù)雜,同一詞可能屬于不同的類,特別是解決如何通過計(jì)算機(jī)實(shí)現(xiàn)自動分類的算法,即使用數(shù)據(jù)驅(qū)動算法也還沒有很好地解決。基于統(tǒng)計(jì)技術(shù)的計(jì)算語言學(xué)已經(jīng)越來越受到重視,它解決了單獨(dú)規(guī)則語言模型不能解決的一些問題。當(dāng)然統(tǒng)計(jì)語言模型也不能解決全部問題,因此如何把統(tǒng)計(jì)語言模型和基于規(guī)則的語言模型結(jié)合也是語言模型研究的重點(diǎn)之一。

目前不同快速語音識別算法都在開發(fā)中。其中包括對HMM狀態(tài)輸出的概率分布進(jìn)行矢量量化,縮小搜索空間算法,減少計(jì)算機(jī)的內(nèi)存需求方法,以及結(jié)合計(jì)算機(jī)結(jié)構(gòu)特點(diǎn)的編程技術(shù)的應(yīng)用。

鏈接:穩(wěn)健語音識別技術(shù)

第5篇

關(guān)鍵詞:語音識別過程;動態(tài)時(shí)間規(guī)整;隱馬爾科夫模型;人工神經(jīng)網(wǎng)絡(luò);語音識別的應(yīng)用

中圖分類號:TN912.34

1 語音識別技術(shù)基本原理及過程介紹

語音識別系統(tǒng)由語音信號預(yù)處理、特征提取、模式匹配三部分構(gòu)成。第一步預(yù)處理,主要有A/D變換、預(yù)加重和端點(diǎn)檢測部分。經(jīng)過預(yù)處理之后的語音信號,要進(jìn)行第二步特征提取,該過程就是在原始語音信號中提取出所需要的特征參數(shù),從而得到特征矢量序列,特征提取完成后,接下來就是語音識別的核心,也就是第三步模式匹配,也就是模式識別。系統(tǒng)框圖如下[1]。

圖1 一般語音識別系統(tǒng)框圖

2 語音識別方法

目前,主要的語音識別方法主要有特征參數(shù)匹配法、隱馬爾可夫法和人工神經(jīng)網(wǎng)絡(luò)法。

2.1 動態(tài)時(shí)間規(guī)整

動態(tài)時(shí)間規(guī)整(DTW)是早期的模式匹配方法。由于語音信號是一種隨機(jī)性非常大的信號,例如相同的字,不同人說時(shí)的發(fā)音會不同,時(shí)間長短也會不同,即便是同一個(gè)人說相同的語句,發(fā)音結(jié)果也會不同,于是,在模式匹配時(shí),要識別字詞的時(shí)間軸將不斷扭曲,以測試模板與參考模板對齊。DTW是一個(gè)比較典型的優(yōu)化問題,它用滿足一定條件的時(shí)間規(guī)整函數(shù)W(n)描述測試模板和參考模板的時(shí)間對應(yīng)關(guān)系,求解兩模板匹配時(shí)累計(jì)距離最小所對應(yīng)的規(guī)整函數(shù)。動態(tài)時(shí)間規(guī)整也存在一些問題,它的計(jì)算量大,比較適合同一個(gè)人說話語音的識別,而且不能對樣本做動態(tài)訓(xùn)練,語音信號的時(shí)序動態(tài)特性并沒有很好地利用,所以DTW多用于孤立字詞的識別。

2.2 隱馬爾可夫模型

隱馬爾可夫模型(HMM)是一種統(tǒng)計(jì)模型,用來描述隨機(jī)過程的統(tǒng)計(jì)特性。它是由馬爾可夫鏈演變來的。[2]

HMM可用三元組表示:λ=(π,A,B)

A:狀態(tài)轉(zhuǎn)移概率的集合。

B:觀察概率的集合,表示每個(gè)狀態(tài)輸出相應(yīng)觀察值的概率。

π:系統(tǒng)初始狀態(tài)的集合。

這三個(gè)元素π,A,B可以分為由π、A描述的Markov鏈和由B描述的隨機(jī)過程。

HMM是一種理想的語音信號模型,如今,連續(xù)語音識別,非特定人識別系統(tǒng)大多是基于HMM模型的。HMM是對語音序列的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型的,HMM是數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)是具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程[3]。

盡管馬爾可夫模型是一種理想的語音信號模型,但是它還有很多不足。HMM有三個(gè)不現(xiàn)實(shí)的重要假設(shè),假設(shè)一“狀態(tài)轉(zhuǎn)移的Markov假設(shè)”:系統(tǒng)在當(dāng)前時(shí)刻的狀態(tài)向下一時(shí)刻所處的狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移概率僅僅與當(dāng)前時(shí)刻的狀態(tài)有關(guān),而與以前的狀態(tài)無關(guān)。假設(shè)二“不動性假設(shè)”:狀態(tài)與具體時(shí)間無關(guān)。假設(shè)三“輸出值的Markov假設(shè)”:輸出僅與當(dāng)前狀態(tài)有關(guān)。這三個(gè)假設(shè)之所以不合理,是因?yàn)槿我粫r(shí)刻出現(xiàn)的觀測值的概率不僅是依賴于系統(tǒng)當(dāng)前所處的狀態(tài),也可能依賴于系統(tǒng)之前時(shí)刻所處的狀態(tài)[4]。

2.3 人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)(ANN)是在模擬人腦神經(jīng)組織的基礎(chǔ)上發(fā)展起來的全新計(jì)算機(jī)系統(tǒng)。ANN是模擬人類思維中“信息的處理是通過神經(jīng)元之間同時(shí)相互作用的動態(tài)過程來完成思維”。ANN是一種非線性動力學(xué)系統(tǒng),它的特點(diǎn)在于信息的分布式儲存和并行協(xié)同處理。單個(gè)神經(jīng)元的結(jié)構(gòu)簡單,但是大量的神經(jīng)元所構(gòu)成的神經(jīng)網(wǎng)絡(luò)卻是一種復(fù)雜的網(wǎng)絡(luò)。ANN更接近于人的認(rèn)知過程。人工神經(jīng)網(wǎng)絡(luò)也存在一些不足,它的訓(xùn)練、識別時(shí)間較長、動態(tài)時(shí)間規(guī)整能力較弱并且不容易實(shí)現(xiàn)。

3 語音識別的應(yīng)用和前景

如今的科技領(lǐng)域,幾乎每天都有新的技術(shù),新的研究成果出現(xiàn),而語音識別也是這科技研究的一熱門領(lǐng)域,也應(yīng)用到了人類生活的方方面面。

語音識別的應(yīng)用非常廣泛,語音輸入技術(shù)的出現(xiàn),可以使人們通過說話,而非手動輸入來作出正確的響應(yīng),這樣使輸入變的更加簡單,提高了工作學(xué)習(xí)的效率。語音識別技術(shù)可以應(yīng)用于汽車,可以使駕駛員用語音指令操縱車載設(shè)備,提高汽車駕駛的安全性和舒適性。將語音識別、語言理解與大量的數(shù)據(jù)庫檢索和查詢技術(shù)相結(jié)合,就能夠?qū)崿F(xiàn)更輕松的信息查詢方式。比如,圖書館的資料信息將能夠?qū)碜杂脩舻恼Z音輸入進(jìn)行理解,并將它轉(zhuǎn)化為相應(yīng)的指令,從數(shù)據(jù)庫中獲取結(jié)果并返回給用戶。這種技術(shù)同樣可以運(yùn)用于銀行服務(wù)、醫(yī)療服務(wù)等方面。語音識別技術(shù)還可以應(yīng)用于口語翻譯,例如,可以讓與聾啞人對話的對方帶上一個(gè)智能語音識別的微型攝像裝置,或者給聾啞人帶上一種特制的手套,然后,就可以通過語音合成技術(shù)和語音識別技術(shù)將手語翻譯成聲音語言,同時(shí),系統(tǒng)還能夠完成將正常人的語言翻譯成聾啞人的手語,這種口語翻譯一種語音輸入翻譯為另一種語言的語音輸出。除此之外,語音識別在軍事,航空等領(lǐng)域也有廣闊的應(yīng)用空間。語音識別將不斷發(fā)展,不斷豐富人類的生活。

參考文獻(xiàn):

[1]趙力.語音信號處理第2版[M].北京.機(jī)械工程出版社,2009(05).

[2]何彥斌,楊志義,馬薈.一種基于HMM的場景識別方法[J].計(jì)算機(jī)科學(xué),2011(04):254-256.

[3]呂云芳,基于模板匹配法的語音識別系統(tǒng)研究與基本實(shí)現(xiàn)[D].天津:河北工業(yè)大學(xué),2005.

[4]劉云中,林亞平,陳治平.基于隱馬爾可夫模型的文本信息抽取[J].系統(tǒng)仿真學(xué)報(bào),2004(03):507-510.

第6篇

不過一旦我們離開了辦公室,許多人不假思索地向智能手機(jī)發(fā)出語音命令,無論這意味著語音撥號手機(jī)、向谷歌報(bào)出搜索詞語,還是詢問Siri今日天氣如何。

市場調(diào)研機(jī)構(gòu)Opus Research的高級分析師兼創(chuàng)始人丹?米勒(Dan Miller)表示,提供語音技術(shù)的公司已投入巨資,研發(fā)“個(gè)人數(shù)字助理”概念,比如蘋果的Siri以及出現(xiàn)在許多谷歌手機(jī)上的谷歌語音操作(Google Voice Actions),它們懂自然語言命令。他表示,實(shí)際上最近在語音識別技術(shù)方面的突破大多出現(xiàn)在移動設(shè)備端的基于云計(jì)算的自然語言搜索領(lǐng)域。

主要進(jìn)展就是,語音工具現(xiàn)在離用戶更近了――出現(xiàn)在我們?nèi)粘J褂玫氖謾C(jī)和平板電腦上,許多工具在云端使用,這提供了立即處理功能和不斷擴(kuò)展的語言數(shù)據(jù)庫。不像老式的桌面端軟件,這些新工具不需要語音訓(xùn)練,這歸功于算法方面取得的進(jìn)步。

當(dāng)然,今天的語音識別技術(shù)并非盡善盡美。即使在移動設(shè)備上,語音識別軟件也并不適用于每個(gè)人。而有些自然語言句子仍然讓智能化程度最高的語音控制系統(tǒng)都犯難,比如“告訴我的老板我開會要遲到”。Nuance、微軟和蘋果等公司已建立了龐大的語言數(shù)據(jù)庫,供自己的語音識別產(chǎn)品使用。但即使在今天,這類軟件有時(shí)還很難懂得牛肉制品“漢堡包”(hamburger)與德國城市“漢堡”(Hamburg)之間的區(qū)別。

米勒說,我們需要在云端運(yùn)行更高程度的人工智能。他說:“我們離目標(biāo)越來越近。各個(gè)層面都面臨挑戰(zhàn),但正在取得進(jìn)展――不過可能永遠(yuǎn)不會盡善盡美。”

可是,雖然越來越好的結(jié)果正在促使移動設(shè)備采用語音識別技術(shù),但這項(xiàng)技術(shù)在工作場所還沒有產(chǎn)生太大的影響:步入美國的隨便一個(gè)企業(yè)園區(qū),很難看到有員工在下達(dá)語音命令。我們將探討什么因素在阻礙語音識別技術(shù),并介紹這項(xiàng)技術(shù)在辦公桌前和辦公室都有望造福員工的幾個(gè)方面。

工作站前的語音

對于視力欠佳的用戶或患有重復(fù)性勞損(如腕管綜合癥)的那些人來說,通過語音控制電腦大有意義,可用于瀏覽及操控界面和應(yīng)用程序、進(jìn)行搜索以及口述內(nèi)容很長的電子郵件和工作文檔。其他用戶也能從中受益,尤其是打字很慢的人、移動用戶以及想記錄會議紀(jì)要的與會人士。

米勒表示,該技術(shù)現(xiàn)在就出現(xiàn)在世人面前。基本的語音控制功能多年前就內(nèi)置到Mac OS X和Windows中。今年夏天,蘋果將為其OS X美洲獅版本添加語音到文本口述功能。去年,谷歌往臺式機(jī)和筆記本電腦上的Chrome瀏覽器引入了最初出現(xiàn)在移動設(shè)備上的語音發(fā)起的搜索這一功能。

至于更高級的口述和個(gè)人電腦控制功能,專用的語音識別軟件(如Nuance公司的Dragon NaturallySpeaking)這些年來逐步改進(jìn)。在美國某雜志的測評人員拉蒙特?伍德(Lamont Wood)進(jìn)行的測試中,最新版的NaturallySpeaking Premium從語音到文本的轉(zhuǎn)換準(zhǔn)確率超過99%。

伍德表示,對他來說,通過語音寫東西的速度大約2倍于通過打字寫東西。其他用戶獲得的效果有所不同,這取決于他們的打字速度以及使用語音軟件的熟練程度。他還指出,使用最新的降噪耳機(jī)意味著這種軟件不會受到背景聲音的困擾,在過去這常常是個(gè)問題。

那么,為什么沒有更多的人通過語音與電腦進(jìn)行交互呢?米勒說,人們往往很怕難為情。在辦公室環(huán)境,不是每個(gè)人都習(xí)慣于脫口說出自己的想法和言語,要是只有少數(shù)人在這么做,更是如此。

不過,他認(rèn)為移動設(shè)備語音搜索有助于讓語音技術(shù)總體上更受歡迎。他表示,最近的一項(xiàng)調(diào)查顯示,11%的調(diào)查對象稱自己習(xí)慣于將Siri用于語音搜索。目前這個(gè)比例并不高,但是隨著越來越多的人采用,而且越來越習(xí)慣,在辦公室使用語音應(yīng)用軟件對許多人來說似乎更加切實(shí)可行。這將遵循總體趨勢:人們先在家里或私下使用技術(shù),然后希望在工作場所也能使用。

此外,研發(fā)人員在探究語音的新用途,尤其是在游戲和娛樂領(lǐng)域(比如在Xbox上開始播放電影)。語音命令在各個(gè)場合似乎都很自然,這只是個(gè)時(shí)間問題。米勒說:“人們很快會發(fā)現(xiàn),同樣可以通過語音控制CAD軟件、個(gè)人電腦及其他個(gè)人設(shè)備和辦公工具。”

值得關(guān)注的是,語音硬件在辦公室已經(jīng)很普遍。任何一臺新購的辦公筆記本電腦都已經(jīng)內(nèi)置了視頻會議功能,帶網(wǎng)絡(luò)攝像頭和高品質(zhì)麥克風(fēng)。當(dāng)你步入許多公司的會議室,會看到帶高級麥克風(fēng)的免提電話。新機(jī)型甚至?xí)?zhǔn)講話的那個(gè)人,降低背景噪聲。

J. Markowitz咨詢公司的著名語音技術(shù)專家朱迪思?馬科維茨(Judith Markowitz)也認(rèn)為,硬件不是阻礙語音技術(shù)在辦公室流行起來的因素。他表示,問題在于讓自然語言命令得到更廣泛的應(yīng)用。而自然語言命令只是另一種交互方式,就像我們敲打的鍵盤或點(diǎn)擊的圖標(biāo)那樣。

她說:“語音無法查明是否存在過熱問題,也無法提醒你有約會。那是后端系統(tǒng)或應(yīng)用軟件的任務(wù)。Siri的語音識別部分也沒有這種功能。自然語言理解能力、人工智能和應(yīng)用程序的功能共同造就了Siri這款出色的個(gè)人助理。語音技術(shù)把語音輸入轉(zhuǎn)換成Siri的后端及其他iPhone應(yīng)用軟件能使用的一種形式。”

馬科維茨表示,如果開發(fā)人員決定為企業(yè)應(yīng)用軟件添加語音命令和聲音提醒,語音在辦公室就派得上用場。米勒贊同這個(gè)觀點(diǎn),不過他指出,這有點(diǎn)像先有雞還是先有蛋的情況。開發(fā)人員將語音功能添加到應(yīng)用軟件之前,希望知道企業(yè)環(huán)境的用戶習(xí)慣使用的語音(而且不會妨礙同事),但是只有這些功能廣泛出現(xiàn),用戶才有可能習(xí)慣使用它們。

米勒表示,想讓語言更被辦公室環(huán)境的用戶所熟悉,一個(gè)簡單的方法就是為企業(yè)應(yīng)用軟件添加語音提醒。比如說,應(yīng)用軟件可能告訴你數(shù)據(jù)中心存在一個(gè)問題,而不是顯示文本提醒信息。用戶可以根據(jù)需要,將提醒由語音方式改為文本方式。

當(dāng)然,兩位專家都一致認(rèn)為,語言并不是在每種計(jì)算環(huán)境下都是最合適的輸入方法。它給藝術(shù)家、攝影師、視頻編輯和程序員帶來的幫助不像給普通的辦公室員工、管理人員和IT人員帶來的幫助一樣大。Photoshop中精細(xì)的像素級編輯可能根本無法得益于語音輸入,不過人工智能可能會發(fā)展到這個(gè)程度:我們說“修復(fù)照片的左下角1/4部分”,Photoshop就會進(jìn)行相應(yīng)的操作。

辦公室周圍的語音

Nuance公司總經(jīng)理彼得?馬奧尼(Peter Mahoney)認(rèn)為,遍地開花的云計(jì)算將有助于推動語音技術(shù),從電腦擴(kuò)大到工作場所的其他地方。比如設(shè)想一下:能夠使用內(nèi)嵌式麥克風(fēng)在會議室口述電子郵件,或者坐在大廳等待時(shí)查閱日程表,哪怕你把移動設(shè)備落在辦公桌上。

他表示,這一幕要成為現(xiàn)實(shí),語音系統(tǒng)就要連接到其他辦公室系統(tǒng)。比如說,語音系統(tǒng)可能連接到公司的聯(lián)系人和日歷系統(tǒng),知道你的會議日程表(及其他與會者的日程表)。它還可能連接到建筑物的安全和網(wǎng)絡(luò)管理系統(tǒng),那樣它能告訴你是否在辦公室、登錄到辦公電腦上。

互連系統(tǒng)可以在白天收集關(guān)于你的數(shù)據(jù),而且正如人的大腦保留短期記憶那樣,它會確定你的具體背景。這可能意味著,語音系統(tǒng)知道你晨會要遲到,因?yàn)槟銢]有登錄到電腦上;它可以查閱你的會議日程表,找到相應(yīng)的一個(gè)或多個(gè)聯(lián)系人,告知你會遲到。

馬奧尼表示,如今這些信息往往是孤立的。但他預(yù)測,在今后一兩年,語音技術(shù)會逐漸變得有更強(qiáng)的互連性。“它可能會先聯(lián)系日歷程序,知道你要會見約翰,然后日歷程序會通過語音聯(lián)絡(luò)聯(lián)系人數(shù)據(jù)庫。”

米勒表示,許多公司已經(jīng)在現(xiàn)有的系統(tǒng)中擁有關(guān)于聯(lián)系人和角色的信息,比如活動目錄列表和人力資源數(shù)據(jù);許多公司還有內(nèi)部建筑圖。那么,到底是什么因素在阻礙這一切呢?

馬奧尼表示,自然語言命令正在改進(jìn),但系統(tǒng)不是足夠清楚地明白信息的上下文。他說:“需要構(gòu)建數(shù)據(jù)模型,找到人們可能會問的前100個(gè)問題,然后找到合適的信息源,以明白那些問題,比如地圖應(yīng)用軟件。”畢竟,這與Siri等虛擬助理在移動設(shè)備上進(jìn)行的操作沒什么太大的不同:查詢不同的信息源(基于云和本地),找到相關(guān)信息,發(fā)送提醒信息,等等。

馬奧尼設(shè)想,隨著互連系統(tǒng)在將來擴(kuò)大語音技術(shù)的應(yīng)用范圍,它們還有望改進(jìn)語音軟件的準(zhǔn)確性和理解能力。借助無處不在的云連接,語音系統(tǒng)可以根據(jù)你所在的位置、所做的事情、身邊的人以及接下來要做的事,明白你想表達(dá)的意思。“即使你沒有明說,系統(tǒng)也知道你想表達(dá)的意思。”

鏈接:語音應(yīng)用軟件如何知道你說的是什么?

Opus Research公司的丹?米勒表示,今天的語音識別系統(tǒng)使用統(tǒng)計(jì)語言建模,這本質(zhì)上是一種最佳猜測,結(jié)合你整個(gè)句子的上下文,猜測想要說的意思。比如說,今天的系統(tǒng)借助前后單詞,知道你想說的是“you’re”(你是),而不是“your”(你的)。

要是說話者口音重,或者采用罕見的方言,這些系統(tǒng)還是經(jīng)常無能為力。為了明白這些人說的話,語言系統(tǒng)必須建立一個(gè)發(fā)音庫、去除任何背景噪音,并不斷拿所說的單詞與已正確識別的那些單詞進(jìn)行比對。

據(jù)語音技術(shù)咨詢公司NewSpeech的總裁比爾?肖爾茨(Bill Scholz)博士聲稱,方言和重口音的主要問題是,語音程序并不分析聲音模型以尋找語音方面的變化。他表示,典型的語音合成器可能有幾百萬個(gè)聲音樣本,但這還是不足以應(yīng)對各種方言、不常用的俚語或含糊的話。不過,隨著系統(tǒng)不斷積累更多的語音數(shù)據(jù),模型會日趨改善。

第7篇

關(guān)鍵詞 機(jī)器人 語音識別 聲學(xué)模型 語音特征參數(shù)

中圖分類號:TP242 文獻(xiàn)標(biāo)識碼:A

1語音識別技術(shù)的研究意義

人們使用的聲音語言是一種人在特定高度思維和意識活動下的產(chǎn)品。語言是人類最直接以及最理想的交流方式,也是人機(jī)通信是最方便的方式。在機(jī)器人發(fā)展的高級發(fā)展階段中,機(jī)器人的智能語音識別與人類的活動是密切相關(guān)的,有聲語言的人機(jī)交互信息成為重要的手段。例如,語音識別獲取外界信息很自然,沒有特殊的訓(xùn)練方法,隨著機(jī)器人技術(shù)的發(fā)展和廣泛應(yīng)用,有越來越多的機(jī)會來接觸人類和機(jī)器人,所以人們希望通過語音識別和機(jī)器人去處理,不管誰能能準(zhǔn)確安全,方便地操縱機(jī)器人。機(jī)器人和人類之間的信息交互,表現(xiàn)在兩個(gè)方面,一是對更高層次的機(jī)器人操作,方便軟件的設(shè)計(jì)開發(fā),這種多為教學(xué)機(jī)器人,另一種是在實(shí)際操作的要求下完成信息交互任務(wù)的機(jī)器人。智能機(jī)器人作為機(jī)器人技術(shù)發(fā)展的高級階段,其發(fā)展趨勢是:不僅要求機(jī)器人具有高度的自治能力,還要使機(jī)器人和人類之間的協(xié)調(diào)也具有一定的智能性。這就要求機(jī)器人具有不同的高性能主動做事能力,而不是被動地接受任務(wù),為了實(shí)現(xiàn)這一目標(biāo),自然語言作為人機(jī)信息交換將發(fā)揮越來越重要的作用。目前,智能機(jī)器人已成為機(jī)器人研究領(lǐng)域的一個(gè)熱點(diǎn)。工業(yè)機(jī)器人是智能機(jī)器人的一個(gè)重要研究領(lǐng)域。當(dāng)今,工業(yè)機(jī)器人的發(fā)展方興未艾,巨大的市場潛力,使真正的工業(yè)機(jī)器人的已經(jīng)在市場上嶄露頭角,以滿足人們?nèi)找嬖鲩L的需求,我們不能沒有一個(gè)高性能的語音識別系統(tǒng)。由于工業(yè)機(jī)器人是面向生產(chǎn)實(shí)際的需要,最好的工作方式是讓機(jī)器人能顧聽懂最常見的人類語言,完成指定的工作,并能與人交流。機(jī)器人語音識別是機(jī)器人研究領(lǐng)域中的語音識別應(yīng)用,最終的目標(biāo)是讓機(jī)器人了解人們的口頭語言,然后按照人們的命令來行動或反應(yīng),從而形成一個(gè)良好的人機(jī)對話系統(tǒng)。為了能夠進(jìn)一步推動智能機(jī)器人的開發(fā)應(yīng)用,因此,在語音識別機(jī)器人的研究領(lǐng)域中,機(jī)器人語音識別系統(tǒng)是工業(yè)機(jī)器人的實(shí)際推廣應(yīng)用,具有重要的意義。

語音識別技術(shù)在智能機(jī)器人中的應(yīng)用已經(jīng)有很多年的歷史,作為智能機(jī)器人的一個(gè)分支,工業(yè)機(jī)器人得到了迅速發(fā)展,工業(yè)機(jī)器人通過語音識別從工業(yè)噪聲中提取有效的語音命令。為了實(shí)現(xiàn)機(jī)器人在一些特殊工業(yè)環(huán)境中工作的目的,機(jī)器人要能夠識別命令意圖。語音識別技術(shù),可以實(shí)現(xiàn)人機(jī)對話,從而讓機(jī)器能模仿人類完成所有工作的分配,使其在各行各業(yè)中能夠得以應(yīng)用。目前所面臨的實(shí)際問題是:噪聲和干擾環(huán)境下對大型工業(yè)機(jī)器人的語音識別有嚴(yán)重的影響。在機(jī)器人識別領(lǐng)域,工業(yè)環(huán)境中的實(shí)時(shí)性是一個(gè)非常重要的任務(wù)。機(jī)器人在工業(yè)環(huán)境下應(yīng)用的聽覺識別是使智能機(jī)器人發(fā)展速率低的瓶頸。

2語音識別系統(tǒng)的發(fā)展

2.1語音識別系統(tǒng)的發(fā)展方向

語音識別系統(tǒng)是基于一套應(yīng)用軟件系統(tǒng)的硬件平臺和操作系統(tǒng)的一些。語音識別一般分為兩個(gè)步驟。第一步是學(xué)習(xí)或培訓(xùn)。這一階段的任務(wù)是建立基本單元的聲學(xué)模型來進(jìn)行識別和模型的語音語法分析等。第二步是識別或測試。根據(jù)識別系統(tǒng)的類型可以滿足一個(gè)識別方法的要求,使用語音分析的方法來分析語音特征參數(shù),并建立了比較和測量系統(tǒng)模型,根據(jù)一定的標(biāo)準(zhǔn),鑒定結(jié)果。

語音識別系統(tǒng)的應(yīng)用可分為兩個(gè)發(fā)展方向,其中一個(gè)是大詞匯連續(xù)語音識別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽寫機(jī),以及結(jié)合電話網(wǎng)或互聯(lián)網(wǎng)的語音信息服務(wù)系統(tǒng),這些系統(tǒng)是在計(jì)算機(jī)平臺上的一個(gè)重要發(fā)展方向。其次是應(yīng)用的小型化,便攜式音頻產(chǎn)品,如無線移動電話的撥號,語音控制車載設(shè)備,智能玩具,家用電器和其他方面的應(yīng)用的遠(yuǎn)程控制,這些應(yīng)用系統(tǒng)大多采用特殊的硬件系統(tǒng)來實(shí)現(xiàn),特別是語音信號處理芯片和語音識別芯片,最近幾年快速發(fā)展,為其廣泛應(yīng)用創(chuàng)造了極為有利的條件。

2.2語音識別系統(tǒng)的模型與模式

語音識別系統(tǒng)的核心是聲學(xué)模型和模式分類。首先通過學(xué)習(xí)算法,訓(xùn)練語音聲學(xué)模型的特點(diǎn)是通過學(xué)習(xí)過程來生成聲學(xué)模型,這是識別潛在的模型的前提,是最關(guān)鍵的語音識別系統(tǒng)的一部分。聲學(xué)模型的目的是提供一種有效的方法來計(jì)算特征向量的聲音序列和每個(gè)發(fā)音模板之間的距離。人的發(fā)音在每一刻發(fā)音之前和之后都會受到影響。

為了模仿自然連續(xù)的協(xié)同發(fā)音和識別不同的發(fā)音,通常需要使用復(fù)雜的聲學(xué)模型。聲學(xué)模型和語言的發(fā)音特點(diǎn)的設(shè)計(jì)是密切相關(guān)的。聲學(xué)模型單元大小與單詞發(fā)音,音節(jié)模式和音位語音訓(xùn)練數(shù)據(jù)大小有關(guān),故要求其系統(tǒng)識別具有很大的靈活性。大詞匯量語音識別系統(tǒng),通常采用較小的單元和少量的計(jì)算,該模型只有較小的存儲容量,減少訓(xùn)練數(shù)據(jù)的數(shù)量,但相應(yīng)的聲音定位和分割問題就顯得更加困難,規(guī)則識別模型變得越來越復(fù)雜。通常大型模型中識別單元包括協(xié)同發(fā)音,這有利于提高系統(tǒng)的識別率,但訓(xùn)練數(shù)據(jù)也相對增加。必須根據(jù)不同語言的特點(diǎn)來識別詞匯,詞匯量大小決定單位大小。

參考文獻(xiàn)

第8篇

此外,對于超聲科等醫(yī)技科室,由于醫(yī)生工作的特殊性,大多通過“一對一”聘請專業(yè)錄入員的方式提高檢查報(bào)告錄入效率。有些醫(yī)院為了節(jié)約人力,讓醫(yī)生把給病人檢查時(shí)的語音通過錄音設(shè)備錄制下來,后續(xù)通過錄入員測聽音頻文件進(jìn)行轉(zhuǎn)錄,實(shí)現(xiàn)一個(gè)錄入員服務(wù)多個(gè)醫(yī)生,以此在一定程度上節(jié)約人力,但同時(shí)也延長了輸出檢查報(bào)告的時(shí)間。 在電子文本的錄入過程中基于模板填寫具體信息工作量還是比較大的。

另外,模板僅能解決一些常規(guī)情況的描述,如果完全按照模板填寫,對每位患者的情況記錄就缺少了個(gè)性化描述,不利于后續(xù)診斷使用。為提高文本錄入效率,有些醫(yī)生會使用“復(fù)制”、“粘貼”方式,通過在相似患者的病歷上進(jìn)行修改完成病歷記錄,但有漏改、漏刪情況,這種方式在很大程度上增加了病歷記錄的出錯(cuò)率,對醫(yī)療文本錄入的準(zhǔn)確性是一個(gè)比較大的挑戰(zhàn)。

語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用越來越多

語音識別技術(shù)在歐美國家醫(yī)療領(lǐng)域已使用將近10年,主要用于節(jié)約醫(yī)生電子文本錄入的時(shí)間,降低文本錄入工作難度,提高醫(yī)生工作滿意度,讓醫(yī)生把更多時(shí)間和精力用在與患者及家俟低交流、為更多患者診斷等事情上。

美國Nuance公司的英文語音識別技術(shù)及電腦輔助病歷抄寫系統(tǒng),醫(yī)生可使用掌上移動型設(shè)備將病患看診狀況口述下來,存成語音檔案,直接傳送到語音識別服務(wù)器,10小時(shí)的語音可在5分鐘內(nèi)完成轉(zhuǎn)錄,大大縮短音頻文件轉(zhuǎn)錄文本的時(shí)間。皇家飛利浦電子公司推出的面向醫(yī)療領(lǐng)域?qū)崟r(shí)語音識別的專用麥克風(fēng),表面采用符合醫(yī)療專業(yè)要求的防菌抑菌材質(zhì),并定制了針對實(shí)時(shí)語音識別所需的聲學(xué)硬件模塊,使醫(yī)院工作站實(shí)時(shí)語音識別實(shí)現(xiàn)成功應(yīng)用,并已在歐美醫(yī)院成功推廣。在放射科等文本錄入工作量很大的醫(yī)技科室尤其受到歡迎。

從統(tǒng)計(jì)資料看,美國臨床中使用語音識別錄入的應(yīng)用比例已達(dá)到10%~20%,主要用于放射科、病理科、急診室等部門,有效控制電子文本記錄及診斷報(bào)告生成時(shí)間和質(zhì)量,明顯提高工作效率。

語音識別技術(shù)是理想的人機(jī)交互方式之一,它能夠讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。北京協(xié)和醫(yī)院在國內(nèi)首先提出使用語音識別技術(shù)錄入醫(yī)療領(lǐng)域電子文本時(shí),醫(yī)生紛紛表示擔(dān)憂,在國內(nèi)的醫(yī)療中語音識別技術(shù)的使用和推廣面臨以下幾個(gè)難點(diǎn)。

目前國內(nèi)主流的HIS系統(tǒng)已做了大量工作減少醫(yī)生輸入病歷、醫(yī)囑時(shí)的工作量,如提供大量結(jié)構(gòu)化的病歷。醫(yī)生已習(xí)慣這種工作模式。通過語音識別來錄入電子文本,尤其在超聲科、門診等環(huán)節(jié),醫(yī)生需要一個(gè)熟悉過程。

國內(nèi)醫(yī)生的工作環(huán)境較復(fù)雜,口音等問題也較國外更加突出,醫(yī)療特殊單位特殊符號較多,如何保證識別的準(zhǔn)確率,讓醫(yī)生用的更加流暢,也是這個(gè)項(xiàng)目面臨的重要挑戰(zhàn)之一。國內(nèi)移動醫(yī)療的趨勢越來越明顯,基于移動端小屏幕的文本輸入一直是語音識別應(yīng)用致力于解決的問題。如何保障醫(yī)院復(fù)雜環(huán)境下移動端的語音識別效果是需要探討的問題之一。

由于醫(yī)療行業(yè)的專業(yè)性較強(qiáng),每個(gè)學(xué)科差異較大,所使用的信息化系統(tǒng)也比較分散,如影像科使用PACS,內(nèi)科使用HIS等。需要錄入文字的工作量較大,但使用的信息化系統(tǒng)較多,要求提供的語音錄入文本解決方案,需同時(shí)支持多個(gè)信息化系統(tǒng)使用,且最大限度降低與原有系統(tǒng)的耦合性。

以上問題,經(jīng)過為期1年的醫(yī)療領(lǐng)域語音識別應(yīng)用探索和實(shí)踐,都得到較好解決,超過95%的中文醫(yī)療垂直領(lǐng)域語音識別準(zhǔn)確率已達(dá)到實(shí)用水平,中文醫(yī)療語音識別技術(shù)探索應(yīng)用方案得到北京協(xié)和醫(yī)院醫(yī)生認(rèn)可。

北京協(xié)和醫(yī)院語音識別應(yīng)用探索和實(shí)踐

醫(yī)療語音識別技術(shù)的應(yīng)用,能將醫(yī)生口述的語音轉(zhuǎn)成準(zhǔn)確度高、完全格式化的初步文件,醫(yī)生可快速加以核對、編輯,每天可節(jié)約1小時(shí)左右時(shí)間。醫(yī)生普遍認(rèn)為語音錄入病歷可提高文字輸入效率,降低工作難度,從總體上提高醫(yī)院收容處理病人的能力,同時(shí)縮短病人的無效等待時(shí)間,增加病人滿意度。

針對中文醫(yī)療語音識別的技術(shù)難點(diǎn),北京協(xié)和醫(yī)院做了很多探索實(shí)踐工作。

一是定制醫(yī)療領(lǐng)域語言模型:針對各科室業(yè)務(wù)進(jìn)行梳理,整理了超過30G的醫(yī)療文本資料,并對這些資料進(jìn)行分類、檢索等處理。使得定制語音模型覆蓋各個(gè)科室常用的病癥、藥品名稱、操作步驟等關(guān)鍵信息,使語音識別準(zhǔn)確率超過95%的水平。 二是定制個(gè)性化語言模型:不同科室的醫(yī)生在錄入醫(yī)囑時(shí)說的話也不同。北京協(xié)和醫(yī)院語音錄入系統(tǒng)和用戶的賬號系統(tǒng)綁定。醫(yī)生登錄HIS時(shí)會加載所在科室的語言模型,這樣就可以有效降低模型大小,提高識別準(zhǔn)確度。同時(shí)醫(yī)生也可根據(jù)自己的使用習(xí)慣,向系統(tǒng)中添加自己常用的詞匯。 三是一體化私有建設(shè):實(shí)現(xiàn)一套私有化部署的語音云支持多渠道多終端的一體化建設(shè)。除支持HIS、PACS等PC端應(yīng)用,還支持移動查房等pad端應(yīng)用,真正實(shí)現(xiàn)跨平臺的多渠道互聯(lián)互通應(yīng)用,大大降低醫(yī)療信息化建設(shè)成本。 醫(yī)療語音識別系統(tǒng)采用分布式計(jì)算,具有高健壯性、高度靈活性、高性價(jià)比等特點(diǎn),主要包括操作系統(tǒng)層、引擎層、資源包和管理工具4個(gè)層次。操作系統(tǒng)層提供開發(fā)接口,以及開發(fā)人員關(guān)注的接口定義、功能和使用方法;引擎層提供核心的語音處理功能,作為應(yīng)用接口的功能實(shí)現(xiàn)者;在引擎層之上提供覆蓋醫(yī)療領(lǐng)域的資源包,為科室提供語音識別優(yōu)化的功能。同時(shí)系統(tǒng)完美地支持傳統(tǒng)API調(diào)用和手機(jī)APP開發(fā),為醫(yī)院原有信息化系統(tǒng)提供了相關(guān)接口和SDK。

北京協(xié)和醫(yī)院醫(yī)療語音識別應(yīng)用效果初現(xiàn)

據(jù)了解,醫(yī)療語音識別已在北京協(xié)和醫(yī)院病房、醫(yī)技科室、手術(shù)休息區(qū)進(jìn)行了嘗試使用。為更好地測試語音識別效果,北京協(xié)和醫(yī)院組織醫(yī)生進(jìn)行了語音識別系統(tǒng)測試和主觀體驗(yàn),隨機(jī)抽樣了135例樣本進(jìn)行精確統(tǒng)計(jì)。

已上線科室使用醫(yī)療語音識別系統(tǒng)的醫(yī)生表示,該系統(tǒng)的語音識別效果較好,可以有效提高工作效率,降低工作強(qiáng)度,減輕工作量,尤其對長段信息、自由醫(yī)囑錄入的效果明顯。超過50%的大夫認(rèn)為語音識別技術(shù)每天可節(jié)約1小時(shí)左右時(shí)間。超過90%的大夫希望使用語音錄入方式,以提高工作效率。

第9篇

關(guān)鍵詞:英語口語;語音識別;英文朗讀;評分機(jī)制

語音識別技術(shù)使人與機(jī)器的交流成為現(xiàn)實(shí),它開創(chuàng)了口語移動學(xué)習(xí)的全新教育方式,受到越來越多的關(guān)注。借助互聯(lián)網(wǎng),移動學(xué)習(xí)以其學(xué)習(xí)時(shí)間靈活,學(xué)習(xí)內(nèi)容豐富、精煉且片段化等特點(diǎn),開辟了學(xué)習(xí)的新理念,讓口語學(xué)習(xí)真正擺脫了時(shí)間和空間的限制,使任何人在任何時(shí)間、任何地點(diǎn)根據(jù)需要進(jìn)行自主學(xué)習(xí)成為可能。目前,已有的基于PC的智能英語學(xué)習(xí)軟件,能提供基于計(jì)算機(jī)的輔助技術(shù),讓學(xué)習(xí)者及時(shí)得到發(fā)音質(zhì)量評分的智能化功能,但是基于手機(jī)端的口語學(xué)習(xí)應(yīng)用不多。

本終端是一款基于Android系統(tǒng)開發(fā)的,進(jìn)行英語口語學(xué)習(xí)的安卓語音軟件。產(chǎn)品結(jié)合Google語音識別技術(shù),使用GPRS或WiFi進(jìn)行移動終端與Google云服務(wù)端之間的數(shù)據(jù)交流,并通過對語音識別結(jié)果的處理,最終設(shè)計(jì)成一個(gè)可以進(jìn)行英語口語專線訓(xùn)練和自主訓(xùn)練的應(yīng)用Oral Storm。

1 研究基礎(chǔ)

Android平臺自底層向上由四個(gè)層次組成:Linux內(nèi)核層、Android運(yùn)行時(shí)庫與其他庫層、應(yīng)用框架層、應(yīng)用程序?qū)印K捎密浖褜樱╯oftware stack),又名軟件疊層的構(gòu)架,主要分為3部分:底層以Linux內(nèi)核工作為基礎(chǔ),由C語言開發(fā),只提供基本功能;中間層包括函數(shù)庫Library和虛擬機(jī)(virtual machine),用C++開發(fā),最上層是各種應(yīng)用軟件。

2 應(yīng)用架構(gòu)及功能說明

專項(xiàng)訓(xùn)練模塊主要是對英語口語比較重要的四個(gè)發(fā)音類別進(jìn)行系統(tǒng)訓(xùn)練,這4個(gè)發(fā)音類別分別是清輔音、濁輔音、摩擦音和爆破音。在進(jìn)入訓(xùn)練界面之前,有對各類發(fā)音方法和技巧的介紹,利于用戶方便快速地學(xué)習(xí)口語的正確發(fā)音。我們將每種發(fā)音訓(xùn)練模式中的單詞都分成10個(gè)小組,這些單詞都是由學(xué)校專業(yè)英語教師挑選的有代表性的詞,適合用于英語口語基礎(chǔ)訓(xùn)練。用戶在進(jìn)行完每個(gè)小組的單詞訓(xùn)練后,系統(tǒng)都會對用戶的發(fā)音作出評價(jià)和打分,對經(jīng)常出現(xiàn)發(fā)音錯(cuò)誤的單詞,用戶可以選擇保存,用于以后專門的訓(xùn)練。

自主學(xué)習(xí)模塊是用戶根據(jù)自身實(shí)際需求進(jìn)行訓(xùn)練的板塊。用戶先輸入想要訓(xùn)練的單詞或語句,如果不知道如何發(fā)音,可以求助于應(yīng)用中的英文朗讀功能。英文朗讀功能是將文本轉(zhuǎn)換成語音信號,幫助用戶輕松方便地學(xué)習(xí)每一個(gè)英語發(fā)音。用戶還可以選擇性地保存輸入的學(xué)習(xí)內(nèi)容,方便以后復(fù)習(xí)使用。

總之,專項(xiàng)訓(xùn)練模塊針對學(xué)生英語學(xué)習(xí)中的四大類發(fā)音難題設(shè)計(jì),通過專題式的學(xué)習(xí)、測試和智能評分,給用戶提供隨身的英語單詞學(xué)習(xí)和測試環(huán)境;自主訓(xùn)練模塊則專注于為用戶提供可定制的英語單詞學(xué)習(xí)專題,通過學(xué)習(xí)內(nèi)容的自定義給用戶最大限度的學(xué)習(xí)自由度。

3 研究技術(shù)

應(yīng)用功能的實(shí)現(xiàn)主要使用了兩大技術(shù),獲取語音識別技術(shù)和語音合成技術(shù)。

3.1 獲取語音識別技術(shù)

單詞發(fā)音練習(xí)需要使用Google語音搜索服務(wù),因此必須判斷當(dāng)前用戶手機(jī)是否支持該服務(wù),所采用的方法是通過queryIntentActivities()方法,查詢Android系統(tǒng)所有具備RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的應(yīng)用程序,點(diǎn)擊后能啟動該應(yīng)用。

在Android語音識別應(yīng)用研究與開發(fā)的同時(shí),Google語音服務(wù)需要網(wǎng)絡(luò)支持,所以也需要判斷當(dāng)前用戶的網(wǎng)絡(luò)連接狀況,在類中寫一方法check--NetWorkStatus()引用ConnectivityManager cwjManager來判斷網(wǎng)絡(luò)是否連接正常。

3.2 語音合成技術(shù)

語音合成技術(shù),是一種將文本轉(zhuǎn)換為語音輸出的技術(shù),其主要工作是將文本按字或詞分解為音素,然后將音素生成的數(shù)字音頻用揚(yáng)聲器播放或者保存為聲音文件,然后通過多媒體軟件播放。

Android手機(jī)平臺,綁定了英文語音引擎,對英文語音提供內(nèi)置的支持。要將文本轉(zhuǎn)換為語音,首先要檢查TTS數(shù)據(jù)可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回結(jié)果為真,表明TTSEngine可以使用。除此之外,還有語音數(shù)據(jù)損壞和缺少發(fā)音數(shù)據(jù)等原因?qū)е耇TSEngine不能使用,這些因素都要考慮。之后是初始化TTS接口,這部分要設(shè)置發(fā)音語言引擎setLanguage(Locale.US)、發(fā)音音量Len(Volume)等。在這個(gè)過程中,還需要檢測設(shè)置的發(fā)音語言類型是否可用。

4 結(jié)束語

我們開發(fā)的口語學(xué)習(xí)軟件Oral Storm,可為訓(xùn)練單詞發(fā)音提供專業(yè)、智能及終端化的一體化學(xué)習(xí)和測試環(huán)境,專題分類科學(xué)、全面,涵蓋了爆破音、摩擦音等發(fā)音難點(diǎn),可在專題學(xué)習(xí)后提供智能評分和語音糾正。用戶使用這款應(yīng)用,可以方便快速地學(xué)習(xí)英語口語的正確發(fā)音。

參考文獻(xiàn)

[1] 邢銘生,朱浩,王宏斌.語音識別技術(shù)綜述[J].科協(xié)論壇:下半月,2010(3):62-63.

[2] 詹青龍,張靜然,邵銀娟.移動學(xué)習(xí)的理論研究和實(shí)踐探索[J].中國電化教育,2010(3):1-7.

[3] 周麗嫻,梁昌銀,沈澤.Android語音識別應(yīng)用的研究與開發(fā)[J].廣東通信技術(shù),2013,33(4):15-18.

[4] 涂惠燕,陳一寧.基于語音識別和手機(jī)平臺的英語口語發(fā)音學(xué)習(xí)系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(9):64-66.

相關(guān)文章
相關(guān)期刊
主站蜘蛛池模板: 在线91 | 亚洲天堂一区二区 | 高潮毛片又色又爽免费 | 免费在线黄色av | youjizz国产 | 国产精品视频久久 | 福利精品在线观看 | 久久久久久一区 | 久久激情综合 | 一本一道久久a久久精品综合 | 日本妇人成熟免费视频 | 在线中文字幕av | 九色一区二区 | 午夜免费小视频 | 黄色高清网站 | 亚洲免费精品 | 国产精品大全 | 国产精品久久久久久亚洲调教 | 欧美日韩免费一区二区三区 | 蜜桃在线视频 | 黄色高清视频在线观看 | 99久久免费看视频 | 日韩一区二区在线电影 | 欧美日韩综合视频 | 妞干网视频 | 欧美成人精品一区二区男人看 | 欧美一性一交 | 一区在线观看视频 | 欧美一级片在线 | 日韩免费一级 | 久久蜜桃av一区二区天堂 | 久在线 | 91污视频软件 | 日本久久精品视频 | 日韩欧美在线视频播放 | 亚洲精品成人悠悠色影视 | 日韩在线观看视频免费 | 亚洲精品在线播放 | 欧美一二| 亚洲欧美中文日韩v在线观看 | 亚洲免费视频网站 |