核心提示：

摘要：為了降低語(yǔ)音識(shí)別系統(tǒng)中噪聲的影響，提出一種利用隱空間投影算法的模型自適應(yīng)方法。該方法利用狀態(tài)間的相關(guān)性提取出反映碼本和待識(shí)別語(yǔ)音共同特性的基矢量。由于語(yǔ)音與噪聲是相互獨(dú)立的，因此，當(dāng)語(yǔ)音識(shí)別系統(tǒng)中有噪聲存在時(shí)，認(rèn)為不能用基矢量表示的那部分余量就是噪聲。與本征音方法相比，該方法可以有效地降低噪聲對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響。該方法在提取基矢量時(shí)利用了自適應(yīng)教據(jù)，并且節(jié)省了存儲(chǔ)空間。實(shí)驗(yàn)結(jié)果表明：該方法在噪聲環(huán)境下相對(duì)于最大似然線性回歸自適應(yīng)方法有4～9百分點(diǎn)的提高，相對(duì)于最大后驗(yàn)概率和本征音方法有更大的提高。
關(guān)鍵詞：信息處理；說話人自適應(yīng)；隱空間投影；空間相關(guān)性

    語(yǔ)音識(shí)別技術(shù)近些年來取得了很大的進(jìn)展，得到了廣泛的應(yīng)用，但是，穩(wěn)健性問題仍然是語(yǔ)音識(shí)別中一個(gè)嚴(yán)重的問題。所謂的穩(wěn)健性是指語(yǔ)音識(shí)別系統(tǒng)在各種條件下都能保持較高識(shí)別率的這樣一種性質(zhì)，穩(wěn)健性問題的解決將是推動(dòng)語(yǔ)音識(shí)別技術(shù)實(shí)用化的一個(gè)關(guān)鍵因素。模型自適應(yīng)是一種解決穩(wěn)健性問題比較有效的方法，通過利用少量的待識(shí)別語(yǔ)音更新碼本，使得自適應(yīng)后的碼本更接近于待識(shí)別的語(yǔ)音的特性，同時(shí)使得自適應(yīng)后的碼本更接近于識(shí)別環(huán)境。
    聲學(xué)碼本的各個(gè)狀態(tài)之間是相互關(guān)聯(lián)的，某些狀態(tài)間存在著很強(qiáng)的相關(guān)性，這種相關(guān)性被稱為“空間相關(guān)性。由于噪聲與語(yǔ)音信號(hào)是統(tǒng)計(jì)獨(dú)立的，語(yǔ)音信號(hào)的相關(guān)性是噪聲所不具備的，因此，可以利用語(yǔ)音信號(hào)的空間相關(guān)性提高語(yǔ)音識(shí)別系統(tǒng)的穩(wěn)健性。
    為了減弱噪聲對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響，本文提出了一種利用隱空間投影projection to latentstructure(PLS)的模型自適應(yīng)方法，該方法利用聲學(xué)狀態(tài)間的相關(guān)性，通過模型自適應(yīng)降低噪聲對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響。
    目前比較有效的自適應(yīng)技術(shù)有最大似然線性回歸(maximum likelihood linear regression，MLLR)、最大后驗(yàn)概率(maximum a posterior，MAP)和本征音(eigenvoice，EV)等幾種，MLLR利用期望值最大(expectation maximization，EM)算法使得自適應(yīng)數(shù)據(jù)的似然值最大，MAP利用最大后驗(yàn)概率更新當(dāng)前碼本參數(shù)。EV算法利用主分量分析(principal componentanalysis，PCA)來提取出一組基，用這組基來表示碼本的性質(zhì)，由于碼本的狀態(tài)間存在著相關(guān)性，因此，可以用較少的基來表示碼本的特性，然后根據(jù)待識(shí)別說話人的特性調(diào)整各個(gè)基的系數(shù);但是，由于這些基是從訓(xùn)練數(shù)據(jù)中提取出來的，當(dāng)碼本訓(xùn)練數(shù)據(jù)有限時(shí)，它可能不能充分地反映待識(shí)別的說話人的特性，或者說待識(shí)別說話人與碼本之間的相關(guān)性。PLS方法則可以解決這個(gè)問題，它與EV算法的主要區(qū)別在于，PLS方法在提取基矢量的過程中利用了待識(shí)別的說話人數(shù)據(jù)。由于噪聲與語(yǔ)音是統(tǒng)計(jì)獨(dú)立的，因此，可以認(rèn)為待識(shí)別說話人數(shù)據(jù)中不能用這組基線性表示的余量就是噪聲。

1 PLS模型自適應(yīng)
如果用X表示碼本，Y表示待識(shí)別語(yǔ)音(來自同一說話人)，PLS模型則要尋找一組基矢量ti，這組基矢量既可以用來表示X，也可以用來表示Y，即X和Y均表示成隱變量ti的線性變換。當(dāng)有噪聲存在時(shí)，不能用基矢量的線性組合表示的那部分語(yǔ)音就是噪聲。表示如下：

其中：X是K×N維矩陣;Y是K×M維矩陣，K表示特征維數(shù)，N表示碼本狀態(tài)個(gè)數(shù)，M表示說話人統(tǒng)計(jì)量包含的狀態(tài)數(shù)目(M≤N);ti是K×1維的列矢量，ti的個(gè)數(shù)用A來表示，即i=1，2，…，A；pi是N×1維的列矢量；ri是M×1維的列矢量。這里的pi和ri分別表示ti在X中及Y中的權(quán)重，矩陣E和F表示預(yù)測(cè)誤差矩陣，那么噪聲就表示為誤差矩陣F。

1．1 基向量的求解
假設(shè)從兩組變量中分別提取成分t和u，t是自變量X的一個(gè)線性變換t=Xw，u是因變量X的一個(gè)線性變換u=Yv。
欲使得t和u的相關(guān)程度達(dá)到最大，即可以通過讓t和u的內(nèi)積最大來實(shí)現(xiàn)，即一個(gè)條件極值問題:

利用Langrange乘數(shù)法，可知當(dāng)t是矩陣的最大特征值對(duì)應(yīng)的特征向量時(shí)，u是矩陣的最大特征值對(duì)應(yīng)的特征向量時(shí)，t和u的相關(guān)程度達(dá)到最大。

1．2 PLS說話人自適應(yīng)算法計(jì)算步驟
    根據(jù)上面給出的基向量求解方法，可以給出下面的PLS說話人自適應(yīng)算法的計(jì)算步驟。
    步驟l變量去均值歸一化處理，X和Y的各個(gè)分量都要去均值歸一化，設(shè)Xo和Yo分別表示經(jīng)過歸一化和去均值處理后的矩陣。
    下面用Xi、Yi、ti、pi、ri分別表示第i次迭代得到的自變量、因變量、基矢量、自變量系數(shù)、因變量系數(shù)，其中i=1，2，…，A，A表示基矢量的個(gè)數(shù)。
    步驟2 又分為3步。

步驟3 利用Yi更新碼本中相應(yīng)狀態(tài)的均值。
與EV算法相比，PLS利用了待識(shí)別說話人的數(shù)據(jù)提取基矢量，因此，它所提取出的基矢量能反映待識(shí)別的說話人的特性，可以用于說話人自適應(yīng)。此外，當(dāng)待識(shí)別的語(yǔ)音中含有噪聲時(shí)，由于這組基也是反映碼本特性

亚洲中文字幕在线一区二区三区|精品在免费线中文字幕久久|成人精品一区二区三区电影免费|中文字幕av一区中文字幕

利用隱空間投影算法的模型自適應(yīng)方法