專利名稱:漢語(yǔ)連續(xù)語(yǔ)音識(shí)別的集成預(yù)測(cè)搜索方法
漢語(yǔ)連續(xù)語(yǔ)音識(shí)別的集成預(yù)測(cè)搜索方法屬自動(dòng)語(yǔ)音識(shí)別領(lǐng)域,其基本特征在于把帶調(diào)三音子模型和三元詞的統(tǒng)計(jì)語(yǔ)言模型一次性地進(jìn)行集成搜索,并在解碼過(guò)程中進(jìn)行三元詞語(yǔ)言模型的預(yù)測(cè)。本發(fā)明涉及詞庫(kù)的組織、預(yù)測(cè)語(yǔ)言模型的檢索、局部搜索路徑的裁減方面的問題。
目前語(yǔ)音識(shí)別比較成功的做法是基于統(tǒng)計(jì)模型,其基本特性就是有一些可以調(diào)整的參數(shù),并且這些參數(shù)可以從觀察數(shù)據(jù)中直接推斷出來(lái)。假設(shè)A表示識(shí)別器將要解碼的聲學(xué)觀察數(shù)據(jù),W表示可能的單詞系列,P(W/A)表示給定觀察A,單詞系列W被說(shuō)出的概率,由統(tǒng)計(jì)決策,識(shí)別器應(yīng)該根據(jù)下式作出決定 所以,公式1)可以進(jìn)一步寫成 其中P(W)是單詞串W被說(shuō)出的概率,P(A|W)是假設(shè)說(shuō)出的單詞串是W情況下觀察到數(shù)據(jù)A的概率,識(shí)別系統(tǒng)可以
圖1得到說(shuō)明,識(shí)別器包括前端處理、聲學(xué)模型P(A|W)、語(yǔ)言模型P(W)和搜索算法。搜索算法就是要在聲學(xué)模型、語(yǔ)言模型和聲學(xué)特征序列的條件下,找到具有最大概率的詞序列 ,基本搜索算法主要有時(shí)間同步的Viterbi-beam搜索和深度優(yōu)先的A*搜索算法。經(jīng)過(guò)多年研究努力,為減少搜索的巨大計(jì)算量,出現(xiàn)了以多遍搜索(Multi-Pass)為代表的連續(xù)語(yǔ)音識(shí)別搜索框架。這些框架的一個(gè)基本思想就是逐漸加入高級(jí)的聲學(xué)模型知識(shí)和語(yǔ)言模型知識(shí),利用前一遍的搜索結(jié)果來(lái)啟發(fā)加快后一遍的搜索過(guò)程。多遍搜索框架根據(jù)中間結(jié)果的輸出可以分為兩類第一類一般直接輸出N個(gè)概率得分最高的句子(N-Best),第二類產(chǎn)生一個(gè)中間詞圖作為下一遍搜索的語(yǔ)法。事實(shí)上N-Best的句子本身也可從詞圖中產(chǎn)生,詞圖可以認(rèn)為是N-Best算法的一個(gè)中間結(jié)果,它們的關(guān)系如圖2所示。
從基本搜索算法來(lái)看,時(shí)間幀同步搜索在語(yǔ)音識(shí)別中被廣泛采用,其實(shí)質(zhì)上是一個(gè)基于Viterbi Beam搜索的動(dòng)態(tài)規(guī)劃技術(shù),可以看作是時(shí)間一模型狀態(tài)網(wǎng)格上的推進(jìn)過(guò)程。假如幀同步搜索算法處理到了t時(shí)刻,此時(shí)對(duì)應(yīng)的子觀測(cè)序列為Y1Y2…Yt,此時(shí)該子路徑W1所處的基元模型和基元內(nèi)部的狀態(tài)節(jié)點(diǎn)分別為λt和st,則子路徑的得分可以定義為Pr(Wl)=∏Prob(Yi|λt,st,Wl)(公式3)在公式3)中,t+1時(shí)刻的擴(kuò)展方式受語(yǔ)法的約束在HMM內(nèi)部,St受HMM拓?fù)浣Y(jié)構(gòu)的約束,λt的擴(kuò)展受詞庫(kù)的約束,而詞之間W1的擴(kuò)展則受語(yǔ)言模型的約束。其中漢語(yǔ)連續(xù)語(yǔ)音識(shí)別中最基本的約束是詞庫(kù),搜索范圍以及詞與詞之間的關(guān)聯(lián)即語(yǔ)言模型也依賴于詞庫(kù)。詞庫(kù)一般采用如圖4所示的樹狀組織形式,在這個(gè)圖中,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)表示一條路徑,該路徑的葉節(jié)點(diǎn)對(duì)應(yīng)一組同音詞(如圖4中“按”和“暗”)。通過(guò)這種表示形式,可以充分地共享詞庫(kù)中共同的起始部分,減少搜索的路徑數(shù),提高搜索效率。
詞庫(kù)按照?qǐng)D4所示進(jìn)行數(shù)據(jù)組織。若搜索過(guò)程中的一條局部路徑i由Path(i)={W1,W2,n,s...}表示,在這兒,W1,W2表示該條路徑的前面兩個(gè)歷史詞,n表示當(dāng)前路徑在樹中的節(jié)點(diǎn)號(hào),s表示當(dāng)前路徑在節(jié)點(diǎn)n中的HMM的所處的狀態(tài)。則當(dāng)狀態(tài)s是HMM的最后一個(gè)狀態(tài)時(shí),該條路徑就要從節(jié)點(diǎn)n跳躍到n的擴(kuò)展節(jié)點(diǎn)中去。如圖7所示。假設(shè)m是節(jié)點(diǎn)n的其中一個(gè)擴(kuò)展節(jié)點(diǎn),則當(dāng)從節(jié)點(diǎn)n擴(kuò)展到m時(shí),從路徑i變成路徑j(luò),由于從節(jié)點(diǎn)n跳到節(jié)點(diǎn)m,該路徑還沒有到達(dá)葉節(jié)點(diǎn),所以其詞的身份尚未確定,因而其語(yǔ)言概率不變,同時(shí)該躍遷不占用聲學(xué)時(shí)間,因而其聲學(xué)得分也沒有改變,所以總體得分沒有改變,即Prob(Pathj)=Prob(Pathi)。這種樹狀搜索擴(kuò)展方法,系統(tǒng)搜索點(diǎn)只有到了樹的葉節(jié)點(diǎn)時(shí)才能確定這個(gè)詞的詞號(hào),語(yǔ)言知識(shí)加入有很大的延遲,從而造成不可恢復(fù)的錯(cuò)誤。同時(shí)由于路徑之間得分差異不大,甚至有些完全相同,造成裁減困難。
另外在搜索過(guò)程中,大部分路徑的得分非常低。保留這些得分較低的路徑在空間和時(shí)間上是不現(xiàn)實(shí)的,也是不必要的。因而我們可以在幀同步搜索過(guò)程中動(dòng)態(tài)地對(duì)路徑進(jìn)行剪枝,拋棄希望不大的路徑。在所有擴(kuò)展的N條路徑中,當(dāng)前最優(yōu)路徑表示為WM=argmax(Pr(Wl))其中l(wèi)<=N (公式4)可以通過(guò)設(shè)定一個(gè)門限BEAM,所有得分在Pr(WM)與BEAM*Pr(WM)之間的路徑將得到保留,進(jìn)行下一步擴(kuò)展,并刪除其余路徑。這樣BEAM SEARCH將搜索量大大減少(大概只有Beam*輸入觀測(cè)矢量序列長(zhǎng)度的數(shù)量級(jí))。在傳統(tǒng)的裁減策略中,一般采用單門限策略,即如果一條路徑的概率P<=Beam*Pr(WM),則該局部路徑就被裁減掉。但是由于在搜索過(guò)程中,路徑動(dòng)態(tài)的得分是在不斷變化的,裁減太多,會(huì)帶來(lái)比較多的搜索錯(cuò)誤;裁減太少,又影響識(shí)別速度。最直接的辦法是控制路徑的個(gè)數(shù),但這需要對(duì)所有路徑進(jìn)行排序等操作,會(huì)帶來(lái)更多的計(jì)算量。
本發(fā)明的目的在于充分利用強(qiáng)大的帶調(diào)三音子聲學(xué)模型和三元詞語(yǔ)言模型,一次性地搜索出一個(gè)最優(yōu)的結(jié)果,克服多遍搜索框架中普遍存在問題,如多遍搜索問題1)不能把所有知識(shí)源一起組織進(jìn)行解碼,所以其算法不是最優(yōu)的,并且錯(cuò)誤是傳播和擴(kuò)大的;多遍搜索問題2)在前面預(yù)搜索中采用比較簡(jiǎn)單的聲學(xué)模型和語(yǔ)言模型,帶來(lái)的錯(cuò)誤可能性比較大。
本發(fā)明的另外目的在于通過(guò)對(duì)詞庫(kù)組織的設(shè)計(jì),使得語(yǔ)言的預(yù)測(cè)成為可能,而不需要達(dá)到根節(jié)點(diǎn)后才能加入語(yǔ)言概率,加快搜索速度。
本發(fā)明的概念說(shuō)明如圖3所示意。在這個(gè)搜索框架中,核心還是一個(gè)時(shí)間同步的幀搜索算法,其輸入包括搜索詞庫(kù),統(tǒng)計(jì)三元語(yǔ)言模型,帶調(diào)三音子模型、語(yǔ)言預(yù)測(cè)以及語(yǔ)音識(shí)別特征流。對(duì)比圖2可以看到相比于圖2的框架,圖3沒有中間結(jié)果的輸出;同時(shí)在圖2中需要多套聲學(xué)模型和語(yǔ)言模型,前面用簡(jiǎn)單的模型,后面再用復(fù)雜的模型,而圖3則直接應(yīng)用最高級(jí)的聲學(xué)模型和語(yǔ)言模型。在這個(gè)框架中,聲學(xué)模型的輸入是直接的帶調(diào)三音子模型。本發(fā)明的技術(shù)要點(diǎn)如下1.搜索裁減的多門限策略多門限裁減示意圖如圖6所示。設(shè)定n個(gè)門限P0,P1,P2,...,Pn,這兒P0為當(dāng)前時(shí)間點(diǎn)路徑中的最大概率值。算法如下a)判斷某一條路徑所落的得分區(qū)間,即如果Pi=<P>=Pi+1,則該條路徑認(rèn)為落在第i個(gè)區(qū)間;該區(qū)間路徑個(gè)數(shù)計(jì)數(shù)器加1,即Ci++;Si=Σj=1iCj]]>b)對(duì)于i=1,...,N,計(jì)算Si。找到滿足Si>=CountThread的最小i,則裁減門限就為Pi。c)根據(jù)Pi門限裁減路徑。
通過(guò)上述過(guò)程就能比較準(zhǔn)確地控制需要擴(kuò)展的路徑數(shù)。這些門限經(jīng)驗(yàn)值的設(shè)計(jì)可以通過(guò)統(tǒng)計(jì)而得到。2.詞庫(kù)組織需要充分運(yùn)用語(yǔ)言模型的知識(shí)進(jìn)行路徑得分的預(yù)測(cè)。因而本發(fā)明特別加入了另外一個(gè)信息,即從某節(jié)點(diǎn)n開始擴(kuò)展可以到達(dá)的葉節(jié)點(diǎn)的集合,即詞的集合。在靠近根節(jié)點(diǎn)的前層節(jié)點(diǎn)中,每一個(gè)節(jié)點(diǎn)可以延伸的葉節(jié)點(diǎn)和詞的集合是相當(dāng)大的,直接記錄這個(gè)集合是不現(xiàn)實(shí)的。在本發(fā)明中,對(duì)原有詞庫(kù)中的詞進(jìn)行重新編號(hào),編號(hào)的原則是把詞庫(kù)同詞庫(kù)樹葉節(jié)點(diǎn)所對(duì)應(yīng)的詞排列次序一致。利用該排序,就可以采用非常緊湊的結(jié)構(gòu)對(duì)此加以描述,即記錄該節(jié)點(diǎn)所接詞集合中的第一個(gè)詞與最后一個(gè)詞編號(hào)就可。所以每個(gè)節(jié)點(diǎn)都有一個(gè)Wx和Wy。如圖7所示。顯然若節(jié)點(diǎn)m是由節(jié)點(diǎn)n擴(kuò)展,則必有Wmx<=Wnx<=Wny<=Wmy(公式5)如上所述,韻母的模型編號(hào)依賴于左右邊的聲母,左二右二的韻母聲調(diào),和本身的聲調(diào)。這樣在搜索時(shí),當(dāng)擴(kuò)展一個(gè)韻母時(shí),由于左邊的上下文信息已經(jīng)知道,但右邊的上下文信息是未知的,所以必須進(jìn)行預(yù)擴(kuò)展。根據(jù)上述,實(shí)際上需要預(yù)擴(kuò)展后面兩層節(jié)點(diǎn),這樣造成路徑數(shù)的急劇膨脹。在本詞樹構(gòu)造中,把韻母的聲調(diào)信息附在同一音節(jié)的相應(yīng)聲母上,這樣使得在搜索過(guò)程中只需要預(yù)擴(kuò)展一層節(jié)點(diǎn),如圖5所示。3.語(yǔ)言模型預(yù)測(cè)改進(jìn)的算法就是在搜索過(guò)程中在樹節(jié)點(diǎn)擴(kuò)展的任一點(diǎn)都可以加大量的時(shí)間。在此種情況下從路徑i擴(kuò)展到路徑j(luò)的概率得分計(jì)算變?yōu)镻rob(Pathj)=[Prob(Pathi)-ProbLm(W1,W2,n)]+ProbLm(W1,W2,m);(公式6)在上述公式6中,ProbLm(W1,W2,n)表示從節(jié)點(diǎn)n出發(fā)的所有詞中與W1,2三元連接最大的概率。即ProbLm(W1,W2,n)=MaxProb(W1,W2,W3),(式7)這兒W3為所有從節(jié)點(diǎn)n出發(fā)可以到達(dá)的詞。公式7的要點(diǎn)在于每擴(kuò)展一個(gè)新的節(jié)點(diǎn),就把最逼近的語(yǔ)言概率加入到路徑中,從而提前把語(yǔ)言概率的有關(guān)信息加入到搜索中,提高搜索速度和識(shí)別準(zhǔn)確率。4.預(yù)測(cè)概率檢索上述ProbLm(W1,W2,m)的檢索在連續(xù)語(yǔ)音識(shí)別中大概需要占用20%的時(shí)間。而通過(guò)大量的觀察,發(fā)現(xiàn)在某一段時(shí)間里,函數(shù)ProbLm(W1,W2,m)檢索過(guò)程W1,W2,m參數(shù)重復(fù)的機(jī)率非常之大,這種重復(fù)可由圖8給以解釋假設(shè)在某個(gè)時(shí)間點(diǎn)t,有5條路徑,其所處詞樹節(jié)點(diǎn)n相同,歷史詞w1,w2也相同,只是所處HMM狀態(tài)不同,即分別處于狀態(tài)0,1,2,3,4。顯然在時(shí)間t,處于狀態(tài)4的路徑要擴(kuò)展到下一個(gè)節(jié)點(diǎn)m。則需要檢索ProbLm(w1,w2,m)。則在時(shí)間t+1所處在s=3的路徑要跳躍到狀態(tài)4,并進(jìn)一步擴(kuò)展到節(jié)點(diǎn)m也需要檢索同樣的概率。T+2時(shí)處在節(jié)點(diǎn)2的原路徑同樣要擴(kuò)展到節(jié)點(diǎn)m。
另外可以發(fā)現(xiàn),路徑皆是通過(guò)父節(jié)點(diǎn)擴(kuò)展而來(lái)的,而前面父節(jié)點(diǎn)n出發(fā)最大的三元語(yǔ)言概率的詞可能剛好落在本節(jié)點(diǎn)m所擴(kuò)展的范圍內(nèi),此時(shí)ProbLm(W1,W2,m)=ProbLm(W1,W2,n),如Wnx<=Wmx<=W3<=Wmy<=Wny基于上述觀察,設(shè)立了一個(gè)概率緩沖區(qū),該緩沖區(qū)每一項(xiàng)由四個(gè)主要元素組成ProbBuffer={W1,W2,W3,n,MaxLm}。在搜索過(guò)程中,需要調(diào)用ProbLm函數(shù)時(shí),可在緩沖區(qū)檢索首先進(jìn)行檢索1)如果W1,W2,m在緩沖區(qū)中找到,則直接輸出MaxLm2)如果W1,W2,m在緩沖區(qū)中找不到,但在緩沖區(qū)中可以找到W1,W2,n,其中n是m的父節(jié)點(diǎn),而且滿足Wmx<=W3<=Wmy,則直接輸出MaxLm3)否則直接去語(yǔ)言模型檢索ProbLm本發(fā)明的優(yōu)點(diǎn)在于針對(duì)上述搜索算法的缺點(diǎn)特別是針對(duì)漢語(yǔ)中需要額外集成漢語(yǔ)的聲調(diào)這種超音段信息需求出發(fā),把連續(xù)語(yǔ)音識(shí)別所必須的各種輸入如語(yǔ)音聲學(xué)特征序列、詞庫(kù)、聲學(xué)模型和語(yǔ)言模型進(jìn)行一次性處理,得出一條概率意義上最優(yōu)的詞序列的識(shí)別方法能夠充分有效地利用所有可以利用的知識(shí)源,從而最大限度地減少搜索錯(cuò)誤,提高搜索效率。
特別強(qiáng)調(diào)的是,上述發(fā)明說(shuō)明雖然是在漢語(yǔ)連續(xù)語(yǔ)音識(shí)別一次性搜索框架下實(shí)現(xiàn),但原理以及算法適合于任何語(yǔ)音識(shí)別的搜索問題。
其中測(cè)試庫(kù)采用國(guó)家“863”標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)庫(kù),該庫(kù)由6男6女發(fā)音組成,每人發(fā)音40句,共480句句子,句子選自《人民日?qǐng)?bào)》,采用本搜索算法后識(shí)別率提高6%之多,而識(shí)別速度則基本相當(dāng)。2.在人機(jī)對(duì)話系統(tǒng)中的應(yīng)用現(xiàn)已完成的應(yīng)用領(lǐng)域包括旅游信息咨詢系統(tǒng)LoadStar;旅館預(yù)定系統(tǒng)以及餐館翻譯幫助系統(tǒng),通過(guò)替換詞表,替換語(yǔ)言模型本發(fā)明就可以非常簡(jiǎn)單地進(jìn)行不同任務(wù)領(lǐng)域的系統(tǒng)移植,也可說(shuō)明本發(fā)明同具體應(yīng)用領(lǐng)域、詞表和語(yǔ)言模型等無(wú)關(guān)。系統(tǒng)由語(yǔ)音識(shí)別、語(yǔ)言理解、對(duì)話管理、語(yǔ)言響應(yīng)生成、語(yǔ)音合成等五大模塊組成。其中語(yǔ)音識(shí)別模塊內(nèi)含采用本發(fā)明而實(shí)現(xiàn)的算法。
權(quán)利要求
1.一種漢語(yǔ)連續(xù)語(yǔ)音識(shí)別的集成預(yù)測(cè)搜索方法,其特征在于把帶調(diào)三音子模型和三元詞的統(tǒng)計(jì)語(yǔ)言模型一次性地進(jìn)行集成搜索,并在解碼過(guò)程中進(jìn)行語(yǔ)言模型的預(yù)測(cè);搜索的核心算法采用時(shí)間幀同步多門限裁減搜索,在搜索過(guò)程中利用詞庫(kù)的特殊結(jié)構(gòu)和三元統(tǒng)計(jì)模型進(jìn)行預(yù)測(cè)語(yǔ)言模型的檢索。
2.根據(jù)權(quán)利要求1所述的一種漢語(yǔ)連續(xù)語(yǔ)音的集成預(yù)測(cè)搜索算法,其特征在于搜索詞庫(kù)按樹狀組織并具有以下結(jié)構(gòu)特征1)對(duì)詞庫(kù)中的詞進(jìn)行編號(hào),編號(hào)的原則是詞庫(kù)編號(hào)與按樹狀組織后樹葉節(jié)點(diǎn)所對(duì)應(yīng)的詞的排列順序一致;2)樹狀組織的詞庫(kù),其每個(gè)代表模型的節(jié)點(diǎn)含有兩個(gè)詞的編號(hào)(Wx,Wy),表示從該節(jié)點(diǎn)出發(fā)可以擴(kuò)展的詞的范圍;3)若節(jié)點(diǎn)m是由節(jié)點(diǎn)n擴(kuò)展而得到,則必有Wmx<=Wnx<=Wny<=Wmy。
3.根據(jù)權(quán)利要求1、2所述的一種漢語(yǔ)連續(xù)語(yǔ)音集成搜索方法,其特征在于其聲學(xué)模型采用了帶調(diào)的三音子模型,帶調(diào)三音子韻母模型的模型不但依賴于左、右邊的聲母而且依賴于左二右二的韻母聲調(diào)和本身的聲調(diào),因而在詞庫(kù)的樹狀組織中加入聲調(diào)信息;通過(guò)把韻母的聲調(diào)信息附在同一音節(jié)的相應(yīng)聲母上,相應(yīng)地使得在搜索過(guò)程中只需要預(yù)擴(kuò)展一層節(jié)點(diǎn)。
4.根據(jù)權(quán)利要求1所述的一種漢語(yǔ)連續(xù)語(yǔ)音集成搜索方法,其特征在于采用了一種多門限的束搜索;設(shè)定n個(gè)門限P0,P1,P2,...,Pn,算法如下a)判斷某一條路徑所落的得分區(qū)間,即如果Pi=<P>=Pi+1,則該條路徑認(rèn)為落在第i個(gè)區(qū)間;該區(qū)間路徑個(gè)數(shù)計(jì)數(shù)器加1,即Ci++;Si=Σj=1iCj]]>b)對(duì)于i=1,...,N,計(jì)算Si。找到滿足Si>=CountThread的最小i,則裁減門限就為Pi。c)根據(jù)Pi門限裁減路徑。
5.根據(jù)權(quán)利要求1所述的一種漢語(yǔ)連續(xù)語(yǔ)音的集成搜索策略,其基本特征在于采用了三元語(yǔ)言模型的預(yù)測(cè);從節(jié)點(diǎn)n擴(kuò)展到節(jié)點(diǎn)m時(shí),預(yù)測(cè)的計(jì)算公式為Prob(Pathj)=[Prob(Pathi)-ProbLm(W1,W2,n)]+ProbLm(W1,W2,m)在公式Prob(Pathj)=[Prob(Pathi)-ProbLm(W1,W2,n)]+ProbLm(W1,W2,m)中,ProbLm(W1,W2,x)表示從節(jié)點(diǎn)x出發(fā)的所有詞中與W1,W2三元連接最大的概率,即ProbLm(W1,W2,x)=MaxProb(W1,W2,W3),此處W3為所有從節(jié)點(diǎn)x出發(fā)可以到達(dá)的詞。
6.根據(jù)權(quán)利要求1、5要求所述的一種漢語(yǔ)連續(xù)語(yǔ)音的集成搜索策略,其基本特征在于設(shè)立了一個(gè)概率檢索緩沖區(qū),該檢索緩沖區(qū)每一項(xiàng)由四個(gè)元素組成ProbBuffer={W1,W2,W3,n,MaxLm};在搜索過(guò)程中,需要調(diào)用ProbLm(W1,W2,m)函數(shù)時(shí),可在緩沖區(qū)首先進(jìn)行檢索1)在緩沖區(qū)中找到W1,W2,m,則直接輸出MaxLm2)在緩沖區(qū)中找不到W1,W2,m,但在緩沖區(qū)中可以找到W1,W2,n,其中n是m的父節(jié)點(diǎn),而且滿足Wmx<=W3<=Wmy,則直接輸出MaxLm3)否則直接去語(yǔ)言模型檢索ProbLm。
全文摘要
漢語(yǔ)連續(xù)語(yǔ)音識(shí)別的集成預(yù)測(cè)搜索方法屬自動(dòng)語(yǔ)音識(shí)別領(lǐng)域,其基本特征在于把帶調(diào)三音子模型和三元詞的統(tǒng)計(jì)語(yǔ)言模型一次性地進(jìn)行集成搜索,并在解碼過(guò)程中進(jìn)行語(yǔ)言模型的預(yù)測(cè)。本發(fā)明涉及集成搜索方法、詞庫(kù)的組織、預(yù)測(cè)語(yǔ)言模型的檢索、局部搜索路徑的裁減方面的問題。
文檔編號(hào)G06F17/30GK1346112SQ0012497
公開日2002年4月24日 申請(qǐng)日期2000年9月27日 優(yōu)先權(quán)日2000年9月27日
發(fā)明者徐波, 黃泰翼 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所