国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      利用了網(wǎng)絡(luò)搜索的依存句法的領(lǐng)域自適應(yīng)方法

      文檔序號:6525739閱讀:332來源:國知局
      利用了網(wǎng)絡(luò)搜索的依存句法的領(lǐng)域自適應(yīng)方法
      【專利摘要】一種利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,包括:構(gòu)建基于K-Best的候選依存句法樹重排序模型,用一個基準模型來產(chǎn)生一組候選依存句法分析樹,其中,每一個候選依存句法分析樹對應(yīng)一個概率,從而定義了多個依存句法分析結(jié)果的初始序列,在此序列的基礎(chǔ)上,重排序模型試圖利用目標領(lǐng)域新增的句法特征來改進初始的句法樹序列;進行基于網(wǎng)絡(luò)搜索的候選依存句法樹的詞語依存關(guān)系評估,首先需要將一棵依存句法樹拆分為一組詞語關(guān)系的集合,對于集合中的每一個詞語語義關(guān)系,利用網(wǎng)絡(luò)搜索,分別計算該詞語語義關(guān)系的強度,然后根據(jù)詞語關(guān)系的權(quán)重來確定其評估值。經(jīng)過實驗證明,在賓州中文樹庫上訓(xùn)練的依存句法器,在生物醫(yī)學(xué)數(shù)據(jù)上也表現(xiàn)出了良好的性能。
      【專利說明】利用了網(wǎng)絡(luò)搜索的依存句法的領(lǐng)域自適應(yīng)方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及自然語言處理【技術(shù)領(lǐng)域】,尤其涉及利用了網(wǎng)絡(luò)搜索的依存句法的領(lǐng)域自適應(yīng)方法。
      【背景技術(shù)】
      [0002]句法分析是自然語言處理中的基礎(chǔ)研究問題,對機器翻譯、問答系統(tǒng)、信息抽取等應(yīng)用都起到重要的支撐作用。依存句法以其形式簡潔、易于標注、便于應(yīng)用等優(yōu)點而倍受重視。近年來,依存句法分析的研究取得了較大進展。目前,最好的依存句法分析器(有時,也稱為“依存句法分析模型”)對英文的依存句法分析的準確率已經(jīng)達到了 90%以上,對中文的依存句法分析的準確率也達到了 80%以上。但是,這僅僅是在受限領(lǐng)域,比如新聞領(lǐng)域上所能實現(xiàn)的性能。而在依賴于句法分析的上層應(yīng)用中,往往面臨的是要面對不受限領(lǐng)域的數(shù)據(jù)如何進行依存句法分析。依存句法分析方面的國際權(quán)威學(xué)者Slav Petrov等人在EMNLP2010上發(fā)表論文指出,依存句法分析器MaltParser在華爾街日報(WSJ)上的無標記依存正確率(Unlabeled Accuracy Score, UAS)為84.89%,當用該依存句法分析器MaltParser來處理TREC的列表性和事實類問句時,該依存句法分析器的UAS將降至62.81%。此外,2012年,Google (注冊商標:谷歌)公司組織的SANCL評測“Parsing theWeb:網(wǎng)頁分析”中的一個關(guān)鍵任務(wù)就是利用大量未標注的數(shù)據(jù)來改善依存句法分析器在不同領(lǐng)域的分析性能。但是,根據(jù)評測結(jié)果,該依存句法分析器的領(lǐng)域自適應(yīng)結(jié)果并不是很理想。因此,研究領(lǐng)域自適應(yīng)的依存句法分析以提高依存句法分析器在不同領(lǐng)域上的性能,是自然語言處理及其相關(guān)應(yīng)用中迫切需要解決的問題之一。
      [0003]領(lǐng)域自適應(yīng)的依存句法分析器主要需面對以下的兩種應(yīng)用情形,一種是目標領(lǐng)域數(shù)據(jù)是具有有限的帶標注的有限帶標注數(shù)據(jù),另一種是目標領(lǐng)域數(shù)據(jù)是沒有任何帶標注的無標注數(shù)據(jù)。通常,第二種情形更為普遍、在對其的領(lǐng)域自適應(yīng)的依存句法分析的難度也更大,是領(lǐng)域自適應(yīng)技術(shù)研究的難點,也是本發(fā)明的重點。
      [0004]在此,將制作依存句法分析器時原本所要針對的領(lǐng)域稱為源領(lǐng)域。目標領(lǐng)域數(shù)據(jù)與源領(lǐng)域數(shù)據(jù)的不同之處主要在于:目標領(lǐng)域數(shù)據(jù)中存在大量新的領(lǐng)域詞語、新搭配方式、新用法,因此,對這些新增的特征的學(xué)習(xí)是自適應(yīng)技術(shù)的主要任務(wù)。這些新增的特征可以通過協(xié)同訓(xùn)練(co-training)和自訓(xùn)練(self-training)來學(xué)習(xí)得到一部分特征,但是,無論是co-training還是self-training,它們都是以一種自舉的方式來學(xué)習(xí)這些新增特征,這種自舉的方式對新增特征在自學(xué)習(xí)方面能力不足。因此,需要引入新的方式來進一步充分地挖掘獲得新特征。

      【發(fā)明內(nèi)容】

      [0005]本發(fā)明是基于上述現(xiàn)有技術(shù)中所存在的問題而開發(fā)的,主要針對目標領(lǐng)域沒有任何帶標注數(shù)據(jù)或僅具有有限標注的有限帶標注數(shù)據(jù)的依存句法分析領(lǐng)域自適應(yīng)的情形,以網(wǎng)絡(luò)搜索為手段來挖掘目標領(lǐng)域的新特征,通過實驗證明,能夠有效地提高依存句法分析器在目標領(lǐng)域的依存句法分析性能。
      [0006]本發(fā)明的目的在于,提供一種利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法。
      [0007]本發(fā)明的一技術(shù)方案的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,包括:訓(xùn)練得到基準依存句法分析模型的步驟(SI),對于給定的源領(lǐng)域帶標注的數(shù)據(jù),通過訓(xùn)練得到對數(shù)線性的基準依存句法分析模型L ;獲取候選依存句法樹的步驟(S2),對于目標領(lǐng)域X=Ix1, X2,…,xn}中的未標注數(shù)據(jù)集合的每一個未標注數(shù)據(jù)Xi,利用基準依存句法分析模型L,輸出對應(yīng)于未標注數(shù)據(jù)Xi的K個最優(yōu)候選依存句法樹作為輸出結(jié)果,將所述輸出結(jié)果表示為一組候選依存句法樹的形式,設(shè)Xik表示未標注數(shù)據(jù)Xi的第k棵候選依存句法樹,其中,n是大于等于I的整數(shù),K是大于等于I的整數(shù),l≤i≤n,l≤k≤K ;獲取候選依存句法樹的評估值的步驟(S3 ),對于所述獲取候選依存句法樹的步驟(S2 )中輸出的每一棵候選依存句法樹xik,基于基準依存句法分析模型L,獲得每一棵候選依存句法樹Xik的評估值,將對該評估值進行歸一化得到的歸一化評估值記為L(Xik);通過網(wǎng)絡(luò)搜索獲取特征向量值的步驟(S4),將每一棵候選依存句法樹Xik拆分為一組詞語語義關(guān)系的集合F= {f\,f2, -,fj},以集合中的每一個詞語語義關(guān)系fj為特征,通過網(wǎng)絡(luò)搜索計算得到該詞語語義關(guān)系fj的強度A(Xik),即該特征的特征向量值,其中J是大于等于I的整數(shù),I ^ j ^ J ;和構(gòu)建重排序
      模型的步驟(S5):設(shè)重排序目標函數(shù)為
      【權(quán)利要求】
      1.一種利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,包括: 訓(xùn)練得到基準依存句法分析模型的步驟(Si),對于給定的源領(lǐng)域帶標注的數(shù)據(jù),通過訓(xùn)練得到對數(shù)線性的基準依存句法分析模型L ; 獲取候選依存句法樹的步驟(S2),對于目標領(lǐng)域X=[x1, x2,…,xn}中的未標注數(shù)據(jù)集合的每一個未標注數(shù)據(jù)Xi,利用基準依存句法分析模型L,輸出對應(yīng)于未標注數(shù)據(jù)Xi的K個最優(yōu)候選依存句法樹作為輸出結(jié)果,將所述輸出結(jié)果表示為一組候選依存句法樹的形式,設(shè)Xik表示未標注數(shù)據(jù)Xi的第k棵候選依存句法樹,其中,n是大于等于I的整數(shù),K是大于等于I的整數(shù),1≤i≤n,1≤k≤K ; 獲取候選依存句法樹的評估值的步驟(S 3 ),對于所述獲取候選依存句法樹的步驟(S2)中輸出的每一棵候選依存句法樹xik,基于基準依存句法分析模型L,獲得每一棵候選依存句法樹Xik的評估值,將對該評估值進行歸一化得到的歸一化評估值記為L(Xik); 通過網(wǎng)絡(luò)搜索獲取特征向量值的步驟(S4),將每一棵候選依存句法樹Xik拆分為一組詞語語義關(guān)系的集合F= {f1,f2, -,fj},以集合中的每一個詞語語義關(guān)系fj為特征,通過網(wǎng)絡(luò)搜索計算得到該詞語語義關(guān)系&的強度A(Xik),即該特征的特征向量值,其中J是大于等于I的整數(shù),1≤j≤J ;和 構(gòu)建重排序t旲型的步驟(S5):設(shè)重排序目標函數(shù)為
      2.根據(jù)權(quán)利要求1所述的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,其特征在于, 將每一棵候選依存句法樹Xik拆分為一組詞語語義關(guān)系的集合F= {f\,f2,…,fT},所述未標注數(shù)據(jù)的一個句子的語義是由詞語、詞語關(guān)系表達出來的。
      3.根據(jù)權(quán)利要求1所述的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,其特征在于, 所述重排序目標函數(shù)中的一組對應(yīng)這些特征和對數(shù)似然的權(quán)值向量參數(shù)G通過廣義迭代縮放算法得到。
      4.根據(jù)權(quán)利要求1所述的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,其特征在于, 所述特征向量值A(chǔ)(Xik)的計算采用網(wǎng)絡(luò)搜索對特征進行搜索來進行,特征向量值fj (xik)包括名詞選擇關(guān)聯(lián)向量值、介詞選擇關(guān)聯(lián)向量值、并列結(jié)果選擇向量值、和形容詞選擇關(guān)聯(lián)向量值,其中, 所述名詞選擇關(guān)聯(lián)向量值通過下述式計算得到,即,在修飾詞m是名詞(NN),它的中心詞h是名詞(NN)或者動詞(VV)的情況下,詞語關(guān)系的特征向量值A(chǔ)(Xik)為:
      5.根據(jù)權(quán)利要求4所述的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,其特征在于, 修飾詞m和其對應(yīng)的中心詞h的語義關(guān)聯(lián)度通過如下方式計算:
      6.根據(jù)權(quán)利要求5所述的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,其特征在于, 對于所述概率的估計,采用網(wǎng)絡(luò)搜索,將修飾詞m與中心詞h的組合“m h”二元組作為查詢的關(guān)鍵詞,利用搜索引擎進行搜索出的檢索計數(shù)信息來估計該概率:

      【文檔編號】G06F17/27GK103646112SQ201310729563
      【公開日】2014年3月19日 申請日期:2013年12月26日 優(yōu)先權(quán)日:2013年12月26日
      【發(fā)明者】周光有, 趙軍 申請人:中國科學(xué)院自動化研究所
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1