本發(fā)明屬于智能識別技術(shù)領(lǐng)域,尤其涉及一種基于機器學習排序的文檔級詞匯功能自動識別方法。
背景技術(shù):
現(xiàn)有的學術(shù)信息檢索和知識管理主要考慮的是文檔級別的信息,在文檔表示上也多采用詞袋模型。這樣的處理帶來了計算上的便利,但同時也失去了對學術(shù)文本的深層語義理解,它們無法回答學術(shù)文獻有關(guān)內(nèi)容和主題的更具體的問題。并且,在學術(shù)文獻的存量和增長速度都到了令人難以接受的地步的今天,傳統(tǒng)的學術(shù)信息檢索和知識管理已經(jīng)沒有辦法對學科的全部文獻予以掌握,這給學者們查找和閱讀文獻帶來的壓力也是巨大的。
已有的直接相關(guān)研究成果中,ding關(guān)注到這一話題,但ding的成果也只是提及到詞匯功能的概念,并沒有得到深入的研究成果,也沒有在技術(shù)方法上取得突破。其他相關(guān)的研究如信息抽取、本體知識庫構(gòu)建研究已經(jīng)出現(xiàn)了大量成果:研究者圍繞信息抽取、本體知識庫構(gòu)建提出了一系列理論和技術(shù)研究成果,也出現(xiàn)了大量成熟的技術(shù)產(chǎn)品和成果應(yīng)用??傮w而言,已有的成果數(shù)量較少,也存在著一定的不足:(1)已有研究成果對學術(shù)文本的詞匯功能語義框架設(shè)置得過于簡單,僅給出了兩類分類或者三類分類,無法涵蓋學術(shù)文本中詞匯的所有功能屬性;(2)已有的識別方法的實際效果能以保證,從相關(guān)論文中報告的結(jié)果看,識別方法的性能和效果都有所不足,難以付諸實際的語義分析應(yīng)用;(3)已有的研究成果僅僅識別了詞匯的功能,卻沒有對詞匯間語義關(guān)系進行深入分析,這樣得到的分析結(jié)果只是幾個孤立的詞匯,無法在真正意義上做到對文本的語義理解,例如,不但要得到表述評估指標的詞匯(如信息檢索中的“召回率”和“準確率”),還需要得到與之相關(guān)聯(lián)的具體指標數(shù)值。
技術(shù)實現(xiàn)要素:
為了解決上述問題,本發(fā)明提出了一種基于機器學習排序的文檔級詞匯功能識別方法。
本發(fā)明所采用的技術(shù)方案是:一種基于機器學習排序的學術(shù)文本詞匯功能識別方法,其特征在于,包括以下步驟:
步驟1:構(gòu)造訓練數(shù)據(jù);
步驟1.1:收集若干篇標題形式為“基于x的y”的文檔,對于每篇文檔,將其英文題名轉(zhuǎn)換成詞性和頻繁詞性的表示方式;
步驟1.2:通過對轉(zhuǎn)換后的文本表示模式進行統(tǒng)計,得到“基于x的y”類型標題模式;
步驟1.3:經(jīng)過對步驟1.2中得到的模式進行標注,得到從標題中抽取問題和方法的文本匹配模式;
步驟2:基于排序的識別方法;
步驟2.1:給定詞匯組合p={w1,w2,...,wm}和標注結(jié)果詞匯序列p′={w′1,w′2,...,w′n};首先使用最長字符串匹配方法對文本進行術(shù)語抽取,通過在不同粒度上進行切分,構(gòu)造字符串切分樹進行同義詞歸并;切分樹歸并后,文本中匹配了的字符串在各自歸屬的詞袋中被去除,由此得到p和p′的新表示pprocessed和p′processed;
步驟2.2:利用停用詞表,對pprocessed和p′processed中的詞匯做停用詞過濾處理;
步驟2.3:計算p和p′的相似性得分;
步驟3:特征構(gòu)造;
為待排序詞匯序列構(gòu)造特征包括:詞匯特征、句法特征和textrank特征;
步驟4:模型訓練;
步驟5:利用訓練得到的模型對文檔摘要包含的詞匯序列進行排序,對排序生成的結(jié)果,使用top1的結(jié)果作為抽取結(jié)果。
相對于現(xiàn)有技術(shù),本發(fā)明的有益效果是,基于機器學習排序的文檔級詞匯功能自動識別方法中,通過在構(gòu)建的訓練集(cnki數(shù)據(jù)庫中收集的18690篇標題符合特定模式的文檔摘要數(shù)據(jù))中學習模型,對測試數(shù)據(jù)(從acm和acl收錄文獻中抽取并篩選后得到156篇文獻)包含的詞匯序列進行排序。其實驗結(jié)果表明,在識別論文的核心問題和核心方法上具有較好的識別效果。
附圖說明
圖1為本發(fā)明實施例的字符串切分樹示例。
具體實施方式
為了便于本領(lǐng)域普通技術(shù)人員理解和實施本發(fā)明,下面結(jié)合附圖及實施例對本發(fā)明作進一步的詳細描述,應(yīng)當理解,此處所描述的實施示例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供的一種基于機器學習排序的文檔級詞匯功能識別方法,包括以下步驟:
步驟1,訓練數(shù)據(jù)的構(gòu)造。本實施例從cnki的計算機領(lǐng)域和圖情領(lǐng)域期刊數(shù)據(jù)中收集了88865篇標題形式為“基于x的y”的文檔,對于每篇文獻,將其英文題名轉(zhuǎn)換成詞性和頻繁詞性的表示方式。
構(gòu)造方法如下:
步驟1.1,句子s表示為詞匯序列{w1,w2,…,wn},wi表示句子中第i個詞匯,n是s的長度。頻繁詞匯列表f記錄了預先給定的一系列頻繁詞匯。通過將s中所有非頻繁詞匯,即不出現(xiàn)在f中的詞匯替換成詞匯對應(yīng)的組塊(chunk)標記,即可得到句子s對應(yīng)的基于頻繁詞項和詞性的文本表示。
例如,句子“inthispaper,wepresentamethodforinformationretrieval.”,f為in,we,present,for,則句子對應(yīng)的星號模式為“innn,wepresentnnfornn.”。
步驟1.2,通過對轉(zhuǎn)換后的文本表示模式進行統(tǒng)計,得到“基于x的y”類型標題最為常見英文標題模式,見表1。
表1為本發(fā)明實施例的抽取模式示例;
經(jīng)過對上述模式的標注,可以得到從標題中抽取問題和方法的文本匹配模式,抽取模式標注示例見表2。
表2抽取模式標注示例
利用這些模式,從cnki論文的英文題名中抽取對應(yīng)的詞匯組合,并為這些詞匯組合賦上類別。通過抽取,供得到核心問題與核心方法標注數(shù)據(jù)共18690條。這些抽取出來的問題與方法數(shù)據(jù)構(gòu)成了對所在文本的核心問題與核心方法的標注。
為了說明這些規(guī)則的可靠性和跨來源適用性,使用表2所示的抽取規(guī)則對acm數(shù)據(jù)庫收錄論文的標題進行信息抽取,如果這些論文的標題能夠匹配模板,則輸出相應(yīng)的詞匯序列作為識別結(jié)果。評測時隨機選擇了1555條標題的抽取結(jié)果,人工判斷抽取結(jié)果的準確性。評測結(jié)果顯示:核心問題識別準確率為99.55%;核心方法抽取的準確率隨著評測標準的變化有所變動,如果將實驗中主要使用的工具也視作解決問題的方法,則準確率為為98.65%,如將工具類排除在外,則準確率為90.23%。
步驟2,基于排序的識別方法,本實施例使用機器學習排序模型中的pairwise方法。
步驟2.1,給定詞匯組合p={w1,w2,…,wm}和標注結(jié)果詞匯序列p′={w1′,w2′,…,wn′}。首先對文本進行術(shù)語抽取,本實施例使用了最長字符串匹配方法抽取術(shù)語,通過在不同粒度上進行切分,構(gòu)造字符串切分樹。
例如,對文本“supportvectormachinebasedmethod”,假設(shè)存在術(shù)語“supportvector”和“supportvectormachine”,則可以構(gòu)造字符串切分樹結(jié)構(gòu),如圖1所示。
步驟2.2,構(gòu)造得到兩個字符串的切分樹表示以后,接下來的計算便基于兩棵樹進行。利用同義詞詞典給出的同義詞列表,每次選擇兩個樹中歸并收益最大的兩個節(jié)點進行歸并,一旦某個節(jié)點被歸并,則其父節(jié)點和子孫節(jié)點將不再參與后續(xù)的歸并,如此重復,直到?jīng)]有節(jié)點可以被歸并。通過切分樹歸并,可以將文本對中的同義詞進行匹配,被匹配的字符串被認為是同義詞匯,在各自的歸屬的詞袋中需要被去除。由此,得到p={w1,w2,….,wm}和p′={w1′,w2′,…,wn′}的新表示pprocessed={w1,w2,….,wm}和p′processed={w1′,w2′,…,wn′}。
步驟2.3,為了避免噪音詞匯的影響,對轉(zhuǎn)換得到的字符串還需要進一步處理。一些詞匯如to、novel、one、a等在計算相似性時需要被取出,為此,本實施例對pprocessed和p′processed中的詞匯做停用詞過濾處理。本實施例使用了一個包含561個停用詞的停用詞表。在整個匹配過程中,為了消除詞形變化對相似性得分計算的影響,匹配處理在詞干提取后的文本上進行。
步驟2.4,給定p和p′以及對應(yīng)的pprocessed和p′processed,相似性得分采用了一個簡單的計算方法,計算公式為:
其中,|*|表示長度??梢钥吹?,這一個相似性度量指標是不對稱的,也就是說sim(p,p′)不等于sim(p′,p)。如果p中的所有詞匯都能夠在語義上被p′包含,則兩者的相似度為1,如果兩者沒有任何詞匯或者詞匯序列構(gòu)成重疊關(guān)系,則相似度計算結(jié)果為0。
步驟3,特征構(gòu)造。該發(fā)明為待排序詞匯序列構(gòu)造特征包括:詞匯特征、句法特征和textrank特征。
步驟3.1,構(gòu)造詞匯特征,包括組合內(nèi)的各個詞匯、當前詞匯序列的前一個詞匯、當前詞匯序列的后一個詞匯、當前詞匯組合的前兩個詞匯、當前詞匯組合的后兩個詞匯以及當前詞匯的前一個動詞。待排序?qū)ο笏诰渥又惺欠癜囟ㄎ谋?,如“thispaper”、“we”、“ourwork”等,對排序的效果也存在較大影響。因此需要構(gòu)造一個01特征以標記待排序?qū)ο笏诰渥邮欠癜囟ㄎ谋尽?/p>
步驟3.2,構(gòu)造句法特征,包括:
1.head詞匯識別;
將詞匯組合中的詞匯加入有向網(wǎng)絡(luò),根據(jù)詞匯之間的依存關(guān)系構(gòu)建相應(yīng)的有向邊。如“anapproach”構(gòu)建了一個從“approach”指向“an”的邊。遍歷網(wǎng)絡(luò)中的每個節(jié)點,直到他們都是孤立節(jié)點,最后返回“<muli_head>”。
2.詞匯到root的依存路徑;
使用head詞到root的路徑作為特征,路徑的結(jié)果輸出為(word1,category1:relation:category2,word2)+;其中word1、word2是詞匯文本,category1、category2是詞性,relation是word1到word2的依存關(guān)系,*+表示多個*的重復;如果包括多個head詞匯,則不計算依存路徑,直接返回“nopath”;
3.僅記錄動詞節(jié)點的詞匯-root依存路徑;
方法及輸出同上一個路徑,但僅記錄動詞。
4.詞匯直接關(guān)聯(lián)的依存關(guān)系特征。給定詞匯或者詞匯組合的head詞匯,記為word,word的特征生成策略為:對與word存在關(guān)聯(lián)的每個依存關(guān)系依存關(guān)系tr,因tr關(guān)聯(lián)的詞匯記為target,如果word在tr關(guān)系中是governer詞匯(這個詞匯是引用了standfordparser中的詞匯),則返回“tr:target”,如果target為governer詞匯,返回“tr-r:target”。因此,如果word存在n個關(guān)聯(lián)關(guān)系,則會形成n個特征。
步驟3.3,構(gòu)造textrank特征。使用了一個基于窗口移動的策略構(gòu)建無權(quán)無向共詞網(wǎng)絡(luò),在此基礎(chǔ)計算了待排序詞匯序列的textrank值。
步驟4:模型訓練;
使用從cnki數(shù)據(jù)庫中收集的18690篇標題符合特定模式的文檔摘要數(shù)據(jù),將從這些文檔中抽取的問題和方法作為核心問題和核心方法的自然標注結(jié)果。排序模型訓練使用了svm-rank工具,使用支持向量機排序模型訓練pairwise排序模型。排序?qū)W習使用的文本粒度為組塊(chunk)。為了獲得組塊數(shù)據(jù),本實施例使用stanfordparser對文本做句法解析,進而基于stanfordparser得到的句法結(jié)構(gòu)識別文本中包含的組塊。本實施例使用opennlp進行句子切分,使用stanfordpostagger對文本進行詞性標注。模型訓練會為核心問題和核心方法生成各自獨立的排序模型。兩個類別的排序模型使用的樣本和特征都是一樣的,不同在于各個排序樣本在不同類別下的排序有所不同。在計算文本中詞匯序列與目標詞匯序列的相關(guān)性時,本實施例使用了一個包含561個詞匯停用詞表。詞干提取使用porterstemmer詞干提取工具。同義詞詞表使用中英雙語對齊的方法從cnki收錄的文獻元數(shù)據(jù)中提取,共包含438968個同義詞對。
步驟5:利用訓練得到的模型對文獻摘要包含的詞匯序列進行排序,對排序生成的結(jié)果,使用top1的結(jié)果作為抽取結(jié)果。
本實施例在測試階段,從acm和acl收錄文獻中隨機抽取了200篇文獻,去除因標注人員研究領(lǐng)域限制無法閱讀的文獻44篇(如硬件類研究文獻),共得到156篇測試文獻。表3為對標題使用規(guī)則方法抽取的效果評價結(jié)果。
表3對標題使用規(guī)則方法抽取的效果評價結(jié)果
使用人工評測的方式加以評測,評測主要關(guān)注準確率、召回率。某些文檔并沒有明確的給出方法/問題,這類文檔在標注時被標注為無方法/問題;表4為核心問題與核心方法識別效果。
表4核心問題與核心方法識別效果
從實驗結(jié)果看,該方法在識別論文的核心問題和核心方法上具有一定的有效性。
應(yīng)當理解的是,本說明書未詳細闡述的部分均屬于現(xiàn)有技術(shù)。
應(yīng)當理解的是,上述針對較佳實施例的描述較為詳細,并不能因此而認為是對本發(fā)明專利保護范圍的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明權(quán)利要求所保護的范圍情況下,還可以做出替換或變形,均落入本發(fā)明的保護范圍之內(nèi),本發(fā)明的請求保護范圍應(yīng)以所附權(quán)利要求為準。