專利名稱:基于開放知識庫的短文本語義概念自動化擴(kuò)展方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于互聯(lián)網(wǎng)信息搜索與數(shù)據(jù)挖掘領(lǐng)域,尤其涉及對以社會化媒體短文本為主要內(nèi)容的語義概念自動化擴(kuò)展。
背景技術(shù):
在信息檢索領(lǐng)域,語義擴(kuò)展是公認(rèn)的能夠有效提高系統(tǒng)查全率的技術(shù)之一。其基本思想是利用與查詢關(guān)鍵詞相關(guān)的詞語對查詢進(jìn)行修正,以找到更多相關(guān)的文檔,提高查全率,然而,基于關(guān)鍵詞的傳統(tǒng)查詢擴(kuò)展方式常常帶來很多語義理解的錯誤,如同義詞問題,歧義問題等,在提高查全率的同時(shí)難以保證查準(zhǔn)率。產(chǎn)生這種問題的根本原因有二方面:首先在現(xiàn)實(shí)生活中描述同樣的對象或者事件的用詞存在著多樣性,如“東西”至少有五種含義,只有一種與用戶的預(yù)期相關(guān)。其次,檢索只是根據(jù)查詢詞的詞形而不是詞義進(jìn)行匹配查找,這樣會導(dǎo)致大量和查詢詞相關(guān)但是文檔中又沒有出現(xiàn)該查詢詞的信息丟失,如輸入“體育新聞”后,只有那些明顯出現(xiàn)“體育新聞”的文檔才能夠被檢索到,但是像網(wǎng)球、田徑等相關(guān)的新聞會被遺漏掉。為了解決這些問題,人們提出了基于概念的語義查詢擴(kuò)展,用概念來描述查詢主旨,找到與查詢語義相關(guān)的概念集合對查詢進(jìn)行擴(kuò)展。按照概念的來源主要分為兩類,一類是基于語義關(guān)系/語義結(jié)構(gòu)的擴(kuò)展方法,另一類是基于大規(guī)模語料庫的擴(kuò)展方法?;谡Z義關(guān)系/語義結(jié)構(gòu)的擴(kuò)展方法通常依據(jù)已有的詞典/本體,如WordNet (http: //wordnet.princeton.edu/)、HowNet (http: //www.keenage.com/)以及令頁域詞典/本體,如醫(yī)學(xué)領(lǐng)域的MeSH(http://www.nlm.nih.gov/mesh)等。這類方法都假定待擴(kuò)展的詞屬于特定領(lǐng)域,而且基本上都是人工編輯,有很強(qiáng)的局限性?;谡Z料庫的擴(kuò)展方法主要利用統(tǒng)計(jì)學(xué)習(xí)的方法進(jìn)行語義擴(kuò)展。主要思想源于語料庫中共現(xiàn)性大的詞語往往相關(guān)性也很大。通過互信息,主題模型等方法計(jì)算詞語之間的語義相關(guān)度,然后選取語義最相關(guān)的幾個(gè)詞進(jìn)行語義擴(kuò)展。因?yàn)檎Z料庫既可以比較接近生活,又可以針對特定的領(lǐng)域,相對于基于語義關(guān)系/語義結(jié)構(gòu)的方法更加靈活,更具擴(kuò)展性。隨著Web2.0的發(fā)展,微博、照片分享網(wǎng)站Flicker、視頻分享等社會化媒體已深入人們的日常生活,其中衍生出來的查詢推薦、標(biāo)簽推薦、新聞推薦、問答、評論等應(yīng)用產(chǎn)生了大量的網(wǎng)絡(luò)短文本內(nèi)容。這種社會化媒體上的短文本按其時(shí)間屬性組織后形成文本消息流,包含著網(wǎng)民們的許多思想觀念與傾向,對其進(jìn)行深入的挖掘有重大的應(yīng)用價(jià)值和學(xué)術(shù)意義。然而,文本消息的不完整性、奇異性、海量性和動態(tài)性導(dǎo)致文本消息流的話題發(fā)現(xiàn)、傾向性分析和熱點(diǎn)信息挖掘十分困難。以微博為例,微博作為新的Web2.0應(yīng)用平臺,已經(jīng)得到快速的發(fā)展,并逐漸成為用戶群最龐大,最活躍的網(wǎng)絡(luò)媒體之一。Twitter自從創(chuàng)建以來,最近幾年用戶數(shù)量突飛猛進(jìn),已經(jīng)成為最大的在線微博平臺,擁有超過6500萬的用戶,每天超過2億的微博信息(tweets)。2011年在中國也已經(jīng)有14%的互聯(lián)網(wǎng)用戶開始使用微博,并呈逐年上升的趨勢。微博傳播迅速,極大的方便了人們的交流,但是由于人們對微博信息流的接受能力有限,往往不能即時(shí)有效的獲取自己感興趣的信息。微博快速產(chǎn)生的數(shù)量巨大的信息已經(jīng)成為多種應(yīng)用的重要信息源,比如新聞話題發(fā)現(xiàn)和追蹤,廣告投放等。不同于傳統(tǒng)的長文本,微博具有以下特點(diǎn):I)微博里面用語大多隨意,具有不規(guī)范性,噪聲比較大。2)微博長度的限制,使其具有天然的極稀疏性,很難提取出有效的內(nèi)容特征。以上特點(diǎn)對微博信息的挖掘帶來了很大的挑戰(zhàn)。針對微博內(nèi)容的極稀疏性,將其鏈接到其它的知識庫來擴(kuò)展內(nèi)容特征的研究,最近受到了越來越多的關(guān)注。Wikipedia(維基百科)作為一個(gè)互聯(lián)網(wǎng)用戶合作編輯的開放式的在線百科全書,具有較廣的覆蓋面和較高的準(zhǔn)確度。由于其包含大量的文本語料庫,內(nèi)容組織結(jié)構(gòu)化,不需要人工搭建等特點(diǎn),比較適用于網(wǎng)絡(luò)數(shù)據(jù)挖掘。很多研究工作通過利用Wikipedia的結(jié)構(gòu)化信息來擴(kuò)展微博或者短文本的內(nèi)容,并結(jié)合機(jī)器學(xué)習(xí)的方法訓(xùn)練模型,取得了比較好的效果。參考文獻(xiàn)1(P.Ferragina and U.Scaiella.Tagme:on-the-fly annotation ofshort text fragments(bywikipedia entities).1n CIKM’ 10, 2010)設(shè)計(jì)了一種在線的可以將短文本鏈接到語義相關(guān)的Wikipedia概念頁面的系統(tǒng),它采用了一種快速、有效的基于上下文的投票機(jī)制來進(jìn)行語義消歧,在短文本和長文本上都獲得了比較高的準(zhǔn)確率,但是不能獲得語義相近的更多概念集合,因?yàn)樗逆溄舆^程是基于字符匹配的,不能找到那些不匹配但語義相近的概念。參考文獻(xiàn) 2 (Xianpei Han, Le Sun and Jun Zha0.Collective Entity Linking in WebText:A Graph-Based Method.1n SIGIR' 11,2011)用圖模型描述了 Wikipedia 中的概念之間關(guān)系,采用了隨機(jī)游走算法(Random Walk)來找到語義相關(guān)的概念集合,雖然可以找到那些沒有共現(xiàn)的語義相似度很高的概念,但圖的節(jié)點(diǎn)數(shù)量巨大,計(jì)算效率成為一個(gè)瓶頸。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種基于開放知識庫的短文本語義概念自動化擴(kuò)展方法。本發(fā)明的目的 是通過以下技術(shù)方案實(shí)現(xiàn)的:一方面,本發(fā)明提供了一種基于開放知識庫的短文本語義概念自動化擴(kuò)展方法,包括:步驟I)對短文本生成n-gram集合;步驟2)對于所述n-gram集合中的元素執(zhí)行下列操作:將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念,以及基于開放知識庫的概念關(guān)系矩陣和所鏈接的概念,為該元素生成擴(kuò)展的語義概念: 口,其中,所述開放知識庫的概念關(guān)系矩陣的行為該開放知識庫中的概念,列為該開放知識庫中的文檔,所述概念關(guān)系矩陣中元素的值為所在行的概念在所在列的文檔中出現(xiàn)的總的次數(shù)。上述方法中,所述步驟I)可包括:利用短文本中包含的特殊符號和停用詞作為分隔符,生成不包含特殊符號和停用詞的短文本片段;
對每一個(gè)短文本片段分別產(chǎn)生n-gram ;合并每條短文本片段的n-gram,得到該條短文本的n-gram集合。上述方法中,所述開放知識庫可以為維基百科,所述該開放知識庫中的概念為維基百科中的錨文本。上述方法中,所述步驟2)中,所述n-gram集合中的元素可以為可鏈接的元素。上述方法中,所述步驟2)還可包括從步驟I)所生成的n-gram集合中選擇可鏈接的元素的步驟。上述方法中,在所述步驟2中)將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念可包括:將開放知識庫中與該元素對應(yīng)的所有概念作為該元素的候選概念集合;計(jì)算該候選概念集合中每個(gè)概念與該元素之間的互信息;選擇與該元素之間的互信息最大的概念作為與該元素最相關(guān)的概念,從而將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念。上述方法中,在所述步驟2中)將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念可包括:將開放知識庫中與該元素對應(yīng)的所有概念作為該元素的候選概念集合;計(jì)算該候選概念集合中每個(gè)概念與該元素的上下文之間的相關(guān)性;選擇與該元素的上下文之間的相關(guān)性最大的概念作為與該元素最相關(guān)的概念,從而將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念;其中,該候選概念集合中每個(gè)概念Ci與該元素的上下文之間的相關(guān)性以如下公式進(jìn)行計(jì)算:
權(quán)利要求
1.一種基于開放知識庫的短文本語義概念自動化擴(kuò)展方法,所述方法包括: 步驟I)對短文本生成n-gram集合; 步驟2)對于所述n-gram集合中的元素執(zhí)行下列操作: 將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念,以及 基于開放知識庫的概念關(guān)系矩陣和所鏈接的概念,為該元素生成擴(kuò)展的語義概念集入I=I, 其中,所述開放知識庫的概念關(guān)系矩陣的行為該開放知識庫中的概念,列為該開放知識庫中的文檔,所述概念關(guān)系矩陣中元素的值為所在行的概念在所在列的文檔中出現(xiàn)的總的次數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,所述步驟I)包括: 利用短文本中包含的特殊符號和停用詞作為分隔符,生成不包含特殊符號和停用詞的短文本片段; 對每一個(gè)短文本片段分別產(chǎn)生n-gram ; 合并每條短文本片段的n-gram,得到該條短文本的n-gram集合。
3.根據(jù)權(quán)利要求1所述的方法,所述開放知識庫為維基百科,所述該開放知識庫中的概念為維基百科中的錨文本。
4.根據(jù)權(quán)利要求1所述的方法,所述步驟2)中,所述n-gram集合中的元素為可鏈接的元素。
5.根據(jù)權(quán)利要求4所述的方法,所述步驟2)還包括從步驟I)所生成的n-gram集合中選擇可鏈接的元素的步驟。
6.根據(jù)權(quán)利要求1-5之一所述的方法,在所述步驟2中)將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念包括: 將開放知識庫中與該元素對應(yīng)的所有概念作為該元素的候選概念集合; 計(jì)算該候選概念集合中每個(gè)概念與該元素之間的互信息; 選擇與該元素之間的互信息最大的概念作為與該元素最相關(guān)的概念,從而將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念。
7.根據(jù)權(quán)利要求1-5之一所述的方法,在所述步驟2中)將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念包括: 將開放知識庫中與該元素對應(yīng)的所有概念作為該元素的候選概念集合; 計(jì)算該候選概念集合中每個(gè)概念與該元素的上下文之間的相關(guān)性; 選擇與該元素的上下文之間的相關(guān)性最大的概念作為與該元素最相關(guān)的概念,從而將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念; 其中,該候選概念集合中每個(gè)概念Ci與該元素的上下文之間的相關(guān)性以如下公式進(jìn)行計(jì)算: Score(Ci) =—2嫌£;_103|>唭中,t 表示 n-gram 元素,Sc0re(ci)表示候選概念Ci與t的上下文相關(guān)性,CT (t)為t的上下文,其表示短文本去除t后生成的所有n-gram元素集合,tm表示CT (t)集合中的一個(gè)元素,MI (tm, Ci)表示tm和Ci在開放知識庫中的互信息。
8.根據(jù)權(quán)利要求7所述的方法,在所述步驟2中)基于所述概念關(guān)系矩陣和所鏈接的概念,為該元素生成擴(kuò)展的語義概念集合包括: 2_a),基于所述概念關(guān)系矩陣,獲取概念之間的語義度相似度矩陣; 2_b),根據(jù)概念之間的語義度相似度矩陣與所鏈接的概念,為該元素生成擴(kuò)展的語義概念集合。
9.根據(jù)權(quán)利要求8所述的方法,所述步驟2-a)包括下列步驟: 步驟(2-a-l)假設(shè)以X表示所述概念關(guān)系矩陣,X為mXn矩陣,m為行數(shù),表示概念的數(shù)目,η為列數(shù),表示文檔的數(shù)目,利用非負(fù)矩陣分解法將所述概念關(guān)系矩陣X分解為兩個(gè)非負(fù)矩陣W和H,其中W是mXr的概念-主題矩陣,H是r Xη的主題-文檔矩陣,這里r為分解矩陣W的列數(shù)和H的行數(shù),表示文檔集合中主題的數(shù)目。
步驟(2-a-2)判斷目標(biāo)函數(shù)E(W,H) = | |X_WH| 12是否小于給定的誤差,如果小于,則計(jì)算概念之間的語義相似度矩陣S = ffffT,其中該矩陣S中的每個(gè)元素Su表示概念i,j之間的語義相似度;否則,執(zhí)行步驟(2-a-3); 步驟(2-a-3)將
10.根據(jù)權(quán)利要求9所述的方法,所述步驟2-b)包括:從該元素所鏈接的概念在語義相似度矩陣S中對應(yīng)的行向量的所有概念中,選擇與所鏈接的概念語義相似度最大的k個(gè)概念,作為該元素的擴(kuò)展的語義概念集合。
11.根據(jù)權(quán)利要求9所述的方法,所述步驟2-b)包括:從該元素所鏈接的概念在語義相似度矩陣S中對應(yīng)的行向量的所有概念中,選擇與該元素的上下文語義相關(guān)性最大的k個(gè)概念,作為該元素的擴(kuò)展的語義概念集合; 其中,對任意的概Smi e sm,Sm表示語義相似度矩陣S中所鏈接的概念對應(yīng)的行向量,I≤i≤sj , sj表示向量Sm的維數(shù),與該元素的上下文語義相關(guān)性SMOv t)通過以下公式計(jì)算:
12.一種基于開放知識庫的短文本語義概念自動化擴(kuò)展系統(tǒng),所述系統(tǒng)包括: 用于為短文本生成n-gram集合的裝置; 用于對于n-gram集合中的元素執(zhí)行下列操作的裝置: 將該元素鏈接到開放知識庫中與該元素最相關(guān)的概念,以及 基于開放知識庫的概念關(guān)系矩陣和所鏈接的概念,為該元素生成擴(kuò)展的語義概念集I=I, 其中,所述開放知識庫的概念關(guān)系矩陣的行為該開放知識庫中的概念,列為該開放知識庫中的文檔,所述概念關(guān)系矩陣中元素的值為所在行的概念在所在列的文檔中出現(xiàn)的總的次數(shù)。
全文摘要
本發(fā)明公開了一種基于開放知識庫的短文本語義概念自動化擴(kuò)展方法,所述方法將每條短文本生成的n-gram集合中的每個(gè)元素鏈接到開放知識庫中與該元素最相關(guān)的概念,并且基于開放知識庫的概念關(guān)系矩陣和所鏈接的概念,為該元素生成擴(kuò)展的語義概念集合。該方法僅采用開放知識庫文檔中的錨文本信息而不采用文檔的詞項(xiàng)信息和目錄信息來構(gòu)建概念關(guān)系矩陣,這使得該矩陣的構(gòu)造和計(jì)算方便,而且克服了目錄信息粒度比較粗,歧義多的問題。而且在語義概念擴(kuò)展階段,采用基于上下文的語義相似度計(jì)算方法來進(jìn)行語義概念擴(kuò)展,同時(shí)考慮了短文本內(nèi)容的上下文內(nèi)容的一致性和概念在抽象語義層的相似性,提高了語義概念擴(kuò)展的準(zhǔn)確性。
文檔編號G06F17/30GK103150382SQ20131008198
公開日2013年6月12日 申請日期2013年3月14日 優(yōu)先權(quán)日2013年3月14日
發(fā)明者程學(xué)旗, 劉盛華, 肖永磊, 王元卓, 劉悅 申請人:中國科學(xué)院計(jì)算技術(shù)研究所