一種實(shí)體鏈接方法及裝置制造方法
【專利摘要】本發(fā)明提供一種實(shí)體鏈接方法及裝置,該方法包括:獲取實(shí)體提及的潛在鏈接實(shí)體;擴(kuò)展所述實(shí)體提及所在的原始文本得到所述實(shí)體提及對(duì)應(yīng)的第一文本,計(jì)算所述第一文本與所述潛在鏈接實(shí)體對(duì)應(yīng)的第二文本的文本相似度;根據(jù)所述文本相似度計(jì)算所述潛在鏈接實(shí)體與所述實(shí)體提及的匹配度;以及將所述實(shí)體提及鏈接到具有滿足預(yù)設(shè)條件的匹配度的潛在鏈接實(shí)體。本發(fā)明中,對(duì)實(shí)體提及所在的原始文本進(jìn)行擴(kuò)展,利用擴(kuò)展后的文本篩選潛在鏈接實(shí)體,從而能夠提高鏈接實(shí)體的準(zhǔn)確性。
【專利說明】一種實(shí)體鏈接方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)庫領(lǐng)域,尤其涉及一種實(shí)體鏈接方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)語義知識(shí)庫和短文本信息平臺(tái)例如微博、短信等的飛速發(fā)展,如何將 短文本中的"實(shí)體提及(mention)"與互聯(lián)網(wǎng)語義知識(shí)庫中的實(shí)體(entity)相關(guān)聯(lián),從而將 短文本內(nèi)容語義化成為語言信息處理領(lǐng)域亟待解決的問題之一。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的實(shí)施方式提供了一種實(shí)體鏈接方法及裝置,能夠?qū)⒍涛谋緝?nèi)容中的實(shí)體 提及鏈接到匹配的實(shí)體。
[0004] 本發(fā)明的一個(gè)實(shí)施方式提供一種實(shí)體鏈接方法,包括:獲取實(shí)體提及的潛在鏈接 實(shí)體;擴(kuò)展所述實(shí)體提及所在的原始文本得到所述實(shí)體提及對(duì)應(yīng)的第一文本,計(jì)算所述第 一文本與所述潛在鏈接實(shí)體對(duì)應(yīng)的第二文本的文本相似度;根據(jù)所述文本相似度計(jì)算所述 潛在鏈接實(shí)體與所述實(shí)體提及的匹配度;以及將所述實(shí)體提及鏈接到具有滿足預(yù)設(shè)條件的 匹配度的潛在鏈接實(shí)體。
[0005] 本發(fā)明的另一實(shí)施方式提供一種實(shí)體鏈接裝置,包括:獲取單元,配置用于獲取實(shí) 體提及的潛在鏈接實(shí)體;擴(kuò)展處理單元,配置用于擴(kuò)展所述實(shí)體提及所在的原始文本得到 所述實(shí)體提及對(duì)應(yīng)的第一文本,計(jì)算所述第一文本與所述潛在鏈接實(shí)體對(duì)應(yīng)的第二文本的 文本相似度;匹配處理單元,配置用于根據(jù)所述文本相似度計(jì)算所述潛在鏈接實(shí)體與所述 實(shí)體提及的匹配度;以及鏈接單元,配置用于將所述實(shí)體提及鏈接到具有滿足預(yù)設(shè)條件的 匹配度的潛在鏈接實(shí)體。
[0006] 本發(fā)明中,對(duì)實(shí)體提及所在的原始文本進(jìn)行擴(kuò)展,利用擴(kuò)展后的文本篩選潛在鏈 接實(shí)體,從而能夠提高鏈接實(shí)體的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0007] 參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施方式的說明,會(huì)更加容易地理解本發(fā)明的以上和 其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖以示例而非限制性的方式來說明本發(fā)明。在附圖中,相同的或 類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。
[0008] 圖1示出本發(fā)明提供的實(shí)體鏈接方法的流程示意圖;
[0009] 圖2示出本發(fā)明提供的實(shí)體鏈接方法中一種潛在鏈接實(shí)體的獲取方式的示意圖; [0010] 圖3出本發(fā)明提供的實(shí)體鏈接方法中另一種潛在鏈接實(shí)體的獲取方式的示意圖;
[0011] 圖4示出本發(fā)明提供的實(shí)體鏈接裝置的結(jié)構(gòu)示意圖;以及
[0012] 圖5示出用以實(shí)施本發(fā)明提供的裝置和方法的計(jì)算設(shè)備的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0013] 現(xiàn)在參考附圖來更加詳細(xì)地描述本發(fā)明的實(shí)施方式。示例實(shí)施方式的提供是為了 使本發(fā)明更加詳盡,并且向本領(lǐng)域技術(shù)人員充分地傳達(dá)保護(hù)范圍。闡述了眾多的特定細(xì)節(jié) 如特定部件、裝置的例子,以提供對(duì)本發(fā)明的實(shí)施方式的詳盡理解。對(duì)于本領(lǐng)域技術(shù)人員而 言將會(huì)明顯的是,示例實(shí)施方式可以用許多不同的形式來實(shí)施而不一定使用這些特定的細(xì) 節(jié),因此它們都不應(yīng)當(dāng)被解釋為限制本發(fā)明的范圍。另外,在本發(fā)明的一個(gè)附圖或一種實(shí)施 方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣?相結(jié)合。在某些示例實(shí)施方式中,為了清楚的目的,沒有在附圖和說明中詳細(xì)地描述眾所周 知的過程、結(jié)構(gòu)和技術(shù)。
[0014] 本發(fā)明提供了實(shí)體鏈接方法及裝置。下面首先參考附圖結(jié)合【具體實(shí)施方式】介紹本 發(fā)明提供的實(shí)體鏈接方法。
[0015] 圖1示出了本發(fā)明提供的實(shí)體鏈接方法的流程示意圖。
[0016] 如圖1所示,在步驟SlOl中,獲取實(shí)體提及的潛在鏈接實(shí)體。
[0017] 其中,實(shí)體提及的潛在鏈接實(shí)體的獲取方式可以有多種,下面進(jìn)行詳細(xì)描述。
[0018] 當(dāng)短文本中的實(shí)體提及確定后,可以根據(jù)該實(shí)體提及直接在知識(shí)庫中搜索與該實(shí) 體提及對(duì)應(yīng)的實(shí)體作為潛在鏈接實(shí)體。該知識(shí)庫包括但不限于與該方法所應(yīng)用的場(chǎng)景對(duì)應(yīng) 的特定知識(shí)庫,例如互聯(lián)網(wǎng)語義知識(shí)庫Wikipedia (維基百科)、DBPedia、BaiduBaike (百度 百科)等。例如當(dāng)實(shí)體提及為"apple"時(shí),從互聯(lián)網(wǎng)語義知識(shí)庫中可能搜索到"蘋果"、"美 國(guó)蘋果公司"等多個(gè)潛在鏈接實(shí)體。
[0019] 其中,從已有的知識(shí)庫中查找潛在鏈接實(shí)體包括但不限于下述方式:將知識(shí)庫中 的重定向鏈接作為潛在鏈接實(shí)體;將知識(shí)庫中查找到的內(nèi)容中第一段中的黑體字作為潛 在鏈接實(shí)體;根據(jù)知識(shí)庫中查找到的消岐頁面得到潛在鏈接實(shí)體;還可以根據(jù)錨文本與 實(shí)體的鏈接關(guān)系等信息獲取實(shí)體提及的潛在鏈接實(shí)體。例如,如圖2所示,對(duì)于實(shí)體提及 "IBM",在知識(shí)庫中搜索得到的內(nèi)容中,包括重定向鏈接"國(guó)際商業(yè)機(jī)器股份有限公司",以 及第一段中的黑體字"國(guó)際商業(yè)機(jī)器股份有限公司"、"International Business Machines Corporation"以及"萬國(guó)商業(yè)機(jī)器公司",這些內(nèi)容都可以作為實(shí)體提及"IBM"的潛在鏈接 實(shí)體。如圖3所示,對(duì)于實(shí)體提及"蘋果",在知識(shí)庫中搜索得到消歧義頁面,其中,"蘋果公 司"、"蘋果日?qǐng)?bào)"、"蘋果(電影)"等都可以作為實(shí)體提及"蘋果"的潛在鏈接實(shí)體。
[0020] 當(dāng)短文本中的實(shí)體提及確定后,還可以基于該短文本獲取實(shí)體提及的潛在鏈接實(shí) 體,例如可以將短文本中包含所述實(shí)體提及且存在于知識(shí)庫中的實(shí)體作為潛在鏈接實(shí)體。 例如,對(duì)于短文本"北京時(shí)間3月12日,2013亞冠聯(lián)賽小組賽第二輪,廣州恒大足球俱樂部 客場(chǎng)挑戰(zhàn)全北現(xiàn)代,廣州恒大首發(fā)已經(jīng)公布",其中實(shí)體提及為"廣州恒大",則此時(shí)短文本 中包括"廣州恒大足球俱樂部",且"廣州恒大足球俱樂部"也是知識(shí)庫中的實(shí)體,則將"廣州 恒大足球俱樂部"作為"廣州恒大"的潛在鏈接實(shí)體,如果"廣州恒大足球俱樂部"不是知識(shí) 庫中的實(shí)體,這種方法不能提供候選。
[0021] 當(dāng)短文本中的實(shí)體提及確定后,在進(jìn)行上述潛在鏈接實(shí)體的搜索前,還可以對(duì)該 實(shí)體提及進(jìn)行擴(kuò)展得到長(zhǎng)度更大的偽實(shí)體提及,然后根據(jù)偽實(shí)體提及進(jìn)行上述任一種方式 的潛在鏈接實(shí)體的搜索。由于偽實(shí)體提及包含更多信息,更能夠準(zhǔn)確得到實(shí)體提及所應(yīng)當(dāng) 鏈接到的實(shí)體。
[0022] 在介紹偽實(shí)體提及的獲取方式前,首先介紹獲取偽實(shí)體提及時(shí)可以用到的對(duì)實(shí)體 提及的類型的確定。
[0023] 實(shí)體提及類型的確定需要用到實(shí)體類型本體。實(shí)體類型本體定義了現(xiàn)實(shí)世界 中實(shí)體的類型以及類型之間的關(guān)系,比如實(shí)體最頂層的類型為對(duì)象(OBJECT),OBJECT 又包括人(PERSON)實(shí)體、位置(LOCATION)實(shí)體、組織(ORGANIZATION)實(shí)體、機(jī)關(guān)實(shí)體 (GEO-POLITICAL ENTITY)等等,人實(shí)體又可以根據(jù)職業(yè)分類不同的類別。因此實(shí)體類型本 體可以被理解為一個(gè)將實(shí)體從一般到具體的分類體系。實(shí)體類型本體有兩種獲得方法,第 一種方法是使用已有的實(shí)體類型本體,例如網(wǎng)址http://www. dmoz. org/等等公開的實(shí)體 類型;第二種方法是用戶根據(jù)自己的需要定制自己的實(shí)體類型本體,本文對(duì)此不做限制。
[0024] 在得到實(shí)體類型本體后,可以利用機(jī)器學(xué)習(xí)技術(shù)訓(xùn)練能夠自動(dòng)判斷給定實(shí)體的類 型的機(jī)器識(shí)別模型。其中機(jī)器學(xué)習(xí)技術(shù)包括有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種方法。有監(jiān)督學(xué) 習(xí)需要標(biāo)注一些訓(xùn)練語料,比如需要識(shí)別PERSON實(shí)體,那么可以標(biāo)注一些包含PERSON實(shí)體 的訓(xùn)練語料,然后利用有監(jiān)督學(xué)習(xí)模型如CRF、SVM和訓(xùn)練語料訓(xùn)練一個(gè)機(jī)器識(shí)別模型。利 用這個(gè)機(jī)器識(shí)別模型就可以識(shí)別文本中的PERSON實(shí)體。對(duì)于其他實(shí)體類型可以根據(jù)與此 相似的方式訓(xùn)練得到機(jī)器識(shí)別模型,最終得到能夠自動(dòng)判斷給定實(shí)體的類型的機(jī)器識(shí)別模 型。無監(jiān)督學(xué)習(xí)方法可以利用專業(yè)詞典識(shí)別實(shí)體的類型,比如可以利用地名詞典通過字符 串匹配的方法識(shí)別地名,或者根據(jù)一些模式來識(shí)別實(shí)體的類型,比如出現(xiàn)"〈XXX總統(tǒng)〉"則 將XXX的類型識(shí)別為PERSON,通過一系列的無監(jiān)督學(xué)習(xí)得到能夠自動(dòng)判斷給定實(shí)體的類型 的機(jī)器識(shí)別模型。
[0025] 除了利用機(jī)器自動(dòng)識(shí)別實(shí)體提及的類型外,用戶也可以人工指定mention的類 型,這里實(shí)體提及mention的類型要與實(shí)體類型本體中的類別相對(duì)應(yīng)。也就是說,可以不通 過機(jī)器判斷而是由用戶直接判斷實(shí)體提及的類型。這樣做的好處是,用戶可以指定鏈接某 些他感興趣類型的實(shí)體,比如只鏈接短文本中PERSON或ORGANIZATION類型的實(shí)體。
[0026] 需要說明的是,實(shí)體提及類型的判斷也可以不依賴實(shí)體類型本體,即不需要預(yù)先 確定實(shí)體與類型之間的對(duì)應(yīng)關(guān)系,例如用戶可以在確定實(shí)體提及的類型時(shí)隨機(jī)指定實(shí)體提 及的類型。
[0027] 在得到實(shí)體提及的類型后,可以根據(jù)下述方式確定偽實(shí)體提及:如果所述實(shí)體提 及的類型為人,使用共指消解技術(shù)在所述原始文本中找到所述實(shí)體提及的擴(kuò)展的其他表 示形式作為所述偽實(shí)體提及。比如給定文本"LeBron Raymone James, nicknamed〃King James",is an American professional basketball player for the Miami Heat of the National Basketball Association(NBA). Lebron has played the small forward and power forward positions",其中 mention 為 "Lebron" 時(shí),在原始文本中找到 Lebron 的共指"LeBron Raymone James" 時(shí),那么則用 "LeBron Raymone James" 代替原來的 mention "Lebron",即使用 "LeBron Raymone James" 作為 "Lebron" 的偽實(shí)體提及。
[0028] 如果所述實(shí)體提及的類型為行政機(jī)關(guān),從所述原始文本中查找地名并結(jié)合所述實(shí) 體提及與查找到的地名作為所述偽實(shí)體提及。例如,使用命名實(shí)體識(shí)別工具從mention的 上下文中找到mention的所屬實(shí)體,利用這些實(shí)體與mention結(jié)合作為偽實(shí)體提及。例如, 給定文本"最高人民法院成立于1949年10月22日,中華人民共和國(guó)最高審判機(jī)關(guān),監(jiān)督地 方各級(jí)人民法院和專門人民法院的審判工作",mention為"最高人民法院",則從原始文本 中查找到地名,即mention的所屬詞"中華人民共和國(guó)",將"中華人民共和國(guó)"與"最高人民 法院"結(jié)合得到偽實(shí)體提及"中華人民共和國(guó)最高人民法院"。
[0029] 如果所述實(shí)體提及的類型為組織,則根據(jù)模式匹配技術(shù)在所述原始文本中找到與 所述實(shí)體提及對(duì)應(yīng)的文本作為所述偽實(shí)體提及。例如,給定文本"Agricultural Bank of China (ABC), also known as AgBank or 農(nóng)行,is one of the〃Big Four^banks in the People's Republic of China",mention為"ABC"時(shí),可以使用模式匹配的方法在原始文 本中找到"Agricultural Bank of China,',那么直接用"Agricultural Bank of China"代 替"ABC",即使用 "Agricultural Bank of China" 作為 "ABC" 的偽實(shí)體提及。
[0030] 還可以根據(jù)下述方式確定偽實(shí)體提及:當(dāng)所述實(shí)體提及為縮寫時(shí),根據(jù)模式匹配 技術(shù)在所述原始文本中找到與所述實(shí)體提及對(duì)應(yīng)的文本作為所述偽實(shí)體提及。例如給定 文本"Michael Jordan (MJ)has been the best basketball player, but MJ is now too old",實(shí)體提及為"MJ",此時(shí)可以使用模式匹配技術(shù)在原始文本中找到"Michael Jordan", 并使用"Michael Jordan"作為"MJ"的偽實(shí)體提及。
[0031] 當(dāng)實(shí)體提及不是縮寫時(shí),可以參考上一偽實(shí)體提及的確定方式根據(jù)實(shí)體提及的類 型來確定偽實(shí)體提及,例如,根據(jù)實(shí)體類型本體識(shí)別實(shí)體提及的類型,并且如果實(shí)體提及的 類型為人,使用共指消解技術(shù)在原始文本中找到實(shí)體提及的擴(kuò)展的其他表示形式作為偽實(shí) 體提及;如果實(shí)體提及的類型為行政機(jī)關(guān),從原始文本中查找地名并結(jié)合實(shí)體提及與查找 到的地名作為偽實(shí)體提及,其示例可以參考上一偽實(shí)體提及的確定方式,此處不再贅述。
[0032] 在上述步驟SlOl中獲取到潛在鏈接實(shí)體之后,執(zhí)行步驟S102。
[0033] 在步驟S102中,根據(jù)實(shí)體類型篩選得到的潛在鏈接實(shí)體,去除實(shí)體類型不滿足預(yù) 設(shè)條件的潛在鏈接實(shí)體。該預(yù)設(shè)條件可以是與實(shí)體提及的類型相同,或者是與用戶預(yù)先設(shè) 置的實(shí)體類型相同。例如,用戶可以預(yù)先設(shè)置實(shí)體提及"MJ"的鏈接實(shí)體的類型為公司,則 查找到的例如潛在鏈接實(shí)體"Michael Jordan"被排除。其中,實(shí)體類型的確定方式將在后 續(xù)對(duì)步驟SlOl的詳述中介紹。
[0034] 在步驟S103中,對(duì)實(shí)體提及所在的原始文本進(jìn)行擴(kuò)展,得到實(shí)體提及對(duì)應(yīng)的第一 文本,計(jì)算第一文本與潛在鏈接實(shí)體對(duì)應(yīng)的第二文本的文本相似度。例如,對(duì)于實(shí)體提及 "恒大"的原始文本"恒大贏了"可能擴(kuò)展得到第一文本"廣州恒大足球俱樂部贏得了中國(guó)足 球超級(jí)聯(lián)賽的第二名"。
[0035] 其中,對(duì)原始文本的擴(kuò)展方式包括但不限于:選擇實(shí)體提及周圍預(yù)設(shè)長(zhǎng)度L內(nèi)的 文本,對(duì)該文本進(jìn)行分詞;然后計(jì)算各個(gè)詞與實(shí)體提及的關(guān)聯(lián)度,選擇關(guān)聯(lián)度最高的η個(gè)詞 作為關(guān)鍵詞;并利用η個(gè)關(guān)鍵詞和實(shí)體提及搜索語料庫得到含有實(shí)體提及和η個(gè)關(guān)鍵詞的 文本片段;進(jìn)而將該文本片段與實(shí)體提及所在的原始文本組合得到第一文本。
[0036] 其中,關(guān)聯(lián)度的計(jì)算可以包括但不限于通過下述公式得到:
[0037] ^D(,. ,·)= max!log/(.v),log/(r)l-l〇g/(.r"r) (1) log M - min j log / {x\ log./ (v)!
[0038] 其中,x表示實(shí)體提及,y表示分詞,NGD (x, y)表示x與y的關(guān)聯(lián)度,M表示查找 得到的潛在鏈接實(shí)體的總數(shù),f (X)表示X在潛在鏈接實(shí)體中出現(xiàn)的次數(shù),f (y)表示y在 潛在鏈接實(shí)體中出現(xiàn)的次數(shù),f (X,y)表示X和y在潛在鏈接實(shí)體中同時(shí)出現(xiàn)的次數(shù)。
[0039] 關(guān)聯(lián)度的計(jì)算還可以通過其他方式實(shí)現(xiàn),例如直接根據(jù)各分詞與實(shí)體提及在潛在 鏈接實(shí)體中同時(shí)出現(xiàn)的頻率確定各分詞與實(shí)體提及的關(guān)聯(lián)度。
[0040] 需要注意,利用η個(gè)關(guān)鍵詞和實(shí)體提及搜索語料庫得到的含有實(shí)體提及和η個(gè)關(guān) 鍵詞的文本片段可能并不唯一,此時(shí)可選的,根據(jù)產(chǎn)生時(shí)間篩選多個(gè)文本片段。例如,假定 得到的文本片段有m個(gè),那么選擇和原始文本時(shí)間相差為t的k個(gè)檢索結(jié)果。假設(shè)原始文本 的產(chǎn)生時(shí)間為T,設(shè)定的時(shí)間窗口為t,則選擇產(chǎn)生時(shí)間為[T-t,T+t]的檢索結(jié)果。例如實(shí) 體提及為"詹姆斯",得到的關(guān)鍵詞為"NBA"和"總決賽",原始文本產(chǎn)生的時(shí)間為T= "2013 年6月18日",假設(shè)t=10天,那么可以選擇產(chǎn)生時(shí)間為"2013年6月8日"到"2013年6月 28日"的檢索到的文本片段。
[0041] 如果根據(jù)時(shí)間篩選得到的文本片段仍然為多個(gè),可以進(jìn)一步篩選,例如對(duì)每一個(gè) 文本片段以及原始文本分別構(gòu)建向量,并計(jì)算各文本片段的向量與所述原始文本的向量的 余弦距離,篩選得到余弦距離滿足閾值條件的文本片段。假定進(jìn)行時(shí)間篩選后得到的文本 片段個(gè)數(shù)為k,對(duì)于該k個(gè)檢索結(jié)果,可以為每一個(gè)檢索結(jié)果構(gòu)建一個(gè)向量, Vi(i=l,2-k), 同時(shí)我們對(duì)原始文本構(gòu)建向量V。,計(jì)算Vi與V。的余弦距離,選擇余弦距離最小的前W個(gè)檢 索結(jié)果。優(yōu)選的,W可以設(shè)置為1。
[0042] 另外,對(duì)原始文本的擴(kuò)展方式還可以包括:選擇實(shí)體提及周圍一定長(zhǎng)度內(nèi)的文本 作為第一文本,該一定長(zhǎng)度例如可以是經(jīng)驗(yàn)值。
[0043] 第一文本與第二文本的文本相似度可以利用現(xiàn)有技術(shù)中的各種相似度計(jì)算方式, 本文對(duì)此不做限制。
[0044] 在上述步驟S103中計(jì)算得到第一文本與第二文本的文本相似度之后,基于該相 似度執(zhí)行步驟S104。
[0045] 在步驟S104中,基于第一文本與第二文本的文本相似度確定潛在鏈接實(shí)體的匹 配度。
[0046] 其中,基于第一文本與第二文本的文本相似度確定潛在鏈接實(shí)體的匹配度可以包 括直接將文本相似度作為匹配度或根據(jù)預(yù)先設(shè)置的文本相似度與匹配度的關(guān)系例如比例 系數(shù)確定匹配度。
[0047] 匹配度的確定還可以在上述文本相似度的基礎(chǔ)上結(jié)合其他因素確定,這些其他因 素包括但不限于:實(shí)體提及的字符串與潛在鏈接實(shí)體的實(shí)體名稱的字符串的相似度、實(shí)體 提及與潛在鏈接實(shí)體的鏈接流行度、以及潛在鏈接實(shí)體與實(shí)體提及的互指概率。并且,這些 其他因素可以單獨(dú)或相互結(jié)合使用。
[0048] 其中,實(shí)體提及的字符串與潛在鏈接實(shí)體的實(shí)體名稱的字符串的相似度可以采用 現(xiàn)有技術(shù)中的各種相似度計(jì)算方式,本文對(duì)此不做限制。
[0049] 實(shí)體提及與潛在鏈接實(shí)體的鏈接流行度通過計(jì)算各潛在鏈接實(shí)體在實(shí)體提及 搜索到的所有潛在鏈接實(shí)體中出現(xiàn)的頻率確定。例如,對(duì)于實(shí)體提及"0A",在網(wǎng)絡(luò)知識(shí) 庫中可能搜索得到100個(gè)頁面,其中包括潛在鏈接實(shí)體"Office Action"與"office automation",且后者在90個(gè)頁面中出現(xiàn),前者在10個(gè)頁面中出現(xiàn),則此時(shí)潛在鏈接實(shí)體 "Office Action"與"office automation"的鏈接流行度分別為例如0.1和0.9。需要說 明,本示例僅是出于說明的目的,而不用于限定鏈接流行度的具體確定方式。
[0050] 潛在鏈接實(shí)體與實(shí)體提及的互指概率可以根據(jù)潛在鏈接實(shí)體的來源確定。例如, 當(dāng)所述來源為重定向鏈接時(shí),確定所述潛在鏈接實(shí)體對(duì)應(yīng)的互指概率為第一預(yù)設(shè)值,例如 1 ;當(dāng)所述來源為黑體字時(shí),確定所述潛在鏈接實(shí)體對(duì)應(yīng)的互指概率為第二預(yù)設(shè)值,例如 0.8 ;當(dāng)所述來源為消歧頁面時(shí),確定所述潛在鏈接實(shí)體對(duì)應(yīng)的互指概率為1/k,其中,k為 歧義的實(shí)體總數(shù)。
[0051] 優(yōu)選的,潛在鏈接實(shí)體與實(shí)體提及的互指概率可以在獲取潛在鏈接實(shí)體的處理中 直接設(shè)置,后續(xù)可以直接使用預(yù)先設(shè)置的該互指概率。
[0052] 如上所述,匹配度的確定可以同時(shí)依據(jù)多個(gè)因素。例如,假定上述文本相似度表 示為ContextSimilarity (mention, entity)、實(shí)體提及的字符串與潛在鏈接實(shí)體的實(shí)體名 稱的字符串的相似度表示為L(zhǎng)exicalSimilarity (mention, entity)、實(shí)體提及與潛在鏈接 實(shí)體的鏈接流行度表示為PopularProbability (mention, entity)以及潛在鏈接實(shí)體與實(shí) 體提及的互指概率表示為P (m,e),并且實(shí)體提及與潛在鏈接實(shí)體的最終的匹配度表示為 FinalScore (m, e),則通過下式計(jì)算FinalScore (m, e),其中m表示實(shí)體提及(mension),e表 示實(shí)體(entity):
[0053] FinalScore(m,e) = p(m, e)* ( a ^LexicalSimilarity(mention, entity) +
[0054] β 氺PopularProbabiIity(mention, entity) +
[0055] y ^ContextSimilarity(mention, entity))
[0056] 其中α、β和Y分別作為權(quán)重系數(shù),其值可以通過訓(xùn)練樣本估計(jì)得到。優(yōu)選的, 由于不同類型的實(shí)體提及的特點(diǎn)不同,所以針對(duì)不同的實(shí)體提及類型分別單獨(dú)地估計(jì)a、 β和Y,即對(duì)不同的實(shí)體提及類型(例如上述人、組織和機(jī)關(guān))構(gòu)建不同的訓(xùn)練樣本,訓(xùn)練得 到不同的權(quán)重值a、β和γ。
[0057] 在步驟S105中,確定是否存在匹配度滿足預(yù)設(shè)條件的潛在鏈接實(shí)體;如果存在, 執(zhí)行步驟S106 ;否則,執(zhí)行步驟S107。預(yù)設(shè)條件例如為閾值,即匹配度在閾值以上的潛在鏈 接實(shí)體為滿足預(yù)設(shè)條件的潛在鏈接實(shí)體。優(yōu)選的,不同類型的實(shí)體提及可以具有不同的預(yù) 設(shè)條件,例如不同的匹配度閾值。
[0058] 在步驟S106中,將實(shí)體提及鏈接到匹配度滿足預(yù)設(shè)條件的潛在鏈接實(shí)體。
[0059] 在步驟S107中,將實(shí)體提及對(duì)應(yīng)的所有潛在鏈接實(shí)體存入知識(shí)庫中。如果發(fā)現(xiàn)不 存在滿足預(yù)設(shè)條件的潛在鏈接實(shí)體,則認(rèn)為當(dāng)前知識(shí)庫中不存在實(shí)體提及對(duì)應(yīng)的實(shí)體,可 以將該實(shí)體提及對(duì)應(yīng)的所有潛在鏈接實(shí)體存入知識(shí)庫中。該知識(shí)庫例如可以為上述步驟 SlOl中提到的各種知識(shí)庫。當(dāng)然,發(fā)現(xiàn)不存在滿足預(yù)設(shè)條件的潛在鏈接實(shí)體,也可以采取其 他處理操作,例如反饋不存在潛在鏈接實(shí)體的提示信息,該提示信息可以為文字或語音形 式。
[0060] 本公開中,對(duì)實(shí)體提及所在的原始文本進(jìn)行擴(kuò)展,利用擴(kuò)展后的文本篩選潛在鏈 接實(shí)體,從而能夠提高鏈接實(shí)體的準(zhǔn)確性。
[0061] 基于與上述方法技術(shù)方案相同的技術(shù)構(gòu)思,本發(fā)明還提供了一種實(shí)體鏈接裝置, 如圖4所示,包括:獲取單元41,配置用于獲取實(shí)體提及的潛在鏈接實(shí)體;擴(kuò)展處理單元 42,配置用于擴(kuò)展所述實(shí)體提及所在的原始文本得到所述實(shí)體提及對(duì)應(yīng)的第一文本,計(jì)算 所述第一文本與所述潛在鏈接實(shí)體對(duì)應(yīng)的第二文本的文本相似度;匹配處理單元43,配置 用于根據(jù)所述文本相似度計(jì)算所述潛在鏈接實(shí)體與所述實(shí)體提及的匹配度;以及鏈接單元 44,配置用于將所述實(shí)體提及鏈接到具有滿足預(yù)設(shè)條件的匹配度的潛在鏈接實(shí)體。
[0062] 該裝置還可以包括:篩選單元45,配置用于在擴(kuò)展處理單元42執(zhí)行操作之前首先 根據(jù)實(shí)體類型篩選得到潛在鏈接實(shí)體,去除實(shí)體類型不滿足預(yù)設(shè)條件的潛在鏈接實(shí)體。
[0063] 該裝置還可以包括:判斷單元46,配置用于確定是否存在匹配度滿足預(yù)設(shè)條件的 潛在鏈接實(shí)體;以及存儲(chǔ)單元47,配置用于當(dāng)不存在具有滿足預(yù)設(shè)條件的匹配度的潛在鏈 接實(shí)體時(shí),將所述實(shí)體提及與其所有潛在鏈接實(shí)體存儲(chǔ)到知識(shí)庫中。
[0064] 與上述方法技術(shù)方案中對(duì)應(yīng),獲取單元41用于執(zhí)行上述步驟SlOl中的相關(guān)操作, 其具體操作可以參照上述步驟S101,此處不再贅述。類似地,篩選單元45配置用于執(zhí)行上 述步驟S102的相關(guān)操作;擴(kuò)展處理單元42用于執(zhí)行上述步驟S103的相關(guān)操作;匹配處理 單元43用于執(zhí)行上述步驟S104的相關(guān)操作;判斷單元46用于執(zhí)行上述步驟S105的相關(guān) 操作;鏈接單元44執(zhí)行上述步驟S106的相關(guān)操作;存儲(chǔ)單元47用于執(zhí)行上述步驟S107的 相關(guān)操作。
[0065] 下文中,參考圖5描述實(shí)現(xiàn)本發(fā)明的數(shù)據(jù)處理設(shè)備的計(jì)算機(jī)的示例性結(jié)構(gòu)。圖5 是示出實(shí)現(xiàn)本發(fā)明的計(jì)算機(jī)設(shè)備的示例性結(jié)構(gòu)的框圖。
[0066] 上述計(jì)算機(jī)中各個(gè)組成模塊、單元可通過軟件、固件、硬件或其組合的方式進(jìn)行配 置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過軟件 或固件實(shí)現(xiàn)的情況下,從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī)(例如圖5示的通 用計(jì)算機(jī)1100)安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能 等。
[0067] 在圖5中,中央處理單元(CPU) 1101根據(jù)只讀存儲(chǔ)器(ROM) 1102中存儲(chǔ)的程序或 從存儲(chǔ)部分1108加載到隨機(jī)存取存儲(chǔ)器(RAM) 1103的程序執(zhí)行各種處理。在RAMl 103中, 也根據(jù)需要存儲(chǔ)當(dāng)CPUl 101執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPUl 101、R0M1102和RAMl 103 經(jīng)由總線1104彼此連接。輸入/輸出接口 1105也連接到總線1104。
[0068] 下述部件連接到輸入/輸出接口 1105 :輸入部分1106 (包括鍵盤、鼠標(biāo)等等)、輸 出部分1107(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(IXD)等,和揚(yáng)聲器等)、存儲(chǔ) 部分1108 (包括硬盤等)、通信部分1109 (包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通 信部分1109經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器1110也可連接到輸入 /輸出接口 1105。可拆卸介質(zhì)1111比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等根據(jù)需要被 安裝在驅(qū)動(dòng)器1110上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分1108中。 [0069] 在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆 卸介質(zhì)1111安裝構(gòu)成軟件的程序。
[0070] 本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖5所示的其中存儲(chǔ)有程 序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1111??刹鹦督橘|(zhì)1111的例子 包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(⑶-ROM)和數(shù)字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘?,存儲(chǔ)介質(zhì)可以是 R0M1102、存儲(chǔ)部分1108中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被 分發(fā)給用戶。
[0071] 本發(fā)明還提出存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機(jī)器讀 取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本發(fā)明任一實(shí)施方式的方法或方法中的部分處理。
[0072] 相應(yīng)地,用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包 括在本發(fā)明的公開中。所述存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等 等。
[0073] 應(yīng)當(dāng)注意,本文中所使用的術(shù)語僅用于描述具體的實(shí)施方式的目的,而非意在限 制本發(fā)明。本文中所使用的單數(shù)形式的"一個(gè)"和"該(the)"意在還包括復(fù)數(shù)形式,除非上 下文清楚地指出不同含義。還應(yīng)當(dāng)理解,術(shù)語"包括"在本說明書中使用時(shí)指所說明的特征、 整體、操作、步驟、元件和/或部件的存在,但是不排除一個(gè)或更多個(gè)其他特征、整體、操作、 步驟、元件、部件和/或其組合的存在或添加。
[0074] 權(quán)利要求中的相應(yīng)結(jié)構(gòu)、材料、動(dòng)作和以"裝置或者步驟加功能"定義的要素的所 有等同形式意在包括用于結(jié)合其他要求保護(hù)的要素來執(zhí)行功能的任意結(jié)構(gòu)、材料或動(dòng)作。 對(duì)本發(fā)明的描述是用于說明和描述的目的,而非意在以所公開的形式來窮舉或限制本發(fā) 明。本領(lǐng)域技術(shù)人員可以在不偏離本發(fā)明的范圍和精神的情況下想到對(duì)本發(fā)明的很多修改 和變化。所選擇和描述的實(shí)施方式是為了最佳地解釋本發(fā)明的原理和實(shí)際應(yīng)用,并使得本 領(lǐng)域的其他技術(shù)人員能夠針對(duì)具有適于所想到的具體用途的各種修改的各種實(shí)施方式來 理解本發(fā)明。
[0075] 通過上述的描述,本發(fā)明的實(shí)施方式提供了以下的技術(shù)方案。
[0076] 附記1. 一種實(shí)體鏈接方法,包括:
[0077] 獲取實(shí)體提及的潛在鏈接實(shí)體;
[0078] 擴(kuò)展所述實(shí)體提及所在的原始文本得到所述實(shí)體提及對(duì)應(yīng)的第一文本,計(jì)算所述 第一文本與所述潛在鏈接實(shí)體對(duì)應(yīng)的第二文本的文本相似度;
[0079] 根據(jù)所述文本相似度計(jì)算所述潛在鏈接實(shí)體與所述實(shí)體提及的匹配度;
[0080] 將所述實(shí)體提及鏈接到具有滿足預(yù)設(shè)條件的匹配度的潛在鏈接實(shí)體。
[0081] 附記2.如附記1所述的實(shí)體鏈接方法,計(jì)算所述潛在鏈接實(shí)體與所述實(shí)體提及的 匹配度之前還包括:
[0082] 排除與所述實(shí)體提及的類型或者預(yù)先設(shè)定類型不一致的潛在鏈接實(shí)體。
[0083] 附記3.如附記2所述的實(shí)體鏈接方法,還包括:根據(jù)實(shí)體類型本體識(shí)別所述實(shí)體 提及的類型。
[0084] 附記4.如附記1所述的實(shí)體鏈接方法,所述獲取實(shí)體提及的潛在鏈接實(shí)體包括:
[0085] 在知識(shí)庫中搜索與所述實(shí)體提及對(duì)應(yīng)的實(shí)體作為潛在鏈接實(shí)體;和/或
[0086] 獲取所述實(shí)體提及所在文本中的包含所述實(shí)體提及且存在于所述知識(shí)庫中的實(shí) 體,作為潛在鏈接實(shí)體。
[0087] 附記5.如附記1所述的實(shí)體鏈接方法,所述根據(jù)所述文本相似度計(jì)算所述潛在鏈 接實(shí)體與所述實(shí)體提及的匹配度包括:
[0088] 結(jié)合所述實(shí)體提及的字符串與所述潛在鏈接實(shí)體的實(shí)體名稱的字符串的相似度、 所述實(shí)體提及與所述潛在鏈接實(shí)體的鏈接流行度和所述潛在鏈接實(shí)體與所述實(shí)體提及的 互指概率中的一種或多種以及所述文本相似度,計(jì)算所述潛在鏈接實(shí)體與所述實(shí)體提及的 匹配度。
[0089] 附記6.如附記5所述的實(shí)體鏈接方法,所述擴(kuò)展所述實(shí)體提及所在的原始文本得 到所述實(shí)體提及對(duì)應(yīng)的第一文本包括:
[0090] 選擇所述實(shí)體提及周圍預(yù)設(shè)長(zhǎng)度內(nèi)的文本,對(duì)所述文本進(jìn)行分詞;
[0091] 計(jì)算各個(gè)詞與所述實(shí)體提及的關(guān)聯(lián)度,選擇關(guān)聯(lián)度最高的η個(gè)詞作為關(guān)鍵詞;
[0092] 利用所述η個(gè)關(guān)鍵詞和所述實(shí)體提及在語料庫中搜索得到含有所述實(shí)體提及和 所述η個(gè)關(guān)鍵詞的文本片段;
[0093] 將所述文本片段與所述實(shí)體提及所在的原始文本組合得到所述第一文本。
[0094] 附記7.如附記6所述的實(shí)體鏈接方法,當(dāng)?shù)玫蕉鄠€(gè)所述文本片段時(shí),篩選得到產(chǎn) 生時(shí)間滿足預(yù)設(shè)條件的文本片段。
[0095] 附記8.如附記7所述的實(shí)體鏈接方法,當(dāng)篩選得到兩個(gè)以上文本片段時(shí),對(duì)每一 個(gè)文本片段以及所述原始文本分別構(gòu)建向量,并計(jì)算各文本片段的向量與所述原始文本的 向量的余弦距離,篩選得到余弦距離滿足閾值條件的文本片段。
[0096] 附記9.如附記5所述的實(shí)體鏈接方法,計(jì)算所述潛在鏈接實(shí)體與所述實(shí)體提及的 互指概率包括:
[0097] 獲取所述潛在鏈接實(shí)體在知識(shí)庫中的來源,根據(jù)所述來源確定所述潛在鏈接實(shí)體 對(duì)應(yīng)的互指概率。
[0098] 附記10.如附記9所述的實(shí)體鏈接方法,根據(jù)所述來源確定所述潛在鏈接實(shí)體對(duì) 應(yīng)的互指概率包括:
[0099] 當(dāng)所述來源為重定向鏈接時(shí),確定所述潛在鏈接實(shí)體對(duì)應(yīng)的互指概率為第一預(yù)設(shè) 值;
[0100] 當(dāng)所述來源為黑體字時(shí),確定所述潛在鏈接實(shí)體對(duì)應(yīng)的互指概率為第二預(yù)設(shè)值;
[0101] 當(dāng)所述來源為消歧頁面時(shí),確定所述潛在鏈接實(shí)體對(duì)應(yīng)的互指概率為Ι/k,其中,k 為歧義的實(shí)體總數(shù)。
[0102] 附記11.如附記1所述的方法,所述獲取實(shí)體提及的潛在鏈接實(shí)體包括:
[0103] 對(duì)所述實(shí)體提及進(jìn)行擴(kuò)展得到偽實(shí)體提及,根據(jù)所述偽實(shí)體提及獲取所述潛在鏈 接實(shí)體。
[0104] 附記12.如附記11所述的方法,對(duì)所述實(shí)體提及進(jìn)行擴(kuò)展得到偽實(shí)體提及包括:
[0105] 當(dāng)所述實(shí)體提及為縮寫時(shí),根據(jù)模式匹配技術(shù)在所述原始文本中找到與所述實(shí)體 提及對(duì)應(yīng)的文本作為所述偽實(shí)體提及。
[0106] 附記13.如附記11所述的方法,對(duì)所述實(shí)體提及進(jìn)行擴(kuò)展得到偽實(shí)體提及包括:
[0107] 根據(jù)所述實(shí)體提及的類型對(duì)所述實(shí)體提及進(jìn)行擴(kuò)展得到所述偽實(shí)體提及。
[0108] 附記14.如附記13所述的方法,根據(jù)所述實(shí)體提及的類型對(duì)所述實(shí)體提及進(jìn)行擴(kuò) 展得到所述偽實(shí)體提及包括 :
[0109] 如果所述實(shí)體提及的類型為人,使用共指消解技術(shù)在所述原始文本中找到所述實(shí) 體提及的擴(kuò)展的其他表示形式作為所述偽實(shí)體提及;
[0110] 如果所述實(shí)體提及的類型為行政機(jī)關(guān),從所述原始文本中查找地名并結(jié)合所述實(shí) 體提及與查找到的地名作為所述偽實(shí)體提及;以及
[0111] 如果所述實(shí)體提及的類型為組織,則根據(jù)模式匹配技術(shù)在所述原始文本中找到與 所述實(shí)體提及對(duì)應(yīng)的文本作為所述偽實(shí)體提及。
[0112] 附記15.如附記14所述的方法,其中,根據(jù)實(shí)體類型本體識(shí)別所述實(shí)體提及的類 型。
[0113] 附記16.如附記1所述的方法,還包括:
[0114] 若不存在滿足預(yù)設(shè)條件的匹配度的潛在鏈接實(shí)體,則將所述實(shí)體提及的所有潛在 鏈接實(shí)體存儲(chǔ)到對(duì)應(yīng)數(shù)據(jù)庫中。
[0115] 附記17. -種實(shí)體鏈接裝置,包括:
[0116] 獲取單元,配置用于獲取實(shí)體提及的潛在鏈接實(shí)體;
[0117] 擴(kuò)展處理單元,配置用于擴(kuò)展所述實(shí)體提及所在的原始文本得到所述實(shí)體提及對(duì) 應(yīng)的第一文本,計(jì)算所述第一文本與所述潛在鏈接實(shí)體對(duì)應(yīng)的第二文本的文本相似度;
[0118] 匹配處理單元,配置用于根據(jù)所述文本相似度計(jì)算所述潛在鏈接實(shí)體與所述實(shí)體 提及的匹配度;
[0119] 鏈接單元,配置用于將所述實(shí)體提及鏈接到具有滿足預(yù)設(shè)條件的匹配度的潛在鏈 接實(shí)體。
[0120] 附記18.如附記17所述的實(shí)體鏈接裝置,所述擴(kuò)展處理單元用于:
[0121] 選擇所述實(shí)體提及周圍預(yù)設(shè)長(zhǎng)度內(nèi)的文本,對(duì)所述文本進(jìn)行分詞;
[0122] 計(jì)算各個(gè)詞與所述實(shí)體提及的關(guān)聯(lián)度,選擇關(guān)聯(lián)度最高的η個(gè)詞作為關(guān)鍵詞;
[0123] 利用所述η個(gè)關(guān)鍵詞和所述實(shí)體提及在語料庫中搜索得到含有所述實(shí)體提及和 所述η個(gè)關(guān)鍵詞的文本片段;
[0124] 將所述文本片段與所述實(shí)體提及所在的原始文本組合得到所述第一文本。
[0125] 附記19.如附記17所述的實(shí)體鏈接裝置,所述獲取單元用于:對(duì)所述實(shí)體提及進(jìn) 行擴(kuò)展得到偽實(shí)體提及,根據(jù)所述偽實(shí)體提及獲取所述潛在鏈接實(shí)體。
[0126] 附記20.如附記19所述的實(shí)體鏈接裝置,所述獲取單元用于:根據(jù)所述實(shí)體提及 的類型對(duì)所述實(shí)體提及進(jìn)行擴(kuò)展得到所述偽實(shí)體提及。
【權(quán)利要求】
1. 一種實(shí)體鏈接方法,包括: 獲取實(shí)體提及的潛在鏈接實(shí)體; 擴(kuò)展所述實(shí)體提及所在的原始文本得到所述實(shí)體提及對(duì)應(yīng)的第一文本,計(jì)算所述第一 文本與所述潛在鏈接實(shí)體對(duì)應(yīng)的第二文本的文本相似度; 根據(jù)所述文本相似度計(jì)算所述潛在鏈接實(shí)體與所述實(shí)體提及的匹配度; 將所述實(shí)體提及鏈接到具有滿足預(yù)設(shè)條件的匹配度的潛在鏈接實(shí)體。
2. 如權(quán)利要求1所述的實(shí)體鏈接方法,所述根據(jù)所述文本相似度計(jì)算所述潛在鏈接實(shí) 體與所述實(shí)體提及的匹配度包括: 結(jié)合所述實(shí)體提及的字符串與所述潛在鏈接實(shí)體的實(shí)體名稱的字符串的相似度、所述 實(shí)體提及與所述潛在鏈接實(shí)體的鏈接流行度和所述潛在鏈接實(shí)體與所述實(shí)體提及的互指 概率中的一種或多種W及所述文本相似度,計(jì)算所述潛在鏈接實(shí)體與所述實(shí)體提及的匹配 度。
3. 如權(quán)利要求1所述的實(shí)體鏈接方法,所述擴(kuò)展所述實(shí)體提及所在的原始文本得到所 述實(shí)體提及對(duì)應(yīng)的第一文本包括: 選擇所述實(shí)體提及周圍預(yù)設(shè)長(zhǎng)度內(nèi)的文本,對(duì)所述文本進(jìn)行分詞; 計(jì)算各個(gè)詞與所述實(shí)體提及的關(guān)聯(lián)度,選擇關(guān)聯(lián)度最高的n個(gè)詞作為關(guān)鍵詞; 利用所述n個(gè)關(guān)鍵詞和所述實(shí)體提及在語料庫中搜索得到含有所述實(shí)體提及和所述n 個(gè)關(guān)鍵詞的文本片段; 將所述文本片段與所述實(shí)體提及所在的原始文本組合得到所述第一文本。
4. 如權(quán)利要求3所述的實(shí)體鏈接方法,當(dāng)?shù)玫蕉鄠€(gè)所述文本片段時(shí),篩選得到產(chǎn)生時(shí) 間滿足預(yù)設(shè)條件的文本片段。
5. 如權(quán)利要求4所述的實(shí)體鏈接方法,當(dāng)篩選得到兩個(gè)W上文本片段時(shí),對(duì)每一個(gè)文 本片段W及所述原始文本分別構(gòu)建向量,并計(jì)算各文本片段的向量與所述原始文本的向量 的余弦距離,篩選得到余弦距離滿足闊值條件的文本片段。
6. 如權(quán)利要求1所述的實(shí)體鏈接方法,所述獲取實(shí)體提及的潛在鏈接實(shí)體包括: 對(duì)所述實(shí)體提及進(jìn)行擴(kuò)展得到偽實(shí)體提及,根據(jù)所述偽實(shí)體提及獲取所述潛在鏈接實(shí) 體。
7. 如權(quán)利要求6所述的實(shí)體鏈接方法,對(duì)所述實(shí)體提及進(jìn)行擴(kuò)展得到偽實(shí)體提及包 括: 當(dāng)所述實(shí)體提及為縮寫時(shí),根據(jù)模式匹配技術(shù)在所述原始文本中找到與所述實(shí)體提及 對(duì)應(yīng)的文本作為所述偽實(shí)體提及。
8. 如權(quán)利要求6所述的實(shí)體鏈接方法,對(duì)所述實(shí)體提及進(jìn)行擴(kuò)展得到偽實(shí)體提及包 括: 根據(jù)所述實(shí)體提及的類型對(duì)所述實(shí)體提及進(jìn)行擴(kuò)展得到所述偽實(shí)體提及。
9. 如權(quán)利要求8所述的實(shí)體鏈接方法,根據(jù)所述實(shí)體提及的類型對(duì)所述實(shí)體提及進(jìn)行 擴(kuò)展得到所述偽實(shí)體提及包括: 如果所述實(shí)體提及的類型為人,使用共指消解技術(shù)在所述原始文本中找到所述實(shí)體提 及的擴(kuò)展的其他表示形式作為所述偽實(shí)體提及; 如果所述實(shí)體提及的類型為行政機(jī)關(guān),從所述原始文本中查找地名并結(jié)合所述實(shí)體提 及與查找到的地名作為所述偽實(shí)體提及;w及 如果所述實(shí)體提及的類型為組織,則根據(jù)模式匹配技術(shù)在所述原始文本中找到與所述 實(shí)體提及對(duì)應(yīng)的文本作為所述偽實(shí)體提及。
10. -種實(shí)體鏈接裝置,包括: 獲取單元,配置用于獲取實(shí)體提及的潛在鏈接實(shí)體; 擴(kuò)展處理單元,配置用于擴(kuò)展所述實(shí)體提及所在的原始文本得到所述實(shí)體提及對(duì)應(yīng)的 第一文本,計(jì)算所述第一文本與所述潛在鏈接實(shí)體對(duì)應(yīng)的第二文本的文本相似度; 匹配處理單元,配置用于根據(jù)所述文本相似度計(jì)算所述潛在鏈接實(shí)體與所述實(shí)體提及 的匹配度; 鏈接單元,配置用于將所述實(shí)體提及鏈接到具有滿足預(yù)設(shè)條件的匹配度的潛在鏈接實(shí) 體。
【文檔編號(hào)】G06F17/30GK104462126SQ201310432213
【公開日】2015年3月25日 申請(qǐng)日期:2013年9月22日 優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】繆慶亮, 孟遙 申請(qǐng)人:富士通株式會(huì)社