一種詞條的獲取方法和裝置【
技術(shù)領(lǐng)域:
】本發(fā)明涉及互聯(lián)網(wǎng)信息處理
技術(shù)領(lǐng)域:
,特別涉及一種詞條的獲取方法和裝置?!?br>背景技術(shù):
:】隨著信息和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,人們越來越多地通過互聯(lián)網(wǎng)進行各種知識和信息的搜索。百科網(wǎng)站是一個互聯(lián)網(wǎng)所有用戶均能平等的瀏覽、創(chuàng)造、完善內(nèi)容的平臺,例如百度百科、維基百科、互動百科等,能夠讓互聯(lián)網(wǎng)用戶通過百科網(wǎng)站即能找到自己想要的全面、準(zhǔn)確、客觀的定義性信息,可供其他用戶進行類似主題的查詢和瀏覽,以便提供相應(yīng)的知識或者借鑒。詞條是百科網(wǎng)站所含內(nèi)容的基礎(chǔ)分割單位,一個詞條具有一個或多個單一的主題,用于闡述一件事物、一個人物、或者具備特定主題的組合等知識內(nèi)容,例如:“故宮”、“劉德華”、“2008年北京奧運會”等。在百科網(wǎng)站中包括極大數(shù)量的詞條,這些詞條記錄了各種行業(yè)、各種主題、各種知識領(lǐng)域的內(nèi)容。對于搜索引擎來說,利用這些百科詞條可以大大提高檢索的準(zhǔn)確性和檢索覆蓋率,并且有利于從網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù),用以進行垂直搜索,得到更為精確的信息。隨著信息的大量傳播以及人們交流內(nèi)容的不斷擴展,新詞條層出不窮?,F(xiàn)有的新詞條都是通過人工添加并創(chuàng)建新詞條對應(yīng)的知識內(nèi)容,進而通過人工審核的方式將創(chuàng)建合格的新詞條添加到百科網(wǎng)站中,以供用戶進行知識和信息的搜索。對于一個未創(chuàng)建新詞條,比如新的歌曲、電影、人物等,系統(tǒng)并不會在互聯(lián)網(wǎng)上主動發(fā)現(xiàn),導(dǎo)致一些新詞條無法及時創(chuàng)建和更新,影響搜索引擎的檢索速度,甚至還會影響檢索的準(zhǔn)確性和召回率?!炯夹g(shù)實現(xiàn)要素:】有鑒于此,本發(fā)明提供了一種詞條的獲取方法和裝置,利用已有詞庫挖掘?qū)嶓w詞條,可指導(dǎo)用戶創(chuàng)建新詞,解決百科數(shù)據(jù)庫中實體詞條收錄不足的問題,便于實現(xiàn)更有效的知識搜索。具體技術(shù)方案如下:一種詞條的獲取方法,該方法包括以下步驟:S1、獲取詞條庫中同一分類的已有詞條集合;S2、利用所獲取的已有詞條集合進行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁位置;S3、根據(jù)所記錄的網(wǎng)頁位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿足預(yù)設(shè)要求的錨文本。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S3之后,還包括:S4、根據(jù)與所述已有詞條的錨文本之間的上下文距離計算所提取的錨文本的權(quán)重,統(tǒng)計所提取的錨文本在當(dāng)前分類中出現(xiàn)的頻度,將頻度或權(quán)重滿足預(yù)設(shè)要求的錨文本識別為新詞條。根據(jù)本發(fā)明一優(yōu)選實施例,所述錨文本所在的網(wǎng)頁位置,包括:錨文本所在的網(wǎng)頁、錨文本所在的網(wǎng)頁分塊以及錨文本在網(wǎng)頁分塊中的位置。根據(jù)本發(fā)明一優(yōu)選實施例,所述上下文距離滿足預(yù)設(shè)要求包括:所提取的錨文本所在的網(wǎng)頁分塊與已有詞條的錨文本所在的網(wǎng)頁分塊相同。根據(jù)本發(fā)明一優(yōu)選實施例,所述上下文距離滿足要求,還包括:所提取的錨文本與已有詞條的錨文本的間隔距離小于預(yù)設(shè)距離閾值。根據(jù)本發(fā)明一優(yōu)選實施例,所述根據(jù)與所述已有詞條的錨文本之間的上下文距離計算所提取的錨文本的權(quán)重,具體包括:在同一網(wǎng)頁分塊中,確定所提取的錨文本與已有詞條的錨文本的上下文距離;利用確定的上下文距離,計算在對應(yīng)的網(wǎng)頁分塊中所提取的錨文本的權(quán)重;在整個當(dāng)前分類下,將提取到的各個網(wǎng)頁分塊中計算得到的所提取的錨文本的權(quán)重進行求和,得到所提取的錨文本的權(quán)重。根據(jù)本發(fā)明一優(yōu)選實施例,所述在同一網(wǎng)頁分塊中確定所提取的錨文本與已有詞條的錨文本的上下文距離,具體包括:確定所提取的錨文本所在的網(wǎng)頁分塊中包含的已有詞條的錨文本;計算所提取的錨文本與獲取的各個已有詞條的錨文本之間的距離;選取距離的最小值作為與已有詞條的上下文距離。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S3之后,還包括:將所提取的錨文本與所述詞條庫進行對比,得到未收錄的錨文本;僅對所述未收錄的錨文本執(zhí)行所述步驟S4。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S3之后,還包括:將所提取的錨文本中不包含指定詞性的錨文本過濾掉;僅對過濾后剩余的錨文本執(zhí)行所述步驟S4。一種詞條的獲取裝置,該裝置包括:已有詞條獲取模塊,用于獲取詞條庫中同一分類的已有詞條集合;搜索模塊,用于利用所述已有詞條獲取模塊獲取的已有詞條集合進行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁位置;提取模塊,用于根據(jù)所述搜索模塊記錄的網(wǎng)頁位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿足預(yù)設(shè)要求的錨文本。根據(jù)本發(fā)明一優(yōu)選實施例,該裝置還包括:新詞條識別模塊,用于根據(jù)與所述已有詞條的錨文本之間的上下文距離計算所述提取模塊提取的錨文本的權(quán)重,統(tǒng)計所提取的錨文本在當(dāng)前分類中出現(xiàn)的頻度,將頻度或權(quán)重滿足預(yù)設(shè)要求的錨文本識別為新詞條。根據(jù)本發(fā)明一優(yōu)選實施例,所述錨文本所在的網(wǎng)頁位置,包括:錨文本所在的網(wǎng)頁、錨文本所在的網(wǎng)頁分塊以及錨文本在網(wǎng)頁分塊中的位置。根據(jù)本發(fā)明一優(yōu)選實施例,所述上下文距離滿足預(yù)設(shè)要求包括:所提取的錨文本所在的網(wǎng)頁分塊與已有詞條的錨文本所在的網(wǎng)頁分塊相同。根據(jù)本發(fā)明一優(yōu)選實施例,所述上下文距離滿足要求,還包括:所提取的錨文本與已有詞條的錨文本的間隔距離小于預(yù)設(shè)距離閾值。根據(jù)本發(fā)明一優(yōu)選實施例,所述新詞條識別模塊,包括:距離確定單元,用于在同一網(wǎng)頁分塊中,確定所提取的錨文本與已有詞條的錨文本的上下文距離;權(quán)重計算單元,用于利用所述距離確定單元確定的上下文距離,計算在對應(yīng)的網(wǎng)頁分塊中所提取的錨文本的權(quán)重;加權(quán)單元,用于在整個當(dāng)前分類下,將提取到的各個網(wǎng)頁分塊中計算得到的所提取的錨文本的權(quán)重進行求和,得到所提取的錨文本的權(quán)重。根據(jù)本發(fā)明一優(yōu)選實施例,所述距離確定單元,具體配置為:確定所提取的錨文本所在的網(wǎng)頁分塊中包含的已有詞條的錨文本;計算所提取的錨文本與獲取的各個已有詞條的錨文本之間的距離;選取距離的最小值作為與已有詞條的上下文距離。根據(jù)本發(fā)明一優(yōu)選實施例,該裝置還包括:已有詞條過濾模塊,用于將所述提取模塊提取的錨文本與所述詞條庫進行對比,得到未收錄的錨文本;并將所述未收錄的錨文本提供給所述新詞識別模塊。根據(jù)本發(fā)明一優(yōu)選實施例,該裝置還包括:詞性過濾模塊,用于將所述提取模塊提取的錨文本中不包含指定詞性的錨文本過濾掉;并將過濾后剩余的錨文本提供給所述新詞識別模塊。由以上技術(shù)方案可以看出,本發(fā)明提供的詞條的獲取方法和裝置,利用已有詞庫挖掘?qū)嶓w詞條,提供尚未創(chuàng)建的新詞條,可指導(dǎo)用戶創(chuàng)建新詞條對應(yīng)的知識,解決百科數(shù)據(jù)庫中實體詞條收錄不足的問題,有利于完善結(jié)構(gòu)化的數(shù)據(jù)資料,便于實現(xiàn)更有效的知識搜索?!靖綀D說明】圖1為本發(fā)明實施例一提供的詞條的獲取方法流程圖;圖2為網(wǎng)頁及其包含的網(wǎng)頁分塊示意圖;圖3為利用已有詞條“因為愛情”搜索到的某個網(wǎng)頁分塊示意圖;圖4為本發(fā)明實施例二提供的詞條的獲取方法流程圖;圖5為本發(fā)明實施例三提供的詞條的獲取裝置示意圖;圖6為本發(fā)明實施例四提供的詞條的獲取裝置示意圖。【具體實施方式】為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述。實施例一、圖1是本實施例提供的詞條的獲取方法流程圖,如圖1所示,該方法包括:步驟S101、獲取詞條庫中同一分類的已有詞條集合。所述詞條庫可以是百科詞條庫、輸入法詞條庫等分類詞條庫,在本發(fā)明中以百科詞條庫為例進行說明。所述分類可以采用分類詞條庫原有的各個類別,包括:歌曲、電影、人物、自然、文化、地理、歷史、生活、社會、藝術(shù)、經(jīng)濟、科技、體育等類別,或者,可以對已有詞條利用現(xiàn)有的分類或聚類方法(如貝葉斯分類方法、決策樹方法、支持向量機SVM等)劃分的類別。獲取詞條庫中同一分類的已有詞條集合,逐一對詞條庫中各個分類的已有詞條,執(zhí)行步驟S102和步驟S103。步驟S102、利用所獲取的已有詞條集合進行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁位置。在互聯(lián)網(wǎng)網(wǎng)頁中,利用獲取的已有詞條集合進行搜索,得到包含已有詞條的錨文本,記錄該些錨文本及錨文本所在的網(wǎng)頁位置。錨文本所在的網(wǎng)頁位置可以包括:錨文本所在的網(wǎng)頁、錨文本所在的網(wǎng)頁分塊以及錨文本在網(wǎng)頁分塊中的位置。圖2是一個網(wǎng)頁及其包含的網(wǎng)頁分塊示意圖,如圖2所示,錨文本1所在的網(wǎng)頁位置為該網(wǎng)頁的網(wǎng)頁分塊A內(nèi)的第一個位置。舉個例子,通過步驟S101獲取到百科詞條中已有的歌曲分類集合T1,該歌曲分類集合T1中包括幾萬個已有詞條,例如{因為愛情,愛你痛到不知痛,等等...}。通過搜索找到包含歌曲分類集合T1中已有詞條的錨文本,例如,利用已有詞條“因為愛情”進行搜索,在http://ting.baidu.com網(wǎng)頁中找到錨文本“因為愛情”,如圖3所示,記錄該錨文本“因為愛情”所在的網(wǎng)頁分塊以及網(wǎng)頁位置?;蛘撸谶M行搜索包含所述已有詞條的錨文本時,也可以先獲取互聯(lián)網(wǎng)上每個網(wǎng)頁的所有錨文本,再利用各分類的已有詞條集合進行匹配,找出能夠匹配的錨文本,記錄該些錨文本所在的網(wǎng)頁、網(wǎng)頁分塊以及網(wǎng)頁位置。步驟S103、根據(jù)所記錄的網(wǎng)頁位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿足預(yù)設(shè)要求的錨文本。對于所記錄的已有詞條的錨文本的網(wǎng)頁位置,提取與該網(wǎng)頁位置上下文距離滿足要求的錨文本作為詞條。其中,所述上下文距離滿足預(yù)設(shè)要求可以包括:所提取的錨文本所在的網(wǎng)頁分塊與已有詞條的錨文本所在的網(wǎng)頁分塊相同。如圖2中的錨文本1和錨文本3所在的網(wǎng)頁分塊相同,但錨文本1和錨文本5則處于不同的網(wǎng)頁分塊中。如果錨文本1為已有詞條的錨文本,則可以提取到滿足要求的錨文本為:錨文本2和錨文本3。具體地,可以根據(jù)頁面布局標(biāo)簽確定錨文本所在的網(wǎng)頁分塊,如頁面布局標(biāo)簽“<div></div>”和“<table></table>”等進行判斷,確定是否處于相同的網(wǎng)頁分塊?;蛘?,也可以根據(jù)網(wǎng)頁視覺分塊等來確定同一網(wǎng)頁分塊?;蛘?,所提取的錨文本所在的網(wǎng)頁分塊與已有詞條的錨文本所在的網(wǎng)頁分塊相同,且所提取的錨文本與已有詞條的錨文本的間隔距離小于預(yù)設(shè)距離閾值。例如,圖3為利用已有詞條“因為愛情”搜索到的某個網(wǎng)頁分塊示意圖,在圖3中,“王菲”、“傷不起”、“王麟”、“最炫民族風(fēng)”、“鳳凰傳奇”、“新貴妃醉酒”、“愛的供養(yǎng)”等錨文本與已有詞條的錨文本“因為愛情”處于同一網(wǎng)頁分塊中,提取該些錨文本作為詞條。為了進一步提高精度,在提取上下文距離滿足預(yù)設(shè)要求的錨文本,還對間隔距離有所限定。如果圖3中“新貴妃醉酒”、“愛的供養(yǎng)”等錨文本與已有詞條的錨文本“因為愛情”之間的間隔距離超過了預(yù)設(shè)距離閾值時,則不提取該些錨文本。所述預(yù)設(shè)距離閾值根據(jù)實際需要進行設(shè)定,比如10個字符以內(nèi)。實施例二、圖4是本實施例提供的詞條的獲取方法流程圖,如圖4所示,該方法包括:步驟S401、獲取詞條庫中同一分類的已有詞條集合。步驟S402、利用所獲取的已有詞條集合進行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁位置。步驟S403、根據(jù)所記錄的網(wǎng)頁位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿足預(yù)設(shè)要求的錨文本。上述步驟S401至S403與實施例一中的步驟S101至S103對應(yīng)相同,于此不再贅述。步驟S404、將所提取的錨文本與所述詞條庫進行對比,得到未收錄的錨文本。由于提取到的錨文本很可能為已有詞條,因而,為了提高效率,對提取到的錨文本進行過濾,將已有詞條過濾掉,以便后續(xù)僅對未收錄的錨文本進行處理。如果圖3中的“牽手”、“背叛情歌”是已有詞條,則予以過濾掉。由于在某一個分類下提取到的錨文本可能屬于其他分類,例如,圖3中可以提取到“王菲”、“王麟”等人物。因而,將提取到的錨文本與整個詞條庫進行對比,去掉已存在于詞條庫中的錨文本,得到未收錄的錨文本。如果未收錄的錨文本屬于人物或其他預(yù)設(shè)相關(guān)分類下的詞條,也予以保留,進一步執(zhí)行步驟S405至S406。所述預(yù)設(shè)相關(guān)分類是指具有關(guān)聯(lián)關(guān)系的分類,根據(jù)經(jīng)驗設(shè)定,例如,歌曲分類與人物、電影、娛樂等分類具有關(guān)聯(lián)關(guān)系。值得說明的是,在處理效率要求不高時,也可以不執(zhí)行本步驟,或者,也可以在執(zhí)行步驟S406得到錨文本的權(quán)重或頻度之后再進行識別是否為未收錄,以確定新詞條。此時,以下步驟S405至S406則是對所提取的錨文本執(zhí)行。步驟S405、將未收錄的錨文本中不包含指定詞性的錨文本過濾掉。對于步驟S404得到的錨文本,通過分詞、詞性標(biāo)注技術(shù)過濾掉不包含指定詞性的錨文本,例如過濾掉不包含動詞、名詞、形容詞等的錨文本。同時,為了得到規(guī)范的詞條,還可以基于錨文本的長度和包含的標(biāo)點符號進行過濾,將不符合要求的錨文本過濾掉。當(dāng)然,本步驟也并非為必要的步驟。步驟S406、根據(jù)與所述已有詞條的錨文本之間的上下文距離計算所述未收錄的錨文本的權(quán)重,統(tǒng)計所述未收錄的錨文本在當(dāng)前分類中出現(xiàn)的頻度,將頻度或權(quán)重滿足預(yù)設(shè)要求的錨文本識別為新詞條。統(tǒng)計步驟S405過濾后剩余的錨文本在當(dāng)前分類中出現(xiàn)的頻度,即出現(xiàn)次數(shù),并計算步驟S405過濾后剩余的錨文本的權(quán)重,具體地,根據(jù)與所述已有詞條的錨文本之間的上下文距離計算錨文本的權(quán)重,包括:步驟S406_1、在同一網(wǎng)頁分塊中,確定所述未收錄的錨文本與已有詞條的錨文本的上下文距離。具體地,先確定所述未收錄的錨文本所在的網(wǎng)頁分塊中包含的已有詞條的錨文本。再計算所述未收錄的錨文本與獲取的各個已有詞條的錨文本之間的距離。其中,上下文距離d可以但不限于采用未收錄的錨文本與已有詞條之間間隔的字符串長度來計算,不包括頁面布局標(biāo)簽、空格、回車等符號。最后,選取距離的最小值作為與已有詞條的上下文距離。例如,在同一個網(wǎng)頁分塊中有多個已有詞條的錨文本K1,K2,K3,…Kn,和多個未收錄的錨文本L1,L2,L3等,逐一對該網(wǎng)頁分塊中未收錄的錨文本,分別計算到K1~Kn的距離,將得出的距離最小值確定為該未收錄的錨文本與已有詞條的上下文距離。步驟S406_2、利用確定的上下文距離,計算在對應(yīng)的網(wǎng)頁分塊中所述未收錄的錨文本的權(quán)重。利用未收錄的錨文本與已有詞條的上下文距離,計算該未收錄的錨文本在各個網(wǎng)頁分塊中的權(quán)重。上下文距離越近,權(quán)重越大。權(quán)重計算公式可以但不限于采用:(公式1)如圖3中,在該網(wǎng)頁分塊中,利用已有詞條錨文本“因為愛情”計算未收錄錨文本“傷不起”的權(quán)重,具體為:上下文距離d=6,間隔的字符串包括“2,王麟,-,進而得到權(quán)重為依次類推,在記錄的各個網(wǎng)頁分塊中,計算在對應(yīng)分塊中的未收錄錨文本的權(quán)重。步驟S406_3、在整個當(dāng)前分類下,將提取到的各個網(wǎng)頁分塊中計算得到的所述未收錄的錨文本的權(quán)重進行求和,得到未收錄的錨文本的權(quán)重。在整個當(dāng)前分類下,將步驟S406_2計算得到的在各個分塊中的未收錄錨文本的權(quán)重進行加權(quán)求和,作為所述未收錄錨文本的權(quán)重。例如:將步驟S406_2計算得到各個網(wǎng)頁分塊中“傷不起”的權(quán)重求和得到“傷不起”的權(quán)重為295.4,判斷是否大于預(yù)設(shè)權(quán)重閾值。統(tǒng)計得到“傷不起”在歌曲分類中出現(xiàn)了1442次,判斷是否大于預(yù)設(shè)頻次閾值。如果權(quán)重大于預(yù)設(shè)權(quán)重閾值或者出現(xiàn)頻次大于預(yù)設(shè)頻次閾值,則將該錨文本識別為新詞條。根據(jù)實際應(yīng)用場合可以設(shè)定需兩個條件同時滿足時,才識別為新詞條。步驟S407、判斷是否獲取完詞條庫中的所有分類,如果是,則進入步驟S408,輸出新詞條的識別結(jié)果,否則,返回步驟S401,獲取詞條庫中下一個分類的已有詞條集合,直至取完所有分類,輸出結(jié)果。以上是對本發(fā)明所提供的方法進行的詳細描述,下面對本發(fā)明提供的詞條的獲取裝置進行詳細描述。實施例三圖5是本實施例提供的詞條的獲取裝置示意圖。如圖5所示,該裝置包括:已有詞條獲取模塊501,用于獲取詞條庫中同一分類的已有詞條集合。所述詞條庫可以是百科詞條庫、輸入法詞條庫等分類詞條庫,在本發(fā)明中以百科詞條庫為例進行說明。所述分類可以采用分類詞條庫原有的各個類別,包括:歌曲、電影、人物、自然、文化、地理、歷史、生活、社會、藝術(shù)、經(jīng)濟、科技、體育等類別,或者,可以對已有詞條利用現(xiàn)有的分類或聚類方法(如貝葉斯分類方法、決策樹方法、支持向量機SVM等)劃分的類別。獲取詞條庫中同一分類的已有詞條集合,逐一將詞條庫中各個分類的已有詞條提供給搜索模塊502和提取模塊503執(zhí)行。搜索模塊502,用于利用已有詞條獲取模塊501獲取的已有詞條集合進行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁位置。在互聯(lián)網(wǎng)網(wǎng)頁中,利用獲取的已有詞條集合進行搜索,得到包含已有詞條的錨文本,記錄該些錨文本及錨文本所在的網(wǎng)頁位置。錨文本所在的網(wǎng)頁位置可以包括:錨文本所在的網(wǎng)頁、錨文本所在的網(wǎng)頁分塊以及錨文本在網(wǎng)頁分塊中的位置。圖2是一個網(wǎng)頁及其包含的網(wǎng)頁分塊示意圖,如圖2所示,錨文本1所在的網(wǎng)頁位置為該網(wǎng)頁的網(wǎng)頁分塊A內(nèi)的第一個位置。舉個例子,通過已有詞條獲取模塊501獲取到百科詞條中已有的歌曲分類集合T1,該歌曲分類集合T1中包括幾萬個已有詞條,例如{因為愛情,愛你痛到不知痛,等等...}。通過搜索找到包含歌曲分類集合T1中已有詞條的錨文本,例如,利用已有詞條“因為愛情”進行搜索,在http://ting.baidu.com網(wǎng)頁中找到錨文本“因為愛情”,如圖3所示,記錄該錨文本“因為愛情”所在的網(wǎng)頁分塊以及網(wǎng)頁位置。或者,在進行搜索包含所述已有詞條的錨文本時,也可以先獲取互聯(lián)網(wǎng)上每個網(wǎng)頁的所有錨文本,再利用各分類的已有詞條集合進行匹配,找出能夠匹配的錨文本,記錄該些錨文本所在的網(wǎng)頁、網(wǎng)頁分塊以及網(wǎng)頁位置。提取模塊503,用于根據(jù)搜索模塊502記錄的網(wǎng)頁位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿足預(yù)設(shè)要求的錨文本。對于所記錄的已有詞條的錨文本的網(wǎng)頁位置,提取與該網(wǎng)頁位置上下文距離滿足要求的錨文本作為詞條。其中,所述上下文距離滿足預(yù)設(shè)要求可以包括:所提取的錨文本所在的網(wǎng)頁分塊與已有詞條的錨文本所在的網(wǎng)頁分塊相同。如圖2中的錨文本1和錨文本3所在的網(wǎng)頁分塊相同,但錨文本1和錨文本5則處于不同的網(wǎng)頁分塊中。如果錨文本1為已有詞條的錨文本,則可以提取到滿足要求的錨文本為:錨文本2和錨文本3。具體地,可以根據(jù)頁面布局標(biāo)簽確定錨文本所在的網(wǎng)頁分塊,如頁面布局標(biāo)簽“<div></div>”和“<table></table>”等進行判斷,確定是否處于相同的網(wǎng)頁分塊?;蛘撸部梢愿鶕?jù)網(wǎng)頁視覺分塊等來確定同一網(wǎng)頁分塊。或者,所提取的錨文本所在的網(wǎng)頁分塊與已有詞條的錨文本所在的網(wǎng)頁分塊相同,且所提取的錨文本與已有詞條的錨文本的間隔距離小于預(yù)設(shè)距離閾值。例如,圖3為利用已有詞條“因為愛情”搜索到的某個網(wǎng)頁分塊示意圖,在圖3中,“王菲”、“傷不起”、“王麟”、“最炫民族風(fēng)”、“鳳凰傳奇”、“新貴妃醉酒”、“愛的供養(yǎng)”等錨文本與已有詞條的錨文本“因為愛情”處于同一網(wǎng)頁分塊中,提取該些錨文本作為詞條。為了進一步提高精度,在提取上下文距離滿足預(yù)設(shè)要求的錨文本,還對間隔距離有所限定。如果圖3中“新貴妃醉酒”、“愛的供養(yǎng)”等錨文本與已有詞條的錨文本“因為愛情”之間的間隔距離超過了預(yù)設(shè)距離閾值時,則不提取該些錨文本。所述預(yù)設(shè)距離閾值根據(jù)實際需要進行設(shè)定,比如10個字符以內(nèi)。實施例四、圖6是本實施例提供的詞條的獲取裝置示意圖,如圖6所示,該裝置包括:已有詞條獲取模塊601,用于獲取詞條庫中同一分類的已有詞條集合。搜索模塊602,用于利用已有詞條獲取模塊601獲取的已有詞條集合進行搜索,得到包含所述已有詞條的錨文本,并記錄所述已有詞條的錨文本所在的網(wǎng)頁位置。提取模塊603,用于根據(jù)搜索模塊602記錄的網(wǎng)頁位置,在相應(yīng)的位置提取與所述已有詞條的錨文本之間的上下文距離滿足預(yù)設(shè)要求的錨文本。上述模塊601至603與實施例三中的501至503的配置對應(yīng)相同,于此不再贅述。已有詞條過濾模塊604,用于將所提取的錨文本與所述詞條庫進行對比,得到未收錄的錨文本。由于提取到的錨文本很可能為已有詞條,因而,為了提高效率,對提取到的錨文本進行過濾,將已有詞條過濾掉,以便后續(xù)僅對未收錄的錨文本進行處理。如果圖3中的“牽手”、“背叛情歌”是已有詞條,則予以過濾掉。由于在某一個分類下提取到的錨文本可能屬于其他分類,例如,圖3中可以提取到“王菲”、“王麟”等人物。因而,將提取到的錨文本與整個詞條庫進行對比,去掉已存在于詞條庫中的錨文本,得到未收錄的錨文本。如果未收錄的錨文本屬于人物或其他預(yù)設(shè)相關(guān)分類下的詞條,也予以保留,供給后續(xù)詞性過濾模塊605和新詞條識別模塊606進一步進行處理。所述預(yù)設(shè)相關(guān)分類是指具有關(guān)聯(lián)關(guān)系的分類,根據(jù)經(jīng)驗設(shè)定,例如,歌曲分類與人物、電影、娛樂等分類具有關(guān)聯(lián)關(guān)系。值得說明的是,在處理效率要求不高時,也可以不設(shè)置本模塊,或者,也可以在新詞條識別模塊606中得到錨文本的權(quán)重或頻度之后再利用本模塊進行識別是否為未收錄,以確定新詞條。此時,詞性過濾模塊605和新詞條識別模塊606則是對所提取的錨文本執(zhí)行。詞性過濾模塊605,用于將未收錄的錨文本中不包含指定詞性的錨文本過濾掉。對于已有詞條過濾模塊604得到的錨文本,通過分詞、詞性標(biāo)注技術(shù)過濾掉不包含指定詞性的錨文本,例如過濾掉不包含動詞、名詞、形容詞等的錨文本。同時,為了得到規(guī)范的詞條,還可以基于錨文本的長度和包含的標(biāo)點符號進行過濾,將不符合要求的錨文本過濾掉。當(dāng)然,本模塊也并非為必要的模塊。新詞條識別模塊606,用于根據(jù)與所述已有詞條的錨文本之間的上下文距離計算所述未收錄的錨文本的權(quán)重,統(tǒng)計所述未收錄的錨文本在當(dāng)前分類中出現(xiàn)的頻度,將頻度或權(quán)重滿足預(yù)設(shè)要求的錨文本識別為新詞條。統(tǒng)計詞性過濾模塊605過濾后剩余的錨文本在當(dāng)前分類中出現(xiàn)的頻度,即出現(xiàn)次數(shù),并計算詞性過濾模塊605過濾后剩余的錨文本的權(quán)重,具體地,根據(jù)與所述已有詞條的錨文本之間的上下文距離計算錨文本的權(quán)重,包括:距離確定單元,用于在同一網(wǎng)頁分塊中,確定所述未收錄的錨文本與已有詞條的錨文本的上下文距離。具體地,距離確定單元先確定所述未收錄的錨文本所在的網(wǎng)頁分塊中包含的已有詞條的錨文本。再計算所述未收錄的錨文本與獲取的各個已有詞條的錨文本之間的距離。其中,上下文距離d可以但不限于采用未收錄的錨文本與已有詞條之間間隔的字符串長度來計算,不包括頁面布局標(biāo)簽、空格、回車等符號。最后,距離確定單元選取距離的最小值作為與已有詞條的上下文距離。例如,在同一個網(wǎng)頁分塊中有多個已有詞條的錨文本K1,K2,K3,…Kn,和多個未收錄的錨文本L1,L2,L3等,逐一對該網(wǎng)頁分塊中未收錄的錨文本,分別計算到K1~Kn的距離,將得出的距離最小值確定為該未收錄的錨文本與已有詞條的上下文距離。權(quán)重計算單元,用于利用距離確定單元確定的上下文距離,計算在對應(yīng)的網(wǎng)頁分塊中所述未收錄的錨文本的權(quán)重。權(quán)重計算單元利用未收錄的錨文本與已有詞條的上下文距離,計算該未收錄的錨文本在各個網(wǎng)頁分塊中的權(quán)重,上下文距離越近,權(quán)重越大。權(quán)重計算公式可以但不限于采用公式1進行計算。如圖3中,在該網(wǎng)頁分塊中,利用已有詞條錨文本“因為愛情”計算未收錄錨文本“傷不起”的權(quán)重,具體為:上下文距離d=6,間隔的字符串包括“2,王麟,-,進而得到權(quán)重為依次類推,在記錄的各個網(wǎng)頁分塊中,計算在對應(yīng)分塊中的未收錄錨文本的權(quán)重。加權(quán)單元,用于在整個當(dāng)前分類下,將提取到的各個網(wǎng)頁分塊中計算得到的所述未收錄的錨文本的權(quán)重進行求和,得到未收錄的錨文本的權(quán)重。在整個當(dāng)前分類下,將權(quán)重計算單元計算得到的在各個分塊中的未收錄錨文本的權(quán)重進行加權(quán)求和,作為所述未收錄錨文本的權(quán)重。例如:將權(quán)重計算單元計算得到各個網(wǎng)頁分塊中“傷不起”的權(quán)重求和得到“傷不起”的權(quán)重為295.4,判斷是否大于預(yù)設(shè)權(quán)重閾值。新詞條識別模塊606統(tǒng)計得到“傷不起”在歌曲分類中出現(xiàn)了1442次,判斷是否大于預(yù)設(shè)頻次閾值。如果權(quán)重大于預(yù)設(shè)權(quán)重閾值或者出現(xiàn)頻次大于預(yù)設(shè)頻次閾值,則將該錨文本識別為新詞條。根據(jù)實際應(yīng)用場合可以設(shè)定需兩個條件同時滿足時,才識別為新詞條。判斷模塊607,用于判斷是否獲取完詞條庫中的所有分類,如果是,則進入結(jié)果輸出模塊608,輸出新詞條的識別結(jié)果,否則,返回至已有詞條獲取模塊601,獲取詞條庫中下一個分類的已有詞條集合,直至取完所有分類,輸出結(jié)果。本發(fā)明提供的詞條的獲取方法和裝置,用已有詞庫挖掘?qū)嶓w詞條,提供尚未創(chuàng)建的新詞條,可指導(dǎo)用戶創(chuàng)建新詞條對應(yīng)的知識,解決百科數(shù)據(jù)庫中實體詞條收錄不足的問題,有利于完善結(jié)構(gòu)化的數(shù)據(jù)資料(實體詞條-屬性名-屬性值),便于實現(xiàn)更有效的知識搜索。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明保護的范圍之內(nèi)。當(dāng)前第1頁1 2 3