專利名稱:互聯(lián)網(wǎng)人物信息搜索引擎的生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息搜索引擎技術(shù)領(lǐng)域,更具體地說,本發(fā)明涉及互聯(lián)網(wǎng)人物相關(guān)信息的搜索引擎的生成方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,人們對互聯(lián)網(wǎng)信息服務(wù)的需求正呈現(xiàn)多樣化發(fā)展的趨勢,傳統(tǒng)的搜索引擎并不能完全滿足這種要求。盡管目前流行的信息服務(wù)形式很多,例如“圖片搜索”、“歌曲/歌詞搜索”、“熱點新聞搜索”等,但從人物角度來組織信息的服務(wù)還不常見。目前已經(jīng)公開的技術(shù)只能根據(jù)提交的人名關(guān)鍵詞返回含有該人名的原始網(wǎng)頁,處理的精細(xì)程度不夠;或只能對部分名人的信息進(jìn)行較精細(xì)的處理,返回相關(guān)名人的特征屬性和特征人群,所能處理的人物范圍有限。在這種情況下,人們要想了解一個在互聯(lián)網(wǎng)上出現(xiàn)過的人物的信息,往往不得不借助于通用領(lǐng)域的搜索引擎,例如Google等,鍵入相關(guān)的人名,得到返回頁面,其中不乏與同名同姓的不同人物相關(guān)的頁面,也不乏與人物姓名詞形相同的非人物實體;頁面只是采取簡單羅列的方式,未根據(jù)人物的特征進(jìn)行整理,用戶無法對所關(guān)注人物的信息進(jìn)行清晰的把握。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點,解決目前無法對人物信息進(jìn)行大規(guī)模有效處理的問題,提供一種新穎實用的互聯(lián)網(wǎng)人物搜索引擎的生成方法。
本發(fā)明的目的通過下述技術(shù)方案予以實現(xiàn)。
本發(fā)明提供的互聯(lián)網(wǎng)人物搜索引擎所呈現(xiàn)的人物相關(guān)信息主要包括人物的履歷和人物的事件報道專集以及人物的知名度變化統(tǒng)計圖。制作人物履歷就是從網(wǎng)頁中自動抽取出該人物的屬性信息和特定類型的事件信息,并把分散的各種屬性、特定類型事件信息進(jìn)行整合,形成完整的生平履歷。制作人物的事件報道專集,就是把人物參與的事件報道按照內(nèi)在發(fā)展邏輯有效地組織起來,形成清晰的邏輯結(jié)構(gòu)。在具體流程上,主要有以下四個步驟針對人物的數(shù)據(jù)預(yù)處理,主要包括網(wǎng)頁去重、網(wǎng)頁噪音過濾、人名的識別、人物對應(yīng)語段的確定、時間標(biāo)簽的確定、人物屬性的抽取、人物特定類型事件的抽取等;同名人物的判別和人物履歷的填充,主要是對人名出現(xiàn)的上下文進(jìn)行影響范圍劃分,使得在同一分區(qū)里的人名,在真實世界里“指稱”同一個人,并對同一人物的履歷信息進(jìn)行填充;人物事件報道的組織,主要是把與同一人物相關(guān)的活動報道按照事件的發(fā)展邏輯組織起來,形成清晰的邏輯結(jié)構(gòu);人物知名度變化的統(tǒng)計,主要是生成人物知名度變化的曲線圖。
搜索引擎接受用戶輸入的人名,首先讓搜索引擎向用戶呈現(xiàn)同名人物的信息,等待用戶點擊具體某一人物時再向用戶提供該人物的具體信息。
人物履歷信息的生成采用同名人物的判別,以及人物屬性抽取或人物特定事件抽取來完成。
人物屬性的抽取采用機(jī)器學(xué)習(xí)訓(xùn)練二元分類器的方法來實現(xiàn)。
同名人物的判別采用數(shù)值屬性計算或類屬性、數(shù)值屬性計算相混合的聚類方法來實現(xiàn)。
人物事件報道的組織在同名人物判別的基礎(chǔ)上,采用對同一人物的網(wǎng)頁內(nèi)容或網(wǎng)頁內(nèi)容片斷進(jìn)行聚類的方法來實現(xiàn)。
人物知名度變化的統(tǒng)計在同名人物判別的基礎(chǔ)上,采用計算單位時間內(nèi)人名在報道中的出現(xiàn)的方法來實現(xiàn)。
本發(fā)明與現(xiàn)有技術(shù)相比,有如下優(yōu)點1.克服了同名人物和非人物返回頁面的問題,這樣就可以減少跟人物不相關(guān)的信息的冗余,降低用戶的閱讀工作量。
2.提供了人物的履歷,這樣就可以簡明清晰地突出人物的主要特征。
3.提供了人物的活動報道專集,這樣可以克服傳統(tǒng)技術(shù)返回的人物相關(guān)頁面雜亂無章的局面。
4.提供了人物知名度的變化統(tǒng)計圖,這樣可以呈現(xiàn)人物在互聯(lián)網(wǎng)上的知名變化程度。
我們組織人力手工標(biāo)注了萬篇級的語料,語料涉及20個人名,分屬不同的領(lǐng)域和不同的知名程度。語料來源于“百度”搜索引擎中的新聞搜索所返回的人物相關(guān)網(wǎng)頁。我們在這個語料上做了相關(guān)的實驗,其人物屬性抽取的平均性能達(dá)到79.41%,同名人物判別的平均性能達(dá)到91.69%(只對人名周邊詞場進(jìn)行數(shù)值計算的方法進(jìn)行聚類,性能達(dá)到86.49%;對人名周邊詞場和人物屬性進(jìn)行類屬性與數(shù)值屬性混合計算來聚類,性能達(dá)到91.69%);我們沒有標(biāo)注人物參與的事件的語料,但在新聞事件組織方面有國際標(biāo)準(zhǔn)評測,叫做“話題識別與跟蹤”(topicdetection and tracking),我們的技術(shù)在世界著名研究機(jī)構(gòu)中,處于領(lǐng)先地位。我們認(rèn)為其技術(shù)完全適用于對人物事件的組織?;ヂ?lián)網(wǎng)人物信息搜索引擎的生成涉及的其它技術(shù)問題采用目前已經(jīng)公開的技術(shù)可以得到有效解決。
圖1示出人物搜索引擎生成方法的文檔處理流程圖。
具體實施方法下面結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步的描述。
如圖1所示,按照對文檔的處理流程,人物信息搜索引擎的生成方法可大致分為以下四個步驟數(shù)據(jù)預(yù)處理、同名人物的判別及履歷信息的填充、人物事件報道的組織和人物知名度變化的統(tǒng)計。
步驟S1在數(shù)據(jù)預(yù)處理階段,系統(tǒng)只接受收集到的新聞網(wǎng)站上的網(wǎng)頁,然后對各個網(wǎng)頁順序處理,包括網(wǎng)頁去重、網(wǎng)頁噪音過濾、人名的識別、人物對應(yīng)語段的確定、時間標(biāo)簽的確定、人物屬性的抽取、人物特定類型事件的抽取等。
網(wǎng)頁去重可以采用目前成熟的技術(shù)。對于人物信息搜索引擎來說,除了新聞?wù)暮蜆?biāo)題,其它內(nèi)容均可視為網(wǎng)頁噪音,這些噪音可以通過對頁面源文件的解析來去除,目前該項技術(shù)也已經(jīng)成熟。
人名的識別需要借助于詞法分析工具,所用工具必須具有詞性標(biāo)注和命名實體識別的功能。目前,世界上大多數(shù)語種都有性能比較好的相關(guān)工具,其中,在漢語詞法分析方面,根據(jù)其使用的方法不同,大致可分為三種規(guī)則方法,統(tǒng)計方法以及規(guī)則與統(tǒng)計相結(jié)合的方法。目前效果比較好的是采用Viterbi算法對切詞結(jié)果進(jìn)行角色標(biāo)注,然后進(jìn)行模式最大匹配的方法。該方法人名識別的正確率和召回率分別達(dá)到95.57%和95.23%,能夠達(dá)到實用的要求。
在一篇新聞報道中,跟一個人物相關(guān)的語段范圍是有限的,它往往不是全文,而只是報道的一部分,所以需要挖掘出人物在報道中相關(guān)的語段。在做法上,可以利用一些啟發(fā)式知識,以人名及其指代詞為中心來對文檔進(jìn)行分割。這些啟發(fā)式知識主要是利用人名相關(guān)詞在文檔中的位置分布來確定人物的作用范圍,例如如果人名出現(xiàn)在報道的標(biāo)題和正文第一段,則它的作用范圍是新聞全篇;出現(xiàn)在其它段落,則作用范圍是當(dāng)前段落;如果與某一段落相鄰的其它語段都是有效段落,則它也成為有效段落等。這樣,如果一篇報道描述了N個人,我們就對該報道確立出N個語段的集合{P1,P2,...,PN},分別與這N個人相對應(yīng)。
時間是構(gòu)成新聞的一個重要因素。在這里,時間標(biāo)簽的選取可以采用新聞報道本身的時間戳記,也可以對人物對應(yīng)語段Pi(1≤i≤N)中的時間表達(dá)式進(jìn)行識別和規(guī)范化處理,采用對基準(zhǔn)日期和相對日期進(jìn)行時制計算的方法來確定。目前該項技術(shù)已經(jīng)可以實用化。
確定人物對應(yīng)的語段后,還要從相關(guān)語段中抽取出人物的屬性信息,諸如性別、年齡、民族、籍貫、出生年月、職位、住址及親屬關(guān)系等,為后續(xù)處理做準(zhǔn)備。抽取人物的屬性,可以事先手工標(biāo)注一定規(guī)模的訓(xùn)練集,然后選取人名和某一屬性周邊若干數(shù)目的詞,對這些詞進(jìn)行語義聚類,形成特征向量,并統(tǒng)計出各個語義詞在特征向量中的權(quán)重;根據(jù)特征向量和標(biāo)注的答案,訓(xùn)練出人名和屬性的二元關(guān)系分類器,具體分類算法可選用SVM、Winnow等。分類器訓(xùn)練好之后,就可對新的候選單句判斷其是否包含人名和屬性的二元關(guān)系。為了識別出人物的屬性,需要事先建立若干觸發(fā)詞庫,如把語義上位是“職位”的詞語作為“人物職位”的觸發(fā)詞庫(漢語詞語的語義上位可通過查“知網(wǎng)”來獲取);把地名短語作為“人物住址”的觸發(fā)詞庫等。在詞法分析的結(jié)果中,尋找一定窗口內(nèi)人名和滿足觸發(fā)條件的詞語,利用簡單規(guī)則的方法尋求該觸發(fā)詞對應(yīng)的最大名詞短語和并列短語,挖掘出它們對應(yīng)的特征向量,然后跟分類器進(jìn)行比較,相似度大于預(yù)設(shè)閾值的就是該人物的屬性。
如下是在分詞結(jié)果上進(jìn)行訓(xùn)練語料標(biāo)注的一種格式人物職位語料1)[東安縣職業(yè)中專/nt 校長/n][李華/nr]被/pbei 授予/v[永州市/ns 優(yōu)秀/a 教育工作者/n]榮譽(yù)/n 稱號/n2)[李華/nr]9/m 次/qv 被/pbei 評為/v[縣/n 先進(jìn)/a 教育工作者/n]人物住址語料1)[李華/nr],/wd 家/n 住/vi[北京市/ns 海淀區(qū)/ns]2)一個/mq“/wyz[濮陽縣城關(guān)鎮(zhèn)/nt 南環(huán)/ns 西路/ns 163/m 號/q][李華/nr]”/wyy的/udel匯款/n 地址/n人物親屬關(guān)系語料1)姐妹/n 倆/m[李中/nr]和/cc[李華/nr]2)那/rzv 婦女/n 名叫/v[趙桂花/nr],/wd 這天/rzt 打算/v 帶/v 著/uzhe兒子/n[李華/nr] 從/p 深圳/ns 乘/v 1506/m 次/qv 列車/n 回/v 江西/ns 老家/n人物性別語料1)[李華/nr],/wd[男/b],/wd 住/vi 廣西/ns 全州縣/ns 全州/n 鎮(zhèn)/n黃中路/ns 95/m 號/q2)[李華/nr][先生/n]被/pbei 任命/v 為/v 東安/nz 四中/n 校長/n人物特定類型事件的抽取主要是抽取出對一個人物來說比較重要的事件類型,例如“畢業(yè)升學(xué)”、“職業(yè)變動”等,因為這些類型的事件能夠反映人物的成長經(jīng)歷,且往往出現(xiàn)在一個單句中,易于識別。具體做法上,可以應(yīng)用事件信息抽取的方法。事件信息抽取就是從文檔中識別出某個事件發(fā)生的時間、地點、事件的參與者、造成的后果等信息,填入預(yù)先設(shè)定的模板槽中。這些類型的事件信息的抽取可采取模式匹配法,以“加入”、“當(dāng)選”、“擔(dān)任”、“考入”等詞匯為觸發(fā)特征來進(jìn)行模式的獲取和匹配。目前特定類型事件的抽取已經(jīng)達(dá)到實用的性能。
步驟S2在同名人物判別及履歷信息的填充階段,系統(tǒng)需要對數(shù)據(jù)預(yù)處理階段生成的人物信息片斷做進(jìn)一步的處理,不僅要把代表不同人物的信息片斷區(qū)分開,還要對同一人物的信息片斷進(jìn)行有機(jī)整合,形成完整的人物履歷。同名人物判別就是要把代表同一人物的信息片斷歸結(jié)在一起,其過程可采用聚類的方法,參與聚類的數(shù)據(jù)主要是同一姓名對應(yīng)的信息片斷,可以利用的特征包括人物的屬性信息,人名周邊的詞場以及與該人名共現(xiàn)的其它人名等。在一般的聚類算法中,點之間的相似度或距離是采用數(shù)字化的方式來度量的;然而,并不是所有的相似度都適合采用數(shù)字化的方式來度量,例如,兩個職業(yè)概念之間的相似度,“律師”和“法官”。所以,同名人物的判別應(yīng)該采用類屬性和數(shù)值屬性相結(jié)合來進(jìn)行聚類的方法。具體做法上,可以首先按照人物關(guān)鍵屬性的匹配,例如“出生年月”、“親屬關(guān)系”,或失配,例如“性別”、“民族”,把同名人物的信息片斷聚合成若干緊密的團(tuán),再對這些團(tuán)利用詞場相似度計算或詞場相似度與布爾屬性(職位、共現(xiàn)人名等)匹配計算相結(jié)合的方法來進(jìn)一步聚類。
在進(jìn)行同名人物判別的同時,還要把代表相同人物的信息片斷進(jìn)行合并。其中,普通詞場的合并比較簡單,進(jìn)行詞頻向量的并集操作即可;人物的屬性及人物特定類型的事件信息需要經(jīng)過同一性判斷之后再進(jìn)行合并。通過制定人物履歷模板,就可以生成人物的履歷信息。
步驟S3人物事件報道的組織,即制作人物的事件報道專集,就是把人物參與的事件的報道按照內(nèi)在發(fā)展邏輯有效地組織起來,形成清晰的邏輯結(jié)構(gòu)。在具體做法上,可以借鑒話題識別與跟蹤(topic detection andtracking,簡稱TDT)的方法。話題識別與跟蹤能夠把具有事件內(nèi)在發(fā)展邏輯的報道以話題的形式組織在一起。例如,把所有關(guān)于“非典”話題的報道組織在一起,其中包括政治、經(jīng)濟(jì)、醫(yī)學(xué)等方方面面的描述,它們的內(nèi)容相似度也許并不高,但是有內(nèi)在的邏輯聯(lián)系。與話題識別與跟蹤不同的是,人物事件報道的組織僅僅把同一人物參與的圍繞不同事件的報道組織在一起,即以同一人物在文本中對應(yīng)的語段為基本的處理單位,采用聚類的技術(shù),形成若干個話題。可以把事件組織成同一粒度的扁平結(jié)構(gòu),也可以組織成層次化的結(jié)構(gòu),層次化的結(jié)構(gòu)能夠體現(xiàn)事件之間的層次包容關(guān)系,這樣更加符合事件的特點。
步驟S4人物的知名度變化可以用一個曲線圖來表示。有了同名人物判別的基礎(chǔ),知名度變化的統(tǒng)計變得相對簡單,可以利用一些啟發(fā)式知識來判斷。這些啟發(fā)式知識包括人物在新聞標(biāo)題或正文開頭出現(xiàn)的數(shù)量;在新聞?wù)闹斜灰玫臄?shù)量;人物相關(guān)網(wǎng)頁在搜索引擎中的排名情況;報道人物信息的新聞媒體的級別程度等等??梢詫@些信息賦予不同的權(quán)重來進(jìn)行加權(quán)求和。通過一段時間內(nèi)相關(guān)信息的統(tǒng)計值來判斷某一人物的知名度變化。
權(quán)利要求
1.一種互聯(lián)網(wǎng)人物信息搜索引擎的生成方法,該方法包括下列步驟步驟S1,針對人物的數(shù)據(jù)預(yù)處理,主要包括網(wǎng)頁去重、網(wǎng)頁噪音過濾、人名的識別、人物對應(yīng)語段的確定、時間標(biāo)簽的確定、人物屬性的抽取、人物特定類型事件的抽?。徊襟ES2,同名人物的判別和人物履歷的填充,主要是采用聚類的技術(shù)對同名人物的信息進(jìn)行區(qū)分,并對同一人物的履歷信息進(jìn)行填充;步驟S3,人物事件報道的組織,主要是把與同一人物相關(guān)的活動報道采用聚類技術(shù)按照事件的發(fā)展邏輯組織起來,形成清晰的邏輯結(jié)構(gòu);步驟S4,人物知名度變化的統(tǒng)計,主要是通過統(tǒng)計人物報道的相關(guān)特征來分析人物的知名度變化。
2.根據(jù)權(quán)利要求1所述的人物搜索引擎的生成方法,其特征是,搜索引擎接受用戶輸入的人名,首先讓搜索引擎向用戶呈現(xiàn)同名人物的信息,等待用戶點擊具體某一人物時再向用戶提供該人物的具體信息。
3.根據(jù)權(quán)利要求1所述的人物搜索引擎的生成方法,其特征是,人物履歷信息的生成采用同名人物的判別,以及人物屬性抽取或人物特定事件抽取來完成。
4.根據(jù)權(quán)利要求3所述的人物搜索引擎的生成方法,其特征是,人物屬性的抽取采用機(jī)器學(xué)習(xí)訓(xùn)練二元分類器的方法來實現(xiàn)。
5.根據(jù)權(quán)利要求1所述的人物搜索引擎的生成方法,其特征是,同名人物的判別采用數(shù)值屬性計算或類屬性、數(shù)值屬性計算相混合的聚類方法來實現(xiàn)。
6.根據(jù)權(quán)利要求1所述的人物搜索引擎的生成方法,其特征是,人物事件報道的組織在同名人物判別的基礎(chǔ)上,采用對同一人物的網(wǎng)頁內(nèi)容或網(wǎng)頁內(nèi)容片斷進(jìn)行聚類的方法來實現(xiàn)。
7.根據(jù)權(quán)利要求1所述的人物搜索引擎的生成方法,其特征是,人物知名度變化的統(tǒng)計在同名人物判別的基礎(chǔ)上,采用計算單位時間內(nèi)人名在報道中的出現(xiàn)的方法來實現(xiàn)。
全文摘要
本發(fā)明涉及互聯(lián)網(wǎng)信息搜索引擎技術(shù)領(lǐng)域,互聯(lián)網(wǎng)人物相關(guān)信息的搜索引擎的生成方法。方法包括S1,針對人物的數(shù)據(jù)預(yù)處理,主要包括網(wǎng)頁去重、網(wǎng)頁噪音過濾;S2,同名人物的判別和人物履歷的填充,S3人物事件報道的組織;S4,人物知名度變化的統(tǒng)計。本發(fā)明適用于建立大規(guī)模商用人物相關(guān)信息的搜索引擎。
文檔編號G06F17/30GK1687924SQ20051001164
公開日2005年10月26日 申請日期2005年4月28日 優(yōu)先權(quán)日2005年4月28日
發(fā)明者于滿泉, 白碩 申請人:中國科學(xué)院計算技術(shù)研究所