專(zhuān)利名稱(chēng):一種搜索引擎動(dòng)態(tài)摘要提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎技術(shù)領(lǐng)域,特別是涉及一種搜索引擎動(dòng)態(tài)摘 要提取方法。
背景技術(shù):
在網(wǎng)絡(luò)信息極大豐富的今天,為了快速而準(zhǔn)確的找到所需的信 息,搜索引擎應(yīng)運(yùn)而生,成為現(xiàn)代網(wǎng)絡(luò)的重要工具。雖然現(xiàn)代搜索引 擎提供了較準(zhǔn)確的結(jié)果排序,然而時(shí)常會(huì)有 一 些靠前的結(jié)果并不是用 戶(hù)所需要的,出現(xiàn)這樣的情況一是搜索引擎是基于全文索引技術(shù)提供 服務(wù)的,只要文檔中包含查詢(xún)?cè)~就會(huì)返回的,所以很大可能存在與用 戶(hù)査詢(xún)需求不相關(guān)的文檔,二是因?yàn)椴樵?xún)?cè)~未必可以完全展現(xiàn)用戶(hù)的 意圖。因此,用戶(hù)會(huì)通過(guò)閱讀摘要來(lái)判定鏈接的價(jià)值。那么摘要的好 壞直接影響到用戶(hù)對(duì)鏈接價(jià)值判定的準(zhǔn)確性,摘要的質(zhì)量也成為用戶(hù) 選擇搜索引擎的標(biāo)準(zhǔn)之 一 。綜上可知摘要對(duì)于搜索引擎有著重要的意 義,其意義就在于對(duì)用戶(hù)判斷鏈接價(jià)值時(shí)所起到的指導(dǎo)性作用。好的
摘要應(yīng)當(dāng)做到不對(duì)用戶(hù)產(chǎn)生誤導(dǎo),這種誤導(dǎo)主要有兩種情況
類(lèi)型一原本與用戶(hù)查詢(xún)較相關(guān)的鏈接,用戶(hù)閱讀摘要后感覺(jué)不 相關(guān),從而忽略該鏈接。
類(lèi)型二原本與用戶(hù)查詢(xún)不相關(guān)的鏈接,用戶(hù)閱讀摘要后感覺(jué)相 關(guān),從而點(diǎn)擊鏈接閱讀原文。
目前在摘要方面已有不少研究。Tombros等人在1998年得出結(jié) 論以査詢(xún)?yōu)橹行牡膭?dòng)態(tài)摘要相比較以?xún)?nèi)容為中心的靜態(tài)摘要,更容易 找至ll相關(guān)文檔(A. Tombros and M. Sanderson, Advantages of query biased summaries in information retrieval, in Proceedings of the 21st annual international ACM SIGIR conference on Research anddevelopment in information retrieval. Melbourne, Australia: ACM, 1998.)。但是該研究對(duì)象是新聞?lì)愇臋n,且沒(méi)有驗(yàn)證該方法在搜索引 擎摘要中的有效性。Das等人在2007年對(duì)以往的自動(dòng)文檔摘要研究 工作做了綜述,對(duì)于單文檔摘要,多文檔摘要的發(fā)展給出較全面的概 括 (D. Das and A. F. T. Martins, A Survey on Automatic Text Summarization, Language Technologies Institute, CMU 2007.), 但是沒(méi) 有考慮針對(duì)網(wǎng)頁(yè)形成動(dòng)態(tài)摘要的情況。Ferragina等人在2005年利用 搜索引擎動(dòng)態(tài)摘要來(lái)做個(gè)性化的搜索引擎(P. Ferragina and A. Gulli, A personalized search engine based on web-snippet hierarchical clustering, in Special interest tracks and posters of the 14th international conference on World Wide Web. Chiba, Japan: ACM, 2005.),但是沒(méi)有涉及到如何 構(gòu)建有效的動(dòng)態(tài)摘要.李曉明等在2005年給出了一種便于理解和實(shí) 現(xiàn)的簡(jiǎn)單的動(dòng)態(tài)摘要算法(李曉明,閆宏飛,and王繼民,搜索引擎-原理、技術(shù)與系統(tǒng)科學(xué)出版社,2005.第五章第三節(jié))。蔡建山等人 在2007年基于滑動(dòng)窗口提取動(dòng)態(tài)摘要(蔡建山遲呈英戰(zhàn)學(xué)剛and 王丫,基于滑動(dòng)窗口的動(dòng)態(tài)摘要算法,計(jì)算機(jī)工程33巻6期 2007),但是窗口的初始位置是從每個(gè)查詢(xún)?cè)~的開(kāi)始位置開(kāi)始的,忽 略了查詢(xún)?cè)~前有意義的文字,且實(shí)驗(yàn)部分簡(jiǎn)陋,實(shí)驗(yàn)結(jié)果難以重現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明提供了一種搜索引擎動(dòng)態(tài)摘要提取方法,目的是為解決現(xiàn) 有技術(shù)中摘要和用戶(hù)查詢(xún)相關(guān)性與原文檔和用戶(hù)查詢(xún)相關(guān)性之間一 致性不高的問(wèn)題。
為達(dá)到上述目的,本發(fā)明實(shí)施例的技術(shù)方案提供 一種搜索引擎動(dòng) 態(tài)摘要提取方法,所述方法包括以下步驟獲取用戶(hù)輸入的查詢(xún)?cè)~; 根據(jù)所述查詢(xún)?cè)~,截取摘要候選段落;獲取所述候選段落的段權(quán)值; 選取段權(quán)值最高的預(yù)先設(shè)定個(gè)數(shù)的候選段落,并將選擇的候選段落合 并生成摘要。其中,在所述截取摘要候選段落的步驟中,具體包括從所述查
詢(xún)?cè)~在文中的位置開(kāi)始向兩邊延伸;根據(jù)向前閾值、終結(jié)標(biāo)點(diǎn)集或上 一段的結(jié)尾,獲取所述候選段落的起始位置;根據(jù)所述起始位置和候 選段落長(zhǎng)度的設(shè)定值,獲取所述候選段落的初始結(jié)束位置;根據(jù)所述 初始結(jié)束位置、向前、向后閾值和終結(jié)標(biāo)點(diǎn)集,獲取所述候選段落的 結(jié)束位置。
其中,所述獲取候選段落的起始位置的步驟,具體包括在所述
査詢(xún)?cè)~在文中的位置向前延伸的長(zhǎng)度大于所述向前閾值時(shí)、或找到所 述終結(jié)標(biāo)點(diǎn)集中的終結(jié)標(biāo)點(diǎn)時(shí)、或達(dá)到上一段的結(jié)尾時(shí)的位置為所述 候選段落的起始位置。
其中,所述初始結(jié)束位置為所述起始位置和候選段落長(zhǎng)度的設(shè)定
值之和。
其中,所述獲取候選段落的結(jié)東位置的步驟,具體包括在所述 查詢(xún)?cè)~在文中的位置向后延伸的長(zhǎng)度大于所述向后閾值時(shí)、或從所述 初始結(jié)束位置向前、向后調(diào)整找到所述終結(jié)標(biāo)點(diǎn)集中的終結(jié)標(biāo)點(diǎn)時(shí)的 位置為所述候選段落的結(jié)束位置。
其中,在所述獲取候選段落的段權(quán)值的步驟中,具體包括根據(jù) 査詢(xún)?cè)~在候選段落中出現(xiàn)的頻率獲取查詢(xún)?cè)~權(quán)值。根據(jù)所述查詢(xún)?cè)~的 權(quán)值和所述查詢(xún)?cè)~在所述候選段落中出現(xiàn)的次數(shù),獲取落在所述候選 段落中的查詢(xún)?cè)~的權(quán)值之和。
其中,在所述獲取查詢(xún)?cè)~的權(quán)值的步驟中,具體包括當(dāng)所述查 詢(xún)?cè)~在候選段落中第一次出現(xiàn)時(shí),其權(quán)值為Cl,當(dāng)所述查詢(xún)?cè)~在第 一次之后在所述候選段落中出現(xiàn)時(shí),其權(quán)值為C2; 為某候選段落計(jì)算權(quán)值時(shí),所有査詢(xún)?cè)~的權(quán)值都初始化為Cl。
其中,所述C1為1,所述C2為0.01。
其中,在所述選取段權(quán)值最高的預(yù)先設(shè)定個(gè)數(shù)的候選段落,并將 選擇的候選段落合并生成摘要的步驟中,還包括當(dāng)選擇的候選段落的個(gè)數(shù)小于所述預(yù)先設(shè)定個(gè)數(shù)時(shí),擴(kuò)展所述選擇的候選段落,使所述 選擇的候選段落的長(zhǎng)度達(dá)到預(yù)先設(shè)定個(gè)數(shù)的候選段落的長(zhǎng)度。
其中,在所述選取段權(quán)值最高的預(yù)先設(shè)定個(gè)數(shù)的候選段落,并將
選擇的候選段落合并生成摘要的步驟中,還包括當(dāng)選擇的候選段落
的個(gè)數(shù)為0時(shí),以正文的首段話(huà)作摘要。
與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有如下優(yōu)點(diǎn)
本發(fā)明以用戶(hù)查詢(xún)?cè)~為中心進(jìn)行摘要候選段落的截取,并根據(jù)段
權(quán)值選擇候選段落,將選擇的候選段落合并生成摘要,從而提高了摘
要和用戶(hù)查詢(xún)相關(guān)性與原文檔和用戶(hù)查詢(xún)相關(guān)性之間 一致性。
圖1是本發(fā)明的 一 種搜索引擎動(dòng)態(tài)摘要提取方法的流程圖。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步詳細(xì) 描述。以下實(shí)施例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍。
本發(fā)明的 一種搜索引擎動(dòng)態(tài)摘要提取方法的流程如圖1所示,包 括以下步驟
步驟sl01,獲取用戶(hù)輸入的查詢(xún)?cè)~。
步驟sl02,根據(jù)查詢(xún)?cè)~,截取摘要候選段落。首先從所述查詢(xún)?cè)~ 在文中的位置開(kāi)始向兩邊延伸;然后根據(jù)向前閾值、終結(jié)標(biāo)點(diǎn)集或上 --段的結(jié)尾,獲取所述候選段落的起始位置,在所述查詢(xún)?cè)~在文中的 位置向前延伸的長(zhǎng)度大于所述向前閾值時(shí)、或找到所述終結(jié)標(biāo)點(diǎn)集中 的終結(jié)標(biāo)點(diǎn)時(shí)、或達(dá)到上一段的結(jié)尾時(shí)的位置為所述候選段落的起始 位置;再根據(jù)所述起始位置和候選段落長(zhǎng)度的設(shè)定值,獲取所述候選
段落的初始結(jié)東位置,所述初始結(jié)東位置為所述起始位置和候選段落
長(zhǎng)度的設(shè)定值之和;最后根據(jù)所述初始結(jié)東位置、向前、向后閾值和 終結(jié)標(biāo)點(diǎn)集,獲取所述候選段落的結(jié)東位置,在所述查詢(xún)?cè)~在文中的 位置向后延伸的長(zhǎng)度大于所述向后閾值時(shí)、或從所述初始結(jié)束位置向段落的結(jié)束位置。
步驟sl03,獲取候選段落的段權(quán)值。首先,獲取查詢(xún)?cè)~權(quán)值。在 候選段落中第一次出現(xiàn)的査詢(xún)?cè)~權(quán)值為1,其后再出現(xiàn)權(quán)值為0.01。 本實(shí)施例中取C1為1、 C2為0.01;然后根據(jù)所述查詢(xún)?cè)~的權(quán)值和 所述查詢(xún)?cè)~在所述候選段落中出現(xiàn)的次數(shù),獲取落在所述候選段落中 的查詢(xún)?cè)~的權(quán)值之和,即所述候選段落的段權(quán)值。
步驟sl04,選取段權(quán)值最高的預(yù)先設(shè)定個(gè)數(shù)的候選段落,并將選 擇的候選段落合并生成摘要。當(dāng)選擇的候選段落的個(gè)數(shù)小于所述預(yù)先 設(shè)定個(gè)數(shù)時(shí),擴(kuò)展所述選擇的候選段落,使所述選擇的候選段落的長(zhǎng) 度達(dá)到預(yù)先設(shè)定個(gè)數(shù)的候選段落的長(zhǎng)度;當(dāng)選擇的候選段落的個(gè)數(shù)為 0時(shí),以正文的首段話(huà)作摘要。
本發(fā)明從形成摘要的基本需求(對(duì)用戶(hù)判斷鏈接價(jià)值時(shí)所起到的 指導(dǎo)性作用)出發(fā),研究動(dòng)態(tài)摘要,實(shí)現(xiàn)摘要算法。下面進(jìn)行具體說(shuō)
1、摘要提取的原則
摘要的意義在于指導(dǎo)用戶(hù)判斷鏈接價(jià)值,因此關(guān)于提取原則,主 要有兩種觀點(diǎn)1)以鏈接頁(yè)面文章的大意為中心;2)以用戶(hù)查詢(xún)?cè)~ 為中心。前者即"全文摘要",目的是為展現(xiàn)原文主題,旨在使用戶(hù)迅 速了解原文敘述的中心問(wèn)題;后者是指依據(jù)用戶(hù)輸入查詢(xún)?cè)~提取摘 要,在文章中提取出與查詢(xún)?cè)~最相關(guān)的部分,旨在使用戶(hù)迅速了解到 原文與查詢(xún)的相關(guān)性如何。這兩種提取原則各有優(yōu)劣,前者濃縮文章, 允許修改原文,以保證語(yǔ)句通順連貫且無(wú)冗余;后者直接重現(xiàn)文章中 與查詢(xún)相關(guān)的片段。我們選擇第二種觀點(diǎn)作為提取摘要的核心原則, 理由如下
1) 鏈接頁(yè)面往往沒(méi)有一個(gè)統(tǒng)一的主題。
2) 文章中與查詢(xún)相關(guān)的信息未必是文章主題,但該信息可能很有價(jià)值,這樣容易產(chǎn)生類(lèi)型一的誤導(dǎo)。
3 )觀點(diǎn) 一 易使得不同的查詢(xún)對(duì)于同- 一 個(gè)文章產(chǎn)生相同或相近的 結(jié)果(可以說(shuō)觀點(diǎn)一是一種靜態(tài)摘要,觀點(diǎn)二則是動(dòng)態(tài)的),如此則 忽略了不同查詢(xún)的需求差異,易產(chǎn)生似是而非的效果,導(dǎo)致兩種類(lèi)型 的誤導(dǎo)。
4)查詢(xún)?cè)~是用戶(hù)需求的集中體現(xiàn),以查詢(xún)?cè)~為中心提取摘要更 符合用戶(hù)的需求。
事實(shí)上,Tombros等人在1998年以新聞?lì)愇臋n為研究對(duì)象驗(yàn)證
了以查詢(xún)?yōu)橹行牡膭?dòng)態(tài)摘要相比較以?xún)?nèi)容為中心的靜態(tài)摘要,更容易 找到相關(guān)文檔。這也間接說(shuō)明選取"以查詢(xún)?yōu)橹行?的動(dòng)態(tài)提取原則, 作為摘要提取原則的合理性。
2摘要提取算法的形式化規(guī)則
依據(jù)摘要的兩種類(lèi)型的誤導(dǎo)情況和提取摘要的原則,我們給出提
1) 從原文中提取幾段作為摘要候選段落,即不要對(duì)原文進(jìn)行改 動(dòng),直接從原文截取。段長(zhǎng)大致相等,這是為方便算法的實(shí)現(xiàn),同時(shí) 保證頁(yè)面顯示的美觀。
2) 合并成摘要的候選段落中應(yīng)該滿(mǎn)足查詢(xún)?cè)~出現(xiàn)的次數(shù)最多, 且最為豐富。 一個(gè)查詢(xún)中通常包含一到多個(gè)查詢(xún)?cè)~,候選段落中包含 的不同的查詢(xún)?cè)~越多,我們定義為越豐富。我們以查詢(xún)?yōu)橹行脑瓌t, 將與查詢(xún)"最相關(guān)"解析為查詢(xún)?cè)~出現(xiàn)"最多"、"最豐富"。只以"最 多,,作為"最相關(guān)"的解析是不夠的,比如"python urlopen用法" 這個(gè)查詢(xún),在一篇文檔中查詢(xún)?cè)~"python"出現(xiàn)的次數(shù)很可能比
"urlopen"多出很多(比如 一篇涉及到urlopen的關(guān)于python的文檔), 那么按照"最多"的規(guī)則提出的摘要極可能沒(méi)有"urlopen""這個(gè)查 詢(xún)?cè)~,結(jié)果有可能導(dǎo)致類(lèi)型一誤導(dǎo)。這種現(xiàn)象可以直觀的理解為一個(gè) 查詢(xún)?cè)~出現(xiàn)較多淹沒(méi)了另 一個(gè)查詢(xún)?cè)~。從"淹沒(méi)"的意義上講"最豐富"比"最多"更為重要。
3) 要求摘要段的語(yǔ)句完整。這是針對(duì)兩種類(lèi)型的誤導(dǎo)而提出的。 若是一段話(huà)不完整,則表意就會(huì)不明確,同時(shí)增加用戶(hù)的閱讀負(fù)擔(dān), 很可能導(dǎo)致兩種類(lèi)型的誤導(dǎo)。
4) 作為摘要的不同段間不要存在交叉。這是保證摘要盡可能多 的向用戶(hù)提供原文信息。交叉的部分占用了摘要的空間,但未向用戶(hù) 提供更多的有效信息,而且重復(fù)的內(nèi)容令用戶(hù)不滿(mǎn)意。
3摘要提取算法 3.1算法主體框架
根據(jù)算法規(guī)則,提取摘要算法主體框架由截取摘要候選段落,以 及從候選段落中選取內(nèi)容合并成最終摘要這兩部分組成。
第 一步截取摘要候選段落。根據(jù)以查詢(xún)?yōu)橹行牡脑瓌t提取摘要, 段落的截取也以查詢(xún)?yōu)橹行?。由查?xún)?cè)~在正文中的位置開(kāi)始向兩邊延 伸形成截取段落。根據(jù)算法規(guī)則3保證語(yǔ)句完整,我們選取帶有終結(jié) 意味的標(biāo)點(diǎn)(比如句號(hào),分號(hào)等)作為延伸截取段落的結(jié)東標(biāo)志。由 于規(guī)則l對(duì)段長(zhǎng)提出了大致相等的要求,因此不可以盲目的只以終結(jié) 標(biāo)點(diǎn)作為標(biāo)志,應(yīng)當(dāng)設(shè)定向前向后延伸的長(zhǎng)度閾值。觀察發(fā)現(xiàn),用戶(hù) 對(duì)一句話(huà)開(kāi)頭的完整性要求高于對(duì)結(jié)尾的完整性要求,這一點(diǎn)也是可 以直觀理解的。有了完整的開(kāi)頭,即使結(jié)尾部分被截?cái)啵Z(yǔ)句大意也 可以通過(guò)之前完整的開(kāi)頭部分推斷出來(lái),所以對(duì)向前延伸的閾值設(shè)定 的要高些,盡量保證截取段落開(kāi)頭的完整性。
若對(duì)每一個(gè)落在正文中的查詢(xún)?cè)~都向兩邊延伸截取段落,那么截 取的段落很可能相交,所以對(duì)已經(jīng)落在某段落中的查詢(xún)?cè)~不再做段落 截取,只對(duì)在已截取段落之外的查詢(xún)?cè)~做段落截取。
第二步選取候選段落合并生成最終摘要。候選段落的選取應(yīng)遵守 規(guī)則2。首先為每個(gè)查詢(xún)?cè)~給定一個(gè)權(quán)值,可以根據(jù)詞頻,或者用戶(hù) 日志給出,本實(shí)施例中,查詢(xún)?cè)~權(quán)值分配方法如下若查詢(xún)?cè)~在候選段落中第一次出現(xiàn),其權(quán)值為Cl,其后每次在該候選段落中出現(xiàn)其 權(quán)值都為C2。段落權(quán)值為落在段中的查詢(xún)?cè)~權(quán)值之和。
段落權(quán)值采用查詢(xún)?cè)~權(quán)值求和的計(jì)算方式是以規(guī)則2中的"最 多"為基礎(chǔ)設(shè)計(jì)的。查詢(xún)?cè)~權(quán)值計(jì)算方式設(shè)計(jì)是以規(guī)則2的"最豐富" 為核心的。在本實(shí)施例中,Cl取l, C2取0.01,由此按照求和方式 計(jì)算的段權(quán)值一定是x . y的形式(x代表整數(shù)部分,y代表小數(shù)部分)。 本實(shí)施例中認(rèn)為查詢(xún)?cè)~候選段落中出現(xiàn)次數(shù)有限,不會(huì)超過(guò)IOO,因 此最終計(jì)算出的段權(quán)值x. y的整數(shù)部分x就代表了查詢(xún)?cè)~出現(xiàn)的豐富 性,小數(shù)部分y則代表了查詢(xún)?cè)~出現(xiàn)的數(shù)量。如此就可以保證以"最 豐富"為核心,同時(shí)兼顧"最多"。
3.2算法描述 ..
本發(fā)明的 一 種動(dòng)態(tài)摘要提取算法的偽代碼如下 Algorithm: Finding snippet
Purpose:根據(jù)用戶(hù)輸入的查詢(xún)?cè)~以及網(wǎng)頁(yè)文字內(nèi)容,形成摘要 Precondition: qwordsPosition
小到大排序 qwordsPositionLen initParaLen frontLen backLen delimSymbol paraNum snippetSet Return: snippet
1. lastParaEnd = -1
2. i = 0
11
〃存儲(chǔ)每個(gè)查詢(xún)?cè)~在文中的位置,按位置從
〃 qwordsPosition的長(zhǎng)度
〃截取段的大致長(zhǎng)度 〃向前延伸的閾值 〃向后延伸的閾值 //終結(jié)標(biāo)點(diǎn)集 〃提取段的數(shù)量 〃摘要
〃上一段的結(jié)東位置3. loop (i < qwordsPositionLen )
〃通過(guò)向前閾值、終結(jié)標(biāo)點(diǎn)集、和上一段的結(jié)尾得到一段的起始 〃當(dāng)大于閾值或找到終點(diǎn)標(biāo)點(diǎn)或達(dá)到上一段結(jié)尾后停止
3.1
paraStart=computeParaStart(qwordPositionLiJ,frontLen,deliSymbol, lastParaEnd)
3.2 initParaEnd=paraStart+initParaLen 〃計(jì)算出段初始結(jié)東位置 〃從段初始結(jié)東位置向前向后調(diào)整找到終結(jié)標(biāo)點(diǎn),找到段真正的
結(jié)東位置
3.3 paraEnd=computeParaEnd(initParaEnd, paraStart, backLen, delimSymbol)
3.4. paraWdght = 0 〃段權(quán)值
〃計(jì)算每段的權(quán)值,掃描之后的查詢(xún)?cè)~,落在截取段中的查詢(xún)?cè)~ 的權(quán)值累加到段權(quán)值上
3.5.1 para Weight += getWeight(qwordsPositiorO
3.5.2 i = i+ 1
〃若未提出paraNum個(gè)段落或提出的paraNum個(gè)段落中最小的
段權(quán)值小于當(dāng)前
〃段得到的paraWeight,則將當(dāng)前段落加入將要提出作為摘要的段 落集合中
3.6 judgeAddSinppetSet(paraStart, paraEnd, para Weight, snippetSet)
3.7 lastParaEnd = paraEnd
4. end loop
5. return snippetSet
在實(shí)際實(shí)現(xiàn)中paraNum = 2, initParaLen = 60。公式(1 )中常量C 1 、 C2分別取0.1和IO。在實(shí)現(xiàn)算法時(shí)要注意截?cái)鄷r(shí)編碼細(xì)節(jié)。不同的編碼可能導(dǎo)致中英
文字符占據(jù)的bit位數(shù)不同。實(shí)際實(shí)現(xiàn)的做法是將文檔轉(zhuǎn)換成Unicode
實(shí)現(xiàn)算法時(shí)還要注意中英文區(qū)別處理的細(xì)節(jié)問(wèn)題。由于英文在頁(yè) 面中占據(jù)的空間大約為中文的一半,所以在摘要中出現(xiàn)英文時(shí),摘要 顯得較短,為保持頁(yè)面美觀在提取段落中出現(xiàn)英文時(shí)要適當(dāng)增長(zhǎng)段落 長(zhǎng)度。
注意未提出足夠數(shù)量段落的處理。在實(shí)際實(shí)現(xiàn)中paraNum = 2。 當(dāng)僅僅提出一個(gè)有效段落時(shí),則擴(kuò)展該段落,使其長(zhǎng)度達(dá)到原長(zhǎng)度的 兩倍左右;當(dāng)未提出有效段落時(shí),提出正文的首段話(huà)作摘要。
4實(shí)驗(yàn)與結(jié)果分析
4.1實(shí)驗(yàn)?zāi)康呐c評(píng)判標(biāo)準(zhǔn)
實(shí)驗(yàn)?zāi)康氖菧y(cè)試上文算法提取摘要的質(zhì)量,以驗(yàn)證摘要提取原則
基于之前對(duì)摘要意義的分析,將不誤導(dǎo)作為較高質(zhì)量摘要的標(biāo) 準(zhǔn)。誤導(dǎo)是一種感性認(rèn)識(shí),實(shí)際上是摘要展現(xiàn)的原文與查詢(xún)的相關(guān)性 和原文與查詢(xún)實(shí)際相關(guān)性存在差異,我們將這種差異量化,當(dāng)差異值
越小時(shí),代表摘要的質(zhì)量就越高。 4.2實(shí)驗(yàn)方法
用戶(hù)針對(duì)摘要和查詢(xún)的相關(guān)性給摘要打分,其摘要和查詢(xún)的相關(guān) 性與分值的對(duì)應(yīng)關(guān)系如表l所示
表l
3分査詢(xún)與摘要很相關(guān),閱讀摘要后決定打開(kāi)鏈接或在摘要中已 經(jīng)發(fā)現(xiàn)査找內(nèi)容
2分査詢(xún)與摘要一定相關(guān),閱讀摘要后有打開(kāi)鏈接的傾向
1分查詢(xún)與摘要不太相關(guān),不傾向打開(kāi)鏈接
o分查詢(xún)與摘要不相關(guān),不會(huì)打開(kāi)鏈接
用戶(hù)再針對(duì)鏈接文檔和查詢(xún)的相關(guān)性打分,打分方式與摘要相同
守
分和摘要得分,得:
摘要對(duì)查詢(xún)和文
TV
(2)
其中,A^為文檔得分,M.y為摘要得分,A^為文檔數(shù)量。
由公式(2)計(jì)算出的數(shù)值來(lái)說(shuō)明摘要的質(zhì)量,顯然這個(gè)計(jì)算數(shù)
值越小,摘要的質(zhì)量也就越高。 4.3實(shí)驗(yàn)設(shè)計(jì)與步驟
對(duì)于公式(2),我們并不知道什么樣的數(shù)值能夠說(shuō)明摘要的質(zhì)量 是可接受的,因此在對(duì)本發(fā)明算法打分并且計(jì)算公式(2)的同時(shí), 對(duì)商業(yè)搜索引擎百度的摘要進(jìn)行打分和計(jì)算公式(2)的值。
用戶(hù)使用百度進(jìn)行查詢(xún),并選取搜索結(jié)果中的3到5個(gè)摘要進(jìn)行打分。
對(duì)用戶(hù)選取的搜索結(jié)果用本發(fā)明算法針對(duì)用戶(hù)查詢(xún)重新提取摘 要,用戶(hù)再對(duì)新的摘要進(jìn)行打分。
打開(kāi)搜索結(jié)果的鏈接文檔,對(duì)文檔打分.
計(jì)算公式(2)。
4.4實(shí)驗(yàn)結(jié)果和說(shuō)明
查詢(xún)數(shù)30
鏈接文檔數(shù)150
有效鏈接149
本發(fā)明算法公式(2)計(jì)算結(jié)果0.973 百度摘要公式(2)計(jì)算結(jié)果1.033
實(shí)驗(yàn)中的用戶(hù)群為7位北京大學(xué)信息科學(xué)技術(shù)學(xué)院四年級(jí)本科 生。實(shí)驗(yàn)中的用戶(hù)都是對(duì)搜索有經(jīng)驗(yàn)的,但我們認(rèn)為這樣不會(huì)對(duì)實(shí)驗(yàn) 結(jié)果造成偏差。比如說(shuō)對(duì)于沒(méi)有搜索經(jīng)驗(yàn)的用戶(hù),使用的查詢(xún)?cè)~未能 充分表達(dá)用戶(hù)意圖,那么得到査詢(xún)結(jié)果很可能非用戶(hù)需求,如此用戶(hù) 便會(huì)對(duì)文檔和査詢(xún)的相關(guān)性打分很低,不過(guò)這樣并不會(huì)對(duì)摘要評(píng)測(cè)造成影響,因?yàn)橹灰馁|(zhì)量高,忠實(shí)反映查詢(xún)和原文的相關(guān)度,那 么摘要的得分也會(huì)相應(yīng)的低,算出的差值小, 一樣可以反映摘要質(zhì)量。 簡(jiǎn)單的說(shuō)我們認(rèn)為實(shí)驗(yàn)最后計(jì)算值是一個(gè)相對(duì)值,消除了用戶(hù)本身影 響。
我們認(rèn)為用戶(hù)群體無(wú)法對(duì)本發(fā)明算法產(chǎn)生偏向性。從實(shí)驗(yàn)過(guò)程來(lái) 看,用戶(hù)給本發(fā)明算法打分時(shí)是不知道文檔得分的,那么,對(duì)于本發(fā)
明的算法就無(wú)法產(chǎn)生偏向性。
實(shí)驗(yàn)中本發(fā)明算法和百度都采用相同的數(shù)據(jù)集,因此,百度的結(jié)
實(shí)驗(yàn)中的查詢(xún)?nèi)縼?lái)自于實(shí)驗(yàn)用戶(hù)平時(shí)使用搜索引擎的真實(shí)查 詢(xún)。用戶(hù)并不是為實(shí)驗(yàn)而查詢(xún),而是在實(shí)際中有需求的情況下的查詢(xún), 我們認(rèn)為這樣的查詢(xún)更真實(shí)。并且用戶(hù)在有明確需求下對(duì)摘要打分, 我們認(rèn)為這樣的打分更合理。
關(guān)于查詢(xún)結(jié)果中url的選取,基本原則是選取百度查詢(xún)結(jié)果中的第 1、 2、 5、 9、 10條,目的是為了鏈接文檔和查詢(xún)的相關(guān)性分布盡量平 均。從直觀理解,第l、 2條結(jié)果和查詢(xún)的相關(guān)性較大,第5條結(jié)果相 關(guān)性一般,第9、 IO條結(jié)果相關(guān)性較低。對(duì)于點(diǎn)不開(kāi)的鏈接選取其后 與其最近的有效鏈接。
4.5結(jié)果分析
從(2)式的計(jì)算結(jié)果來(lái)看,本發(fā)明的算法結(jié)果較好,本發(fā)明摘 要更能反映查詢(xún)與原文的相關(guān)性,相比百度略?xún)?yōu)6%。但實(shí)際上兩者 之間并沒(méi)有太強(qiáng)的可比性。原因如下
1) 摘要基于網(wǎng)頁(yè)正文,百度的正文是過(guò)去提取,很可能網(wǎng)頁(yè)已 經(jīng)發(fā)生變化,而本發(fā)明算法所基于的正文是實(shí)時(shí)提取的。
2) 實(shí)驗(yàn)中對(duì)于有些未能抓取的網(wǎng)頁(yè)和提取正文不正確的網(wǎng)頁(yè), 采用手動(dòng)提正文的方式,提取的正文結(jié)果質(zhì)量較高,摘要結(jié)果也自然 更好。3)摘要是基于正文提取的,正文是通過(guò)去HTML標(biāo)簽和網(wǎng)頁(yè)去 噪等方法從網(wǎng)頁(yè)原文中提出的,由于提取正文的方法存在差異,導(dǎo)致 正文的質(zhì)量不同,從而使得基于正文質(zhì)量的摘要質(zhì)量不存在很強(qiáng)的可
雖然缺乏一定的可比性,但百度的結(jié)果是有指導(dǎo)和參考價(jià)值的。 實(shí)驗(yàn)中百度的結(jié)果給出了 1.033這個(gè)值,而鑒于百度是現(xiàn)在最炙手可 熱的搜索引擎之一,我們可以假設(shè)對(duì)于百度的摘要用戶(hù)是可接受的, 那么1.033這個(gè)值是用戶(hù)可忍受的差異值。本發(fā)明算法所得到的差異 值為0.973,在1.033附近,并且單純從誤差角度感性體會(huì),0.973這個(gè) 差異值也應(yīng)是可忍受的。所以,我們斷言本發(fā)明摘要結(jié)果是理想的, 摘要原則和算法規(guī)則是合理的且可行的。
本發(fā)明分析了搜索引擎摘要以查詢(xún)?yōu)橹行牡膭?dòng)態(tài)選取原則和以 文章內(nèi)容為中心的靜態(tài)選取原則的優(yōu)劣,選取以查詢(xún)?yōu)橹行淖鳛樗阉?引擎摘要的核心的原則。之后基于這個(gè)原則提出了形式化算法規(guī)則, 其中我們將"以查詢(xún)?yōu)橹行?解析為關(guān)鍵詞出現(xiàn)"最多,最豐富",并且 我們強(qiáng)調(diào)摘要段落完整性,我們認(rèn)為 一 段話(huà)開(kāi)頭的完整性更為重要, 必須從關(guān)鍵詞開(kāi)始向前延伸,以保證開(kāi)頭完整性。最后實(shí)現(xiàn)算法,且 提出了一種摘要評(píng)價(jià)方法,得到了較理想的效果。而且本發(fā)明動(dòng)態(tài)摘 要算法已經(jīng)應(yīng)用到北京大學(xué)校內(nèi)搜索引擎上。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng) 域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明技術(shù)原理的前提下,還可以 做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種搜索引擎動(dòng)態(tài)摘要提取方法,其特征在于,所述方法包括以下步驟獲取用戶(hù)輸入的查詢(xún)?cè)~;根據(jù)所述查詢(xún)?cè)~,截取摘要候選段落;獲取所述候選段落的段權(quán)值;選取段權(quán)值最高的預(yù)先設(shè)定個(gè)數(shù)的候選段落,并將選擇的候選段落合并生成摘要。
2、 如權(quán)利要求l所述的搜索引擎動(dòng)態(tài)摘要提取方法,其特征在 于,在所述截取摘要候選段落的步驟中,具體包括從所述查詢(xún)?cè)~在文中的位置開(kāi)始向兩邊延伸; 根據(jù)向前閾值、終結(jié)標(biāo)點(diǎn)集或上一段的結(jié)尾,獲取所述候選段落 的起始位置;根據(jù)所述起始位置和候選段落長(zhǎng)度的設(shè)定值,獲取所述候選段落 的初始結(jié)束位置;根據(jù)所述初始結(jié)東位置、向前、向后閾值和終結(jié)標(biāo)點(diǎn)集,獲取所 述候選段落的結(jié)束位置。
3、 如權(quán)利要求2所述的搜索引擎動(dòng)態(tài)摘要提取方法,其特征在 于,所述獲取候選段落的起始位置的步驟,具體包括在所述查詢(xún)?cè)~在文中的位置向前延伸的長(zhǎng)度大于所述向前閾值 時(shí)、或找到所述終結(jié)標(biāo)點(diǎn)集中的終結(jié)標(biāo)點(diǎn)時(shí)、或達(dá)到上一段的結(jié)尾時(shí) 的位置為所述候選段落的起始位置。
4、 如權(quán)利要求2或3所述的搜索引擎動(dòng)態(tài)摘要提取方法,其特 征在于,所述初始結(jié)束位置為所述起始位置和候選段落長(zhǎng)度的設(shè)定值 之和。
5、 如權(quán)利要求4所述的搜索引擎動(dòng)態(tài)摘要提取方法,其特征在 于,所述獲取候選段落的結(jié)束位置的步驟,具體包括在所述查詢(xún)?cè)~在文中的位置向后延伸的長(zhǎng)度大于所述向后閾值 時(shí)、或從所述初始結(jié)東位置向前向后調(diào)整找到所述終結(jié)標(biāo)點(diǎn)集中的終 結(jié)標(biāo)點(diǎn)時(shí)的位置為所述候選段落的結(jié)東位置。
6、 如權(quán)利要求1所述的搜索引擎動(dòng)態(tài)摘要提取方法,其特征在 于,在所述獲取候選段落的段權(quán)值的步驟中,具體包括根據(jù)所述查詢(xún)?cè)~在候選段落中出現(xiàn)的頻率獲取查詢(xún)?cè)~權(quán)值; 根據(jù)所述查詢(xún)?cè)~的權(quán)值和所述查詢(xún)?cè)~在所述候選段落中出現(xiàn)的 次數(shù),獲取落在所述候選段落中的查詢(xún)?cè)~的權(quán)值之和。
7、 如權(quán)利要求6所述的搜索引擎動(dòng)態(tài)摘要提取方法,其特征在 于,在所述獲取查詢(xún)?cè)~的權(quán)值的步驟中,具體包括當(dāng)所述查詢(xún)?cè)~在候選段落中第一次出現(xiàn)時(shí),其權(quán)值為Cl,當(dāng)所 述查詢(xún)?cè)~在第一次之后在所述候選段落中出現(xiàn)時(shí),其權(quán)值為C2;為某候選段落計(jì)算權(quán)值時(shí),所有查詢(xún)?cè)~的權(quán)值都初始化為Cl。
8、 如權(quán)利要求7所述的搜索引擎動(dòng)態(tài)摘要提取方法,其特征在于,所述Cl為1,所述C2為0.01。
9、 如權(quán)利要求1所述的搜索引擎動(dòng)態(tài)摘要提取方法,其特征在 于,在所述選取段權(quán)值最高的預(yù)先設(shè)定個(gè)數(shù)的候選段落,并將選擇的 候選段落合并生成摘要的步驟中,還包括當(dāng)選擇的候選段落的個(gè)數(shù)小于所述預(yù)先設(shè)定個(gè)數(shù)時(shí),擴(kuò)展所述選 擇的候選段落,使所述選擇的候選段落的長(zhǎng)度達(dá)到預(yù)先設(shè)定個(gè)數(shù)的候 選段落的長(zhǎng)度。
10、 如權(quán)利要求l所述的搜索引擎動(dòng)態(tài)摘要提取方法,其特征在 于,在所述選取段權(quán)值最高的預(yù)先設(shè)定個(gè)數(shù)的候選段落,并將選擇的 候選段落合并生成摘要的步驟中,還包括當(dāng)選擇的候選段落的個(gè)數(shù)為0時(shí),以正文的首段話(huà)作摘要。
全文摘要
本發(fā)明公開(kāi)了一種搜索引擎動(dòng)態(tài)摘要提取方法,所述方法包括以下步驟獲取用戶(hù)輸入的查詢(xún)?cè)~;根據(jù)所述查詢(xún)?cè)~,截取摘要候選段落;獲取所述候選段落的段權(quán)值;選取段權(quán)值最高的預(yù)先設(shè)定個(gè)數(shù)的候選段落,并將選擇的候選段落合并生成摘要。本發(fā)明以用戶(hù)查詢(xún)?cè)~為中心進(jìn)行摘要候選段落的截取,并根據(jù)段權(quán)值選擇候選段落,將選擇的候選段落合并生成摘要,從而提高了摘要和用戶(hù)查詢(xún)相關(guān)性與原文檔和用戶(hù)查詢(xún)相關(guān)性之間一致性。
文檔編號(hào)G06F17/30GK101458718SQ20091007648
公開(kāi)日2009年6月17日 申請(qǐng)日期2009年1月5日 優(yōu)先權(quán)日2009年1月5日
發(fā)明者李曉明, 樹(shù)柏涵, 閆宏飛 申請(qǐng)人:北京大學(xué)