專利名稱:用于自動(dòng)提取副標(biāo)題信息的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及對電子文檔的文本分析。更具體地說,本發(fā)明涉及對電子文檔中的副標(biāo)題(by-line)進(jìn)行識(shí)別和指定,從而能夠根據(jù)副標(biāo)題信息來定位文章。
背景技術(shù):
作為例如在線新聞文章的信息的大型資料庫,萬維網(wǎng)正在不斷發(fā)展。在線新聞文章是世界范圍內(nèi)的信息和事件的有用資源。在提供在線新聞文章的網(wǎng)站的數(shù)量方面以及在每個(gè)網(wǎng)站提供的文章的數(shù)量方面,可從web上獲得的在線新聞文章的數(shù)量正在迅速增加。估計(jì)在線新聞資源如web上的雜志和報(bào)紙超過10000。在世界范圍內(nèi),在線新聞資源包括本地新聞資源、地區(qū)新聞資源以及國家新聞資源。這些新聞資源迎合不同的話題,如國際新聞、國家新聞、本地新聞、經(jīng)濟(jì)新聞、科技新聞、及體育新聞等。
新聞資源包括也在線出現(xiàn)的印刷媒體。這些新聞資源每日、每月發(fā)表新聞文章,有時(shí)使較早的文章可用于存檔訪問。新聞資源也包括只通過web提供新聞文章的非印刷媒體站點(diǎn)。
在每天出現(xiàn)這樣大量新聞文章的情況下,擁有能夠從這些新聞文章中提取有意義的信息并且使提取的信息可以為用戶所用的自動(dòng)化的技術(shù)和系統(tǒng)正變得日益有用。這種被提取的信息可以簡化導(dǎo)航和搜索任務(wù)。這些自動(dòng)系統(tǒng)(例如搜索引擎)通常在web上定期爬行(crawl)、抽取網(wǎng)頁、并且對網(wǎng)頁的內(nèi)容進(jìn)行分析。
對于任何這樣的系統(tǒng)而言,一種有用的任務(wù)是能夠?qū)γ科侣勎恼绿崛「睒?biāo)題。副標(biāo)題是出現(xiàn)在文章或報(bào)道的開始之處的行,通常包括作者、日期、來源、位置等。副標(biāo)題信息對于在新聞文章中進(jìn)行基本搜索和導(dǎo)航都是有用的。在對文章的內(nèi)容進(jìn)行趨向分析方面,副標(biāo)題也是有用的。
以下形式的查詢顯示由作者X寫的新聞文章,顯示由作者X寫的關(guān)于關(guān)鍵字Y的新聞文章,顯示由作者X在日期D寫的新聞文章,或者顯示在日期D的關(guān)于關(guān)鍵字Y的新聞文章包括對大型新聞文章資料庫進(jìn)行搜索和導(dǎo)航的基本方法。對副標(biāo)題信息的查詢需要知道在被爬行的網(wǎng)頁上的文章的日期和作者。另外,對一個(gè)話題的任何類型的時(shí)間趨向分析都需要知道關(guān)于該話題的每篇新聞文章的創(chuàng)作日期。
在常規(guī)的印刷的報(bào)紙中,或者當(dāng)被人閱覽時(shí),在文章標(biāo)題之下或之上出現(xiàn)的小行字中很容易看到副標(biāo)題信息。這些小行字將文章的作者與日期并可能將來源或地點(diǎn)一起列出。但是,從網(wǎng)頁的html源中自動(dòng)發(fā)現(xiàn)副標(biāo)題信息是困難的,這是由于不知道副標(biāo)題的位置。副標(biāo)題不被明確地提及或標(biāo)出。另外,被爬行的網(wǎng)頁具有圍繞核心文章的其它項(xiàng)目和模板。在副標(biāo)題之前和之后,可能有其它日期和人名?;谖恢眠x擇任何日期或名字通常不能為所考慮的文章提供期望的副標(biāo)題信息。另外,不同網(wǎng)站使用不同的呈現(xiàn)副標(biāo)題信息的模式,并且,這些模式會(huì)隨時(shí)間變化。
一種傳統(tǒng)的方法使用由某些網(wǎng)站在http標(biāo)題中提供的、表示該頁被最后修改的日期的“最后修改日期”。但是,網(wǎng)頁經(jīng)常包括動(dòng)態(tài)內(nèi)容,如廣告或其它模板。因此,最后修改日期對應(yīng)于廣告或其它模板,而不是核心文章的原始日期。因此,對多數(shù)站點(diǎn),“最后修改日期”不可靠。
另一種傳統(tǒng)方法使用饋送(feed),例如豐富站點(diǎn)摘要(rich sitesummary,RSS)饋送或者資源描述框架(resource descriptionframework,RDF)饋送。饋送通常包括希望的副標(biāo)題信息。但是,不是所有新聞?wù)军c(diǎn)都提供饋送;在饋送中提供的信息取決于內(nèi)容提供者的意愿,并且,某些提供者不提供副標(biāo)題信息。即使提供時(shí),饋送也不是免費(fèi)的,或者不能被網(wǎng)頁分析系統(tǒng)進(jìn)行商業(yè)上的使用。另外,饋送可能只能用于當(dāng)前的文章而不能用于較早的、已經(jīng)存檔的文章。因此,在分析中,希望對網(wǎng)頁的爬行包括較早的文章。
另一種傳統(tǒng)方法尋找關(guān)鍵字模式,如“By*”或者“Composedby*”,以識(shí)別作者。關(guān)鍵字模式,如“Published On*”或者“SubmittedOn*”被用于識(shí)別日期。這種方法對某些站點(diǎn)很好用,但是該方法是受到限制的,因?yàn)槊總€(gè)站點(diǎn)的關(guān)鍵詞模式是不同的。對許多站點(diǎn)來說,在作者/日期之前沒有關(guān)鍵字。例如,副標(biāo)題可能僅包括“Jhon Crameron Apr 4,2005”。
因此,需要一種用于自動(dòng)提取副標(biāo)題信息的系統(tǒng)、計(jì)算機(jī)程序產(chǎn)品以及相關(guān)方法。對這樣的方案的需求至今還未被滿足。
發(fā)明內(nèi)容
本發(fā)明滿足了這種需求,并且提出了用于自動(dòng)提取副標(biāo)題的系統(tǒng)、計(jì)算機(jī)程序產(chǎn)品和相關(guān)方法(以下集中起來稱為“系統(tǒng)”或“本系統(tǒng)”)。本系統(tǒng)從被爬行的文檔的題目元標(biāo)簽中檢測潛在標(biāo)題的集合,從潛在標(biāo)題的集合中選擇候選標(biāo)題,并且通過利用選擇的候選標(biāo)題的位置,從文檔中提取副標(biāo)題信息。
本系統(tǒng)通過根據(jù)題目元標(biāo)簽(title meta-tag)構(gòu)成潛在標(biāo)題的集合,檢測候選標(biāo)題的集合。構(gòu)成潛在標(biāo)題的集合的操作包括在題目元標(biāo)簽中,按照標(biāo)點(diǎn)符號(hào)將題目元標(biāo)簽分開,由此產(chǎn)生題目元標(biāo)簽的子字符串的集合。本系統(tǒng)可選地將子字符串的二元語法模型(bi-gram)和子字符串的n元語法模型(n-gram)加到潛在標(biāo)題的集合。
本系統(tǒng)通過按照潛在標(biāo)題的長度的順序?qū)撛跇?biāo)題的集合進(jìn)行評(píng)估,從潛在標(biāo)題的集合中選擇候選標(biāo)題。評(píng)估包括在被爬行的文檔的去標(biāo)簽(de-tagged)版本中,識(shí)別正在被評(píng)估的所選擇的候選標(biāo)題的位置。評(píng)估還包括檢驗(yàn)所選擇的候選標(biāo)題在去標(biāo)簽內(nèi)容中的被識(shí)別位置包括完整的行。評(píng)估還包括檢驗(yàn)所選擇的候選標(biāo)題的長度超過去標(biāo)題內(nèi)容中的最小長度。評(píng)估還包括確保所選擇的候選標(biāo)題包括文檔的去標(biāo)簽版本中的規(guī)則文本。
本系統(tǒng)通過利用被選擇的候選標(biāo)題的位置,提取位于距潛在標(biāo)題的位置的最短距離內(nèi)的、代表日期的字符串,從文檔中提取副標(biāo)題信息。本系統(tǒng)還通過提取位于距潛在標(biāo)題的位置的最短距離內(nèi)的、代表名字的字符串,從文檔中提取副標(biāo)題信息。本系統(tǒng)還通過提取位于距潛在標(biāo)題的位置的最短距離內(nèi)的、代表文檔來源的字符串,從文檔中提取副標(biāo)題信息。
以下將參照詳細(xì)說明、權(quán)利要求和附圖,對本發(fā)明的各種特性以及實(shí)現(xiàn)它們的方法進(jìn)行詳細(xì)描述,其中,在適當(dāng)?shù)牡胤?,重?fù)使用附圖標(biāo)記,以表示被引用的項(xiàng)目之間的對應(yīng)性,其中圖1為可以使用本發(fā)明的副標(biāo)題提取系統(tǒng)的典型操作環(huán)境的示意圖;圖2為圖1的副標(biāo)題提取系統(tǒng)的高層結(jié)構(gòu)的框圖;圖3為說明圖1和2的副標(biāo)題提取系統(tǒng)的操作方法的處理流程圖;圖4代表說明圖1和2的副標(biāo)題提取系統(tǒng)的標(biāo)題檢測模塊的操作方法的處理流程圖;并且圖5包括圖5A和5B,并且代表說明圖1和2的副標(biāo)題提取系統(tǒng)的標(biāo)題評(píng)估模塊的操作方法的處理流程圖。
具體實(shí)施例方式
以下的定義和解釋提供了有關(guān)本發(fā)明的技術(shù)領(lǐng)域的背景信息,并且,其意圖在于幫助理解本發(fā)明而不對其范圍進(jìn)行限制HTML(Hypertext Markup Language,超文本標(biāo)示語言)一種標(biāo)準(zhǔn)語言,用于將表示和鏈接屬性附加到文檔中的信息性內(nèi)容。在文檔創(chuàng)作階段,HTML“標(biāo)簽”被嵌入文檔的信息性內(nèi)容中。當(dāng)web服務(wù)器向web瀏覽器發(fā)送web文檔(或“HTML文檔”)時(shí),由瀏覽器對標(biāo)簽進(jìn)行解釋,并且,標(biāo)簽被用于分析和顯示文檔。除了規(guī)定web瀏覽器如何顯示文檔以外,HTML標(biāo)簽還可以用于建立與其它web文檔的超級(jí)鏈接。
Internet通過一套標(biāo)準(zhǔn)協(xié)議、借助路由器鏈接在一起的互連的公共和私用計(jì)算機(jī)網(wǎng)絡(luò)的集合,以便形成全球的、分布式網(wǎng)絡(luò)。
World Wide Web(WWW,也稱Web)一種因特網(wǎng)客戶機(jī)-服務(wù)器超文本分布式信息檢索系統(tǒng)。
圖1描繪了可以使用按照本發(fā)明的、用于自動(dòng)提取副標(biāo)題信息的系統(tǒng)、計(jì)算機(jī)程序產(chǎn)品以及相關(guān)方法(“副標(biāo)題提取系統(tǒng)10”或“系統(tǒng)10”)的示例性總體環(huán)境。文本分析系統(tǒng)15包括系統(tǒng)10和搜索引擎20。例如,文本分析引擎15對從信源如WWW獲得的文檔進(jìn)行分析,用于數(shù)據(jù)分析、趨勢發(fā)現(xiàn)等。文本分析引擎包括由搜索引擎20提供的搜索功能。文本分析系統(tǒng)15被安裝在計(jì)算機(jī)、如主機(jī)服務(wù)器25上。
系統(tǒng)10包括一般被嵌入或者被安裝在主服務(wù)器25上的軟件編程代碼或計(jì)算機(jī)程序產(chǎn)品?;蛘?,系統(tǒng)10被保存在合適的存儲(chǔ)介質(zhì)如軟盤、CD、硬盤等裝置上。數(shù)據(jù)庫30(dB 30)包括來自信源例如WWW的文檔。盡管以下將結(jié)合WWW對系統(tǒng)10進(jìn)行描述,但是,系統(tǒng)10可以與從WWW或其它信源得到的內(nèi)容的獨(dú)立的dB 30一起使用。
用戶,例如遠(yuǎn)程因特網(wǎng)用戶,由各種計(jì)算機(jī)例如計(jì)算機(jī)35、40、45代表,并且可以通過網(wǎng)絡(luò)50訪問主機(jī)服務(wù)器25。計(jì)算機(jī)35、40、45中的每一個(gè)包括允許使用戶與主機(jī)服務(wù)器25安全地進(jìn)行接口的軟件。主機(jī)服務(wù)器25通過通信鏈路55如電話、電纜或衛(wèi)星鏈路連接到網(wǎng)絡(luò)50。計(jì)算機(jī)35、40、45可以分別通過通信鏈路60、65、70連接到網(wǎng)絡(luò)50。盡管按照網(wǎng)絡(luò)50對系統(tǒng)10進(jìn)行描述,但是,計(jì)算機(jī)35、40、45也可以在本地而不是遠(yuǎn)程訪問系統(tǒng)10。計(jì)算機(jī)35、40、45可以人工或利用應(yīng)用軟件自動(dòng)訪問系統(tǒng)10。用戶通過網(wǎng)絡(luò)50和搜索引擎20在dB 30上查詢數(shù)據(jù)。
圖2示出了系統(tǒng)10的高層結(jié)構(gòu)。系統(tǒng)10包括標(biāo)題檢測模塊205、標(biāo)題評(píng)估模塊210和副標(biāo)題提取模塊215。每個(gè)包括新聞文章的網(wǎng)頁一般包括一個(gè)標(biāo)題。系統(tǒng)10通過對文檔中的標(biāo)題進(jìn)行識(shí)別并且定位靠近被識(shí)別的標(biāo)題的副標(biāo)題,對副標(biāo)題信息進(jìn)行定位和提取。
輸入220包括從信源例如WWW獲得的被爬行的文檔。輸入220還包括已經(jīng)去除了html標(biāo)簽的、被爬行的文檔(稱為去標(biāo)簽文檔)。利用標(biāo)準(zhǔn)的去標(biāo)簽方法將HTML標(biāo)簽去除。輸出225包括被識(shí)別的副標(biāo)題信息。
圖3示出了系統(tǒng)10的操作方法300。對于一個(gè)選擇的文檔,標(biāo)題檢測模塊205從該選擇的文檔的題目元標(biāo)簽(title meta-tag)中,選擇潛在標(biāo)題的集合。每個(gè)選擇的文檔包括一個(gè)題目元標(biāo)簽(圖4的步驟400,方法400)。示例性的題目元標(biāo)簽包括<title>Guardian Unlimited|Special reports|No more nearmisses,says new air traffic chief</title>
<title>CNN.com-jury’s still out on e-voting-Nov 5,2004</title>
<title>Nov.2 the biggest test yet for touch-screen voting|csmonitor.com</title>
標(biāo)題評(píng)估模塊210通過在選擇的文檔的去標(biāo)簽版本中對選擇的候選標(biāo)題進(jìn)行定位并且對候選標(biāo)題進(jìn)行評(píng)估,從潛在標(biāo)題的集合H中選擇候選標(biāo)題(步驟500,圖5的方法500)。
副標(biāo)題提取模塊210提取代表副標(biāo)題信息的字符串(步驟305)。提取的字符串位于候選標(biāo)題的預(yù)定最短距離以內(nèi)。提取的字符串可以是名字、來源、日期、位置或者副標(biāo)題信息的任何其它項(xiàng)目。預(yù)定最短距離包括約50個(gè)字符到約100個(gè)字符。預(yù)定最短距離是可配置的;預(yù)定距離的典型值為約100個(gè)字符。
圖4示出了在對潛在標(biāo)題的集合H進(jìn)行檢測過程中,標(biāo)題檢測模塊205的方法400。標(biāo)題檢測模塊205從輸入220中選擇文檔(步驟405)。選擇的文檔包括被爬行的版本和去標(biāo)簽版本。標(biāo)題檢測模塊205通過在被爬行的版本的<title>..</title>元標(biāo)簽中選擇字符串,從選擇的文檔的被爬行版本中獲得題目字符串T(步驟410)。標(biāo)題檢測模塊205將題目字符串T加到潛在標(biāo)題的集合H(步驟415)。
標(biāo)題檢測模塊205在某些或所有標(biāo)點(diǎn)符號(hào)處,將題目字符串T分開,生成子字符串(步驟420)。標(biāo)題檢測模塊205將生成的子字符串加到潛在標(biāo)題的集合H(步驟425)。標(biāo)題檢測模塊205可選地將生成的子字符串的二元語法模型加到潛在標(biāo)題的集合H(步驟430)。標(biāo)題檢測模塊205可選地將生成的子字符串的n元語法模型加到潛在標(biāo)題的集合H(步驟435)。
圖5(圖5A,5B)示出了在通過在選擇的文檔的去標(biāo)簽版本中對選擇的候選標(biāo)題進(jìn)行定位并且對候選標(biāo)題進(jìn)行評(píng)估,從潛在標(biāo)題的集合H中,為選擇的文檔選擇候選標(biāo)題的過程中,標(biāo)題評(píng)估模塊210采用的方法500。標(biāo)題評(píng)估模塊210在選擇的文檔中,選擇潛在標(biāo)題的集合H中的最長的潛在標(biāo)題(步驟505)。按照標(biāo)點(diǎn)符號(hào)將題目字符串分開之后的最長子字符串是標(biāo)題的高概率候選者。其它組合可能概率較低。通常,最長的潛在標(biāo)題是題目字符串T被按照標(biāo)點(diǎn)符號(hào)分開時(shí)建立的題目字符串T中的最長子字符串。否則,最長的潛在候選者可能是整個(gè)題目字符串T。
標(biāo)題評(píng)估模塊210在選擇的文檔的去標(biāo)簽版本中定位選擇的潛在標(biāo)題(步驟510)。如果潛在標(biāo)題不位于該文檔中(判斷步驟515),則被定位的標(biāo)題不是可用標(biāo)題選項(xiàng)。標(biāo)題評(píng)估模塊210在潛在標(biāo)題的集合H中選擇下一個(gè)最長的潛在標(biāo)題(步驟520),并且進(jìn)行到步驟555。
在判定步驟555,系統(tǒng)10詢問是否已經(jīng)考慮了所有潛在標(biāo)題。如果還沒有,則系統(tǒng)10進(jìn)行到步驟510。但是,如果已經(jīng)考慮了所有潛在標(biāo)題,沒有在選擇的文檔上發(fā)現(xiàn)可接受的標(biāo)題,則系統(tǒng)10退出對選擇的文檔的處理(步驟540)。
如果潛在標(biāo)題位于該文檔中(判定步驟515),則標(biāo)題評(píng)估模塊210判斷被定位的標(biāo)題是否包括獨(dú)立的行,被定位的標(biāo)題包括獨(dú)立行的全部內(nèi)容(判定步驟525)。如果不是,則被定位的標(biāo)題不是可用標(biāo)題選項(xiàng)。如前面所述,標(biāo)題評(píng)估模塊210在潛在標(biāo)題的集合H中選擇下一個(gè)最長的潛在標(biāo)題(步驟520),并且進(jìn)行到判定框555。
否則,標(biāo)題評(píng)估模塊210對被定位的標(biāo)題是否出現(xiàn)在html鏈接進(jìn)行判斷(判定步驟530),以確保被定位的標(biāo)題只包括文本。如果是,則被定位的標(biāo)題不是可用標(biāo)題選項(xiàng)。如前面所述,標(biāo)題評(píng)估模塊210在潛在標(biāo)題的集合H中選擇下一個(gè)最長的潛在標(biāo)題(步驟520),并且進(jìn)行到判定框555。
否則,標(biāo)題評(píng)估模塊210對被定位的標(biāo)題是否小于預(yù)定最小長度進(jìn)行判斷(判定步驟535)。如果是,則在選擇的文檔上沒有發(fā)現(xiàn)可接受的標(biāo)題,并且系統(tǒng)10退出對選擇的文檔的處理(步驟540)。
否則,標(biāo)題評(píng)估模塊210判斷在被定位的標(biāo)題附近是否發(fā)現(xiàn)可接受的日期(判定步驟545)??山邮艿娜掌诔霈F(xiàn)在被定位的標(biāo)題附近,在日期與被定位的標(biāo)題之間沒有html鏈接或超文本引用。如果沒有發(fā)現(xiàn)可接受的日期,則被定位的標(biāo)題不是可用標(biāo)題選項(xiàng)。標(biāo)題評(píng)估模塊210在潛在標(biāo)題的集合H中選擇下一個(gè)最長的潛在標(biāo)題(步驟520),并且返回到步驟510。
如果發(fā)現(xiàn)了可接受的日期,則標(biāo)題評(píng)估模塊210將定位的標(biāo)題輸出為選擇的標(biāo)題(步驟550)。
系統(tǒng)10為文檔識(shí)別潛在標(biāo)題,在該文檔的去標(biāo)簽版本中對潛在標(biāo)題進(jìn)行定位,并且根據(jù)圍繞該位置的文本確認(rèn)候選標(biāo)題。即使題目字符串T不是準(zhǔn)確的標(biāo)題,但是,html信源中的題目字符串T通常含有關(guān)于文章標(biāo)題的有價(jià)值線索。
系統(tǒng)10包括用于從被爬行的網(wǎng)頁或者包括新聞文章的文檔中發(fā)現(xiàn)副標(biāo)題信息的一般自動(dòng)化技術(shù)。系統(tǒng)10不要求每個(gè)站點(diǎn)定制并且具有很高的準(zhǔn)確性,并且,當(dāng)副標(biāo)題信息可用時(shí),可以進(jìn)行再調(diào)用。
應(yīng)該理解,已經(jīng)描述的本發(fā)明的特定實(shí)施例只是對本發(fā)明的原理的某些應(yīng)用進(jìn)行了說明。在不脫離本發(fā)明的精神和范圍的情況下,可以對這里描述的用于自動(dòng)提取副標(biāo)題信息的系統(tǒng)和方法進(jìn)行許多修改。
權(quán)利要求
1.一種在被爬行的文檔中自動(dòng)提取副標(biāo)題信息的、由處理器實(shí)現(xiàn)的方法,包括如下步驟從文檔的題目元標(biāo)簽中檢測文檔的潛在標(biāo)題的集合;從所述潛在標(biāo)題的集合中選擇候選標(biāo)題;利用選擇的候選標(biāo)題的位置,從文檔中提取副標(biāo)題信息。
2.如權(quán)利要求1所述的方法,其中,檢測步驟包括根據(jù)所述題目元標(biāo)簽構(gòu)成所述潛在標(biāo)題的集合。
3.如權(quán)利要求2所述的方法,其中,構(gòu)成步驟包括按照所述題目元標(biāo)簽中的所有標(biāo)點(diǎn)符號(hào)將所述題目元標(biāo)簽分開,產(chǎn)生所述題目元標(biāo)簽的子字符串的集合。
4.如權(quán)利要求3所述的方法,還包括將所述子字符串的多個(gè)二元語法模型和所述子字符串的多個(gè)n元語法模型中的任何一個(gè)加到所述潛在標(biāo)題的集合。
5.如權(quán)利要求1所述的方法,其中,選擇步驟包括按照所述潛在標(biāo)題的長度的順序?qū)撛跇?biāo)題進(jìn)行評(píng)估,其中,評(píng)估步驟包括如下步驟在文檔的去標(biāo)簽版本中,識(shí)別正在被評(píng)估的選擇的候選標(biāo)題的位置;檢驗(yàn)選擇的候選標(biāo)題在去標(biāo)簽內(nèi)容中的被識(shí)別的位置包括完整的行;檢驗(yàn)選擇的候選標(biāo)題的長度超過去標(biāo)簽內(nèi)容中的最小長度;并且確保選擇的候選標(biāo)題包括文檔中的規(guī)則文本。
6.如權(quán)利要求1所述的方法,其中,提取步驟包括提取位于距所述潛在標(biāo)題的位置的最短距離以內(nèi)的、代表日期的字符串。
7.如權(quán)利要求1所述的方法,其中,提取步驟包括提取位于距所述潛在標(biāo)題的位置的最短距離以內(nèi)的、代表名字的字符串。
8.如權(quán)利要求1所述的方法,其中,提取步驟包括提取位于距所述潛在標(biāo)題的位置的最短距離以內(nèi)的、代表文檔來源的字符串。
9.一種在被爬行的文檔中自動(dòng)提取副標(biāo)題信息的、由處理器實(shí)現(xiàn)的系統(tǒng),包括標(biāo)題檢測模塊,用于從文檔的題目元標(biāo)簽中檢測文檔的潛在標(biāo)題的集合;標(biāo)題評(píng)估模塊,用于從所述潛在標(biāo)題的集合中選擇候選標(biāo)題;以及副標(biāo)題提取模塊,用于利用選擇的候選標(biāo)題的位置,從文檔中提取副標(biāo)題信息。
10.如權(quán)利要求9所述的系統(tǒng),其中,所述標(biāo)題檢測模塊根據(jù)題目元標(biāo)簽構(gòu)成所述潛在標(biāo)題的集合。
11.如權(quán)利要求10所述的系統(tǒng),其中,所述標(biāo)題檢測模塊通過按照所述題目元標(biāo)簽中的所有標(biāo)點(diǎn)符號(hào)將所述題目元標(biāo)簽分開,產(chǎn)生所述題目元標(biāo)簽的子字符串集合,來構(gòu)成所述潛在標(biāo)題的集合。
12.如權(quán)利要求11所述的系統(tǒng),其中,所述標(biāo)題檢測模塊還將所述子字符串的多個(gè)二元語法模型和所述子字符串的多個(gè)n元語法模型中的任何一個(gè)加到所述潛在標(biāo)題的集合。
13.如權(quán)利要求9所述的系統(tǒng),其中,所述標(biāo)題評(píng)估模塊通過如下步驟、按照所述潛在標(biāo)題的長度的順序?qū)λ鰸撛跇?biāo)題進(jìn)行評(píng)估在文檔的去標(biāo)簽版本中,識(shí)別正在被評(píng)估的選擇的候選標(biāo)題的位置;檢驗(yàn)選擇的候選標(biāo)題在去標(biāo)簽內(nèi)容中的被識(shí)別的位置包括完整的行;檢驗(yàn)選擇的候選標(biāo)題的長度超過去標(biāo)簽內(nèi)容中的最小長度;并且確保選擇的候選標(biāo)題包括文檔中的規(guī)則文本。
14.如權(quán)利要求9所述的系統(tǒng),其中,所述副標(biāo)題提取模塊提取位于距所述潛在標(biāo)題的位置的最短距離以內(nèi)的、代表日期的字符串。
15.如權(quán)利要求9所述的系統(tǒng),其中,所述副標(biāo)題提取模塊提取位于距所述潛在標(biāo)題的位置的最短距離以內(nèi)的、代表名字的字符串。
16.如權(quán)利要求9所述的系統(tǒng),其中,所述副標(biāo)題提取模塊提取位于距所述潛在標(biāo)題的位置的最短距離以內(nèi)的、代表文檔來源的字符串。
17.一種計(jì)算機(jī)程序產(chǎn)品,具有存儲(chǔ)在計(jì)算機(jī)可用介質(zhì)上的程序代碼,用于在被爬行的文檔中自動(dòng)提取副標(biāo)題信息,該計(jì)算機(jī)程序產(chǎn)品包括用于執(zhí)行權(quán)利要求1-8中的任何一項(xiàng)的方法中的步驟的程序代碼。
18.一種在被爬行的文檔中自動(dòng)提取副標(biāo)題信息的、由處理器實(shí)現(xiàn)的服務(wù),包括如下步驟接收文檔;調(diào)用自主硬件配置實(shí)用程序,其中,通過以下步驟使文檔可用于自主硬件配置實(shí)用程序以便在文檔中自動(dòng)提取副標(biāo)題信息從文檔的題目元標(biāo)簽中檢測文檔的潛在標(biāo)題的集合;從所述潛在標(biāo)題的集合中選擇候選標(biāo)題;以及利用選擇的候選標(biāo)題的位置,從文檔中提取副標(biāo)題信息。
19.如權(quán)利要求18所述的服務(wù),其中,檢測步驟包括根據(jù)所述題目元標(biāo)簽構(gòu)成所述潛在標(biāo)題的集合。
20.如權(quán)利要求19所述的服務(wù),其中,構(gòu)成步驟包括按照所述題目元標(biāo)簽中的所有標(biāo)點(diǎn)符號(hào)將所述題目元標(biāo)簽分開,產(chǎn)生所述題目元標(biāo)簽的子字符串的集合。
21.如權(quán)利要求20所述的服務(wù),還包括將所述子字符串的多個(gè)二元語法模型和所述子字符串的多個(gè)n元語法模型中的任何一個(gè)加到所述潛在標(biāo)題的集合。
22.如權(quán)利要求18所述的服務(wù),其中,選擇步驟包括按照所述潛在標(biāo)題的長度的順序?qū)撛跇?biāo)題進(jìn)行評(píng)估,其中,評(píng)估步驟包括如下步驟在文檔的去標(biāo)簽版本中識(shí)別正在被評(píng)估的選擇的候選標(biāo)題的位置;檢驗(yàn)選擇的候選標(biāo)題在去標(biāo)簽內(nèi)容中的被識(shí)別的位置包括完整的行;檢驗(yàn)選擇的候選標(biāo)題的長度超過去標(biāo)簽內(nèi)容中的最小長度;并且確保選擇的候選標(biāo)題包括文檔中的規(guī)則文本。
23.如權(quán)利要求18所述的服務(wù),其中,提取步驟包括提取位于距所述潛在標(biāo)題的位置的最短距離以內(nèi)的、代表日期的字符串。
全文摘要
副標(biāo)題提取系統(tǒng)從文檔的題目元標(biāo)簽中檢測潛在標(biāo)題的集合,從潛在標(biāo)題的集合中選擇候選標(biāo)題,利用選擇的候選標(biāo)題的位置,從文檔中提取副標(biāo)題信息。系統(tǒng)根據(jù)題目元標(biāo)簽構(gòu)成潛在標(biāo)題的集合。系統(tǒng)按照潛在標(biāo)題的長度的順序?qū)撛跇?biāo)題的集合進(jìn)行評(píng)估。系統(tǒng)通過利用選擇的候選標(biāo)題的位置,提取位于距潛在標(biāo)題的位置的最短距離以內(nèi)的、代表日期、名字或來源的字符串,從文檔中提取副標(biāo)題信息。
文檔編號(hào)G06F17/30GK1955952SQ200610135700
公開日2007年5月2日 申請日期2006年10月24日 優(yōu)先權(quán)日2005年10月25日
發(fā)明者馬德胡卡爾·R·考魯波魯, 斯蒂芬·迪爾, 安德魯·S.·托姆金斯 申請人:國際商業(yè)機(jī)器公司