專利名稱:用于從文本儲存庫里提取仿真陳述的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明總體涉及從數(shù)據(jù)庫提取信息,且具體而言涉及從文本儲存庫里提取仿真陳述,本發(fā)明的特定實(shí)施例為萬維網(wǎng)。
背景技術(shù):
信息提取可以被描述為從有關(guān)給定實(shí)體的文檔中識別事實(shí)的任務(wù)。另一方面,信息檢索返回與給定查詢有關(guān)的文檔的子集。存在許多這樣的情況,其中想要從類似于文檔集合的數(shù)據(jù)庫中提取信息的關(guān)鍵片斷。例如,在轉(zhuǎn)錄聲音郵件消息中,留下的呼叫人的姓名和任何回復(fù)號碼都對概述該呼叫很重要。還有,當(dāng)簡歷和求職信一起被提交到公司時(shí),想要提取申請人的工作意向和薪金要求,從而確定是否存在合適的匹配。
信息提取很難,因?yàn)橛泻芏啾磉_(dá)同樣事實(shí)的方式存在。例如,下面三個(gè)句子以不同形式包含了相同信息-BNC Holdings公司任命G Torretta女士作為其新主席。
-Gina Torretta繼任Nicholas Andrews成為BNC Holdings公司的主席。
-Gina Torretta女士掌管BNC Holdings公司。
當(dāng)要被提取的信息出現(xiàn)在單個(gè)句子中時(shí),該信息可以被稱作“局部信息”。和局部信息相反的是分布于多個(gè)句子中的信息。例如-經(jīng)過會議室里的長時(shí)間爭論,Andrews先生辭去BNC Holdings公司主席。他的繼任者是Torretta女士。
跨幾個(gè)句子的信息分布為信息提取任務(wù)增加了更大難度。
迄今為止已經(jīng)提出了用模板從文檔里提取事實(shí)的方法。這些方法圍繞手選“樣本”收集上下文線索(包括句法的和語義的),然后歸納那些樣本。這些經(jīng)歸納的樣本通常用正則表達(dá)式結(jié)構(gòu)來表示。大量的手工努力和時(shí)間必須要花在構(gòu)建新模板和在任意文本中標(biāo)記樣本,結(jié)果這些方法非常耗時(shí)。而且,這些方法不能容易地重復(fù)用于提取新型事實(shí)。
在很多情況下,識別一個(gè)或一組包含所需信息片斷的句子就相當(dāng)好。例如,當(dāng)要識別關(guān)于“公司中管理變化”的信息時(shí),識別出描述新任命的句子就相當(dāng)好。一個(gè)或一組句子可以被稱作“片斷(snippet)”。包含某種事實(shí)的片斷被稱作“仿真陳述(factoid)”。
仿真陳述可以根據(jù)它們所傳達(dá)的信息來分類。例如,描述公司中的新任命的仿真陳述可以被一起分組再“管理變化”類別下。因此,“管理變化”是仿真陳述類別的例子。
已提出用于識別被用戶視為在信息內(nèi)容方面有關(guān)或重要的文檔中的數(shù)據(jù)的若干部分的不同方法。美國專利號6,842,796的標(biāo)題為“Informationextraction from documents with regular expression matching”中公開的方法提供了下述技術(shù),其用于利用語言的易識別結(jié)構(gòu)來明確識別用戶尋求進(jìn)行識別的文檔中的數(shù)據(jù)的若干部分,諸如相關(guān)或重要信息?!罢齽t表達(dá)式”用于識別文檔中攜帶信息的部分。但是,這種方法要求大量手工努力來生成這些表達(dá)式。
因此,需要對仿真陳述的識別和提取的改良方法。
發(fā)明內(nèi)容
本發(fā)明的目的是基本上解決或至少改進(jìn)現(xiàn)有裝置的一個(gè)或多個(gè)缺陷。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于從文本儲存庫里提取仿真陳述的方法,所述仿真陳述與給定仿真陳述類別相關(guān)聯(lián)。所述方法通過訓(xùn)練分類器識別與所述給定仿真陳述類別有關(guān)的仿真陳述而開始。接下來從文本儲存庫中收集與所述給定仿真陳述類別有關(guān)的文檔或文檔摘要。從所述文檔或所述文檔摘要中提取與所述給定仿真陳述類別有預(yù)定關(guān)系的句子。在干擾環(huán)境中,通過用所述分類器提取包含與所述給定仿真陳述類別有關(guān)的短語的片斷來分類所述句子。所述被提取的片斷是與所述給定仿真陳述類別相關(guān)聯(lián)的仿真陳述。
根據(jù)本發(fā)明的另一個(gè)方面,提供一種包括計(jì)算機(jī)可讀媒體的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)可讀媒體在其上記錄了用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。
本發(fā)明的其它方面也被公開。
現(xiàn)將參考附圖來描述本發(fā)明的一個(gè)或多個(gè)實(shí)施例,在附圖中圖1顯示了用于從自動來源于Web的內(nèi)容中提取銷售激勵(lì)觸發(fā)事件的系統(tǒng)的示意框圖;圖2顯示了與特定銷售激勵(lì)相關(guān)聯(lián)的分類器被訓(xùn)練的訓(xùn)練階段的示意流程圖;圖3圖示了片斷的分布和它們的分類;圖4顯示了用在圖2所示的訓(xùn)練階段中進(jìn)行訓(xùn)練的分類器來提取觸發(fā)事件的部署階段的示意流程圖;以及圖5A到5C顯示了示例性Web研究結(jié)果中的第一列表所引用的示例性網(wǎng)頁的若干部分。
具體實(shí)施例方式
如上文背景技術(shù)部分所述,仿真陳述是一個(gè)或一組包含某種事實(shí)的句子。并且,傳遞相似信息的仿真陳述屬于相同仿真陳述類別。“收入增長”、“管理變化”、“新產(chǎn)品投放”和“兼并和購入”是仿真陳述類別的例子?!皒公司報(bào)告了第四季度10%的收入增長”是仿真陳述類別“收入增長”的仿真陳述的例子。
萬維網(wǎng)(Web)在近幾年間從幾千頁猛增至幾十億頁。Web已經(jīng)成為對許多產(chǎn)業(yè)來說最重要的信息源。多家報(bào)紙、貿(mào)易周刊、商業(yè)雜志和其它相關(guān)源被“聯(lián)機(jī)”發(fā)布。Web也被用作發(fā)布新聞稿的媒體。除了Web之外,還有諸如電子郵件、留言板等等的大型文檔儲存庫。這些信息源對識別與特定仿真陳述類別相關(guān)聯(lián)的仿真陳述很有價(jià)值。然而,由于這種信息儲存庫的絕對大小,為了使仿真陳述有價(jià)值,仿真陳述的識別和提取必須是自動化的。
因此,提出了一種用于從自動源于這種文檔儲存庫的內(nèi)容中提取仿真陳述的系統(tǒng)和方法。在此公開中,通過文檔,我們參考整個(gè)文檔及其摘要(通常由搜索引擎提供)。所提出的系統(tǒng)和方法通過有限的人為干涉來提取任何新仿真陳述類別的仿真陳述。
圖1顯示了從自動來源于Web的內(nèi)容中提取銷售激勵(lì)仿真陳述的系統(tǒng)100的示意框圖。系統(tǒng)100由計(jì)算機(jī)模塊101、諸如鍵盤102和鼠標(biāo)103的輸入設(shè)備和包括顯示器設(shè)備114的輸出設(shè)備形成。調(diào)制解調(diào)器(Modem)收發(fā)器設(shè)備116被計(jì)算機(jī)模塊101用于向和從包括因特網(wǎng)的通信網(wǎng)絡(luò)120進(jìn)行通信。
計(jì)算機(jī)模塊101典型地包括至少一個(gè)處理器單元105和存儲器單元106。模塊101還包括多個(gè)輸入/輸出(I/O)接口,該接口包括耦合于視頻顯示器114的視頻接口107、用于鍵盤102和鼠標(biāo)103的I/O接口113和用于調(diào)制解調(diào)器116的接口108。調(diào)制解調(diào)器116典型地被引入計(jì)算機(jī)模塊101中,例如被引入接口108中。存儲設(shè)備109被提供且典型地包括至少一個(gè)硬盤驅(qū)動器。CD-ROM驅(qū)動器112典型地被提供為非易失性數(shù)據(jù)源。計(jì)算機(jī)模塊101的組件105至113典型地通過互連總線104且以導(dǎo)致計(jì)算機(jī)系統(tǒng)100的傳統(tǒng)操作模式的方式來通信。
所提出的方法包括兩個(gè)階段,即訓(xùn)練階段和部署階段,訓(xùn)練階段中用于每個(gè)給定仿真陳述類別的分類器被訓(xùn)練,部署階段中經(jīng)訓(xùn)練的分類器用于從諸如Web的文本儲存庫中識別與那些仿真陳述類別相關(guān)聯(lián)的仿真陳述。所提出的方法在系統(tǒng)100中通過諸如應(yīng)用程序的在系統(tǒng)100中執(zhí)行的軟件來實(shí)現(xiàn)。所述軟件可以被存儲在計(jì)算機(jī)可讀媒體中,然后從計(jì)算機(jī)可讀媒體被加載到計(jì)算機(jī)模塊101中,之后由處理器105執(zhí)行。具有這種在其上記錄的計(jì)算機(jī)程序或軟件的計(jì)算機(jī)可讀媒體是計(jì)算機(jī)程序產(chǎn)品。此處使用的“計(jì)算機(jī)可讀媒體”這一術(shù)語指任何參與向計(jì)算機(jī)系統(tǒng)100提供指令和/或數(shù)據(jù)用于執(zhí)行和/或處理的存儲裝置或傳輸媒體。
圖2顯示了所述方法的訓(xùn)練階段200的示意流程圖,其中與特定仿真陳述類別相關(guān)聯(lián)的分類器2 30用片斷來訓(xùn)練。片斷可以被定義為文檔中和單一主題有關(guān)的句子集合。典型地,每個(gè)片斷中句子的數(shù)量不超過3或4。
傳統(tǒng)上,分類器需要一組正面和一組負(fù)面的例子用來訓(xùn)練。然而,要獲得這些組需要對例子進(jìn)行手動標(biāo)記,這既昂貴又耗時(shí)。
為了訓(xùn)練分類器230,訓(xùn)練階段200使用以背景片斷集合204和具有干擾片斷集合202的形式的訓(xùn)練數(shù)據(jù)。如術(shù)語所示,具有干擾片斷集合202還包含不屬于考慮中的仿真陳述類別的正面類的片斷。
背景片斷集合204通過從文本儲存庫中收集內(nèi)容的隨機(jī)集合而形成。集合204中背景片斷的數(shù)量優(yōu)選地為幾十萬個(gè)。
具有干擾片斷集合202優(yōu)選地使用搜索引擎從文本儲存庫中且以下文中更詳細(xì)描述的方式來收集。在本公開中討論的此過程的一個(gè)具體實(shí)施例是使用諸如Google(www.google.com)的搜索引擎的來自Web的文檔集合。
訓(xùn)練階段200還包括一組注釋器220,它們通過標(biāo)記片斷中包含的有用實(shí)體來注釋來自具有干擾片斷集合202和背景片斷集合204的片斷。所述標(biāo)記及被那些標(biāo)記注釋的片斷中的表達(dá)式基于仿真陳述類別的性質(zhì)被手動確定。注釋期間使用的標(biāo)記示例有人名;公司/組織名稱;產(chǎn)品名稱;地點(diǎn)名稱;計(jì)數(shù)標(biāo)記;和貨幣標(biāo)記。
由所述一組注釋器220執(zhí)行的注釋服務(wù)于兩個(gè)目的,即,模型大小的歸納和優(yōu)化。歸納包括把具體片斷轉(zhuǎn)化為概括片斷。例如,片斷“IBM在1996年盈利2500億美元”被歸納為“ORGANIZATION在TIME_PERIOD內(nèi)盈利CURRENCY”。歸納將使得分類器230學(xué)會識別所有這些概括事件。
需要模型大小的優(yōu)化是因?yàn)椋T如分類的基于機(jī)器學(xué)習(xí)的技術(shù)一旦有太多模型參數(shù)就會受訓(xùn)練數(shù)據(jù)過度擬合問題的困擾。在沒有注釋的情況下,由于每個(gè)片斷中包含的單獨(dú)表達(dá)式使得每個(gè)片斷都將是唯一的。通過文檔中的數(shù)百萬的人名、公司名稱、地點(diǎn)名稱、日期、貨幣和時(shí)間表達(dá)式,所需的模型參數(shù)的數(shù)量將會給系統(tǒng)100中的存儲器和時(shí)間資源造成很大負(fù)擔(dān)。注釋通過以相關(guān)聯(lián)的標(biāo)記替換單獨(dú)表達(dá)式來避免過度擬合。下面的表1提供了與標(biāo)記相關(guān)聯(lián)的示例性單獨(dú)表達(dá)式。
為了訓(xùn)練分類器230識別仿真陳述的所有變體,用于訓(xùn)練分類器230的具有干擾片斷202應(yīng)該包括盡可能多的變體,其中特定仿真陳述類別的仿真陳述可以盡可能被表達(dá)。因此干擾片斷集合202中片斷的數(shù)量必須很大。
表1
訓(xùn)練階段200收集大型的具有干擾片斷集合202的方式現(xiàn)在被更詳細(xì)描述。在優(yōu)選實(shí)現(xiàn)中,通過考慮中的與仿真陳述類別相關(guān)的用戶指定查詢,用搜索引擎通過執(zhí)行用戶指定查詢來從Web收集大型的具有干擾片斷集合202。例如,對于仿真陳述類別“管理變化”,用戶指定查詢可以是短語“新任CEO”。在此實(shí)例中,短語“新任CEO”被認(rèn)為和仿真陳述類別“管理變化”有很強(qiáng)聯(lián)系。
響應(yīng)于這種查詢得到的大多數(shù)結(jié)果都將與關(guān)于某個(gè)公司中新任首席執(zhí)行官(CEO)的任命的事件有關(guān)。然而,結(jié)果也可能包括與管理變化事件無關(guān)的某些結(jié)果。因此,用戶指定查詢的結(jié)果所引用的文檔集合形成了對于仿真陳述類別“管理變化”的具有干擾文檔的集合。
通過使用若干試探法而從具有干擾文檔的集合中收集具有干擾片斷集合202。試探法對考慮中的仿真陳述類別來說是特定的,且它們由用戶選擇。
在最簡單的例子中,在文檔中包含用于收集具有干擾文檔集合的查詢短語或詞語的所有句子都被用作具有干擾片斷。備選地,可以在每個(gè)文檔中的查詢短語或詞語的位置周圍形成窗口,且所有在窗口中出現(xiàn)的詞語都被看成是考慮中的仿真陳述類別的具有干擾片斷。
在另一備選實(shí)現(xiàn)中,包括給定標(biāo)記集合的具有干擾文檔中包含的所有句子都被用作考慮中的仿真陳述類別的具有干擾片斷。例如,來自具有干擾文檔的句子中對人名和指定標(biāo)記的包括可以被用于將該句子包括在具有干擾片斷集合202中。
參考示例進(jìn)一步描述試探法的操作。在示例中將用于訓(xùn)練分類器230的仿真陳述類別是仿真陳述類別“領(lǐng)導(dǎo)層變化”。如上所述,所用的背景片斷集合204是來自Web的內(nèi)容的隨機(jī)樣本。為了提取具有干擾文檔的集合,搜索短語“新任Ceo”被輸入Web搜索引擎。典型地這種概括搜索短語會產(chǎn)生大量搜索結(jié)果。
圖5A示出了搜索結(jié)果中的第一列表所引用的示例性網(wǎng)頁。所述網(wǎng)頁包括由InfoWorld發(fā)表的有關(guān)西門子已任命新任首席執(zhí)行官的聲明的文章502。然而,如從圖5B中清楚看到的,該網(wǎng)頁中并非所有句子都是與仿真陳述類別“領(lǐng)導(dǎo)層變化”有關(guān)的仿真陳述,在圖5B中示出上述文章502的另一部分505。
圖5C顯示了示例性網(wǎng)頁上的文章502的再一部分。使用用于識別網(wǎng)頁中包括人名和指定標(biāo)記的句子的試探法將把片斷510識別為與仿真陳述類別“管理層變化”相關(guān)聯(lián)的片斷。然而,該句子實(shí)際是干擾,因?yàn)樵摼渥优c領(lǐng)導(dǎo)層變化無關(guān)。
圖3圖示了片斷的分布和它們的分類。存在大量背景片斷310。存在小得多的具有干擾片斷集合320。具有干擾片斷集合320包括形成主要群集的實(shí)際正面信息330,和分布在具有干擾片斷集合320中作為小群集的干擾340。
再次參考圖2,在對具有干擾片斷集合202和背景片斷集合204的收集和注釋之后,使用本領(lǐng)域已知的任何已知分類器訓(xùn)練方法(諸如 Bayes分類器)來訓(xùn)練分類器230。
由于用于訓(xùn)練的正面示例中包括干擾,因此轉(zhuǎn)換分類的下述步驟被用來1.假設(shè)正面片斷的真實(shí)實(shí)例形成了圖3所示的主要群集;2.從被注釋的背景片斷集合204和具有干擾片斷集合202中訓(xùn)練分類器230;3.用下列兩個(gè)子步驟反復(fù)地改進(jìn)分類器2303.1向被分類器230識別的所有仿真陳述實(shí)例分配標(biāo)記;以及3.2用實(shí)例和它們在步驟3.1中分配的標(biāo)記來訓(xùn)練分類器。
在描述了從自動源于Web的內(nèi)容中提取給定仿真陳述類別的仿真陳述的方法的訓(xùn)練階段200后,接著參考圖4描述部署階段,在圖4中示出了部署階段400的示意流程圖。部署階段400從步驟410開始,在步驟410中與給定實(shí)體集合相關(guān)的文檔被從Web收集并放入實(shí)體庫。通過搜索引擎執(zhí)行Web搜索而識別文檔,所述搜索引擎中使用了與實(shí)體有關(guān)的查詢集合。因此,由于集合中至少一個(gè)實(shí)體在此出現(xiàn)這一事實(shí),每個(gè)被收集的文檔都和給定實(shí)體集合有關(guān)。在一實(shí)現(xiàn)中,此步驟用IBM的WebFountainTM庫和分度器來完成。WebFountainTM是從海量的無結(jié)構(gòu)或半結(jié)構(gòu)的文本中提取趨勢、樣本和關(guān)系的Web范圍的開采和發(fā)現(xiàn)平臺。
然后,在步驟420中,從實(shí)體庫中建立片斷庫。具體而言,實(shí)體庫中每個(gè)文檔的內(nèi)容被處理用來從包含集合中至少一個(gè)實(shí)體的句子(片斷)集合中提取到實(shí)體庫。參考訓(xùn)練階段所做的描述,備選方法可用來從文檔中提取片斷。
在接下來的步驟430中,訓(xùn)練階段200期間開發(fā)的注釋集合220(圖2)被用來通過以上述參考訓(xùn)練階段200所述的方式來標(biāo)記片斷庫中包含的實(shí)體來注釋來自片斷庫的片斷。被標(biāo)記(注釋)的片斷接著被返回到片斷庫。
在訓(xùn)練階段200期間被訓(xùn)練的給定仿真陳述類別的分類器230(圖2)然后在步驟440中被用于檢測來自在步驟420中建立和在步驟430中注釋的片斷庫的相關(guān)片斷。具體而言,在片斷庫中被注釋的片斷被單獨(dú)傳送到分類器230。被經(jīng)訓(xùn)練的分類器230對于給定仿真陳述類別分類為正面的片斷被指定為該仿真陳述類別的仿真陳述。還將信用分值給予被分類器識別的每個(gè)仿真陳述,其中信用分值的范圍是(0;1)。
典型地,可以從步驟440中產(chǎn)生用于給定實(shí)體集合中的每個(gè)實(shí)體和用于給定仿真陳述類別的若干仿真陳述,其中每個(gè)仿真陳述具有相關(guān)聯(lián)的信用分值。若干分類器230可被訓(xùn)練用于與考慮中的公司集合的產(chǎn)業(yè)相關(guān)的不同的仿真陳述類別,在這種情況下與每個(gè)仿真陳述類別相關(guān)聯(lián)的仿真陳述可以被識別。
接下來的步驟450把評分功能應(yīng)用到與每個(gè)實(shí)體相關(guān)聯(lián)的仿真陳述中,從而獲得在考慮中的實(shí)體集合中每個(gè)實(shí)體的總分。每個(gè)實(shí)體的總分指示該實(shí)體對考慮中的仿真陳述類別的相關(guān)性。在備選實(shí)現(xiàn)中,評分功能被用于與實(shí)體相關(guān)聯(lián)的仿真陳述,從而得到與每個(gè)實(shí)體相關(guān)聯(lián)的每個(gè)仿真陳述類別的單獨(dú)分?jǐn)?shù)。
為實(shí)現(xiàn)步驟450,涉及相同實(shí)際事件的所有仿真陳述都被分組。分組可以通過仿真陳述的精確匹配來完成。仿真陳述的分組還可以通過提取與特定仿真陳述類別有關(guān)的字段來完成,諸如用于仿真陳述類別“收入增長”的公司名稱和收入增長數(shù)字,并然后把所提取的字段與不同仿真陳述交叉匹配。在涉及對于公司的相同實(shí)際事件的仿真陳述的分組后,使用仿真陳述的多種分組來計(jì)算公司的總分。評分功能的示例包括·總分是為特定仿真陳述類別的實(shí)體所提取的仿真陳述的數(shù)量的函數(shù)。
·總分是特定仿真陳述類別的實(shí)體的、用自身的信用分值加權(quán)的每個(gè)仿真陳述的實(shí)例的數(shù)量的函數(shù)。
·總分是特定仿真陳述類別的實(shí)體的、仿真陳述中所使用語言的函數(shù)。
對于某些仿真陳述類別來說,開發(fā)專用于該仿真陳述類別的評分系統(tǒng)可能是合適的。
因此,部署階段從Web上的內(nèi)容中自動識別仿真陳述,并且通過使用總分,根據(jù)它們與考慮中仿真陳述類別的相關(guān)性來給實(shí)體排序。
用于從自動源于Web的內(nèi)容中提取仿真陳述的系統(tǒng)和方法的一個(gè)應(yīng)用是自動識別銷售激勵(lì)。大多數(shù)公司是在競爭性市場中運(yùn)營的銷售激勵(lì)的組織。在這種環(huán)境中對市場的速度很重要。越快將潛在客戶吸引到做出獲得產(chǎn)品或服務(wù)的過程的決定,把那個(gè)潛在客戶轉(zhuǎn)變?yōu)閷?shí)際客戶的機(jī)會就越大。若干公司實(shí)施了用于識別與這些公司提供的產(chǎn)品或服務(wù)相關(guān)的銷售激勵(lì)的調(diào)查和研究。特定公司的銷售激勵(lì)的存在指示出從該公司進(jìn)行新購買的趨勢很強(qiáng)。
銷售激勵(lì)因此可以被定義為仿真陳述類別,它的出現(xiàn)指示出購買的良好趨勢。銷售激勵(lì)的示例有“收入增長”、“管理變化”、“新產(chǎn)品投放”和“兼并和購入”。
因?yàn)楣驹诓煌漠a(chǎn)業(yè)運(yùn)營,所以銷售激勵(lì)典型地不同。例如,銷售激勵(lì)“公司首席信息官(CIO)的變化”可以是信息技術(shù)(IT)產(chǎn)業(yè)中的公司的銷售激勵(lì),而相同的聲明可能在鋼鐵產(chǎn)業(yè)中就不是銷售激勵(lì)。因此,任何產(chǎn)業(yè)的銷售激勵(lì)典型地根據(jù)該產(chǎn)業(yè)中的專家意見而確定。
為了識別目標(biāo)為銷售的公司集合,公司需要基于該產(chǎn)業(yè)給定銷售激勵(lì)來識別具有與公司相關(guān)聯(lián)的某些觸發(fā)事件的其它公司。觸發(fā)事件是在公司情境(或其環(huán)境)中發(fā)生、且描述了銷售激勵(lì)發(fā)生的事件,因此它是該公司購買附加商品和/或服務(wù)的趨勢的指示器。例如,“公司X任命Y先生為其CIO”是銷售激勵(lì)(仿真陳述類別)“公司CIO變化”的示例性觸發(fā)事件(仿真陳述)。由于以上已將這樣的銷售激勵(lì)指示為IT產(chǎn)業(yè)的銷售激勵(lì),因此發(fā)生這個(gè)觸發(fā)事件的消息對IT產(chǎn)業(yè)中的任何公司來說都是有價(jià)值的。其它示例性觸發(fā)事件是“X公司報(bào)告了在第四季度10%的收入增長”和“Y公司從Z公司獲得n十億美元”。
迄今為止,觸發(fā)事件的識別和提取完全是手動的。對于公司集合來說,必須建立基于給定銷售激勵(lì)是否發(fā)生觸發(fā)事件典型地是已知的,但這通常包括數(shù)十萬個(gè)事件。經(jīng)常對私人產(chǎn)業(yè)公司和政府組織的首席信息官(CIO)、首席執(zhí)行官(CEO)和首席財(cái)務(wù)官(CFO)實(shí)施采訪,從而識別有價(jià)值的觸發(fā)事件。由于集合中的公司數(shù)量眾多,因此從每個(gè)公司或組織中召集代表來找出所需信息的代價(jià)太高。
此處描述的方法和系統(tǒng)可以被用在公司集合上作為實(shí)體集合,以識別和一個(gè)或多個(gè)與感興趣產(chǎn)業(yè)相關(guān)聯(lián)的銷售激勵(lì)(仿真陳述類別)相關(guān)的觸發(fā)事件(仿真陳述)。
前邊所描述的只是本發(fā)明的某些實(shí)施例,可以對所述實(shí)施例做出修改和/或改變而不背離本發(fā)明范圍和精神,所述實(shí)施例是示例性的而非限制性的。
權(quán)利要求
1.一種從文本儲存庫中提取與給定仿真陳述類別相關(guān)聯(lián)的仿真陳述的方法,所述方法包括以下步驟訓(xùn)練分類器識別與所述給定仿真陳述類別有關(guān)的仿真陳述;從文本儲存庫中收集與所述給定仿真陳述類別有關(guān)的文檔或文檔摘要;從所述文檔或所述文檔摘要中提取與所述給定仿真陳述類別有預(yù)定關(guān)系的句子;以及在干擾環(huán)境中,通過用所述分類器提取包含與所述給定仿真陳述類別有關(guān)的短語的片斷來分類所述句子,所述被提取的片斷是與所述給定仿真陳述類別相關(guān)聯(lián)的所述仿真陳述。
2.根據(jù)權(quán)利要求1所述的方法,其中所述收集步驟包括執(zhí)行對文本儲存庫的搜索,其中所述文檔被所述搜索的結(jié)果引用。
3.根據(jù)權(quán)利要求2所述的方法,其中使用搜索引擎對文本儲存庫執(zhí)行所述搜索。
4.根據(jù)權(quán)利要求1所述的方法,包括在所述分類步驟執(zhí)行前根據(jù)所述給定仿真陳述類別來注釋所述句子中的實(shí)體的另外的步驟。
5.根據(jù)權(quán)利要求1所述的方法,包括對與所述給定仿真陳述類別相關(guān)聯(lián)的所述仿真陳述進(jìn)行排序的另外的步驟。
6.根據(jù)權(quán)利要求1所述的方法,其中所述訓(xùn)練步驟包括通過查詢所述文本儲存庫來生成與所述給定仿真陳述類別大致相關(guān)的文檔集合。
7.根據(jù)權(quán)利要求2所述的方法,其中給定仿真陳述類別的示例性實(shí)例被視為對所述文本儲存庫進(jìn)行的所述搜索的輸入查詢。
8.根據(jù)權(quán)利要求7所述的方法,其中強(qiáng)烈相關(guān)的示例性實(shí)例被視為對所述文本儲存庫進(jìn)行的所述搜索的輸入查詢。
9.根據(jù)權(quán)利要求6所述的方法,其中所述訓(xùn)練步驟還包括對與所述給定仿真陳述類別大致相關(guān)的所述文檔集合追加與所述給定仿真陳述類別強(qiáng)烈相關(guān)的手動生成文檔的集合。
10.根據(jù)權(quán)利要求4所述的方法,其中所述實(shí)體在所述句子中被相關(guān)聯(lián)的注釋類型所代替。
11.根據(jù)權(quán)利要求4所述的方法,包括在所述注釋步驟后且在所述分類步驟前,通過選擇包含具有預(yù)定順序的所述實(shí)體的預(yù)定實(shí)體組合的句子來過濾所述句子的另外的步驟。
12.根據(jù)權(quán)利要求4所述的方法,其中所述收集步驟包括使用搜索短語執(zhí)行對所述文本儲存庫的搜索,其中所述文檔被所述搜索的結(jié)果所引用,并且所述方法包括在所述注釋步驟后且在所述分類步驟前,通過僅選擇包含所述搜索短語的所述句子來過濾所述句子的另外的步驟。
13.根據(jù)權(quán)利要求5所述的方法,包括基于被應(yīng)用于與每個(gè)仿真陳述相關(guān)聯(lián)的片斷的評分功能對所述仿真陳述排序的另外的步驟。
14.根據(jù)權(quán)利要求13所述的方法,其中基于被分配給每個(gè)仿真陳述的分?jǐn)?shù)來完成所述排序,其中所述分?jǐn)?shù)是當(dāng)分類所述句子時(shí)應(yīng)用的信用分值的函數(shù)。
15.根據(jù)權(quán)利要求13所述的方法,包括在在所述分類步驟執(zhí)行前,根據(jù)所述給定仿真陳述類別來注釋所述句子中實(shí)體的另外的步驟,且在所述排序步驟期間,與各個(gè)實(shí)體相關(guān)的所有仿真陳述被分組,從而把總分分配給各個(gè)實(shí)體,其中所述總分為所述評分功能的基礎(chǔ)。
16.如權(quán)利要求15所述的方法,其中分配給各個(gè)實(shí)體的所述總分是與各個(gè)實(shí)體相關(guān)的仿真陳述的數(shù)量的函數(shù)。
17.如權(quán)利要求15所述的方法,其中分配給各個(gè)實(shí)體的所述總分是由與仿真陳述相關(guān)聯(lián)的信用分值進(jìn)行加權(quán)的每個(gè)相關(guān)仿真陳述的實(shí)例的數(shù)量的函數(shù)。
18.根據(jù)權(quán)利要求15所述的方法,其中分配給各個(gè)實(shí)體的所述總分是在每個(gè)相關(guān)仿真陳述中使用的語言的函數(shù)。
19.一種用于從文本儲存庫中提取與給定仿真陳述類別相關(guān)聯(lián)的仿真陳述的裝置,所述裝置包括用于訓(xùn)練分類器識別與所述給定仿真陳述類別有關(guān)的仿真陳述的裝置;用于從文本儲存庫中收集與所述給定仿真陳述類別有關(guān)的文檔或文檔摘要的裝置;用于從所述文檔或所述文檔摘要中提取與所述給定仿真陳述類別有預(yù)定關(guān)系的句子的裝置;以及用于在干擾環(huán)境中通過用所述分類器提取包含與所述給定仿真陳述類別有關(guān)的短語的片斷來分類所述句子的裝置,所述被提取的片斷是與所述給定仿真陳述類別相關(guān)聯(lián)的所述仿真陳述。
全文摘要
公開了一種用于從文本儲存庫里提取仿真陳述的方法(400),所述仿真陳述與給定仿真陳述類別相關(guān)聯(lián)。所述方法(400)通過訓(xùn)練分類器(230)識別與所述給定仿真陳述類別有關(guān)的仿真陳述而開始。接下來從文本儲存庫中收集(410)與所述給定仿真陳述類別有關(guān)的文檔或文檔摘要。從所述文檔或所述文檔摘要中提取(420)與所述給定仿真陳述類別有預(yù)定關(guān)系的句子。在干擾環(huán)境中,通過用所述分類器(230)提取包含與所述給定仿真陳述類別有關(guān)的短語的片斷來分類(440)所述句子。所述被提取的片斷是與所述給定仿真陳述類別相關(guān)聯(lián)的仿真陳述。
文檔編號G06F17/30GK1991836SQ20061016299
公開日2007年7月4日 申請日期2006年11月30日 優(yōu)先權(quán)日2005年12月29日
發(fā)明者S·喬希, R·克瑞施那普姆, S·內(nèi)吉, N·庫馬爾, G·羅摩克里希納, K·梅赫塔, S·霍爾梅斯 申請人:國際商業(yè)機(jī)器公司