專利名稱:便利內(nèi)容檢索服務(wù)系統(tǒng)內(nèi)本體和語言模型生成的信息獲取和匯聚方法及子系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及檢索內(nèi)容(包括具有音軌的視頻文件)來識別與檢索查詢詞和短語相 關(guān)的內(nèi)容部分,并且具體地涉及內(nèi)容檢索服務(wù)系統(tǒng)的信息匯聚和分類組件,其采用本體和 副本以對內(nèi)容檢索服務(wù)的檢索服務(wù)組件用于向內(nèi)容檢索服務(wù)系統(tǒng)客戶端呈遞檢索結(jié)果的 副本進行評分。
背景技術(shù):
在早期的計算中,信息一般被編碼為格式化的字母數(shù)字字符串,或者編碼為信息 儲存單元(通常是字節(jié))的未格式化有序序列。隨著計算硬件、操作系統(tǒng)和計算機應(yīng)用一齊 演進,開發(fā)了很多不同類型的信息編碼,并且現(xiàn)在大量不同類型的信息慣常以電子方式編 碼、儲存、交換和呈遞以供用戶訪問,包括文本文件、特殊格式的專用文件、音頻記錄、視頻 記錄以及多媒體呈現(xiàn)。盡管在早期的計算中數(shù)據(jù)曾主要是被呈遞為顯示于單色M行終端 上的字符串,但是當前電子編碼并通過計算機系統(tǒng)發(fā)布的很多不同類型信息通過各種不同 的應(yīng)用程序被呈遞以向人類用戶呈現(xiàn),所述應(yīng)用程序包括文本和圖像編輯器、視頻播放器、 音頻播放器和網(wǎng)絡(luò)瀏覽器。一種重要類別的信息包括被編碼為依序被呈遞以向人類用戶顯示或呈現(xiàn)的有序 信息單元序列。MPEG編碼的視頻文件是順序信息編碼的一種例子。MPEG編碼采用多種著 實復(fù)雜的多層不同類型編碼方法來壓縮編碼一個或多個視頻流和/或音頻流。一般來說, 視頻幀是按次序從MPEG編碼視頻文件逐幀重構(gòu)的。對MPEG編碼視頻文件的呈遞提供視頻 幀流和音頻流。呈遞應(yīng)用和設(shè)備一般允許用戶開始或繼續(xù)視頻文件的呈遞,停止視頻文件 的呈遞,以及快進或快退到視頻流中的選定位置。在很多情況下,用戶可能僅對視頻呈現(xiàn)中的某部分感興趣。例如,特定用戶可能僅 對本地電視新聞廣播中包括的天氣預(yù)報感興趣,而所述本地電視新聞廣播除了天氣預(yù)報以 外還包括對當前本地和全國事件的評論、對體育事件的評論以及對人們?nèi)の豆适碌某尸F(xiàn)。 在很多情況下,視頻呈現(xiàn)可能并未按段索引以便利對用戶感興趣的視頻呈現(xiàn)部分進行直接 訪問,或者可能以非常粗略的話題粒度進行索引,需要用戶采用通過相對粗糙的技術(shù)開始、 停止、前進和后退視頻流的不定(hit-or-miss)策略來定位感興趣的部分。除了編碼的視 頻外,存在很多其他類型的順序信息編碼,它們被依序呈遞給人們的感官,包括純音頻記 錄、各種類型的多媒體呈現(xiàn)、書籍和文本文檔中頁的圖像以及其他這樣的信息編碼。在很多 情況下,當前檢索人類用戶感興趣的編碼信息部分被限于視頻呈遞應(yīng)用和很多視頻信號呈 遞設(shè)備的用戶所熟悉的上述停止/開始/前進/和后退操作。呈遞順序信息編碼來向人類用戶、設(shè)計師、實施者、供應(yīng)商以及信息呈遞應(yīng)用(包括媒體播放器、網(wǎng)絡(luò)瀏覽器和控制程序)用戶,以及很多其他涉足記錄、傳播和呈遞信息的 人進行呈現(xiàn)的計算機和其他電子設(shè)備的設(shè)計師及制造商已經(jīng)認識到對于更有效的檢索工 具的需求,以允許用戶識別和高效地訪問這些信息的受眾所感興趣的信息編碼部分。響應(yīng) 于這些需求,已經(jīng)開發(fā)了內(nèi)容檢索服務(wù)系統(tǒng)。本發(fā)明的各個實施例包括該內(nèi)容檢索服務(wù)系 統(tǒng)的組件和子系統(tǒng)。內(nèi)容檢索服務(wù)系統(tǒng)接收和/或定位并獲取內(nèi)容檢索服務(wù)系統(tǒng)客戶端電 子可獲得的各內(nèi)容項,并且準備這些內(nèi)容項或這些內(nèi)容項的部分的內(nèi)部表示,以使得內(nèi)容 檢索服務(wù)能夠以圖形方式呈遞內(nèi)容檢索服務(wù)系統(tǒng)響應(yīng)于內(nèi)容檢索服務(wù)系統(tǒng)客戶端所作檢 索請求而生成的檢索結(jié)果。內(nèi)容檢索服務(wù)系統(tǒng)的設(shè)計師、開發(fā)者和制造商,以及內(nèi)容檢索服 務(wù)提供商和內(nèi)容檢索服務(wù)系統(tǒng)與內(nèi)容檢索服務(wù)所提供服務(wù)的用戶,均已經(jīng)認識到對高效和 準確的內(nèi)容檢索服務(wù)組件的需求,以便利快速而準確地響應(yīng)從采用內(nèi)容檢索服務(wù)系統(tǒng)的內(nèi) 容檢索服務(wù)客戶端接收的指向內(nèi)容項的檢索請求。
發(fā)明內(nèi)容
本發(fā)明的各個實施例包括內(nèi)容檢索服務(wù)系統(tǒng)的信息匯聚和分類組件,該信息匯聚 和分類組件從信息源得到信息,匯聚并標準化所得到的信息,并且分類所得到的信息,之后 將經(jīng)標準化和分類的信息進行儲存以供內(nèi)容檢索服務(wù)系統(tǒng)的語言模型構(gòu)建器組件和本體 構(gòu)建器組件使用。本發(fā)明另外的實施例包括本體構(gòu)建器組件,該本體構(gòu)建器組件針對特定 日期、日期/時間、日期范圍或日期/時間范圍并且針對特定種類從經(jīng)標準化和分類的信息 來建立本體。
圖1說明內(nèi)容檢索服務(wù)系統(tǒng)向客戶端提供檢索服務(wù)。圖2說明內(nèi)容呈遞應(yīng)用界面。圖3根據(jù)本發(fā)明的實施例說明添加到圖2所示內(nèi)容呈遞應(yīng)用界面的熱圖 (heat-map)檢索結(jié)果顯示。圖4提供代表本發(fā)明一個實施例的內(nèi)容檢索服務(wù)系統(tǒng)的框圖表示。圖5根據(jù)本發(fā)明一個實施例說明本體。圖6根據(jù)本發(fā)明一個實施例示出“動物”種類的示例性詞匯表的一部分。圖7根據(jù)本發(fā)明一個實施例說明本體的mXm表示。圖8根據(jù)本發(fā)明一個實施例示出本體的列表表示。圖9示出本發(fā)明一個實施例中使用的本體表示的一部分。圖10根據(jù)本發(fā)明一個實施例說明副本的一種實現(xiàn)。圖11根據(jù)本發(fā)明一個實施例說明副本的替換性表示。圖12說明代表本發(fā)明一個實施例的CSS的概念服務(wù)組件(圖4中的408)的操作。圖13根據(jù)本發(fā)明一個實施例說明被評分的副本的一個實施例。圖14提供代表本發(fā)明一個實施例的CSS系統(tǒng)的信息匯聚器和分類組件的高層框 圖。圖15說明網(wǎng)絡(luò)抓取器(web crawler)的操作。圖16A-B說明本發(fā)明一個實施例中采用的文檔過濾和標準化方法。
6
圖17示出從圖16B示出的標準化文本文檔生成的詞語向量(term vector)。圖18示出一種倒排關(guān)鍵詞索引的邏輯結(jié)構(gòu)。圖19根據(jù)本發(fā)明一個實施例說明累積詞語分布。圖20說明IAC組件的文檔分類器子組件的功能。圖21說明IAC組件的信息匯聚器子組件的操作。圖22說明IAC組件的分檔分類器構(gòu)造器子組件的操作。圖23提供CSS系統(tǒng)的本體構(gòu)建器組件的控制流程圖。
具體實施例方式在用于向客戶端提供內(nèi)容檢索服務(wù)的內(nèi)容檢索服務(wù)系統(tǒng)內(nèi)采用本發(fā)明的實施例。 圖1說明內(nèi)容檢索服務(wù)系統(tǒng)向客戶端提供檢索服務(wù)。客戶端102 —般是用戶用來通過內(nèi)容 呈遞應(yīng)用(例如網(wǎng)絡(luò)瀏覽器所調(diào)用的視頻呈遞程序)查看內(nèi)容提供商系統(tǒng)106所提供的內(nèi) 容104的個人計算機或工作站。為了便于高效地查看內(nèi)容,用戶向顯示于客戶端計算機上 的文本鍵入特征108鍵入包括檢索詞或檢索短語的檢索查詢,并且調(diào)用針對內(nèi)容相關(guān)部分 所呈遞的內(nèi)容檢索。在本發(fā)明的某些實施例中,檢索查詢可以可替換地由用戶預(yù)定義或者 針對用戶預(yù)定義以便利用戶檢索。檢索詞或者短語被傳輸110到內(nèi)容檢索服務(wù)系統(tǒng)112并 且被內(nèi)容檢索服務(wù)系統(tǒng)處理,以便返回114內(nèi)容116特定部分與檢索詞或檢索短語相關(guān)性 的圖形呈遞??蛻舳擞嬎銠C的用戶可以通過額外的檢索事務(wù)118-119針對額外的檢索詞或 者短語進行額外的檢索。一般來說,呈遞給用戶的內(nèi)容是這樣一種內(nèi)容,其不像文本文件,不能使用普遍可 用的檢索工具(例如文本編輯器中提供的檢索設(shè)施)被容易地檢索以便于找到用戶尤其感 興趣的內(nèi)容部分。在下面的討論中,假設(shè)內(nèi)容是具有伴音軌道的視頻文件,例如新聞服務(wù)或 體育服務(wù)通過因特網(wǎng)提供給訪問用戶的新聞廣播或體育廣播。然而,其中可以實現(xiàn)和采用 本發(fā)明實施例的內(nèi)容檢索服務(wù)系統(tǒng)可以為各種不同類型的內(nèi)容(包括各種類型的音頻內(nèi) 容)提供檢索服務(wù),服務(wù)范圍從多媒體呈現(xiàn)到各種類型的圖像、圖形和音樂選擇。一般來說,內(nèi)容提供商106向內(nèi)容檢索服務(wù)系統(tǒng)112提供內(nèi)容項進行預(yù)處理,以便 于對指向該內(nèi)容項的后續(xù)客戶端檢索請求進行快速響應(yīng)。然而,在可替換的實現(xiàn)中,內(nèi)容檢 索服務(wù)系統(tǒng)可以并發(fā)地接收內(nèi)容項和從客戶端接收檢索短語或檢索詞,處理內(nèi)容項以準備 檢索內(nèi)容,進行檢索請求,以及實時地向用戶呈遞結(jié)果。一般來說,客戶端系統(tǒng)不同于內(nèi)容 提供商系統(tǒng)和內(nèi)容檢索服務(wù)系統(tǒng)二者,但是內(nèi)容提供商、客戶端和內(nèi)容檢索服務(wù)有可能可 以全部并發(fā)或同時在單個計算機系統(tǒng)或分布式計算機系統(tǒng)內(nèi)進行執(zhí)行。圖2說明內(nèi)容呈遞應(yīng)用界面。視頻顯示在基于網(wǎng)頁的視頻剪輯查看界面或便攜式 設(shè)備圖形用戶界面(“GUI”)212所提供的視頻屏幕210內(nèi)。該設(shè)備界面或網(wǎng)頁提供文本 鍵入窗214,該文本鍵入窗214允許用戶輸入充當檢索準則的文本,以找到期望的視頻來觀 看、將每個檢索的結(jié)果顯示在結(jié)果窗216中,所述結(jié)果窗216可以通過向上滾動按鈕218和 向下滾動按鈕220滾動,并且可以從該結(jié)果窗216選擇視頻進行顯示。此外,進度顯示222 在呈遞視頻剪輯期間向用戶顯示對正被顯示的視頻剪輯中當前位置的指示,其中視頻剪輯 的整個長度由水平條2M表示而視頻剪輯內(nèi)的當前位置由位置指示器2 相對于水平條的 位置來指示。在圖2中,位置指示器2 指示當前顯示的視頻幀在整個該視頻剪輯的25%位置處。用戶界面提供用于開始和停止視頻剪輯顯示的開始/停止按鈕228,以及允許用戶 查找視頻剪輯內(nèi)不同位置而無需觀看中間幀的快退按鈕230和快進按鈕232。圖3根據(jù)本發(fā)明的實施例說明添加到圖2中所示內(nèi)容呈遞應(yīng)用界面的熱圖檢索結(jié) 果顯示。該熱圖檢索結(jié)果顯示可以由從內(nèi)容檢索服務(wù)系統(tǒng)下載的客戶端側(cè)檢索結(jié)果呈遞應(yīng) 用提供。圖3示出圖2所示視頻剪輯查看界面的導航按鈕和進度顯示,以及額外的檢索結(jié) 果顯示特征。快退按鈕130、快進按鈕132和開始/停止按鈕1 在該可視界面中具有與 針對圖2所示視頻剪輯查看界面的這些界面特征所描述功能等同的功能。進度顯示IM和 126也具有與圖2所示視頻剪輯查看界面的進度顯示等同的功能,只是其不是如圖2中那 樣示出簡單的純色水平條來表示視頻剪輯的長度,而是在進度顯示的水平條124內(nèi)疊加相 關(guān)性功能的熱圖類表示。在該熱圖類表示中,較深的陰影表示較大量的相關(guān)性度量或者評 分。該可視界面還包括兩個參數(shù)指明特征302和304,它們允許用戶通過分別沿柱310和 312滑動指示器按鈕306和308來指明在相對于用戶在檢索準則鍵入窗316中指明的檢索 準則314為信息編碼內(nèi)的位置計算相關(guān)性度量或評分時要采用的閾值和平滑程度。在圖3 所示的實例中,進度顯示組件的水平條1 表示視頻剪輯的長度,并且人們可以通過對疊 加于水平條124的熱圖的可視檢視容易地確定與當前指明檢索準則相關(guān)的內(nèi)容最可能在 位置320、322和324找到。更簡單的可視界面可以僅包括相關(guān)性功能的熱圖類表示,并且 可以依賴于現(xiàn)有GUI的選擇特征來輸入檢索準則。更復(fù)雜的可視界面可以包括額外的選擇 特征來允許用戶指明額外的參數(shù),所述參數(shù)控制可視界面的顯示以及相關(guān)性功能的計算, 包括例如主題域。當然,對于所有可視界面,存在可以用來提供對參數(shù)、檢索準則和其他輸 入數(shù)據(jù)的用戶輸入的很多不同方式和類型的選擇與輸入特征。另外,可視界面可以支持多 種方法來輸入任何特定輸入數(shù)據(jù)。例如,在圖3所示的可視界面中,用戶能夠通過使用快退 和快進按鈕、通過移動位置指示器或者通過在將指針移動到進度顯示組件水平條內(nèi)一位置 所表示的位置后輸入鼠標點擊,來選擇開始或繼續(xù)信息編碼呈遞的位置。圖4提供代表本發(fā)明一個實施例的內(nèi)容檢索服務(wù)系統(tǒng)的框圖表示。內(nèi)容檢索服 務(wù)系統(tǒng)(“CSS系統(tǒng)”)402包括檢索服務(wù)組件404,其從客戶端接收檢索請求,并且以運行 于客戶端計算機上的檢索結(jié)果呈遞應(yīng)用所呈遞的檢索結(jié)果進行響應(yīng)。在本發(fā)明的一個實 施例中,檢索請求和對檢索請求的響應(yīng)是根據(jù)網(wǎng)絡(luò)服務(wù)協(xié)議通過因特網(wǎng)在可擴展標記語言 (“XML”)消息中被接收406和發(fā)送407的。檢索請求包括內(nèi)容標識符(“內(nèi)容ID”)以 及包括檢索詞或檢索短語的檢索查詢。這些項均被檢索服務(wù)組件404傳給概念服務(wù)組件 ("CS組件”)408進行處理。CS組件408向檢索服務(wù)組件404返回評分的副本412或副本 的評分部分,該檢索服務(wù)組件404使用所述評分的副本以及可選地使用概念服務(wù)組件返回 的詞匯表產(chǎn)生在客戶端計算機上呈遞給用戶的檢索結(jié)果信息。在所描述的本發(fā)明的實施例 中,評分的副本或部分評分的副本是元組的時間排序列表,每個元組包含詞語或短語的指 示、呈遞媒體內(nèi)容項期間出現(xiàn)該詞語或短語所經(jīng)過的時間,以及指示該詞語或短語與CS組 件所接收的檢索查詢相關(guān)度的評分。CS組件訪問本體儲存器414、提取內(nèi)容數(shù)據(jù)組件416 和媒體數(shù)據(jù)服務(wù)418,以便于獲得本體、副本,以及CS組件對返回給檢索服務(wù)組件404的副 本進行評分所需的其他信息。在所描述的本發(fā)明的實施例中,本體是詞語和短語的全連通 圖。該圖的每個節(jié)點代表詞語或短語,并且該圖的每條邊代表在收集的信息中觀察到的由 該邊連接的節(jié)點所代表詞語或短語的同現(xiàn)(co-occurrence)關(guān)系,所述收集的信息被分析來產(chǎn)生所述本體。為每條邊指派一權(quán)重,該權(quán)重反映該邊所代表的同現(xiàn)關(guān)系的強度,并且權(quán) 重是從被分析來產(chǎn)生本體的所述收集信息得出的。本體儲存器414包括例如本體422的多 個本體,其描述各個主題種類的詞之間的同現(xiàn)關(guān)系。本體還是加有日期戳或者日期/時間 戳的,因為本體隨著時間針對任何特定主題而改變,并且對于準備檢索結(jié)果來說,日期/時 間戳指示自內(nèi)容項數(shù)據(jù)被檢索起合理時間偏離量內(nèi)日期的本體是最有用的。提取內(nèi)容數(shù)據(jù) 組件416為CSS系統(tǒng)已經(jīng)預(yù)處理過的每個內(nèi)容項儲存一個或多個副本426。媒體數(shù)據(jù)服務(wù) 418儲存與每個預(yù)處理的內(nèi)容項相關(guān)的信息,包括該內(nèi)容項所屬主題的種類,以及該內(nèi)容創(chuàng) 建或接收的日期或者日期和時間。CSS服務(wù)還包括內(nèi)容服務(wù)組件430,該內(nèi)容服務(wù)組件430從遠程內(nèi)容提供商接收內(nèi) 容項,或者檢索、找到并且獲取內(nèi)容提供商提供的內(nèi)容項,并且將所述內(nèi)容項供應(yīng)給內(nèi)容處 理器組件432,該內(nèi)容處理器組件432準備每個已處理內(nèi)容項的一個或多個副本似6并在 提取內(nèi)容數(shù)據(jù)組件416中儲存每個已處理內(nèi)容項的一個或多個副本426。內(nèi)容處理器432 訪問儲存于語言模型儲存器436中的語言模型(例如語言模型434),以便于處理給定內(nèi)容 項。內(nèi)容處理器組件432還將關(guān)于內(nèi)容項的另外的信息存放在媒體內(nèi)容服務(wù)組件418中。 在所描述的本發(fā)明的實施例中,副本是音軌或者音頻文件的基于文本的副本,這是由內(nèi)容 處理器組件的自動語音識別子組件進行的。在本發(fā)明的可替換實施例中,文本副本可以從 其他類型的媒體內(nèi)容來準備,包括內(nèi)容處理器組件的計算機視覺子組件準備的靜止或運動 圖像的描述性副本。信息匯聚器和分類器組件440連續(xù)或者間隔地抓取因特網(wǎng)和文檔、文本文件的其 他信息源上可獲得的信息,以及與內(nèi)容項可以被指派的各種不同種類相關(guān)的其他信息項。 信息匯聚器和分類器組件440將認為對CSS系統(tǒng)有用的那些信息項按種類分類,并且將每 個種類和特定日期與時間范圍的信息項儲存到歸類信息儲存組件442中。這些信息項被信 息匯聚器和分類器組件處理,以移除不必要信息,在語言上對詞語和短語進行標準化,并且 計算與信息項相關(guān)聯(lián)的各個參數(shù)和值,所述各個參數(shù)和值既被信息匯聚器和分類器組件用 來分類所述項又被語言模型構(gòu)建器組件444和本體構(gòu)建器組件446使用,所述語言模型構(gòu) 建器組件444和本體構(gòu)建器組件446使用儲存于歸類信息儲存組件442中的信息項來分別 建立語言模型和本體。圖5根據(jù)本發(fā)明一個實施例說明本體。圖5是僅包含很少項的簡化本體。實際針 對有用信息種類準備的本體可以包含數(shù)百、數(shù)千或者數(shù)百萬個詞語和短語。在圖5中,六個 項中的每一個由橢圓節(jié)點表示,例如橢圓節(jié)點502表示詞語“蛇”。每個可能的詞語對,例如 詞語對“蛇” 502和“皮膚” 504,通過兩道弧線互連,例如弧線506和508將詞語502和504 互連。這兩道弧線形成雙向?qū)?,該對的一道弧線從第一詞語或短語(該道弧線的源詞語或 源短語)指向第二詞語或短語(該道弧線的目標詞語或目標短語),而該對的第二道弧線 從第二詞語或短語指向第一詞語或短語。每道弧線被標以范圍W.0,1.0]內(nèi)的數(shù)值。該數(shù) 值是歸一化的同現(xiàn)度量,指示該弧線的目標詞語或短語與該弧線的源詞語或短語同現(xiàn)的頻 率。因此,在圖5中,弧線506指示詞語“蛇”以相對低的頻率與詞語“皮膚”同現(xiàn),而詞語 “皮膚”以稍高的頻率與詞語“蛇”同現(xiàn)?;ミB兩個詞語或短語的雙向弧線對中兩道弧線的同 現(xiàn)度量并不相等的事實,反映出所述詞語或短語的不同分布以及所述詞語或短語在從其準 備本體的很多信息項中不同的出現(xiàn)次數(shù),以及這兩個詞語或短語的不同標準化?;仡^參照圖4,本體(例如圖5中所示的簡單本體)是由CSS系統(tǒng)的本體構(gòu)建器組件446通過分析大 量與特定種類相關(guān)并且在特定時間間隔上收集的信息項來準備的。因此,每個本體,例如圖 5說明的本體,是與特定信息種類相關(guān)聯(lián)的,并且?guī)в信c被本體構(gòu)建器組件用來建立本體的 信息項被CSS系統(tǒng)402的信息匯聚器和分類器組件440收集時的日期或日期時間分別對應(yīng) 的日期戳和/或日期/時間戳。每個本體在物理或者概念上與一詞匯表相關(guān)聯(lián)。該詞匯表也是從CSS系統(tǒng)的信息 匯聚器和分類器組件(圖4中的440)收集的信息項準備的。在某些實施例中,一個信息種 類的詞匯表是由CSS系統(tǒng)的語言模型構(gòu)建器組件(圖4中的444)準備的,并且被儲存在語 言模型儲存器(圖4中的436)中。在本發(fā)明的其他實施例中,詞匯表可以由本體構(gòu)建器組 件(圖4中的446)構(gòu)造并且儲存在本體儲存器(圖4中的414)中,而在可替換的實施例 中,詞匯表可以由CSS另外的組件構(gòu)造。在本發(fā)明的一個實施例中,詞匯表包括在與特定信息種類相關(guān)的信息項中常出現(xiàn) 的名詞或名詞性短語的列表。例如,可以預(yù)期體育種類的內(nèi)容項包括諸如“球棒”、“壘”、“投 手”、“四分衛(wèi)” “門柱”、“橄欖球”、“標槍”、“輪滑”的名詞以及其他這樣的名詞和名詞性短 語。由于程序方式處理諸如字符串的符號串是效率低下的,因此在實現(xiàn)CSS系統(tǒng)的組件時, 詞匯表中的每個詞語或短語以整數(shù)值來表示。圖6根據(jù)本發(fā)明一個實施例示出種類“動物” 的示例性詞匯表的部分。如從圖6中可以看到的,每種動物名稱的字符串表示(例如字符串 “食蟻獸”602)與構(gòu)成信息種類“動物”的詞匯表的表606中一小整數(shù)值(例如值“96”604) 相關(guān)聯(lián)。使用該表,字符串“短吻鱷”608通過表查找操作被容易地翻譯為整數(shù)“462”610。 對于任何計算處理并電子儲存的數(shù)據(jù),可以以字母表順序和/或數(shù)字順序?qū)υ~匯表排序, 并且可以額外地與索引或其他額外信息相關(guān)聯(lián),以允許在表中快速地定位和訪問詞語和短 語。盡管將本體表示為如圖5所示包括由弧線互連的詞語和短語節(jié)點的圖是方便的, 但是當將本體表示為mXm的陣列時,可以更容易地計算處理本體,其中m是特定詞匯表中 詞語和短語的數(shù)量。圖7根據(jù)本發(fā)明一個實施例說明本體的mXm表示。mXm陣列702包 括m2個單元,每個單元(例如單元704)包含標示弧線的一個或多個同現(xiàn)度量,所述弧線例 如圖5中從第一本體節(jié)點(例如圖5中的節(jié)點502)始發(fā)并指向第二本體節(jié)點(例如圖5 中的節(jié)點504)的弧線508。單元的行索引指示與弧線始發(fā)的第一節(jié)點對應(yīng)的整數(shù)值,而單 元的列索引指示該弧線指向的第二節(jié)點。單元704具有陣列索引(5,m-1),指示該單元中 包括的同現(xiàn)度量(例如圖7中的度量“0,20” 706),標示從整數(shù)“5”指明的詞匯表詞或短語 指向整數(shù)m-1指明的詞匯表詞或短語的弧線。圖7中所示本體的mXm表示是一種有用的抽象,但是一般來說還是計算上效率低 下的。該表示效率低下的一個原因是,對于實際本體來說,低于閾值的同現(xiàn)度量被視為是無 意義的,并且均被指派以諸如值“0. 0”的最小值。因此,圖7中所示mXm陣列一般是非常 稀疏的。為此,并且為了便于快速訪問詞匯表特定詞和短語的特定同現(xiàn)度量,通常將本體表 示為列表。圖8根據(jù)本發(fā)明一個實施例示出本體的列表表示。在圖8中,列表802的每個 元素(例如元素804)被表示為包含三個單元的行。行804的第一單元806是本體圖形表 示中弧線的目標的數(shù)字表示,而第二單元808是本體圖形表示中弧線的源,而第三單元810 包含對該弧線所標示的同現(xiàn)度量。列表802中僅包括具有非零度量的條目,解決了與本體mXm陣列表示相關(guān)聯(lián)的稀疏問題。列表中的每個條目表示本體的單個弧線。如通過圖8中 條目第一單元中的值容易看出的,在圖8中,條目以相對于儲存于每個條目第一單元中值 的升序而儲存。這種組織便利了對與本體圖形表示中弧線指向的特定詞語或短語相關(guān)聯(lián)條 目的訪問。在某些實施例中,可以另外相對于儲存于每個條目第二單元中的值而儲存,并且 在再另外的實施例中,本體的列表表示可以伴隨有一個或多個參考表或索引表,以便利對 本體特定條目的快速訪問。在實踐中,即使是圖8中所示的本體列表表示也可能是稍抽象的。在本發(fā)明的一 個實施例中,本體包括針對每個條目的用于計算同現(xiàn)度量的原始數(shù)據(jù),而非計算出的同現(xiàn) 度量。圖9示出在本發(fā)明一個實施例中使用的本體表示的部分。該本體被表示為列表902, 類似于圖8中說明的列表表示。然而,取代于如圖8中包括單個計算出的同現(xiàn)度量,在本發(fā) 明一個實施例中,圖9中列表的每個條目包括三個數(shù)值904-906,所述數(shù)值對儲存于條目第 一元素908中值所表示的詞或短語在與該條目第二單元910中所儲存值表示的詞或短語所 在大量收集并處理的信息項的相同信息項內(nèi)或這些信息項的子單元或子段內(nèi)出現(xiàn)的次數(shù) 進行編碼,所述大量收集并處理的信息項對應(yīng)于準備該本體所針對的信息種類。在當前的討論中,內(nèi)容項是包括音軌的視頻文件。在本發(fā)明的一個實施例中,檢 索是由CSS系統(tǒng)在視頻文件音軌上使用用戶輸入的詞語和短語排他地進行的,以找到在音 軌的時間點上出現(xiàn)的這些詞語或短語或者相關(guān)的詞語或短語。因此,音軌的部分可以被識 別為與檢索詞相關(guān)并且是用戶特別感興趣的。音軌的這些部分又可以與這樣的視頻圖像 相關(guān),在通過視頻文件呈遞應(yīng)用向用戶呈現(xiàn)視頻文件時,所述視頻圖像在音軌的所述部分 被呈遞的時間間隔內(nèi)顯示。在這些實施例中,副本(圖4中的426)實質(zhì)上是與詞語或詞語 短語在向用戶呈遞音軌期間在所述音軌中出現(xiàn)的時間或時間間隔相關(guān)聯(lián)的詞語或短語出 現(xiàn)的列表。圖10根據(jù)本發(fā)明一個實施例說明副本的一種實現(xiàn)。在圖10中,一維陣列1002 中的每個單元(例如單元1004)要么是空白的,指示在該時間間隔期間未識別出詞或短語, 要么包含從與內(nèi)容項種類相關(guān)聯(lián)的詞匯表選擇的詞或短語的數(shù)字表示,所述副本是根據(jù)所 述內(nèi)容項而準備的。在副本的該實施例中,每個單元代表固定的短時間間隔,從而一維陣列 1002代表呈遞視頻文件音軌的時間線(time line)。圖11根據(jù)本發(fā)明一個實施例說明副 本的替換性表示。在圖11中,副本被表示為列表或二維陣列,其每個條目或者行包含指示 來自詞匯表的詞或短語的數(shù)值(例如數(shù)值1102),以及所述詞或短語在音軌中出現(xiàn)的相關(guān) 聯(lián)時間(例如時間1104),這兩者均在條目1106中。很多替換性的副本表示是可能的。圖12說明代表本發(fā)明一個實施例的CSS的CS組件(圖4中的408)的操作。CS 組件從代表本發(fā)明一個實施例的CSS的檢索服務(wù)組件(圖4中的404)接收內(nèi)容ID 1202 和檢索查詢1203。該內(nèi)容ID —般是數(shù)字標識符,或者字母數(shù)字串,其唯一地標識特定的內(nèi) 容項。在本發(fā)明的一個實施例中,特定的內(nèi)容項是這樣的邏輯內(nèi)容項,其可以封裝多個不同 的分立內(nèi)容編碼,包括例如特定視頻的多種不同MPEG編碼,每種編碼具有根據(jù)編碼信號的 帶寬或每秒千比特數(shù)所指明的不同分辨率。所有不同的編碼均是視頻的替換性表示,并且 因此通過單個公共內(nèi)容ID標識。CS組件使用內(nèi)容ID 1202來訪問媒體數(shù)據(jù)服務(wù)組件(圖 4中的418),以獲得該內(nèi)容項的種類ID 1204以及該內(nèi)容項的日期/時間1206。CS組件另 外訪問本體儲存器(圖4中的414),并且在某些實施例中,訪問語言模型儲存器(圖4中 的436),以便于獲得該內(nèi)容項適當?shù)谋倔w1208和詞匯表1210。使用該本體和詞匯表1208和1210,并且使用各種語言處理規(guī)則和例程,CS組件隨后處理所接收的檢索查詢1203,以 生成一個或多個詞語或短語列表1212和1214。首先,使用語言例程,針對拼寫錯誤糾正檢 索查詢,并且標準化該檢索查詢來產(chǎn)生修改的檢索詞語或短語1216,所述語言例程也被本 體構(gòu)建器用來從收集的信息構(gòu)造本體。隨后處理修改的檢索查詢1216,以提取在內(nèi)容ID 1202所標識內(nèi)容項所屬種類的詞匯表中出現(xiàn)的那些詞。該種類由從媒體數(shù)據(jù)服務(wù)組件獲 得的種類ID 1204標識。每個列表1212和1214包括檢索詞語或短語,以及另外如從本體 1208獲得的相關(guān)檢索詞語或短語。該列表中的每個詞語或短語與從本體提取的同現(xiàn)度量值 相關(guān)聯(lián)。在圖12所示的實例中,在本體中找到詞語“汽油”、“汽車”、“蛇”和“皮膚”與檢索 詞語“石油”相關(guān),并且因此把它們包括在針對檢索詞語“石油”的列表1212中。類似地,列 表1214包含檢索詞語“汽車”,并且另外包含相關(guān)詞語“汽油”和“石油”。所述相關(guān)詞語或 短語是從本體從其中檢索查詢詞語或短語作為本體條目中第一值出現(xiàn)的那些條目(參見 圖8和9)獲得的。一旦已經(jīng)準備了列表,CS組件隨后訪問提取內(nèi)容數(shù)據(jù)組件(圖4中的 416)以獲得內(nèi)容項的副本1218。CS組件隨后使用列表1212和1214向副本1218的在該內(nèi) 容項所屬種類的詞匯表中出現(xiàn)的那些詞語和短語指派同現(xiàn)度量,以產(chǎn)生評分的副本1220。 在本發(fā)明一個實施例中,CS服務(wù)隨后將評分的副本和內(nèi)容ID,以及可選地將修改的檢索短 語1216和對詞匯表的參考返回給CSS系統(tǒng)的檢索服務(wù)組件(圖4中的404)。檢索服務(wù)組 件隨后進一步處理該評分的副本,以將檢索結(jié)果呈遞給用戶。圖13根據(jù)本發(fā)明一個實施例說明評分的副本的一個實施例。該評分的副本為元 組的列表,在圖13中其每個元組以行表示,例如行1304。每個元組,例如元組1304,包括詞 或短語的數(shù)字表示、所述詞或短語在音頻副本中出現(xiàn)時所經(jīng)過時間指示,以及針對所述詞 或短語計算的評分。一般來說,所述評分是從用于對該副本進行評分的本體獲得的一個或 多個同現(xiàn)度量的函數(shù)。在本發(fā)明一個實施例中,所述評分例如簡單地是從本體獲得的同現(xiàn) 度量,除非針對其計算評分的詞語或短語在多個列表(例如在圖12的實例中的列表1212 和1214兩者)中出現(xiàn),在這種情況下,評分可以被計算為與該詞語或短語出現(xiàn)在的任何列 表中的該詞語相關(guān)聯(lián)的同現(xiàn)度量的均值或加權(quán)均值。圖14提供代表本發(fā)明一個實施例的CSS系統(tǒng)的信息匯聚器和分類組件的高層框 圖。該信息匯聚器和分類器(圖4中的440)負責從各種信息源(包括因特網(wǎng))收集信息, 所述信息隨后被語言模型構(gòu)建器(圖4中的444)用來構(gòu)造種類專用的語言模型(圖4中 的434),所述種類專用的語言模型被內(nèi)容處理器(圖4中的432)用來準備副本(圖4中 的似6),并且所述信息被本體構(gòu)建器(圖4中的446)用來構(gòu)造種類專用的本體(圖4中 的42 ,該種類專用的本體被CS組件(圖4中的408)用來如上面討論那樣準備評分的副 本。IAC組件1402包括兩個主要的子組件(1)文檔分類器構(gòu)造器子組件1404和信息匯聚 器子組件1406。該文檔分類器構(gòu)造器子組件構(gòu)造或訓練文檔分類器1408,所述信息匯聚器 子組件使用所述文檔分類器1408通過將每個文檔指派到一個種類來分類從信息源獲得的 文檔,并且隨后逐種類地匯聚從文檔收集的信息。如圖4所示,IAC組件使用歸類信息儲存 組件(圖4中的442) 1410來臨時儲存文檔并最終儲存本體構(gòu)建器和語言模型構(gòu)建器所使 用的經(jīng)處理文檔包。IAC組件從因特網(wǎng)并且潛在地從其他信息源(包括在線數(shù)據(jù)庫、簡易信 息聚合(“RSS”)種子和另外類型的電子編碼信息源)請求信息1412并且接收請求的信息 1414。在描述IAC組件的信息匯聚器子組件和文檔分類器構(gòu)造器子組件之前,首先描述這些子組件所采用的各種模塊和功能。圖15說明網(wǎng)絡(luò)抓取器的操作。如熟知因特網(wǎng)和因特網(wǎng)瀏覽的人們所公知的,被編 碼為超文本標記(“HTML”)文件的網(wǎng)頁(例如網(wǎng)頁1502)通過包括于網(wǎng)頁中引用其他網(wǎng) 頁的超鏈接組織為復(fù)雜的圖。當前,通過普遍可獲得的網(wǎng)絡(luò)瀏覽器訪問因特網(wǎng)的用戶可以 潛在地訪問數(shù)億或數(shù)十億不同的網(wǎng)頁。正常地,用戶使用搜索引擎檢索感興趣的話題,所述 搜索引擎返回該搜索引擎確定與用戶感興趣話題相關(guān)的網(wǎng)頁通用資源定位符(“URL”)列 表,并且隨后開始訪問初始URL列表所標識的網(wǎng)頁,通常是通過被包括在所顯示網(wǎng)頁中的 超鏈接從初始查看的網(wǎng)頁導航到另外的網(wǎng)頁。圖15示出因特網(wǎng)非常小的部分,其中鏈接網(wǎng) 頁的超鏈接被示為箭頭(例如箭頭1504),而網(wǎng)頁示為該圖的方形節(jié)點。第一網(wǎng)站1506可 以包括網(wǎng)頁1502和1508-1510,其中網(wǎng)頁1508-1510鏈接自該網(wǎng)站的首頁1502。網(wǎng)站1506 的網(wǎng)頁1509可以包含去往第二網(wǎng)站1514首頁1512的超鏈接1504。該第二網(wǎng)站內(nèi)的網(wǎng)頁 1516-1517又可以分別包含去往另外的網(wǎng)站1520和1522的超鏈接1518和1519。因特網(wǎng) 的圖太過復(fù)雜而不能表示任何一種可視顯示,其中很多網(wǎng)站包含數(shù)百個網(wǎng)頁以及成百上千 個內(nèi)部超鏈接和去往外部網(wǎng)站的超鏈接。網(wǎng)絡(luò)抓取器是一種自動軟件程序,其被設(shè)計來訪問因特網(wǎng),以多個種子URL指明 的多個網(wǎng)頁開始,并且隨后從所述URL全面向外導航,以收集通過從初始的種子URL開始遍 歷超鏈接直到某鏈接深度所能訪問的所有網(wǎng)頁。例如,在圖15中,網(wǎng)絡(luò)抓取器可以以地址 分別為兩個種子URL1530和1532的兩個網(wǎng)頁1502和1534開始。在圖15中,各個超鏈接 (例如超鏈接1504)被標記有該超鏈接相對于從以兩個種子URL 1530和1532為地址的兩 個網(wǎng)頁1502和1534開始的檢索的深度。因此,例如,在深度1找到網(wǎng)頁1508,其從抓取的 初始網(wǎng)頁1502直接鏈接,而網(wǎng)頁1517出現(xiàn)在從初始種子URL 1530和1532起深度為5之 處。由于該圖的復(fù)雜性,很多網(wǎng)頁(例如網(wǎng)頁1502)在抓取期間可能被多次訪問。由于因 特網(wǎng)網(wǎng)頁結(jié)構(gòu)的復(fù)雜性、密度和數(shù)量,包括在每個連續(xù)抓取深度中的網(wǎng)頁數(shù)量可能超指數(shù) 地增加??梢詫⒕W(wǎng)絡(luò)抓取器設(shè)計為按照附加參數(shù)指明的那樣進行各種類型的定向檢索。一 般來說,網(wǎng)絡(luò)抓取器將與所訪問網(wǎng)頁對應(yīng)的HTML文件存放在大數(shù)據(jù)文件或數(shù)據(jù)庫中??商?換地,網(wǎng)絡(luò)抓取器可以在未提供種子URL時在網(wǎng)絡(luò)空間中以隨機選擇點開始檢索。本發(fā)明的實施例采用過濾和標準化方法來將從因特網(wǎng)獲得的HTML文件和其他文 檔處理成可以用來建立語言模型和本體的壓縮的、語言標準化的文檔。圖16A-B說明在本 發(fā)明一個實施例中采用的文檔過濾和標準化方法。在圖16A中,示出對HTML編碼的網(wǎng)頁 1602的呈遞。該網(wǎng)頁包括文本1604、. jpg圖像1606,以及各種非文本的圖形和符號,例如 項目符號1608和水平線1610。圖16A中示出的網(wǎng)頁1602是非常簡單的網(wǎng)頁。現(xiàn)今,很多 網(wǎng)頁包含各種不同類型的特征、控制、圖像和非本文項,并且可以另外包括可執(zhí)行的腳本和 例程。在初始的一系列步驟中,代表本發(fā)明一個實施例的過濾器將網(wǎng)頁的HTML編碼轉(zhuǎn) 變1612為簡單得多的段句分界的文本文件1614。如圖16A中可以看到的,已經(jīng)從初始HTML 文件移除了所有非文本項,以產(chǎn)生段句分界的文本文件1614,并且保留文本已經(jīng)被分塊為 段落1616-1618,其中每個段落又分塊為句子,例如段落1616的句子1620-1621。在圖16A
中,段落被標記為“P1”、“P2”和“P3”,而每個段落中的句子被標記為“S1”、“S2”.......接
下來,如圖16B所示,段句分界的文本文件隨后通過一系列語言例程被轉(zhuǎn)變1620,以識別所有詞的詞性(part of speech),并且移除不是名詞的詞,以產(chǎn)生僅有名詞的文本文檔1630。 在該僅有名詞的文本文檔中維持所述段句分界的文本文件(圖16A中的1614)的段落和句 子結(jié)構(gòu)。接下來,該僅有名詞的文本文檔1630通過一系列過濾和語言標準化步驟被轉(zhuǎn)變 1632為標準化文檔1634。使用被認為對語言模型構(gòu)建器和本體構(gòu)建器無用的詞的大列表 來從該僅有名詞的文本文檔1630移除這些詞的出現(xiàn)。該應(yīng)當移除的詞的列表可以根據(jù)各 種統(tǒng)計和其他考慮來準備。例如,已知在多種內(nèi)容中相對高頻出現(xiàn)的詞一般不能提供與用 戶相關(guān)的媒體內(nèi)容的這些部分的顯著區(qū)分。另外,可以針對用戶查詢收集統(tǒng)計數(shù)據(jù),并且可 以從被收集來建立一種類的本體的僅有名詞的文本文檔中移除在指向特定查詢媒體內(nèi)容 的檢索查詢中一般不會遇到的詞和短語。另外,采用語言例程通過例如將所有大寫字符變 為小寫字符、將任何復(fù)數(shù)名詞變?yōu)槠鋯螖?shù)形式以及在某些情況下以衍生名詞的詞根替代衍 生名詞來標準化每個名詞。如在圖16B中可以看到的,標準化文本文檔遠比圖16A中呈遞 為網(wǎng)頁1602的初始HTML文件更結(jié)構(gòu)化、更簡單。標準化文本文件1634包含的恰是對于在 所描述的本發(fā)明實施例中的語言模型構(gòu)建器和本體構(gòu)建器有用的信息。可以向標準化文本文檔應(yīng)用索引器來生成額外的有用信息。圖17示出從圖16B所 示標準化文本文檔生成的詞語向量。在圖17中,標準化文本文檔1702被示出在詞語向量 的二維陣列1704表示之上。該詞語向量針對在標準化文本文檔中出現(xiàn)的每個唯一詞語包 括一個條目,例如針對詞語“chart(圖表)”的條目1706。如上面討論的,詞語向量中的每 個條目包括詞語的符號表示(例如符號串“chart”),或者從詞匯表選擇的詞語的整數(shù)值。 每個條目還包括該詞語在文檔中出現(xiàn)的次數(shù)。通過某些索引器從標準化文本文檔編制并且提供的另一信息編制物是倒排關(guān)鍵 詞索引。圖18示出一種倒排關(guān)鍵詞索引的邏輯結(jié)構(gòu)。倒排關(guān)鍵詞索引可以包含一個標準 化文本文檔或者標準化文本文檔集中詞語的出現(xiàn)頻率相關(guān)的信息。圖18示出文本文檔集 的倒排關(guān)鍵詞索引。該倒排關(guān)鍵詞索引包括哈希表1802,該哈希表可以被用來快速識別針 對在該文檔集中遇到的每個詞語編制的出現(xiàn)頻率信息??梢詮脑~“armadillo (犰狳)”計算 哈希值1804,或者可以使用從詞匯表選擇的詞“armadillo”的數(shù)值來計算哈希表1806中的 數(shù)值或?qū)l目的引用。該條目包含指向哈希為特定哈希表條目或者容器(bin)的一個或多 個詞語的一個出現(xiàn)頻率信息或出現(xiàn)頻率信息列表的指針。在圖18所示的實例中,哈希表條 目1806對應(yīng)于詞“armadillo”1808和詞“piano (鋼琴)” 1810。從哈希表引用的對應(yīng)于詞 語“armadillo”的第一詞語節(jié)點1808又引用包括詞語“armadillo”的文檔節(jié)點1812-1815 的列表。每個文檔節(jié)點又引用段落列表,例如與文檔1815相關(guān)聯(lián)的段落節(jié)點1818-1819, 該段落列表代表給定文檔中出現(xiàn)該詞語的所有段落。所述段落節(jié)點然后又可以引用句子節(jié) 點或鏈接的句子節(jié)點列表,所述句子節(jié)點指示段落中出現(xiàn)該詞語的那些句子。從詞語節(jié)點 1808起始并包括該詞語節(jié)點的分層節(jié)點樹中的每個節(jié)點可以包括表示該詞語在該分層結(jié) 構(gòu)的每一級中出現(xiàn)的總次數(shù)的整數(shù)值。例如,詞語節(jié)點1808可以包括詞語“armadillo”在 整個文檔集中出現(xiàn)次數(shù)的整數(shù)值。文檔節(jié)點1812可以包含指示詞語“armadillo”在該文 檔節(jié)點所代表文檔中出現(xiàn)次數(shù)的整數(shù)值。存在很多不同類型的倒排關(guān)鍵詞索引。圖18中的倒排關(guān)鍵詞索引意圖示出可以 被包含在倒排關(guān)鍵詞索引中的信息類型。一般來說,盡管哈希表提供快速查找,但是圖19 的分層節(jié)點樹中儲存的數(shù)據(jù)通常被儲存為比特串或存儲器塊中的字段,而不是儲存為節(jié)點樹,以便于比可以通過遍歷復(fù)雜的樹獲得信息更快速地獲取信息。應(yīng)當注意,當索引器準備 每個標準化文本文檔的倒排關(guān)鍵詞索引時,可以通過在概念上將文檔節(jié)點為頭部的樹附加 到從詞語節(jié)點始發(fā)的文檔列表來相對直接地合并文本文檔集中所有文本文檔的倒排關(guān)鍵 詞索引。在本發(fā)明某些實施例中可以使用倒排關(guān)鍵詞索引,但是在本發(fā)明的很多實施例中 不使用倒排關(guān)鍵詞索引。如上面參照圖17討論的,索引器可以為每個標準化文本文檔準備詞語向量。可以 通過將每個詞語在該集合所有標準化文本文檔中的出現(xiàn)次數(shù)進行合計來匯聚相關(guān)標準化 文本文檔集的大量詞語向量,以產(chǎn)生每個詞語在詞語向量中的累積出現(xiàn)次數(shù)。所有詞語的 累積出現(xiàn)次數(shù)構(gòu)成該相關(guān)標準化文本文檔集的累積詞語分布。圖19根據(jù)本發(fā)明一個實施 例說明累積詞語分布。該累積詞語分布實質(zhì)上是直方圖,其中相對于縱軸1802繪制沿橫軸 1804繪制的詞語的出現(xiàn)次數(shù)。特定柱(例如柱1806)的高度表示該柱之下詞語1808的出 現(xiàn)次數(shù)。累積詞語分布可以在計算上被表示為二維陣列,其具有與上面參照圖17討論的詞 語向量中條目等同的條目。接下來描述IAC組件的文檔分類器子組件(圖14中的1408)。圖20說明IAC組 件的文檔分類器子組件的功能。詞語向量2002輸入到文檔分類器子組件2004,并且該文檔 分類器子組件應(yīng)用各種規(guī)則、習得的概率或其他內(nèi)部儲存的信息,以便于產(chǎn)生有可能代表 與該詞語向量相關(guān)聯(lián)文檔種類的種類ID 2006。換言之,在如上面參照圖17討論的那樣構(gòu) 造標準化文本文檔的詞語向量之后,與標準化文本文檔相關(guān)聯(lián)的詞語向量可以被輸入到文 檔分類器子組件,以確定該文檔所屬種類的種類ID。存在很多不同類型的文檔分類器。在本發(fā)明的一個實施例中,采用樸素貝葉斯文檔分類器。在貝葉斯方案中,根據(jù)種 類Ci的文檔將生成各種可測量的量F1, F2, ...,F(xiàn)n的概率來計算文檔是特定種類Ci的成員 的似然性,所述可測量的量是從之前觀測的數(shù)據(jù)估計的。使用來自詞語向量T1, T2, . . . , Tn 的元素的出現(xiàn)值作為可測量的量,樸素貝葉斯分類器通過嘗試找到種類Ci來分類文檔,即, 在一組種類C的所有種類中,考慮詞語向量分量T1, T2, ...,Tn的值,所述文檔屬于種類Ci 的概率最高。因此,樸素貝葉斯分類器尋找
權(quán)利要求
1.一種內(nèi)容檢索服務(wù)系統(tǒng)的信息匯聚和分類組件,所述信息匯聚和分類組件包括 文檔分類器;文檔分類器構(gòu)造器子組件,所述文檔分類器構(gòu)造器子組件使用經(jīng)歸類和處理的文檔集 來構(gòu)造所述文檔分類器;以及信息匯聚器子組件,所述信息匯聚器子組件 從電子信息源獲得未歸類文檔, 過濾所述未歸類文檔以產(chǎn)生一組標準化文本文檔,向所述標準化文本文檔應(yīng)用索引器以生成每個標準化文本文檔的詞語向量; 輸入針對所述一組標準化文本文檔中每個標準化文本文檔計算的所述詞語向量,以向 所述標準化文本文檔指派種類;以及將每個不同種類的標準化文本文檔匯聚在一起以產(chǎn)生每個種類的標準化文本文檔包。
2.如權(quán)利要求1所述的信息匯聚和分類組件,其中所述文檔分類器是樸素貝葉斯文檔 分類器。
3.如權(quán)利要求1所述的信息匯聚和分類組件,其中所述文檔分類器構(gòu)造器子組件 從電子信息源獲得文檔,每個所述文檔被指派了種類,過濾所述文檔以產(chǎn)生一組標準化文本文檔,向所述標準化文本文檔應(yīng)用索引器以生成每個標準化文本文檔的詞語向量; 為每個種類的文檔計算累積詞語分布;以及將每個標準化文本文檔,與針對所述標準化文本文檔計算的詞語向量和被指派給所述 文本文檔的種類,以及每個種類的文檔的所述累積詞語分布一起輸入到所述文檔分類器, 以訓練所述文檔分類器識別要指派給輸入的標準化文本文檔/詞語向量對的種類。
4.如權(quán)利要求1所述的信息匯聚和分類組件,其中所述信息匯聚器子組件使用網(wǎng)絡(luò)抓 取器來從電子信息源獲得未歸類文檔。
5.如權(quán)利要求1所述的信息匯聚和分類組件,其中,對于每個文檔,所述信息匯聚器子 組件通過以下操作來過濾所述未歸類文檔以產(chǎn)生一組標準化文本文檔從所述文檔移除非文本項和符號以產(chǎn)生文本文檔;解析所述文本以將所述文本文檔的所述文本組織為段落和段落中的句子,從而產(chǎn)生段 句分界的文本文檔;向所述段句分界的文本文檔應(yīng)用語言解析例程,以從所述文本移除非名詞詞語,從而 產(chǎn)生僅有名詞和名詞性短語的文本文檔;以及應(yīng)用語言例程來標準化所述僅有名詞和名詞性短語的文本文檔中的詞語,并從經(jīng)標準 化的詞語中過濾無用詞語以產(chǎn)生標準化文本文檔。
6.如權(quán)利要求1所述的信息匯聚和分類組件,其中每個詞語向量包含每個詞語在標準 化文本文檔中的出現(xiàn)計數(shù)。
7.如權(quán)利要求1所述的信息匯聚和分類組件,其中每個標準化文本文檔包是帶日期戳 或日期/時間戳的,以指示所述標準化文本文檔包被準備的日期或日期和時間。
8.一種內(nèi)容檢索服務(wù)系統(tǒng)的本體構(gòu)建器組件,所述本體構(gòu)建器組件 接收日期或日期/時間以及對種類的指示;從歸類文本文檔儲存組件請求標準化文本文檔的包,所述標準化文本文檔的包具有的日期或日期/時間戳的值接近所接收的日期或日期時間,并且與所接收的種類相關(guān)聯(lián); 為所述種類的文本文檔的詞匯表內(nèi)每個有向詞語對計算多個同現(xiàn)值; 歸一化所述有向詞語對中每個第一詞語的同現(xiàn)值; 計算每個詞語的權(quán)重;將所計算的每個詞語的權(quán)重應(yīng)用到有向詞語對的經(jīng)歸一化的同現(xiàn)值,在所述有向詞語 對中,所述詞語作為所述有向詞語對中的第一詞語出現(xiàn);以及將一組應(yīng)用有權(quán)重、標準化的同現(xiàn)值作為本體儲存在本體儲存組件中。
9.如權(quán)利要求8所述的本體構(gòu)建器組件,其中同現(xiàn)值是為每個有向詞語對、針對所述 詞語一起出現(xiàn)在所述標準化文本文檔的句子中、在所述標準化文本文檔的段落中以及在整 個標準化文本文檔中的頻率而計算的。
10.如權(quán)利要求8所述的本體構(gòu)建器組件,其中詞語的所述權(quán)重與所述詞語在所述標 準化文本文檔中的總出現(xiàn)成反比。
11.如權(quán)利要求8所述的本體構(gòu)建器組件,其中歸一化所述有向詞語對中每個第一詞 語的同現(xiàn)值還包括計算每個有向詞語對相對于所述有向詞語對的總同現(xiàn)次數(shù)的比例性同 現(xiàn)。
12.—種準備標準化文本文檔包的方法,所述方法包括 使用經(jīng)歸類和處理的文檔集來構(gòu)造文檔分類器;從電子信息源獲得未歸類文檔, 過濾所述未歸類文檔以產(chǎn)生一組標準化文本文檔,向所述標準化文本文檔應(yīng)用索引器以生成每個標準化文本文檔的詞語向量; 輸入針對所述一組標準化文本文檔中每個標準化文本文檔計算的所述詞語向量,以向 所述標準化文本文檔指派種類;以及將每個不同種類的標準化文本文檔匯聚在一起以產(chǎn)生每個種類的標準化文本文檔包。
13.如權(quán)利要求12所述的方法,其中所述文檔分類器是樸素貝葉斯文檔分類器。
14.如權(quán)利要求12所述的方法,其中構(gòu)造所述文檔分類器還包括 從電子信息源獲得文檔,每個所述文檔被指派了種類,過濾所述文檔以產(chǎn)生一組標準化文本文檔,向所述標準化文本文檔應(yīng)用索引器以生成每個標準化文本文檔的詞語向量; 為每個種類的文檔計算累積詞語分布;以及將每個標準化文本文檔,與針對所述標準化文本文檔計算的詞語向量和指派給所述文 本文檔的種類,以及每個種類的文檔的所述累積詞語分布一起輸入到所述文檔分類器,以 訓練所述文檔分類器識別要指派給輸入的標準化文本文檔/詞語向量對的種類。
15.如權(quán)利要求12所述的方法,其中從電子信息源獲得未歸類文檔還包括使用網(wǎng)絡(luò) 抓取器。
16.如權(quán)利要求12所述的方法,其中過濾所述未歸類文檔以產(chǎn)生一組標準化文本文檔 還包括對于每個文檔從所述文檔移除非文本項和符號以產(chǎn)生文本文檔;解析所述文本以將所述文本文檔的所述文本組織為段落和段落中的句子,從而產(chǎn)生段 句分界的文本文檔;向所述段句分界的文本文檔應(yīng)用語言解析例程,以從所述文本移除非名詞詞語,從而 產(chǎn)生僅有名詞和名詞性短語的文本文檔;以及應(yīng)用語言例程來標準化所述僅有名詞和名詞性短語的文本文檔中的詞語,并從經(jīng)標準 化的詞語中過濾無用詞語以產(chǎn)生標準化文本文檔。
17.如權(quán)利要求12所述的方法,其中每個詞語向量包含每個詞語在標準化文本文檔中 的出現(xiàn)計數(shù)。
18.如權(quán)利要求21所述的方法,其中每個標準化文本文檔包是帶日期戳或日期/時間 戳的,以指示所述標準化文本文檔包被準備的日期或日期和時間。
全文摘要
本發(fā)明的各個實施例包括內(nèi)容檢索服務(wù)系統(tǒng)的信息匯聚和分類組件,該信息匯聚和分類組件從信息源得到信息,匯聚并標準化所得到的信息,并且分類所得到的信息,之后將經(jīng)標準化和分類的信息進行儲存以供內(nèi)容檢索服務(wù)系統(tǒng)的語言模型構(gòu)建器組件和本體構(gòu)建器組件使用。本發(fā)明另外的實施例包括本體構(gòu)建器組件,該本體構(gòu)建器組件針對特定日期、日期/時間、日期范圍或日期/時間范圍并且針對特定種類從經(jīng)標準化和分類的信息來建立本體。
文檔編號G06F17/21GK102119383SQ200980118218
公開日2011年7月6日 申請日期2009年3月19日 優(yōu)先權(quán)日2008年3月19日
發(fā)明者D·巴杰倫, J·湯普森, N·C·斯蒂洛, V·舍梅布爾卡爾 申請人:德爾夫網(wǎng)絡(luò)有限公司