專利名稱:確定文檔特異性的制作方法
技術領域:
本發(fā)明總體上涉及詞法(lexigraphical)分析,更具體地說,涉及文 檔特異性(specificity)的確定。
背景技術:
一組(corpus)數據可以包含大量信息,然而查找到相關信息卻可能 比較困難。關鍵詞搜索是查找信息的主要技術。然而,在特定情況下關 鍵詞搜索在定位信息時并不有效。發(fā)明內容
圖1例示了確定文檔特異性的系統10的一種實施方式; 圖2例示了可與圖1的系統一起使用的相關度模塊的一種實施方式; 圖3例示了記錄基本相關度的相關度矩陣的實施例; 圖4例示了記錄有向相關度的相關度矩陣的實施例; 圖5例示了記錄平均相關度的相關度矩陣的實施例; 圖6例示了相關度圖的實施例;圖7例示了可與圖1所示的系統一起使用的聚類模塊的一種實施方式;圖8例示了可與圖1所示的系統一起使用的本題特征模塊的一種實 施方式;以及圖9的圖例示了字深度分布的一個實施例。
具體實施方式
概述在一種實施方式中,確定文檔特異性包括訪問記錄有文檔的聚類的 記錄。根據文檔的聚類數確定文檔的主題數。根據主題數確定文檔的特 異性。示例實施方式在具體實施方式
中,領域本體的創(chuàng)建及查詢包括以下步驟1、 收集領域中的文檔。在具體實施方式
中,文檔是詞條的集合。文 檔包括可讀文本,例如,書《新約》。文檔不需要包括敘述性形式的文本, 例如,文檔可以包括用戶輸入的一組標注(tag),其單獨及共同地描述了圖像的內容。文檔的集合可稱為"領域文集(domaincorpus)"。2、 識別該領域中感興趣的詞條("詞典詞條")。詞條的實施例包括 單詞(諸如"樹")、短語(諸如"圖形算法")、命名實體(諸如"紐約") 等。詞條(或概念)可具有不同的形式。在特定情況下,不同的單詞用 于同一概念,例如,"kidney stones (腎結石)"和"kidney calculi (腎結 石)"是指同一概念,即"腎結石"。在其它情況下,詞干可具有多種詞 形變化(inflected variant),例如,詞干"tree"具有詞形變化"tree"和"trees"。在具體實施方式
中,同一詞條的各種形式可處理為映射到同一 詞條。詞典詞條的任意適當形式可出現在文檔中,但是具體詞典詞條不 一定出現在任意文檔中。識別詞典詞條的方法的實施例包括利用用于特定領域的人造詞典, 例如,醫(yī)學詞典。在具體實施方式
中,可根據文檔集中的一組文本串自 動地生成詞典詞條的列表??梢园凑疹l度對這些串進行索引及分類,并 且可選擇頻度大于閾值的串??墒褂闷渌线m的統計方法來確定詞條。 在具體實施方式
中,"單詞"可與"詞條"及"詞典詞條"互換。3、 計算給定的共現上下文中詞典詞條的共現(co-occurrence)數量。 如果兩個詞條中的每一個都在同一共現上下文(co-occurrence context)中 至少出現一次,則這兩個詞條共現。共現上下文的實施例包括文檔和段 落。4、 創(chuàng)建包括該領域本體的有向加權圖(directed weighted graph)。該有向加權圖包括作為節(jié)點的詞典詞條以及作為邊的權重的相關度。"有向 加權圖"可以用作可由任意合適的數據結構(例如,矩陣、二值判決圖、 或二值判決圖的集合等)代表的同一信息的實際表達。5、應用査詢該有向加權圖的過程。給定一個或更多個詞典詞條作為 輸入,該過程輸出與輸入的詞典詞條有關的一個或更多個詞典詞條。例 如,該過程可輸出一個或更多個詞條的分類列表,所述一個或更多個詞 條針對一個或更多個輸入詞條具有最高的差分有向相關度(如下所述)。 在這種情況下,就該本體涉及的領域而言,該輸出包括與輸入詞條較密 切相關的詞條??墒褂萌我膺m當的相關度定義。在具體的實施方式中,可使用以下定義1、 基本相關度a. 詞條A與B之間的基本相關度(A)可定義為包括詞條A和B 這兩者的共現上下文的數量與包括詞條A或B的共現上下文的數量的比 值A(A,B) = |AB|/|AorB|b. 詞條A與B之間的基本相關度(A)還可定義為包括詞條A和B 這兩者的共現上下文的數量與包括A的共現上下文的數量或包括B的共 現上下文的數量中的最大值的比值A(A,B) = |AB|/max(|A|,|B|)2、 有向相關度詞條A與B之間的有向相關度(DAff)可定義為在假定共現上下文 中觀察到了 A的情況下觀察到B的條件概率 DAff(A,B) = |AB| / |A1也就是說,有向相關度可以是包括詞條A和B這兩者的共現上下文 的數量與包括詞條A的共現上下文的數量的比值。通常,DAff(A,B)與 DAff(B,A)不同。3、 差分有向相關度詞條A和B之間的差分有向相關度(DiffDAff)可定義為詞條A與B之間的有向相關度減去代表該文集中的詞條B的常見程度 (common-ness)的參數。在該文集中的詞條B的常見程度可以是詞條B 與該文集中的其它詞條的基本相關度或有向相關度值的統計值。在具體 實施方式中,該文集中的詞條B的常見程度可以是詞條B的平均相關度 (AA),這得到以下差分有向相關度的定義 DiffDAff(A,B) = DA(A,B) - AA(B)詞條B的平均相關度(AA)或平均有向相關度可定義為 AA(B) = AVERAGE—x DAff(x, B)也就是說,平均相關度是術語B與共現上下文中的其他術語的有向 相關度的平均值。圖1示出了判斷文檔特異性的系統10的一種實施方式。在特定實施 方式中,系統10根據文檔的主題數確定文檔的特異性。如果文檔具有較 少的主題數,則文檔較特殊。如果文檔具有較多的主題數,則文檔較不 特殊。在特定實施方式中,系統10執(zhí)行特異性分析。特異性分析的實施 例包括獲取滿足需要的文檔特異性的文檔,顯示指示文檔的特異性的圖 像元素,以及根據用戶文檔確定用戶特異性。在特定實施方式中,可以 根據依據單詞之間的相關度所確定出的聚類來確定特異性。在某些實施方式中,對于給定的單詞子集和詞典D,可以基于特定的反向索引II計算有向相關度,其中索引II例如包括針對單詞Wi和Wj的條目I(Wj)和I(Wj)。一般而言,反向索引是存儲從詞條到它的位置(即 詞條出現的共現上下文)的映射的索引數據結構。對于D中的每對單詞 Wi和Wj,DA(i,j)可以被定義為II中的條目I(Wi)和I(Wj)的合取(conjunction) 值除以I(Wi)的數目值。一般而言,DA(i,j)不必等于DA(j,i)。結果可以以 任意合適的方式例如以行方式存儲,其中D(l,i)被存儲,然后D(2,i)被存儲,依此類推。對于每行i,可以存儲II(Wi)l,接著是與Wj的合取的基數(cardinality )。在特定實施方式中,可以在三個階段中計算有向相關度。在這些實 施方式中,每個詞典詞條被指派以唯一的整數標識符。反向索引的條目 對應于整數標識符。在階段O,對應于D的II條目被讀取。對于參數(s,Q),僅形式ks+o的元素標識符被保留。值ks+o定義了將被檢驗的II條目的子集。以這樣的方式,可以并行地計算有向相關度。作為示例,來自參數s,o(l,0)的結果相當于根據參數(3, 0)、 (3, 1)、 (3, 2)合并計算獲得的 結果。該步驟允許計算用于很大反向索引的DA表。在階段1內,僅僅針對DA(i, j)以行的方式計算了合取。在階段2 內,讀取計算出的上三角形UTDA陣列。據此獲得作為UT置換的下三 角形部分。在特定的實施方式中,可以將多個維數相同的DA并成單個 陣列??梢砸?s,i)為參數按照sumi=(Ms+ DA來計算與大II相關的DA 數組??梢詫⒏郊有畔⑴c計算的合取存儲起來,以便可以計算有向相關度。在一定的情況中,可以存儲n項的基數。在特定的實施方式中,可以以行的方式存儲DA,所以AA條目的計 算可以與DA條目的計算并行地進行。具體地,可以通過在從盤中讀取 DA時對DA的行進行累加并且最后通過詞典條目的數量歸一化而生成 AAo在示出的實施方式中,系統10包括客戶端20、服務器22和存儲器 24??蛻舳?0允許用戶與服務器22通信以便生成語言本體??蛻舳?0 可以將用戶輸入發(fā)送到服務器22,并且可以將服務器輸出提供(例如顯示 或打印)給用戶。服務器系統24管理用于生成語言本體的應用程序。存儲 器24存儲服務器系統24使用的數據。在示出的實施方式中,存儲器24存儲頁面50和記錄54。頁面50(或 文檔或共現上下文)可以指單詞集合。頁面50的例子包括一個或更多個文 檔頁面、 一個或更多個文檔、 一本或更多本書、 一個或更多個網頁、信 件(例如電子郵件或即時消息和/或其它單詞集合??梢酝ㄟ^頁面識別符識 別頁面50??梢詫㈨撁?0電子地存儲中一個或更多個有形計算機可讀介 質中。頁面50可以與任何適當的內容例如文本(例如字符、單詞和/或數 字)、圖像(例如圖形、像片或視頻)、音頻(例如錄音或計算機生成的聲音) 和/或軟件程序相聯系。在特定的實施方式中, 一組頁面50可以屬于一個 文集。該文集可以與具體的主題、團體、組織或其它實體相聯系。記錄54描述了頁面50。在該實施方式中,記錄54包括索引58、反向索引62、本體66以及聚類67。索引58包括索引列表,其中,頁面50 的索引列表指示頁面50的單詞。反向索引62包括反向索引列表,其中, 單詞(或單詞集)的反向索引列表指示包括所述單詞(或所述單詞集) 的頁面50。在一個實施例中,列表Wj包括包含有單詞w;的頁面50的頁 面標識符。列表Wj&Wj包括合取頁面50 (其包含單詞Wi和Wj這兩者) 的頁面標識符。列表Wi+Wj包括分取(disjunction)頁面50 (其包含單 詞Wi或Wj)的頁面標識符。P(W0是Wi中頁面5O的數量,即,包括單詞 Wi的頁面50的數量。在一種實施方式中,列表(諸如索引列表或反向索引列表)可被存 儲為二值判決圖(BDD)。在一個實施例中,集合Wi的二值判決圖BDD (Wi)代表具有單詞Wi的頁面50。 BDD(Wj)的滿足指定計數(satisfying assignment count) Satisf(BDD(Wi))得到具有單詞Wj的頁面50的數量 P(Wj):P(WO = Satisf(BDD(Wi))因此,P(Wj& Wj) = Satisf(BDD(Wj) AND BDD(Wj)) P(Wi+Wj) = Satisf(BDD(Wi) OR BDD(W》)本體66代表語言的單詞以及這些單詞之間的關系。在一種實施方式 中,本體66代表單詞之間的相關度。在例示的實施例中,本體66包括 相關度矩陣和相關度圖。參照圖3到圖5來描述相關度矩陣的實施例。 參照圖6來描述相關度圖的實施例。聚類67記錄彼此相關的詞的聚類。 參照圖7更詳細地描述這些聚類。在示出的實施方式中,服務器22包括相關度模塊30、聚類模塊31 以及本體特征模塊32。相關度模塊30可以計算單詞對的相關度、記錄相 關度矩陣中的相關度和/或報告相關度矩陣。相關度模塊30還可以產生相 關度圖。將參照圖2更詳細地描述相關度模塊30。在特定實施方式中,聚類模塊31可以通過識別數據集內相關元素的 聚類發(fā)現數據集內的模式(pattem)。在特定實施方式中,聚類模塊31 可以識別一組單詞(例如,針對一種語言或一組頁面50)的聚類。 一般而言,聚類單詞彼此高度相關,但是不與聚類外的單詞高度相關。單詞聚類可以指示單詞集的主題(或題目)。在特定實施方式中,聚類模塊31 根據單詞之間的相關度識別相關單詞的聚類。在這些實施方式中,聚類 單詞彼此高度相關,但是不與聚類外的單詞高度相關。將參照圖7更詳 細地描述聚類模塊31。在特定實施方式中,本體特征模塊32可以確定一組一個或更多個單 詞(例如,特定單詞或包括單詞的文檔)的一個或更多的本體特征,且 然后可以在某種變化的情況下應用本體特征。本體特征是在語言的本體 空間中放置單詞集的單詞集的特征。本體特征的實施例包括深度和特異 性。在特定實施方式中,深度可以指示單詞集的原文復雜度。較深的單 詞集可以較技術和專業(yè),而較淺的單詞集可以較常見。在具體實施方式
中,單詞集的特異性涉及單詞集的主題數目。較特殊的單詞集可以具有 較少的主題,而較不特殊的單詞集可以具有較多的主題。本體特征模塊32可以在任意合適的情況下應用本體特性。合適的情 況的示例包括根據本體特征搜索、分類或選擇文檔;報告文檔的本體特 征;以及確定一個或更多個用戶的文檔的本體特征。將參照圖8更詳細 地描述本體特征模塊32。系統10的組件可以包括接口、邏輯、存儲器和/或其他合適的元件。 接口接收輸入、發(fā)送輸出,處理輸入和/輸出,和/或執(zhí)行其他合適的操作。 接口可以包括硬件和/或軟件。邏輯執(zhí)行這些組件的操作,例如,執(zhí)行指令以根據輸入產生輸出。 邏輯可以包括硬件、.軟件和/或其他邏輯。邏輯可以在一個或更多個有形 介質中編碼且當被計算機執(zhí)行時可以進行操作。某些邏輯,例如,處理 器,可以管理組件的操作。處理器的實施例包括一個或更多個計算機、 一個或更多個微處理器、 一個或更多個應用和/或其他邏輯。存儲器存儲信息。存儲器可以包括一個或更多個有形的、計算機可 讀的和/或計算機可執(zhí)行的存儲介質。存儲器的示例包括計算機存儲器(例 如,隨機存取存儲器(RAM)或只讀存儲器(ROM),)、海量存儲介質 (例如,硬盤)、可移動存儲介質(光盤(CD)或數字視頻光盤(DVD))、數據庫和/或網絡存儲器(例如,服務器)以及/或其他計算機可讀介質??梢詫ο到y10做出修改、添加或刪減而不偏離本發(fā)明的范圍。系統 10的組件可以是集成的或分立的。而且,系統10的操作可以通過更多或 更少或其他組件實施。例如,生成器42和46的操作可以通過一個組件 執(zhí)行,或者相關度計算器34的操作可以通過多于一個的組件執(zhí)行。另外, 系統10的操作可以使用任意合適的邏輯實施,包括軟件、硬件和/或其他 邏輯。當在本文檔中使用時,"各個(each)"表示集合中的各個成員或集 的子集中的各個成員??梢詫仃嚨膶嵤├龀鲂薷摹⑻砑踊騽h減而不偏離本發(fā)明的范圍。 矩陣可以包括更多的、更少的或其他的值。另外,矩陣的值可以以任意 合適的順序布置。圖2示出了可以與圖1的系統10—起使用的相關度模塊30的一種 實施方式。相關度模塊30可以為單詞對計算相關度、在相關度矩陣中記 錄相關度以及/或者報告相關度矩陣。相關度模塊30還產生相關度圖。在所示出的實施方式中,相關度模塊30包括相關度計算器34、本 體生成器38和單詞推薦器48。相關度計算器34為單詞Wi或包括第一單 詞Wi和第二單詞Wj的單詞對計算任意類型的相關度。相關度的實施例包 括基本相關度、有向相關度、平均相關度、差分相關度和/或其他相關度。在一種實施方式中,單詞推薦器48接收種子單詞且識別與該種子單 詞之間的相關度大于閾值相關度的單詞。閾值相關度可以具有任何適當 的值,諸如大于或等于0.25、 0.5、 0.75或0.95。閾值相關度可以被預編 程或由用戶設定。基本相關度可以根據包括單詞Wi和/或Wj的頁面50的數量(例如, 數目)計算。合取頁面數量代表包括單詞Wi和單詞Wj兩者的頁面50的 數量。分取頁面數量代表包括Wi或Wj的頁面50的數量。通過將合取頁 面數量除以分取頁面數量,可以給出基本相關度。在一個實施例中,合 取頁面數表示包括單詞Wi和單詞Wj的頁面數,而分取頁面數表示包括單 詞Wi或Wj的頁面數。通過將合取頁面數除以分取頁面數可以給出基本相 關度-Affinity (wb w》=P(Wj & W》/ P(W; + W》圖3例示了記錄基本相關度的相關度矩陣110的實施例。在所例示 的實施例中,相關度矩陣110記錄單詞w,,...,ws的逐對相關度。根據相 關度矩陣110,單詞Wq與Wi之間的相關度是0.003,單詞wo與W2之間 的相關度是0.005,以此類推。返回參照圖1,相關度組包括彼此具有高相關度的單詞對,并可用 于針對頁面內容而獲得單詞W,和W2之間的關系。較高的相關度可指定 為大于相關度組閾值的相關度。閾值可以設定為任意合適的值,例如大 于或等于0.50、 0.60、 0.75、 0.90或0.95。一個單詞可屬于多于一個的相 關度組。在一種實施方式中,相關度組可表示為BDD。用于該BDD的 指針可與該組的各個單詞一起存儲在反向索引62中。有向相關度可用于測量單詞Wi對于Wj的重要性。相關度計算器34 根據包括單詞Wi和Wj的頁面50的數量(例如,數目)來計算單詞Wi與 給定單詞Wj的有向相關度。單詞Wj頁面數量表示包括單詞Wi的頁面50 的數量。單詞Wi與給定單詞Wj的有向相關度可通過合取頁面數量除以單 詞Wj頁面數量得到。例如,單詞Wj頁面的數量指示包括單詞Wi的頁面50的數量。單詞Wi與給定單詞Wj的有向相關度可通過合取頁面50的數 量除以單詞Wi頁面50的數量得到-DAffinity(Wi, w》=P(Wi & W》/ P(Wi)DA迅nity(Wi, w」)與DAffinity(Wj, Wj)不同。單詞Wj與Wj之間的高有向 相關度DAffinity(Wi, w》指示在頁面50包括單詞Wj的情況下頁面50包括 單詞Wi的概率較高。在一個實施例中,頁面[l 2 3 4 5 6]包括單詞Wi,而 頁面[4 2]包括單詞Wj。包括單詞Wj的頁面也包括單詞Wj,因此從單詞Wj的角度,單詞Wi具有較高的重要性。包括單詞Wi的頁面中僅有三分之 一的頁面也包括單詞Wj,因此從單詞Wi的角度,單詞Wj具有較低的重要性。圖4例示了記錄單詞Wo,…,W5的有向相關度的相關度矩陣120。在 該實施例中,單詞124是A單詞,而單詞128是B單詞。矩陣120的各 行記錄了 B單詞與給定A單詞的相關度,而矩陣120的各列記錄了 A單詞與給定B單詞的相關度。返回參照圖l,針對其它單詞Wj來計算單詞Wi的平均相關度。在一種實施方式中,平均相關度可以是單詞Wi與其它各個單詞Wj之間的相關度的平均。N個單詞中的單詞Wi的平均相關度可由下式給出圖5例示了記錄平均相關度的相關度矩陣140的實施例。行142記 錄單詞1到單詞50,000的基本相關度。行144記錄單詞1到單詞50,000 的平均相關度。返回參照圖1,單詞的平均相關度可指示該單詞的深度(depth)。具 有較低平均相關度的單詞可認為是較深的單詞,而具有較高平均相關度 的單詞可認為是較淺的單詞。較深的單詞傾向于更技術、更具體和更精 確。較深單詞的百分比較高的頁面50可被認為是較深的頁面,而較深單 詞的百分比較低的頁面50可被認為是較淺的頁面。在一種實施方式中, 用戶可指定要提取的單詞和/或頁面50的深度。頁面50的較深的單詞可形成具有高度相關單詞的一個或更多個聚 類(cliister)。聚類可表示共同思想或主題。頁面50的主題的數量可指示 頁面50的特異性。具有較少主題的頁面50可被認為是較特殊的,而具 有較多主題的頁面50可被認為是較不特殊的。單詞Wi相對單詞Wj的差分相關度是單詞Wi與單詞Wj之間的有向相 關度減去單詞Wi相對其它全部單詞的平均相關度。差分相關度可表示為DiffAff(Wi, Wj) = DAffinity(Wi, w》—AveAff(w》差分相關度排除了由單詞Wi在頁面50中出現的一般趨勢而造成的 偏差(bias)。在具體情況下,差分相關度可提供針對給定了頁面包括單 詞Wj情況下該頁面包括單詞Wj的概率的更精確指示。差分相關度可用于多種應用。在一個實施例中,人名之間的差分相 關度可用于研究社會網絡。在另一實施例中,語言元素之間的差分相關 度可用于研究自然語言處理。在另一實施例中,產品之間的差分相關度 可用于研究營銷。相關度計算器34可使用任意合適的技術來搜索反向索引列表,以計算相關度。例如,為了識別包括單詞Wi和單詞Wj這兩者的頁面,相關度計算器34可搜索單詞Wi的列表Wj以及單詞Wj的列表Wj,以獲得公共 元素,即公共頁面標識符。在特定實施方式中,本體生成器38產生語言的本體66,諸如相關 度矩陣或相關度圖。本體可以根據任意合適的相關度產生,諸如根據基 本相關度、有向相關度、平均相關度、差分相關度和/或其他相關度產生。 本體66可以以任意方式根據從語言中選出的單詞產生。例如,可以選擇 來自于語言的普遍使用部分的單詞或涉及一個或更多個特定主題領域的 單詞。在所示出的實施方式中,本體生成器38包括相關度矩陣生成器42 和相關度圖生成器46。相關度矩陣生成器42產生相關度矩陣,該相關度 矩陣記錄單詞之間的相關度。相關度圖生成器46產生相關度圖,該相關 度圖代表單詞之間的相關度。在相關度圖中,節(jié)點代表單詞,節(jié)點之間 的有向邊的權重代表節(jié)點代表的單詞之間的相關度。相關度圖可以具有 任意適當大小的維數。圖6示出了相關度圖150的示例。相關度圖150包括節(jié)點154和鏈 路158。節(jié)點154代表單詞。在該實施例中,節(jié)點154a代表單詞"二進制"。 節(jié)點154之間的節(jié)點有向邊的權重代表節(jié)點154代表的單詞之間的相關 度。例如,較大的權重代表較大的相關度。節(jié)點之間的鏈路158表示節(jié) 點154代表的單詞之間的相關度大于相關度閾值。相關度閾值可以具有 任意合適的值,例如,大于或等于0.25、 0.5、 0.75或0.95。圖7示出了可以與圖1的系統10 —起使用的聚類模塊31的一種實 施方式。在特定實施方式中,聚類模塊31通過識別數據集中的相關元素 的聚類發(fā)現數據集中的圖案。在特定實施方式中,聚類模塊31可以識別 一組單詞(例如,語言或一組頁面50)的聚類。 一般而言,聚類單詞彼 此高度相關,但是不與聚類之外的單詞高度相關。單詞的聚類可以指示 該組單詞的主題(或題目)。在特定實施方式中,聚類模塊31根據單詞之間的相關度識別相關單 詞的聚類。在該實施方式中,聚類的單詞彼此高度相關,但是不與聚類外的單詞高度相關。在一種實施方式中,如果單詞足夠相關,它們可以 被認為高度相關。如果單詞滿足一個或更多個相關度標準(例如閾值), 單詞可以足夠相關,標準的實施例在下面提供。任意合適的相關度都可用于識別聚類。在特定實施方式中,聚類模塊31使用有向相關度。單詞相對其他單詞的有向相關度表征了單詞的共 現。聚類包括具有相似共現的單詞。在特定實施方式中,聚類模塊31使 用差分相關度。差分相關度旨在去除單詞在頁面50中出現的一般趨勢導 致的偏差。在所示出的實施方式中,聚類模塊31包括聚類引擎210和聚類分析 器214。聚類引擎210根據相關度識別單詞的聚類,且聚類分析器214應 用相關度聚類以分析各種情況。聚類引擎210可以以任意合適方式根據相關度識別單詞的聚類。用 于識別聚類的方法的三個實施例為根據一組單詞建立聚類,將單詞分 入聚類,以及比較單詞的相關度向量。在一種實施方式中,聚類引擎210 根據一組單詞建立聚類。在一種實施方式中,聚類引擎210根據具有相 關度tAff(Wi, Wj)的單詞(wJ的集W建立聚類S。相關度值*八汪(^, Wj)代表 單詞Wi相對于Wj的任意合適類型的相關度,諸如有向相關度DAffinity(Wi, Wj)或差分相關度DiffAff (Wi, Wj)。這里提供的相關度值的某些實施例可以 被認為是歸一化值。在該實施例中,Afffor (Wi, Wj)代表前向相關度,且Affbadc (Wj, Wi)代表后向相關度。在該實施例中,聚類S開始于種子單詞Wq。當前單詞Wx代表在當 前迭代中與來自集W的單詞比較的聚類S的單詞。最初,當前單詞WX 被設置為種子單詞Wq。在迭代中,當前單詞Wx被設置為聚類S的單詞。集W的單詞Wi根據它們與當前單詞wx的前向聚類Afff。Xwi, w》分類。從分類集W的起點開始,識別滿足相關度標準的候選單詞We。相關度標準可以包括與當前 單詞Wx的前向相關度標準 Afffor(Wc, wx) > Thcf以及與種子單詞Wq的后向相關度標準Affback(Wq, Wc) 〉 Thcb其中Thef代表候選單詞的前向閾值,Theb代表候選單詞的后向閾值。 候選單詞(WJ的有序集的第一單詞被添加到聚類S,添加的單詞數由參數Size。給出。閾值Thcf和Th。b可以為范圍從最小值到最大值的任何適當值的浮點參數。在特定的實施例中,閾值Thef和Thcb的適當值可以根據實際相關度的等級列表確定。例如,可以使用列表的第200個值。參數Sizec 可以是具有任意合適值的整數參數。合適的值的實施例包括缺省值1、 2、 3或4。在特定實施方式中,參數可以在特定迭代處變化。可以執(zhí)行任意合適數目的迭代。在一個實施例中,可以在方法啟動 之前指定迭代數目。在另一實施例中,可以在方法的執(zhí)行過程中計算次 數。例如,可以根據聚類S的尺寸的生長速度計算次數。在另一實施方式中,聚類引擎210通過將一組單詞中的單詞分類成 聚類來識別聚類。在一個實施例中,集W的單詞(wJ根據相關度^Aff(Wi, Wj)(諸如差分相關度或有向相關度)分類。在另一實施例中,單詞(wj 根據聚集函數分類,例如,根據單詞Wi的與單詞分離集Q中的各個成員 的相關度之和分類。集W可以以任意合適的方式選擇。例如,集W可 以是與查詢最相關的X個單詞,其中X可以是任意合適的值,諸如從IO 至100、 100至200或等于或大于200的值。在該實施例中,聚類最初為空。集W的第一單詞Wi被放置在聚類中。在每次迭代,當前單詞Wx從集W中選擇。如果申Aff(Wx, Wf)滿足相關度閾值Th給出的相關度標準,則當前單詞Wx被放入到聚類,其中Wf 代表聚類中放置的第一單詞。閾值Th可以具有任意合適的值,例如,0.1 至0.5范圍的值(最小值為0.0和最大值為1.0)。如果*八任(\^, w》不滿足 閾值Th,則當前單詞Wx被置于空聚類。針對集W中的每個單詞重復該 迭代。在處理了集W的單詞之后,小聚類可以被消除。例如,可以消除具 有少于Y個單詞的聚類。Y可以具有任意合適的值,諸如3至5、 5至 10、 10至25、 25至50,或大于等于50的范圍中的值。如果聚類的數目不在滿意的范圍內,則可以使用不同的閾值Th重復該處理,該不同的閾值Th給出了針對在聚類中進行放置的較嚴格或較寬 松的標準。滿意的范圍可以由具有任意合適值的聚類數目最小值和聚類 數目最大值給出。合適值的實施例包括針對最小值的1至5、 5至10或 大于或等于10范圍的值,以及針對最大值的10至15、 15至20或大于 或等于20的范圍中的值。可以增加閾值Th的值以增加聚類的數目,且 可以減小閾值Th的值以減小聚類數目。在另一實施方式中,聚類引擎210通過比較單詞的聚類向量識別聚類。在特定實施方式中,相關度矩陣的行和列可以得出聚類向量<formula>formula see original document page 19</formula>,這代表單詞Wi相對于單詞 Wj的相關度,j = 1, n。相關度值*八£《;^, Wj)代表單詞Wi相對于單詞 Wj的任意合適類型的相關度,例如,有向相關度或差分相關度。在特定實施方式中,具有相似相關度值的相關度向量可以表示聚類。 僅用于描述目的,相關度向量可以被認為是相關度空間中單詞的相關度 的坐標。艮卩,每個相關度值tAff(Wi,Wj)可以被認為是特定維數的坐標。具 有相似相關度值的相關度向量表示這些向量與之相關的單詞在相關度空 間彼此靠近。即,這些向量表示這些單詞與其他單詞具有類似相關度關 系,且因而可以適用于相同聚類中的成員關系。如由合適的距離函數所確定的,如果一個相關度向量接近另一相關 度向量,則這些相關度向量相似。距離函數可以基于相關度向量定義為 例如針對給定尺寸的向量的標準歐幾里得距離,或者給定尺寸的向量的 余弦。距離函數可以通過聚類引擎210或通過用戶指定。在特定實施方式中,聚類引擎210應用聚類算法以識別值彼此接近 的相關度向量。聚類算法的示例包括直接算法、重復二等分算法、聚合 算法、偏差聚合算法和/或其它適當算法。在一個實施例中,聚類引擎210 可以包括聚類軟件,諸如CLUTO。聚類分析器214可以在任意合適的應用中使用相關度聚類以用于分 析。在一種實施方式中,聚類分析器214可以使用相關度聚類對頁面50 進行分類。類可以與聚類標識符或一個或更多個聚類成員相關。在一個 實施例中,頁面50的聚類被識別,然后可以根據聚類對頁面50進行分類。在另一實施例中,可以選擇頁面50的重要單詞,然后定位包括該單 詞的聚類。然后根據定位的聚類對頁面50進行分類。在一種實施方式中,聚類分析器214可以使用相關度聚類來分析頁 面50的文集。文集可以與特定主題、 一個或更多個個體的社團、組織或 它們的實體相關。在一個實施例中,聚類分析器214可以識別文集的聚 類且根據聚類確定文集的文集特性。文集特性可以表示與實體(所述實 體與文集相關)相關的單詞。如果一個或更多的頁面50具有文集特征的 聚類,則頁面50可以與該實體相關。在一種實施方式中,針對搜索查詢歧義消除和擴展,聚類分析器214 可以使用相關度聚類。在該實施方式中,聚類分析器214識別包括給定 搜索査詢的搜索詞條的聚類。聚類提供與給定搜索査詢相關的另選單詞 和/或分類。在一個實施例中,來自于聚類的單詞可以被報告給搜索者以 幫助下一次搜索查詢。在另一實施例中,聚類分析器214可以從聚類選 擇單詞且自動地形成一個或更多個新的搜索查詢。聚類分析器214可以 順序地或并行地運行新的査詢。在一種實施方式中,聚類分析器214可以使用相關度聚類來研究社 會網絡。在一個實施例中,頁面50可以提供對社會網絡的了解。這種頁 面的實施例包括信件(諸如信、電子郵件和即時消息)、備忘錄、文章和 會議記錄。這些頁面50可以包括包含社會網絡的中的人的用戶標識符(諸 如名字)的單詞??梢宰R別名字的聚類以分析該網絡中的人之間的關系。 在一個實施例中,差分相關度聚類可用于過濾頁面50中的出現最多的名 字,而不提供諸如系統管理員的名字之類的信息。在特定實施方式中,聚類分析器214可以通過組合和/或比較數據集 的聚類來分析數據集。在一種實施方式中,比較交疊數據集的聚類。一 個數據集的聚類可以映射到其他數據集的聚類,這可以提供兩個數據集 之間的關系的洞察。例如,數據集可以來自于對一組同事的文檔的分析 且來自于該組的社會網絡研究。社會網絡聚類可以映射到文檔主題聚類 以分析該社會網絡與該主題之間的關系。圖8示出了本體特征模塊32的一種實施方式。本體特征模塊32可以確定一組一個或更多個單詞(例如,特定單詞或包括單詞的文檔)的 一個或更多的本體特征,且然后可以在任意各種情況下應用本體特征。 一個或更多單詞的集合可以包括文檔的關鍵詞條。如果與詞條t相關的前 k個詞條中的至少一個也出現在文檔中,則詞條t可以是關鍵詞條。否則, 詞條對于文檔可能是不關鍵的。本體特征是一種量化指標,其在語義學方面沿著可以區(qū)分文檔的一 個或更多個特征軸,將文檔從給定領域的其他文檔中區(qū)別開來。例如, 文檔的深度可以在可理解性方面對文檔進行區(qū)分,文檔的特異性可以在 其側重點方面對文檔進行區(qū)分,且文檔的主題可以在文檔考慮的主題范 圍方面對文檔進行區(qū)分。本體特征可以以任意合適的方式定義。例如, 計算機語言學中的獨立的算法可用于表征文檔的可讀性或深度。在所示出的實施方式中,本體特征模塊32包括深度引擎230、主題 引擎240、特異性引擎244和本體特征(OF)應用引擎250。深度引擎 230可以確定一個或更多個單詞(例如特定單詞或包括單詞的文檔)的深 度。 一般而言,深度可以指示單詞的原文復雜度。較深的單詞可以較技 術和專業(yè),而較淺的單詞可以較常見。在特定實施方式中,深度模塊32 可以計算文檔的單詞的深度且然后根據單詞的深度計算文檔的深度。在 特定實施方式中,深度引擎230可以為文檔和/或單詞指定深度值和/或深 度等級。可以向較深的文檔或單詞指派較高的深度值或等級,且可以向 較淺的文檔或單詞指派較淺的深度值或等級。深度引擎230可以以任意合適的方式計算單詞深度。在特定實施方 式中,深度引擎230根據平均相關度計算單詞深度。在實施方式中,單 詞的深度是單詞的平均相關度的函數。較深的單詞可以具有較低的平均 相關度,而較淺的單詞可以具有較高的平均相關度。在特定實施例中, 深度引擎230可以通過根據它們的平均相關度排列單詞而計算單詞的深 度。具有較低平均相關度的單詞可以被給予較高的深度等級,且具有較 高平均相關度的單詞可以被給予較低的深度等級。在特定實施方式中,深度引擎230可以使用聚類分析計算單詞深度。 在實施方式中,聚類的單詞彼此高度相關,但是與聚類外的單詞較少相關??梢愿鶕嚓P度測量聚類空間中的距離,所述相關度可以是深度的 指示器。在特定實施方式中,屬于較少聚類的單詞或屬于較小和/或遠離 其他聚類的聚類的單詞可以被認為較深,且屬于較多聚類或屬于較大和/ 或與其他聚類靠近的聚類的單詞可以被認為較淺。在其他特定實施方式中,深度引擎230可以通過對相關度圖150應 用鏈路分析計算單詞深度??梢酝ㄟ^任意合適的鏈路分析算法(例如 PAGERANK)執(zhí)行所述鏈路分析。僅用于說明目的,圖6的相關度圖150 可用于計算單詞深度。相關度圖150包括節(jié)點154和鏈路158。節(jié)點154 代表單詞。節(jié)點154之間的鏈路158指示節(jié)點154代表的單詞之間的相 關度大于相關度閾值,即,該單詞令人滿意地相關。在特定實施方式中,深度引擎230計算節(jié)點154的普遍性 (popularity)。較普遍的節(jié)點154可以代表較淺的單詞,而較不普遍的節(jié) 點154可以代表較深的單詞。第一節(jié)點154到第二節(jié)點154之間的鏈路 136被認為是第一節(jié)點154對第二節(jié)點154的普遍性選票。另外,來自較 普遍節(jié)點154的選票可以比來自較不普遍的節(jié)點154具有更大的權重。 而且,第一節(jié)點154與第二節(jié)點154的相關度加權了該選票。深度引擎 230根據對節(jié)點154的加權選票計算節(jié)點154的普遍性。較不普遍的單詞 可以被認為較深,且較普遍的單詞被認為較淺。深度引擎230可以以任意合適的方式計算文檔深度。在特定實施方 式中,深度引擎230根據文檔的至少一個、某些或全部單詞的深度計算 文檔的深度。在特定實施方式中,單詞深度通過平均相關度給定,使得 文檔深度可以根據文檔的單詞的平均相關度計算。例如,文檔的淺度可 以是文檔的單詞的平均相關度平均,即,文檔的各單詞的平均相關度的 總和除以文檔中的單詞的總數。文檔的深度然后計算為文檔的淺度的倒 數。在特定實施方式中,可以根據文檔的一組選定的單詞的平均深度計 算深度。所選的組可以包括文檔的關鍵性的單詞,諸如最高(最深)的 XO/^的單詞,其中X可以小于IO、 10至20、 20至30、 30至40、 40至 50、 50至60、 60至70或大于10。所選的組可以排除P。/。的標準語法單詞和/或QX的停頓詞(stop word),其中P和Q具有任意合適的值,諸 如小于10, 10至20、 20至30、 30至40、 40至50、 50至60、 60至70 或大于10。在特定實施方式中,深度引擎230根據文檔中單詞深度的分布計算 文檔的深度。在特定實施方式中,較深的文檔可以具有較高百分比的較 深單詞。參照圖9更詳細地描述單詞深度的分布的實施例。圖9是示出了單詞深度的分布的實施例的圖240。圖240示出了具 有特定單詞深度的文檔的單詞的百分比。在特定實施方式中,深度引擎230可以丟棄超過最大閾值Thmax的單詞深度的單詞。在特定實施方式中,深度引擎230可以根據具有這樣的單詞深度的單詞計算文檔深度,即該單詞深度處于大于處理閾值ThpM且低于最大閾值Thmax (如果存在)的處理范圍內。百分比XX代表不處理的單詞的百分比,且百分比Y。/。代表 處理的單詞的百分比。百分比YX可以具有任意合適的值,諸如2%至 5%、 5%至10%、或10%、或更大的范圍的值。在某些實施方式中,深 度引擎230可以根據所選的單詞計算文檔深度。例如,深度引擎230可 以選擇語言中的頻率范圍內的單詞,諸如最前的Z個單詞,其中Z可以 是10,000至50,000、或大于或等于50,000的范圍中的值。返回圖8,在特定實施方式中,深度引擎230根據文檔相關度計算 文檔深度。文檔之間的相關度描述了文檔之間的關系。在特定實施方式 中,平均文檔相關度可以以類似于平均單詞相關度怎樣指示單詞深度的 方式,指示文檔深度。文檔相關度可以以任意合適的方式定義。在一個 實施例中,公共單詞數P(D, & D2)表示文檔D,和D2中都存在的單詞的數 目,而分立單詞數P(D! + D2)表示存在于文檔D!或D2中的單詞的數目。 文檔Di和D2之間的文檔相關度DocAff可以定義為DocAff (Db D2) = P(Dt & D2) / P(Di + D2)深度引擎230可以以類似于計算平均單詞相關度的方式計算平均文 檔相關度。具有較低平均相關度的文檔可以被認為是較深的,且具有較 高平均相關度的文檔可以認為是較淺的。在特定實施方式中,深度引擎230可以通過向文檔相關度圖應用鏈路分析計算文檔深度。文檔相關度圖可以類似于相關度圖150,只不過文 檔相關度圖的節(jié)點代表文檔而不是單詞。深度引擎230使用第二文檔相 對于給定的第一文檔的文檔相關度來加權從代表第一文檔的節(jié)點到代表 第二文檔的第二節(jié)點的鏈路。然后可以歸一化外向鏈路的權重。在特定實施方式中,深度圖可以在用戶界面上顯示以顯示文檔的深 度。用于選擇深度級別的深度滑動器也可以被顯示。在某些實施方式中, 如果文檔包括較大文檔的部分,則深度圖可以指示這些部分的深度。在某些實施方式中,深度引擎230可以以任意其他合適的方式計算 文檔深度,例如處理文檔的相關度直方圖和/或基于深度而截取不同單詞 的百分比然后處理直方圖。其他方法包括Gunning-Fog、 Flesch或Fry方 法。在特定實施方式中,深度引擎230可以通過映射深度值到特定深度 級別來校準深度。在某些實施方式中,范圍Ri中的深度值可以被映射到 級別Lj。例如,可以將Ro = {ro: " < c^映射到級別U,將R, = {r1: C() < n〈C^映射到級別Lb…,,且將R。-(^Cn〈1^映射到級別Ln。這些范圍可以包括任意合適的深度值且不需要是相同的尺寸??梢源嬖谌我夂线m 的級別數,諸如小于5、 5到7、 7或8、 8到10、 10到20、 20至50、 50 至100或大于100。主題引擎240可以確定文檔的主題(或題目)。在特定實施方式中, 主題引擎240根據文檔的單詞的聚類確定主題,該聚類可以通過聚類模 塊31識別。如上所述,單詞的聚類可以指出單詞集的主題(或題目)。 文檔的主題可以提供關于文檔的內容的有用信息。例如,例如,包括聚 類{腎臟、腎、蛋白質、問題}的文檔可能與由于腎功能虛弱導致的蛋白 質從腎的流失有關而不是與腎臟(kidneybean)的蛋白質含量有關。在特定實施方式中,主題引擎240根據主題圖確定主題。在這些實 施方式中,使用任意合適的技術從文檔提取關鍵詞,這些技術例如,詞 頻率-逆向文檔頻率(TF-IDF)技術。關鍵詞用于根據主題圖選擇候選主 題。候選主題與文檔相比較以確定主題與文檔的匹配程度。在特定實施 例中,候選主題的直方圖可以與文檔的直方圖比較。如果候選主題與文檔匹配,則主題可以提供文檔的類型和主題的數目的評估。特異性引擎240可以計算文檔的特異性。在特定實施方式中,特異 性引擎240可以為文檔指派特異性值和/或特異性等級。較特殊的文檔可 以被指派較高的特異性值或等級,且較不特殊的文檔可以指派較低的特 異性值或等級。在特定實施方式中,特異性引擎240根據文檔的主題數計算特異性。 在特定實施例中,較特殊的文檔可以具有較少的主題,且較不特殊的文 檔可以具有較多的主題。在特定實施方式中,特異性引擎240根據文檔的主題數以及這些主題之間的相關度計算特異性。在特定實施例中,較 特殊的文檔可以具有較少的主題,主題之間具有較高的相關度,且較不 特殊的文檔可以具有較多的主題,主題之間具有較低的相關度。在特定實施方式中,主題數可以取決于深度(或級別)。例如,較淺 深度的單個主題可以代表較深深度的多個主題。在特定實施方式中,用 戶可以使用深度滑動器選擇級別或可以預先確定級別。在特定實施方式 中,級別可以被用戶選擇或者預定義。例如,可以定義任意合適數目的 級別,且可以根據級別計算深度。例如,級別可以是基于領域(例如, 工程、醫(yī)學、新聞、體育或金融領域)、基于專業(yè)(例如,低血壓、膽固 醇、心病學、眼科學或腎臟專業(yè))、基于課題(例如,體位性低血壓、搭 橋手術或動脈阻斷題目)、基于細節(jié)(例如,體位性低血壓、慢性低血壓 或急性低血壓細節(jié))、基于消退(resolution)(例如,老年病因、藥學、 或遺傳消退)、基于個人的(例如,用戶查詢級別)。本體特征應用引擎250可以應用本體特征(諸如深度、主題或特異 性)從而在任意合適的情況下執(zhí)行本體特征分析。合適的情況的示例包 括根據本體特征搜索、分類、推薦或選擇文檔;報告文檔的本體特征; 且確定一個或更多個用戶的文檔(或文集)的本體特征。在具體實施方 式中,本體特征應用引擎250可以使用包括關于本體特征的信息的索引。 在一個實施例中,本體特征應用引擎250使用根據深度等級產生和/或維 持的文檔深度(DD)反向索引62。 DD反向索引62包括DD反向索引列 表,其中用于單詞的DD反向索引列表列出了包括該單詞的文檔(或頁面50)的文檔標識符。文檔的文檔標識符可以表示文檔的深度。例如, 用于編碼文檔標識符的二進制編碼可以表示深度。在某些情況下,DD反 向索引列表可以僅列出滿意深度的文檔。在另一實施例中,除了反向索 引62之外,本體特征應用引擎250還使用等級表和深度表。深度表可以 表示文檔的深度。在特定實施方式中,本體特征應用引擎250使用本體特征的特定值 (諸如文檔深度或特異性的指定值)搜索文檔。特定值可以被預定義、 計算或由用戶選擇。在特定實施方式中,該值可以使用深度滑動器和/或 特異性滑動器選擇。在特定實施方式中,本體特征應用引擎250可以使用本體特征作為 分類標準以分類文檔。例如,本體特征應用引擎250可以根據文檔深度 和/或相對于主題的特異性以及其他分類標準分類文檔。在某些實施例中, 本體特征應用引擎250搜索DD反向索引62以獲得根據文檔深度分類的 文檔。在某些實施例中,本體特征應用引擎250使用非DD反向索引62 搜索文檔且然后根據深度分類文檔。在特定實施方式中,本體特征應用引擎250可以向客戶端20圖形地 顯示本體特征的值。圖形顯示可以提供某些或全部的文檔,例如,搜索 結果的前XQ/。的文檔。本體特征可以以任意合適的方式呈現。在某些實施 例中,諸如數字、單詞、或圖標之類的圖形指示符可以指示值。圖形指 示符例如可以靠近搜索結果列表中的項、在線新聞的標題或文檔圖標放 置。在某些實施例中,現有的圖標(iconogmph)的變更可以表示值。例 如,圖形指示符或文本的大小、字體、類型、顏色可以指示值。在另一 實施例中,圖表可以指示值。本體特征直方圖可以包括文檔數量軸和本 體特征軸,且可以指示特定本體特征值的文檔數量。例如,包括文檔數 量軸和文檔深度軸的文檔深度直方圖可以指示特定文檔深度的文檔數在特定實施方式中,文檔特征應用引擎250可以允許用戶請求搜索 具有特定本體特征值的文檔。可以允許用戶指定用于査詢的不同單詞的 值。在特定實施例中,本體特征應用引擎250可以為用戶提供選項以選擇深度,用戶然后可以輸入所選的深度。這些選項可以以任意合適的方 式呈現,諸如以(i)絕對詞條(例如,代表深度的數值或數值范圍);(ii)相對詞條(例如,搜索結果相對于深度的比例,諸如,"最深的X %,,); (iii)語義學詞條(例如,'介紹性的'、'淺'、'深,、'很深'和域'高 度專業(yè),);(iv)圖形詞條(例如,滑動器、按鈕和/或其他圖形元素)或 (V)詞條的任意合適的組合(例如具有語義學標簽的滑動器)。在某些 情況下,滑動器可以包括淺端和深端。用戶可以移動滑動器朝向一端或 另一端以指示所選的深度。當提供搜索結果時,文檔深度直方圖可以通 過滑動器呈現,且可以使用滑動器作為文檔深度軸。在特定實施方式中,本體特征應用引擎250可以計算一組一個或更 多個用戶的本體特征特性。本體特征特性可以包括用戶深度和主題語境 中的用戶特異性。本體特征特性描述了與用戶設置相關的文檔的本體特 征。例如,科學家比三年級學生使用更深的文檔。可以相對于一個或更 多的主題給出本體特征特性。例如,遺傳學家在遺傳性領域可以比他在 詩歌領域使用更深的文檔。本體特征特性可用于確定用戶的專業(yè)技術、 自動為用戶建立簡歷,且分析用戶社會網絡。可以分析與用戶相關的任意合適的文檔以評估本體特征特性,例如, 信件(諸如電子郵件和即時通訊)、網頁和搜索歷史(諸如搜索査詢和選 擇的頁面)。在具體實施方式
中,本體特征應用引擎250可以隨時間跟蹤 本體特征特性,且可以使用過去的特性來預測未來的特性。在特定實施 例中,本體特征應用引擎250可以假設用戶深度和/或特異性一般隨時間 和/或在區(qū)域中的活動增加。在特定實施方式中,本體特征應用引擎250可以組合某些操作。例 如本體特征應用引擎250可以監(jiān)控用戶的深度且然后根據用戶深度搜索 文檔。在一個實施例中,監(jiān)控用戶深度,且根據該深度,向用戶提供新 聞。未來的用戶深度被預測,且適合該預測出的深度的新聞被提供。本發(fā)明的某些實施方式可以提供一個或更多的技術優(yōu)點。 一種實施 方式的技術優(yōu)點可以是可以根據文檔的主題數確定文檔的特異性。如果 文檔具有較少數目的主題,則該文檔可能更加特殊。如果文檔具有較高數目的主題數,則該文檔可能較不特殊。 一種實施方式的另一技術優(yōu)點 可以是能執(zhí)行特異性分析。特異性分析的實施例包括獲取滿足要求的文 檔特異性的文檔,幫助顯示指示該文檔特異性的圖形元素以及根據用戶 文檔確定用戶特異性。本發(fā)明的特定實施方式可能不包括上述技術特點, 包括上述技術特點的某些或者全部。根據此處包括的附圖、說明和權利 要求,對于本領域技術人員而言, 一個或更多的技術特點是顯而易見的。 盡管已經根據某些實施方式描述了本公開,但這些實施方式的變型 和改變對于本領域技術人員而言是顯見的。因此,實施方式的上述描述 并不限制本公開。在不偏離所附權利要求限定的本發(fā)明的精神和范圍的
情況下,可以做出其他變型、替代和變更。 相關申請
本申請要求由DavidMarvit等于2007年10月5日提交的題目為"文 檔主題及特異性的確定及應用"的美國臨時申請序列號No. 60/977,781的 優(yōu)先權。
權利要求
1.一種方法,所述方法包括以下步驟訪問一個或更多個有形介質中存儲的記錄,該記錄記錄了多個文檔的多個聚類,文檔包括多個單詞,聚類包括所述多個單詞中的多個滿意地相關的單詞,聚類指示主題;確定所述多個文檔的至少一個子集中的各個文檔的主題數;以及通過下面的步驟根據所述主題數確定所述各個文檔的特異性如果該個文檔具有較少主題數,則確定該個文檔較特殊;以及如果該個文檔具有較多主題數,則確定該個文檔較不特殊。
2. 根據權利要求1所述的方法,所述確定所述多個文檔的至少一個 子集中的各個文檔的主題數還包括以下步驟確定所述各個文檔的聚類數;以及 根據所述聚類數計算所述各個文檔的所述主題數。
3. 根據權利要求1所述的方法,所述確定所述多個文檔的至少一個 子集中的各個文檔的主題數還包括以下步驟識別針對要確定主題數的深度;以及 針對識別出的深度確定主題數。
4. 根據權利要求1所述的方法,所述確定所述多個文檔的至少一個 子集中的各個文檔的主題數還包括以下步驟從所述各個文檔中選擇多個關鍵詞;識別與所述關鍵詞相關的一個或更多個候選主題;以及 如果所述一個或更多個候選主題與所述文檔相匹配,則確定所述一 個或更多個候選主題為所述文檔的主題。
5. 根據權利要求1所述的方法,所述方法還包括通過以下步驟執(zhí)行 特異性分析-接收包括文檔特異性請求的搜索查詢;以及獲取所述多個文檔中滿足所述搜索查詢和所述文檔特異性請求的一 個或更多個文檔。
6. 根據權利要求1所述的方法,所述方法還包括通過以下步驟執(zhí)行特異性分析對所述多個文檔中的各個文檔的特異性進行圖形顯示,所述圖形顯 示包括從圖形指示符、圖形變更和圖表組成的集合中選出的元素。
7. 根據權利要求1所述的方法,所述方法還包括通過以下步驟執(zhí)行 特異性分析接收搜索查詢;獲取滿足所述搜索查詢的文檔集;以及 根據所述文檔集的所述文檔的特異性來分類所述文檔集。
8. 根據權利要求1所述的方法-所述多個文檔與一個或更多個用戶相關;以及 根據所述主題數確定所述各個文檔的特異性還包括根據所述多個文檔確定所述一個或更多個用戶的用戶特異性。
9. 根據權利要求1所述的方法 所述多個文檔與一個或更多個用戶相關;根據所述主題數確定所述各個文檔的特異性還包括根據所述多個文 檔確定所述一個或更多個用戶的用戶特異性;以及還包括根據所述用戶特異性為所述一個或更多個用戶選擇一個或更 多個文檔。
10. 根據權利要求1所述的方法 所述多個文檔與一個或更多個用戶相關;根據所述主題數確定所述各個文檔的特異性還包括根據所述多個文 檔確定所述一個或更多個用戶的用戶特異性;以及還包括監(jiān)控所述一個或更多個用戶的用戶特異性。
11. 根據權利要求1所述的方法 所述多個文檔與文集相關;根據所述主題數確定所述各個文檔的特異性還包括根據所述多個文 檔確定所述文集的文集特異性。
12. —個或更多個編碼有軟件的計算機可讀有形介質,當所述軟件執(zhí)行時可操作用以訪問一個或更多個有形介質中存儲的記錄,該記錄記錄了多個文檔 的多個聚類,文檔包括多個單詞,聚類包括所述多個單詞中的多個滿意 地相關的單詞,聚類指示主題;確定所述多個文檔的至少一個子集中的各個文檔的主題數;以及 通過下面的步驟根據所述主題數確定所述各個文檔的特異性如果該個文檔具有較少主題數,則確定該個文檔較特fe;以及 如果該個文檔具有較多主題數,則確定該個文檔較不特殊。
13. 根據權利要求12所述的計算機可讀有形介質,進一步可操作以 通過以下步驟確定所述多個文檔的至少一個所述子集的各個文檔的主題 數確定所述各個文檔的聚類數;以及 根據所述聚類數計算所述各個文檔的所述主題數。
14. 根據權利要求12所述的計算機可讀有形介質,進一步可操作以 通過以下步驟確定所述多個文檔的至少一個子集的各個文檔的主題數識別針對要確定主題數的深度;以及 根據識別出的深度確定所述主題數。
15. 根據權利要求12所述的計算機可讀有形介質,進一步可操作以 通過以下步驟確定所述多個文檔的至少一個子集中的各個文檔的主題數從各個文檔選擇多個關鍵詞;識別與所述關鍵詞相關的一個或更多個候選主題;以及 如果所述一個或更多個候選主題與所述文檔相匹配,則確定所述一 個或更多個候選主題為所述文檔的主題。
16. 根據權利要求12所述的計算機可讀有形介質,進一步可操作以 通過以下步驟執(zhí)行特異性分析接收包括文檔特異性請求的搜索查詢;以及獲取多個文檔中的滿足所述搜索查詢和所述文檔特異性請求的一個 或更多個文檔。
17. 根據權利要求12所述的計算機可讀有形介質,進一步可操作以通過以下步驟執(zhí)行特異性分析-對所述多個文檔中的每個文檔的特異性進行圖形顯示,所述圖形顯 示包括從圖形指示符、圖形變更和圖表組成的集合中選出的元素。
18. 根據權利要求12所述的計算機可讀有形介質,進一步可操作以通過以下步驟執(zhí)行特異性分析 接收搜索查詢;獲取滿足所述搜索查詢的文檔集;以及 根據所述文檔集中的文檔的特異性來分類所述文檔集。
19. 根據權利要求1所述的方法-所述多個文檔與一個或更多個用戶相關;以及 所述計算機可讀有形介質進一步可操作,通過從所述多個文檔確定所述一個或更多個用戶的用戶特異性,根據所述主題數確定所述各個文 檔的特異性。
20. 根據權利要求1所述的方法 所述多個文檔與一個或更多個用戶相關; 所述計算機可讀有形介質進一步可操作以通過根據所述多個文檔確定所述一個或更多個用戶的用戶特異性, 依據所述主題數確定所述各個文檔的特異性;以及根據所述用戶特異性為所述一個或更多個用戶選擇一個或更多個文檔。
21. 根據權利要求1所述的方法 所述多個文檔與一個或更多個用戶相關;所述計算機可讀有形介質進一步操作以通過從所述多個文檔確定所述一個或更多個用戶的用戶特異性,根據所述主題數確定所述各個文檔的特異性;以及 監(jiān)控所述一個或更多個用戶的用戶特異性。
22. 根據權利要求1所述的方法-所述多個文檔與文集相關; 所述計算機可讀有形介質進一步操作以通過從所述多個文檔確定所述文集的文集特異性,根據所述主題數 確定所述各個文檔的特異性。
全文摘要
本發(fā)明涉及確定文檔特異性。在一種實施方式中,確定文檔特異性包括訪問記錄文檔聚類的記錄。根據文檔的聚類數確定文檔的主題數。根據主題數確定文檔的特異性。
文檔編號G06F17/30GK101404016SQ200810166178
公開日2009年4月8日 申請日期2008年10月6日 優(yōu)先權日2007年10月5日
發(fā)明者大衛(wèi)·馬爾維特, 斯特吉奧斯·斯特吉奧, 賈瓦哈拉·賈殷 申請人:富士通株式會社