專利名稱:用于確定文檔的含義以使文檔與內容匹配的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明一般地涉及文檔。更具體地,本發(fā)明涉及用于確定文檔 的含義以4吏文檔(document)與內容(content)相匹配的系纟克禾口方法。
背景技術:
例3口,文檔(例3o網頁)可以與互聯(lián)網上的其它內容相匹配。 文檔包4舌,例如,i者如HTML、 XML、 XHTML的各種格式的網頁; 可移植文檔才各式(PDF)文件;以及文字處理器和應用程序文檔文件。
使文檔與內容相匹配的一個實例是在互聯(lián)網廣告中。例如,網 站的發(fā)行人可以允許在其網頁上發(fā)布廣告以收費。當發(fā)4亍人希望在 網頁上向用戶顯示廣告時,服務商能夠向發(fā)行人沖是供在網頁上顯示 的廣告。月l務商可以依據(jù)諸如關于用戶的人口統(tǒng)計信息、網頁類別 (例如,體育或是娛樂)、或網頁內容的多種因素來選擇廣告。月良 務商也可以使網頁內容與諸如來自關鍵字列表的關鍵字的知識條 目(knowledge item)相匹配。之后可以在網頁上顯示與匹配的關4建字相關聯(lián)的廣告。用戶可以操作鼠標或另外的輸入設備并"點擊,,廣
告,以^L看^是供^寺售商品或月良務的廣告商網站上的網頁。
在互聯(lián)網廣告的另 一 實例中,在發(fā)行人網頁上在相關鏈接或類 似部分(section)中顯示實際的匹配關鍵字。與上述實例類似,網 頁的內容與一個或多個關4建字相匹配,之后該關4建字凈皮顯示在例如 相關鏈接部分中。當用戶點擊特定的關鍵字時,可以將用戶引導至 可能包括廣告和常規(guī)搜索結果的混合的搜索結果頁面。廣告商投標 關鍵字,以使他們的廣告出現(xiàn)在這樣的該關鍵字搜索結果頁面上。 用戶可以才喿作鼠標或另外的輸入設備并"點擊"廣告,以觀看才是供 ;降售商品和月良務的廣告商網站上的網頁。
廣告商希望網頁的內容與廣告密切相關,因為如果該廣告與用 戶在網頁上所閱讀的內容高度相關,則閱讀該網頁的用戶更有可能 點擊該廣告并購買所提供的商品或服務。網頁的發(fā)行人也希望廣告 的內容與網頁的內容相匹配,因為如果用戶點擊了廣告,發(fā)行人通 常會獲得才艮酬;而就每文感內容而言,不匹配是廣告商或是發(fā)行人都 不希望的。
文檔(例如網頁)可以包括多個區(qū),諸如,就網頁而言的框架 (frame)。 一些區(qū)可以與文檔的主要內容不相關。因此,不相關區(qū)
的內容可能用不相關的主題淡化整個文檔的內容。因此,為了使文 檔與內容相匹配,在確定源文檔的含義時,需要分片斤最相關區(qū)的源
文檔。
發(fā)明內容
本發(fā)明的實施例包括確定文檔的含義以使文檔與內容相匹配 的系統(tǒng)和方法。本發(fā)明實施例的一個方面包括訪問源文章(source article,源物、源文件);識別源文章中的多個區(qū);確定與每個區(qū)相
7關耳關的至少一個局部和X念(local concept);分析每個區(qū)的局部相無念, 以識別任何不相關區(qū);刪除與不相關區(qū)相關聯(lián)的局部概念,以確定 相關概念;分析相關概念,以確定源文章的源含義;以及使源含義 和與來自一組條目的條目相關耳關的條目含義相匹配。該條目可以本 身是內容,或可以與內容相關聯(lián)。在一個實施例中,本發(fā)明進一步 包括在源文章上顯示匹配的條目。在另一實施例中,本發(fā)明進一步 包括在源文章上顯示與該條目相關聯(lián)的內容。本發(fā)明的其它方面是 指具有與前述的方面相關的特征的計算才幾系統(tǒng)和計算才幾可讀介質。
參照附圖閱讀以下具體實施方式
,可以更好地理解本發(fā)明的這 些和其它特4正、方面、以及伊0點,附圖中
圖l示出了根據(jù)本發(fā)明的一個實施例的系統(tǒng)的框圖2示出了才艮據(jù)本發(fā)明的一個實施例的方法的流程圖;以及
圖3示出了圖2所示的方法的子程序的流程圖。
具體實施例方式
本發(fā)明包括用于確定文檔的含義以-使文檔與內容相匹配的方 法和系統(tǒng)。下面將詳細參照文中和附圖中所示的本發(fā)明的典型實施 例。將在所有附圖和以下i兌明中4吏用相同的附圖標號表示相同或類 似的部分。
可以根據(jù)本發(fā)明構建各種系統(tǒng)。圖l是示出了本發(fā)明的典型實 施例可以在其中操作的典型系統(tǒng)的示意圖。本發(fā)明還可以操作其它
系統(tǒng)并在其它系統(tǒng)中實^L。圖1中示出的系統(tǒng)100包括多客戶機裝置102a-n,服務器裝置 104、 140和網絡106。示出的網絡106包括互耳關網。在其他的實施 例中,可以使用其他的網絡,例如內聯(lián)網。而且,根據(jù)本發(fā)明的方 法可在單個計算機上運行。示出的客戶機裝置102a-n每個均包括計 算機可讀介質,例如在示出的實施例中被耦合到處理器110的隨機 存儲器(RAM) 108。處理器IIO執(zhí)行存儲在存儲器108中的計算 機可執(zhí)行的程序指令集。這種處理器可包括樣i處理器、ASIC、和狀 態(tài)機。這種處理器包括或可以與介質(例如計算機可讀介質)進行 通信,該介質存儲指令,當指令被計算機執(zhí)行時,使處理器執(zhí)行本 文所描述的步驟。計算機可讀介質的實施例包括,但是不限于此, 電子的、光的、磁的、或其他存儲器或能夠將計算機可讀指令提供 給處理器(例如與觸摸敏感的輸入裝置聯(lián)系的處理器)的傳輸裝置。 其他合適的介質包括,但是不限于此,軟盤,CD-ROM,》茲盤,存 儲器片,ROM, RAM, ASIC,配置的處理器(configured processor ), 所有光介質,所有^茲帶、或其他^茲介質,或計算一幾處理器能從其讀 耳又指令的任何其他的介質。并且,各種其他形式的計算才幾可讀介質 可傳輸或運送指令到計算機,包括路由器,專用或公共網絡,或其 他傳輸裝置或通道,既有有線的又有無線的。這些指令可包括由任 《可計算才幾編考呈i吾言(例如,包4舌C、 C++、 C#、 Visual Basic、 Java、 和JavaScript)編寫的4氣碼。
客戶才幾裝置102a-n也可以包括許多外部或內部裝置,例如鼠 標、CD-ROM、鍵盤、顯示器、或其他輸入或輸出裝置。客戶機裝 置102a-n的實例是個人計算機、數(shù)字助理、個人數(shù)字助理、便攜式 電話、移動電話、智能電話、尋呼機、數(shù)字化板、便攜式計算機、 基于處理器的裝置、和類似類型的系統(tǒng)和裝置。 一般而言,客戶機 裝置102a-n可以是任何類型的連接到網絡106的基于處理器的平 臺,并且其和一個或多個應用程序交互。示出的客戶機裝置102a-n 包括執(zhí)行瀏覽器應用程序(例如,微軟公司6.0版本的InternetExplorerTM,網景通ifU^司的7.1版本的Netscape NavigatorTM,以及 蘋果公司1.0版本的Safari )的個人計算機。通過客戶機裝置 102a-n,用戶112a-n能夠通過網絡106 ;f皮此通信以及與耦合到網絡 106的其j也系統(tǒng)和裝置ii/f言。
如圖l所示,月良務器裝置104、 140也^皮耦合到網絡106。示出 的文檔服務器裝置104包括執(zhí)行文檔引擎應用程序的服務器。示出 的內容服務器裝置140包括執(zhí)行內容引擎應用程序的服務器。系統(tǒng) 100也可以包括多個其他的月良務器裝置。類似于客戶才幾裝置102a-n, 每個示出的服務器裝置104、 140包括耦合到計算機可讀存儲器118、 144的處理器116、 142。每個月良務器裝置104、 140 ^皮描述為單一 的計算機系統(tǒng),但是其可以被實現(xiàn)為計算機處理器的網絡。服務器 裝置104、 140的實例是服務器、大型計算機、網絡計算機、基于 處理器的裝置、和類似類型的系統(tǒng)和裝置。客戶機處理器110和服 務器處理器116、 142可以是許多公知的計算4幾處理器中的任意一 種,侈'H口來自Santa Clara, California的Intel公司禾口 Schaumbug, Illinois的Motorola 7>司的處J里器。
文檔服務器裝置104的存儲器118包含文檔引擎應用程序,也 即通常所-說的文檔引擎124。文檔引擎124確定源文章的含義,并 將源文章和條目匹配,例如,另一個文章或知識條目。條目可以是 內容本身或可以和內容相關Jf關??梢?人連4妄到網絡106的其他的裝 置才企索源文章。文章(article,文件、物)包括文檔,例如,各種 格式的網頁,例如HTML、 XML、 XHTML、可移才直文檔才各式(PDF ) 文件,以及文字處理器、數(shù)據(jù)庫、和應用程序文檔文件、或網絡(例 如互聯(lián)網)、個人電腦、或其他計算或存儲裝置上可提供的音頻、 -現(xiàn)頻、或任意類型的任意其他信息。此處描述的實施例通常與文檔 有關,但是實施例可以在任意類型的文章上操作。知識條目是能夠 通過符號表示的任^可物理的和非物理的東西,可以是,例如,關鍵: 字、節(jié)點、目錄、人、纟既念、產品、短i吾、文檔、和其他知識單位。知識條目可采取任何形式,例如,單字、術語、短語、文檔、或一 些其他結構化的和非結構化的信息。在此描述的實施例通常與關4建 字有關,^旦是實施例可以在任何類型的知識條目上才喿作。
示出的文檔引擎124包;^舌預處理器134、含義處理器136、和 匹配處理器137。在示出的實施例中,每個均包括駐留在存儲器118 中的計算機代碼。文檔引擎124接收放置于源文檔上的內容的請求。 此請求可以從連接到網絡106的裝置接收。內容可包括文檔,例如 網頁和廣告,以及知識條目,例如關鍵字。預處理器134接收源文 檔并分析源文檔,以確定文檔中包含的概念和文檔中的區(qū)。概念可 以用和其相關的簇,或字集或術語來定義,例如,其中字或術語可
以是同義詞。概念也可以用各種其他信息來定義,例如,相關概念 的關系、相關概念的關系強度、詞類、 一般用法、使用頻率、概念 寬度、和其他關于相無念在語言中的用法的統(tǒng)計。含義處理器136分 析積克念和區(qū),以消除與源文檔的主4既念無關的區(qū)。然后含義處理器 136從剩下的區(qū)中確定源文檔的源含義。匹配處理器137將源文檔 的源含義和來自一組條目的條目的含義相匹配。
內容服務器裝置140的存儲器144包括內容引擎應用程序,即 所說的內容引擎146。在示出的實施例中,內容引擎包括駐留于存 儲器144中的計算機代碼。內容引擎146接收來自文檔服務器裝置 104的匹配條目,并將該條目或與該條目相關的內容放置在源文檔 中。在一個實施例中,內容引擎146接收來自匹配引擎137的匹配 關鍵字,并使文檔(例如廣告)和其相關聯(lián)。然后將廣告發(fā)送到請 求者的網站,并i文置在源文檔(例如網頁上的4匡架)中。
文檔服務器裝置104也提供對在此實例中示出的含義數(shù)據(jù)庫 120中的其他存儲元件(例如含義存儲元件)的訪問。含義數(shù)據(jù)庫 可用于存儲與源文檔相關的含義。內容服務器裝置140也提供對在 實施例中示出的內容數(shù)據(jù)庫148中的其他存儲元件(例如內容存儲元件)的訪問。內容數(shù)據(jù)庫可用于存儲條目以及與條目相關的內容, 例如關4建字和相關的廣告。^t據(jù)存儲元件可包括任何一種存儲數(shù)據(jù) 的方法或多種方法的組合,包括但不限于陣列,哈希表,列表以及
對(pair)。其他的類似類型的數(shù)據(jù)存儲裝置可被服務器裝置104和 140訪問。
應該指出,本發(fā)明可包括具有與圖1中示出的結構不同的結構 的系統(tǒng)。例如,在才艮據(jù)本發(fā)明的一些系統(tǒng)中,預處理器134和含義 處理器136可以不是文檔引擎124的一部分,并可以脫4/l4丸4亍它們 的操作。在一個實施例中,當文檔引擎爬行文檔(例如網頁)時, 文檔的含義4皮周期性地確定。在另一個實施例中,當4妄收到對;故置 在文檔中的內容的請求時,文檔的含義被確定。圖l中示出的系統(tǒng) IOO只是典型的,并用于解釋在圖2-3中示出的典型方法。
在圖1示出的典型實施例中,用戶112a能訪問連接到網絡106 的裝置上的文檔,例如網站上的網頁。例如,用戶112a可在新聞 網站上訪問包含關于在Washington飛蠅釣(fly fishing )鮭魚的故事 的網頁。在此實例中,網頁包含四個區(qū)標題部分,包含故事的標 題、作者、和故事的一句話概要;主要故事部分,包含故事的正文 和圖片;涉及賣汽車的橫幅廣告;以及鏈接部分,包含到該網站上 其他網頁(例如國家新聞、天氣、和體育)的鏈4妄。新聞網站的所 有者可能想要出售源網頁上的廣告空間,乂人而經由網纟各106向文檔 服務器104發(fā)送^f吏一個條目(例如廣告)顯示在網頁上的請求。
為了將源網頁和條目相匹配,首先確定源網頁的含義。文檔引 擎124i^問源網頁,并可以4妄收該網頁。網頁的源含義可能先前已 經-敗確定了 ,并且可被存儲在含義數(shù)據(jù)庫120中。如果源含義先前 已經-故確定了,那么文檔引擎124沖企索源含義。如果網頁的源含義還沒有凈皮確定,則予貞處理器134首先識別網 頁中包含的概念和網頁中包含的區(qū)。例如,預處理器可以確定網頁 具有四個區(qū),對應于標題區(qū)、故事區(qū)、 一黃幅廣告區(qū)、和《連^接區(qū),并 且網頁包含關于鮭魚、飛蟲€釣、Washington,汽車、新聞、天氣、 和體育的概念。這些區(qū)不必對應于網頁上的框架。含義引擎然后確 定每個區(qū)的局部扭克念,并4非列所有局部扭無念??蓱枚喾N加4又系教: 排列這些概念,例如,區(qū)的重要性、概念的重要性、概念的頻率、 出現(xiàn)該概念的區(qū)的數(shù)量、以及概念的寬度。
含義引擎136然后識別與大部分相克念無關的區(qū),并刪除和它們 相關的局部概念。在此實例中,橫幅區(qū)和鏈接區(qū)不包含和故事特別 地相關的概念,從而,涉及這些區(qū)的概念被刪除。然后含義引擎基 于余下的概念確定源。含義可以是加權的概念的向量。例如,含義 可以是鮭魚(40% ),飛蟲€釣(40% ),以及Washington (20% )。
通過匹配處理器137可以將該含義匹配到條目。條目可包括, 文檔,例如網頁和廣告,以及知識條目,例如關4定字,并且能夠,人 內容服務器裝置140接收到。條目可以存儲在內容數(shù)據(jù)庫148中。 例如,如果條目是關鍵字,例如,飛蠅釣、背包、CD、和旅行,則 匹配引擎將源含義和與關鍵字相關的含義進行比較,以確定匹配。 可以l吏用偏離因子(biasing factor ),例如和每個關4建字相關的每次 點擊數(shù)據(jù)的成本。例如,如果關鍵字飛蠅釣的含義是一個比關鍵字 旅行的含義更接近的匹配,但是當前已經購買了關鍵字旅行的廣告 商具有較高的每次點擊率成本,含義引擎可以將源含義和關^t字旅 行匹配。內容過濾器也能用于過濾出成人內容或敏感內容。
匹配的關4建字可以由內容月良務器裝置14(U妻收。內容引擎146
將廣告和匹配的關4建字關耳關,并將廣告顯示在源網頁上。例如,如 果旅行這個關鍵字被匹配了 ,則內容引擎將在包含關于在 Washington飛蠅釣鮭魚故事的源網頁上顯示和關鍵字旅行相關的廣
13告。如果用戶112a將其輸入裝置指向廣告并點擊它,則用戶可被 引導到與該廣告相關的網頁。
才艮據(jù)本發(fā)明可以#1行各種方法。才艮據(jù)本發(fā)明 一個典型方法包括 it問源文章;在源文章中識別多個區(qū);確定和每個區(qū)相關的至少一 個局部概念;分析每個區(qū)的局部概念以識別任何無關區(qū);刪除和任 何無關區(qū)相關的局部概念以確定相關概念;分析相關概念以確定用 于該源文章的源含義;以及將源含義和條目含義匹配,該條目含義 與來自一組條目的條目相關??梢允褂闷x因子以將源含義和條目 含義匹配。源含義可以是加權的概念的向量。
在一些實施例中,該方法還包括在源文章上顯示匹配的條目。 在這些實施例中,源文章可以是網頁,并且匹配的條目可以是關鍵 字??蛇x地,源文章可以是網頁,并且匹配的條目可以是廣告。
在一些實施例中,該方法還包括在源文章上顯示和匹配條目相 關的內容。在這些實施例中,源文章可以是網頁,匹配的條目可以 是關鍵字,并且相關的內容可以是廣告。此外,源文章可以是第一 網頁,匹配的條目可以是第二網頁,以及相關的內容可以是廣告。 可選地,源文章可以是第一網頁,匹配的條目可以是第二網頁,以 及相關的內容可以是到第二網頁的鏈接。
在一些實施例中,確定至少一個局部扭無念涉及為每個區(qū)中的每 個局部概念確定分數(shù)。在每個區(qū)中具有最高分數(shù)的局部概念是最相 關的局部扭X念。此外,識別無關區(qū)涉及首先確定每個局部扭X念的》f 正分數(shù)。接下來,基于修正分數(shù),確定包含所有局部概念的經排列 的全局列表。刪除合并修正分數(shù)對全局列表的貢獻小于 總分數(shù)的預 定量的局部概念,以產生結果列表。然后,確定在結果列表中具有 最不相關局部概念的無關區(qū)。然后從結果列表中刪除和無關區(qū)相關的局部概念,以生成相關概念的列表。而且,通過歸一化用于相關 概念的修正分數(shù)來確定源含義。
才艮據(jù)本發(fā)明另一個典型方法,包括訪問源文章;在源文章中識 別至少第一內容區(qū)和第二內容區(qū);確定與第一內容區(qū)相關的至少第 一局部概念,以及確定與第二內容區(qū)相關的至少第二局部概念;至 少部分地基于第一局部概念,將第一內容區(qū)和來自一組條目的第一 條目匹配;以及至少部分地基于第二局部概念,將第二內容區(qū)和來 自一《且條目的第二條目匹配。
圖2到圖3詳細地示出了根據(jù)本發(fā)明的典型方法200。因為有 多種執(zhí)行根據(jù)本發(fā)明的方法的方式,這里以實例的方式提供了典型 方法。圖2中示出的方法200可以由各種不同的系統(tǒng)執(zhí)行,或者實 現(xiàn)。下面通過實例描述由圖1所示的系統(tǒng)100執(zhí)行的方法200,并 在解釋圖2到圖3的實例方法時參考系統(tǒng)100的各元件。示出的方 法200提供了源文檔含義的確定,以將源文檔和條目匹配。
圖2和圖3中所示的每個塊表示在典型方法200中才丸4亍的一個 或多個步一驟。參照圖2,在塊202中,實例方法200開始。塊202 之后是塊204,在該塊中文檔被訪問。例如文檔可以被在網絡1〇6 或其^也源上的裝置訪問和4妄收。
塊204之后是塊206,在該塊中確定源文檔的含義。在示出的 實施例中,通過將文檔分區(qū),刪除無用的區(qū),和分析文檔剩余區(qū)中 包含的概念,來確定源文檔的含義。例如,在示出的實施例中,預 處理器134最初確定源文檔中包含的概念,并且確定文檔中的區(qū)。 含義處理器136排列概念,并除去與大部分概念無關的區(qū)以及相關 的概念。從剩余的概念中,含義處理器136確定文檔的源含義。圖3示出了用于4丸行圖2中所示的方法200的子程序206。子 程序206提供了接收的源文檔的含義。子程序的一個實例如下。
子禾呈序在塊300處開始。在塊300處,源文檔^皮預處理以確定 文檔中包含的概念。這可以通過自然語言和文本處理以將文檔解釋 成文字,然后將文字和概念對應(align)來實現(xiàn)。在一個實施例中, 例如,首先通過自然i吾言和文本處理確定^f應于文字的標H然后 將這些標記和互連含義的語義網絡中包含的標記匹配。乂人匹配的標 記,然后從語義網絡中確定術語。然后用于確定的術語的概念被指 定,并給出與術語相關的可能性。
塊300之后是塊302,在該塊中識別文檔的區(qū)。例如,基于特 定的搜索法(heuristics),包括4各式化信息,可以確定文檔的區(qū)。例 如,對于一個源文檔,其是一個包括HTML標簽的網頁,這些標簽 可用于幫助識別區(qū)。例如,在〈title、…々title〉標簽內的文本能夠一皮 標記為標題區(qū)的文本。在其中超過70 %的文本是在標簽〈a、.. .</a〉 內的,殳落內的文本可標記為在鏈接區(qū)。文本的結構也能夠用于幫助 識別區(qū)。例如,短,殳落中的文本或表中的欄,沒有句子結構,例如, 沒有動詞、才及少的字、或沒有標點結束句子,可標i己為處于列表區(qū) 中。具有動詞和才示點的長句子中的文本,可才示i己為部分文本區(qū)。當 區(qū)類型改變時,可/人標i己有新類型的文本開始創(chuàng)建新區(qū)。在一個實 施例中,如果文本區(qū)獲得超過20%的文檔,則可將其分成較小塊。
塊302之后是塊304,在該框中確定每個區(qū)的最相關概念。在 示出的實施例中,含義處理器136處理為每個區(qū)識別的概念,以為 每個區(qū)提出較小的一組局部概念。概念間的關系,區(qū)內概念出現(xiàn)的 頻率、和;f既念的寬度能夠用于局部概念的確定。
在一個實施例中,對于每個區(qū),將每個概念放在列表中。通過 使用多種因子為每個概念確定分數(shù),來將概念排列在列表中。例如,如果第一概念具有與其他概念的4艮強的:i關系,這可以用于^是高第一 概念及其相關的概念的分數(shù)。通過第 一概念出現(xiàn)的頻率和第 一概念 的焦點(或寬度)調節(jié)這種效果,以減小非常普遍的概念和含義較 廣的概念??蔀V除頻率在一定閾值之上的概念。概念的可察覺重要 性也可以影響概念的分數(shù)。例如通過引起包含概念的字是否被用粗 體標記,可以在處理過程中較早地確定概念的重要性。在將每個區(qū) 的沖既念排列后,除去最不相關的纟既念。這可以通過選4奪一組最高級 別的概念或除去級別分數(shù)低于 一 定分數(shù)的概念來實現(xiàn)。
塊304之后是塊306,在該塊中,合并和分析每個區(qū)的所有局 部和無念。在示出的實施例中,含義處理器136^妄4欠每個區(qū)的所有局 部概念,并且,通過例如每個局部概念的分數(shù)創(chuàng)建所有局部概念的 經排列的全局列表。偏離因子(例如每個區(qū)的重要性)可用于確定 分數(shù)。每個區(qū)的重要性可以通過區(qū)的類型和區(qū)的大小來確定。例如, 標題區(qū)可被認為比鏈接區(qū)更重要,且出現(xiàn)在標題區(qū)的概念比出現(xiàn)在 鏈接區(qū)的概念能夠被給予更多的加權??梢詫Τ霈F(xiàn)在多于一個區(qū)的 概念給予額外的加權。例如,概念的副本可合并,并且它們的分數(shù) 可加在一起。該全局列表然后纟皮分類,例如,可刪除貢獻少于總分 數(shù)的20 %的末位(trailing )概念,以生成局部概念的結果全局列表。
塊306之后是塊308,在該框中,其刪除主要概念與無關概念 無關的區(qū)。在示出的實施例中,含義處理器136確定無關區(qū)、包含 與大部分概念無關的概念的區(qū),并將它們刪除。應該理解"相關的" 和"無關的"不需要用絕對的標準確定。"相關的"是相對較高的關 系度和/或預定的關系度的指示。"無關的"是相對較低的關系度和/ 或預定的關系度的指示。通過刪除無關區(qū),相關的無關相克念4皮刪除。 例如,如果源文檔是由各種框架做成的網頁, 一些框架涉及廣告或 到網站上其他網頁的鏈接,從而,將與網頁的主要含義無關。在一個實施例中,例如,塊306中確定的結果全局列表可以是 文檔含義的近似值,并且可以用于去除與文檔含義不相關的區(qū)。對 于每個區(qū),含義處理器136能確定用于該區(qū)的最有^表性的局部扭克 念是否沒有存在于結果全局列表中。如果用于區(qū)的最有代表性的局 部才既念不在結果全局列表中,則該區(qū)可標記為不相關。例如,用于 區(qū)的最有代表性的局部概念可以是如塊304中所確定的該區(qū)的具有 最高分數(shù)的概念。
:夾308之后是塊310,在該塊中,確定源文檔的含義。在示出 的實施例中,含義處理器136重新計算沒有刪除的區(qū)的局部概念的 代表性,以創(chuàng)建概念的相關列表。在相關列表中的局部概念可以被 精選出固定數(shù)量的概念以提供含義列表,然后歸一化以提供源含 義。例如,可以只使用相關區(qū)中包含的概念來創(chuàng)建含義列表,并且 從新的列表中除去除了 25個最高得分以外的所有概念。最高得分 概念的分數(shù)可以被歸一化以提供源含義。在此實例中,源含義可以 是相關扭A念的加權向量。
再來參照圖2,塊206之后是塊208,在該塊中接收一組條目。 例如,可以通過匹配處理器137從內容服務器裝置140接收條目。 條目可以包括知識條目,例如,關鍵字,和文檔,例如,廣告和網 頁。接收的每個條目可以具有一個和其相關的含義。對于關鍵字含 義,例如,可以通過使用和關鍵字相關的信息來確定,如在相關的 美國專利申請序列號為10/690,328 (律師巻號No. 53051/288072 ), 標題為 "Methods and Systems for Understanding a Meaning of a Knowledge Item Using Information Associated with the Knowledge Item,,中所描述的,其被結合于此以供參考??梢砸耘c如圖3所描述 的方式相同的方式確定文檔的含義。
塊208之后是塊210,在該塊中將源文檔和條目匹配。在匹配 過程中可以^使用偏離因子。例如,在一個實施例中,將源含義和與來自 一組關4建字的關4建字相關聯(lián)的關4建字含義匹配。匹配引擎將源 含義和關鍵字含義相比較,并使用偏離因子,例如和這些關鍵字相 關的每次點擊數(shù)據(jù)成本,以確定匹配。然后可將匹配的關鍵字發(fā)送
到內容服務器裝置140。內容引擎146可將匹配的關鍵字與其相關 的廣告匹配,并在源文檔上顯示廣告??蛇x地,內容引擎能在源文 檔上顯示關鍵字本身。在另一個實施例中,將廣告的含義和源含義 匹配。在該實施例中,內容引擎146可導致匹配的廣告顯示在源文 檔上。在另一個實施例中,將網頁的含義和源含義匹配。在該實施 例中,內容引擎146能引起和網頁相關的廣告的顯示。塊210之后 是塊212,在該塊中,該方法結束。
在一個實施例中,在源文檔祐 沐問后,預處理器134分沖斤源文 檔,以確定源文檔的內容區(qū)。內容區(qū)可以是包含大量文本的區(qū),例 如,文本區(qū)或鏈d婁區(qū),或可以是相對重要的區(qū),例如,標題區(qū)???以通過^f吏用如上所述的4臾索法確定這些區(qū)。如上所述,預處理器134 也能識別位于每個內容區(qū)的概念。含義處理器136可以使用這些概 念,以確定每個內容區(qū)的含義。匹配處理器137能夠將每個內容區(qū) 的含義和關鍵字匹配。內容引擎146能將匹配的關鍵字和其相關的 廣告匹配,并在源文檔上顯示廣告??蛇x地,內容引擎能在源文檔 上顯示關鍵字本身。在另一個實施例中,將廣告的含義和區(qū)含義匹 配。在該實施例中,內容引擎146可導致匹配的廣告顯示在源文檔 上。在另一個實施例中,將網頁的含義和區(qū)的含義匹配。在該實施 例中,內容引擎146能引起和網頁相關的廣告的顯示。在一個實施
例中,廣告或關^:字^皮顯示在和其匹配的內容區(qū)中。
以上所述<又為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā) 明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。 凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進 等,均應包含在本發(fā)明的保護范圍之內。
19
權利要求
1. 一種系統(tǒng),包括客戶設備;以及一個或多個服務器計算機,被編程用于與所述客戶設備相互作用并執(zhí)行下列操作接收包含條目的源文檔;將所述源文檔中的所述條目分配給概念集合中的概念;確定所述源文檔的最典型的全局概念的集合;基于所述源文檔的格式化來識別所述源文檔的區(qū);確定表示在每個所述區(qū)中的典型的局部概念;將表示在所述每個區(qū)中的所述典型的局部概念與所述源文檔的所述最典型的全局概念相比較,以識別第一區(qū),在所述第一區(qū)中,所述典型的局部概念不在所述最典型的全局概念中;以及確定所述源文檔的源含義,其中,從所述的確定中去除所述第一區(qū)的典型的局部概念。
2. 根據(jù)權利要求1所述的系統(tǒng),其中,確定所述最典型的全局概 念包括創(chuàng)建所述概念的全局列表,所述源文檔中的條目已經被 分配至所述概念的全局列表中。
3 才艮據(jù);〖又利要求2所述的系統(tǒng),其中,確定所述源文檔的源含義 包括挑選所述概念的全局列表;以及將保留在所述概念的全局列表上的概念規(guī)格化,以提供 源含義。
4. 根據(jù)權利要求1所述的系統(tǒng),其中,所述源含義包括相關概念 的力o沖又向量。
5. 根據(jù)權利要求1所述的系統(tǒng),其中,確定所述源文檔的最典型 的全局概念包括對不同區(qū)的概念進行不同地評分。
6. 根據(jù)權利要求5所述的系統(tǒng),其中,為不同區(qū)的概念進行不同 地評分包括對在文檔標題區(qū)中表示的第二概念給以更高權重。
7. 根據(jù)權利要求5所述的系統(tǒng),其中,為不同區(qū)的概念進4亍不同 地評分包括對出現(xiàn)在多于一個區(qū)中的第二概念給以更高權重。
8. 根據(jù)權利要求5所述的系統(tǒng),其中,為不同區(qū)的概念進行不同 地評分包括根據(jù)表示有所述概念的區(qū)的大小來對第二概念進 行力口權。
9. 根據(jù)權利要求1所述的系統(tǒng),其中,識別所述源文檔的區(qū)包括 才艮據(jù)所述源文檔的標記語言標簽來識別所述區(qū)。
10. 根據(jù)權利要求1所述的系統(tǒng),其中,識別所述源文檔的區(qū)包括 才艮據(jù)所述區(qū)中的文本中標點的個凄t來識別所述區(qū)。
11. 根據(jù)權利要求1所述的系統(tǒng),其中,識別所述源文檔的區(qū)包括 才艮據(jù)所述區(qū)中的文本中動詞的出現(xiàn)來識別所述區(qū)。
12. 根據(jù)權利要求1所述的系統(tǒng),其中,識別所述源文檔的區(qū)包括 當文本占用了所述源文檔的一定百分比時將所述文本分割成 較小的部分。
13. —種系纟充,包4舌客戶i殳備;以及一個或多個服務器計算機,被編程用于與所述客戶設備 相互作用并執(zhí)行下列操作4妄4欠網頁;識別在所述網頁中以及包含在所述網頁中的區(qū)域中 表示的局部相無念;將所述局部概念進行排序;識別第一區(qū),所述第一區(qū)表示與所述概念的大多數(shù) 不相關的局部相無念;以及/人所述網頁的源含義的確定中去除所述第 一 區(qū)和在 所述第一區(qū)中表示的概念。
14. 根據(jù)權利要求13所述的系統(tǒng),其中,識別所述第一區(qū)包括識 別所述網頁的4醫(yī)架區(qū)。
15. 根據(jù)權利要求13所述的系統(tǒng),其中,識別所述第一區(qū)包括根 據(jù)所述第 一 區(qū)中的文本中標點的個凄t來識別所述第 一 區(qū)。
16. 根據(jù)權利要求13所述的系統(tǒng),其中,識別所述第一區(qū)包括根 據(jù)所述第一區(qū)中的文本中動詞的出現(xiàn)來識別所述第一 區(qū)。
17. 根據(jù)權利要求13所述的系統(tǒng),其中,識別所述第一區(qū)包括當 文本占用了所述網頁的一定百分比時將所述文本分割成4交小 的部分。
18. 根據(jù)權利要求13所述的系統(tǒng),其中,將所述局部概念進行排 序包括根據(jù)表示有第二局部概念的區(qū)的重要性來對所述第二 局部概念進行加權。
19. 根據(jù)權利要求13所述的系統(tǒng),其中,將所述局部概念進行排 序包括根據(jù)表示有第二局部概念的多個區(qū)來對所述第二局部 概念進行加權。
20. 根據(jù)權利要求13所述的系統(tǒng),其中,將所述局部概念進行排 序包括才艮據(jù)所述第二局部一既念的寬度來對所述第二局部扭無念 進行力口權。
21. 根據(jù)權利要求13所述的系統(tǒng),其中,所述操作進一步包括將 所述網頁的源含義與關4建字相匹配。
22. 根據(jù)權利要求13所述的系統(tǒng),其中,所述操作進一步包括將 所述網頁的源含義與廣告對目匹配。
全文摘要
本發(fā)明描述了用于確定文檔的含義,以使文檔與內容相匹配的系統(tǒng)和方法。在一個方面中,訪問源文章;識別源文章中的多個區(qū);確定至少一個與每個區(qū)相關聯(lián)的局部概念;分析每個區(qū)的局部概念以識別任何不相關區(qū);刪除與任何不相關區(qū)相關聯(lián)的局部概念,以確定相關概念;分析相關概念以確定源文章的源含義;以及使源含義和與來自一組條目的條目相關聯(lián)的條目含義相匹配。
文檔編號G06Q10/00GK101482881SQ20091000629
公開日2009年7月15日 申請日期2004年7月23日 優(yōu)先權日2003年7月30日
發(fā)明者吉拉德·伊斯雷爾·埃勒巴茲, 阿達姆·J·韋斯曼 申請人:Google公司