国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于使用鏈接和頁面的布局分析來識別圖像相關度的方法和系統(tǒng)的制作方法

      文檔序號:6624993閱讀:177來源:國知局
      專利名稱:用于使用鏈接和頁面的布局分析來識別圖像相關度的方法和系統(tǒng)的制作方法
      技術領域
      所描述的技術總體上涉及分析網(wǎng)頁,具體的說,涉及網(wǎng)頁圖像的相關度。
      背景技術
      諸如Google和Overture的許多搜索引擎服務提供搜索經(jīng)由因特網(wǎng)可訪問的信息。這些搜索引擎服務允許用戶搜索用戶可能感興趣的顯示頁面,例如網(wǎng)頁。在用戶提交包括搜索項的搜索請求之后,搜索引擎服務識別可能與那些搜索項相關的網(wǎng)頁。為了快速識別相關網(wǎng)頁,搜索引擎服務會保持關鍵字到網(wǎng)頁的映射。通過“爬行和索引”該網(wǎng)絡(即,萬維網(wǎng))可以產(chǎn)生該映射,以識別每個網(wǎng)頁的關鍵字。為了爬行網(wǎng)絡,搜索引擎服務會使用根網(wǎng)頁列表以識別可通過那些根網(wǎng)頁訪問的所有網(wǎng)頁??梢允褂酶鞣N已知的信息檢索技術識別所有特定網(wǎng)頁的關鍵字,諸如識別標題字、網(wǎng)頁元數(shù)據(jù)中提供的字、高亮的字、等等。然后,搜索引擎服務根據(jù)每個匹配的緊密度,網(wǎng)頁的普及性(例如,Google的頁面排列)等排列搜索結果的網(wǎng)頁。搜索引擎服務也會產(chǎn)生相關分數(shù)以表明網(wǎng)頁信息與搜索請求的相關程度。然后,搜索引擎服務以基于其排列的順序向用戶顯示指向那些網(wǎng)頁的鏈接。
      雖然許多網(wǎng)頁是面向圖像的,因為它們會包含許多圖像,但是常規(guī)搜索引擎服務一般只根據(jù)網(wǎng)頁的文本內(nèi)容搜索。然而,已進行許多嘗試以支持基于圖像的網(wǎng)頁搜索。例如,正瀏覽網(wǎng)頁的用戶可能希望識別包含與該網(wǎng)頁上圖像相關圖像的其它網(wǎng)頁。基于圖像的搜索技術一般是基于內(nèi)容或基于鏈接的,并另外使用圍繞文本以幫助分析圖像?;趦?nèi)容的技術使用低層視覺信息以便圖像索引。因為基于內(nèi)容的搜索技術是非常昂貴的,所以它們不適用于網(wǎng)絡上的圖像搜索?;阪溄拥乃阉骷夹g一般假設在相同網(wǎng)頁的圖像可能是相關的,并且在網(wǎng)頁上的、由相同網(wǎng)頁彼此鏈接的圖像是相關的。不幸的是,這些假設在許多情況下是不正確的,主要因為單個網(wǎng)頁會包含涉及許多不同主題的內(nèi)容。例如,新聞網(wǎng)站的網(wǎng)頁會包含涉及國際政治事件的內(nèi)容以及涉及國家體育事件的內(nèi)容。在這種情況下,涉及國家體育事件的體育團體的圖片不可能與由涉及國際政治事件的內(nèi)容鏈接的網(wǎng)頁相關。
      因此,我們希望有一種不象常規(guī)的基于內(nèi)容的搜索技術那樣昂貴的基于圖像的搜索技術,不同于常規(guī)的基于鏈接的搜索技術,它能解釋在單個網(wǎng)頁上出現(xiàn)的不同主題。
      概述提供一種系統(tǒng),用于根據(jù)鏈接和網(wǎng)頁布局分析確定頁面圖像的相關度。鏈接分析系統(tǒng)通過首先識別頁面內(nèi)的塊,并然后分析塊對頁面、頁面對塊、和圖像對塊的重要性,來確定圖像之間的相關度。根據(jù)該分析,鏈接分析系統(tǒng)確定每幅圖像與所有其他圖像的相關程度。因為一幅圖像與另一幅圖像的相關度是基于塊級重要性,而不是頁面級重要性,塊是比頁面更小的單元,該相關度是比常規(guī)基于鏈接的搜索技術更正確的相關度表示。
      附圖的簡要說明附

      圖1是表示網(wǎng)頁的樣本集合中塊、圖像、和鏈接的框圖。
      附圖2是表示在一個實施例中,鏈接分析系統(tǒng)的組件的框圖。
      附圖3是表示在一個實施例中,產(chǎn)生圖像對圖像矩陣組件的處理流程圖。
      附圖4是表示在一個實施例中,產(chǎn)生塊對頁面矩陣組件的處理流程圖。
      附圖5是表示在一個實施例中,產(chǎn)生頁面對塊的矩陣組件的處理流程圖。
      附圖6是表示在一個實施例中,產(chǎn)生塊對圖像的矩陣組件的處理流程圖。
      詳細描述提供一種用于根據(jù)鏈接和頁面布局分析確定網(wǎng)頁圖像的相關度的系統(tǒng)和方法。在一個實施例中,鏈接分析系統(tǒng)通過首先識別網(wǎng)頁內(nèi)的塊,并然后分析塊對網(wǎng)頁、網(wǎng)頁到塊、和圖像對塊的重要性來確定圖像之間的相關度。根據(jù)該分析,鏈接分析系統(tǒng)確定每幅圖像對其他每幅圖像的相關程度。網(wǎng)頁的塊表示看起來涉及相似主題的網(wǎng)頁區(qū)域。例如,涉及國際政治事件的新聞文章會表示一個塊,以及涉及國家體育事件的新聞文章會表示另一個塊。塊對頁面的重要性會表明用戶在瀏覽網(wǎng)頁時注意該塊的概率。頁面對塊的重要性會表明用戶從塊選擇指向該頁面的鏈接的概率。圖像對塊的重要性會表明用戶在瀏覽塊時注意該圖像的概率。在計算這些成對的頁面和塊以及成對的圖像和塊的重要性的數(shù)字指標之后,鏈接分析系統(tǒng)通過結合計算的塊對頁面的重要性、計算的頁面對塊的重要性、以及計算的圖像對塊的重要性來產(chǎn)生每幅圖像與每幅其他圖像的相關度的指標。因為一幅圖像與另一幅圖像的相關度是基于塊級別的重要性而不是頁面級別的重要性,因而該相關度是比常規(guī)的基于鏈接的搜索引擎更準確的相關度表示。
      鏈接分析系統(tǒng)也會使用圖像的相關度以產(chǎn)生圖像的排列。排列可以是基于開始瀏覽任意圖像的用戶在圖像之間任意次地轉變之后將轉變到另一幅圖像的概率。鏈接分析系統(tǒng)也會根據(jù)圖像的相關度產(chǎn)生圖像的矢量表示,并將群群集算法應用于矢量表示以識別相關圖像群。
      附圖1表示在網(wǎng)頁的樣本集合中塊、圖像和鏈接的框圖。該網(wǎng)頁集合包括網(wǎng)頁1-4。網(wǎng)頁中的塊用矩形表示,塊內(nèi)的圖像用圓表示,以及塊內(nèi)的鏈接用從塊指向鏈接到的網(wǎng)頁的箭頭來表示。網(wǎng)頁1包含塊1,塊1包含圖像1和2以及鏈接1和2。網(wǎng)頁2包含塊2和塊3,塊2包含圖像3和鏈接3,塊3包含圖像4和鏈接4。網(wǎng)頁3包含塊4和塊5,塊4包含圖像5以及鏈接5和6,塊5包含圖像6和鏈接7。網(wǎng)頁4包含塊5,塊5包含圖像7、8、9和10以及鏈接8。因為鏈接分析系統(tǒng)是基于塊上的而不是整個網(wǎng)頁的圖像相關度,因而一幅圖像到其他圖像的相關度有可能是基于更準確的圖像主題的表示。例如,網(wǎng)頁2包含塊2和塊3,它們會分別指向不同的主題,諸如國際政治事件和國內(nèi)體育事件。鏈接分析系統(tǒng)可以識別到,由于包括圖像4的塊3具有到網(wǎng)頁4的鏈接4,因而圖像4與網(wǎng)頁4的圖像比起網(wǎng)頁3的圖像聯(lián)系更為緊密。例如,網(wǎng)頁4比網(wǎng)頁3更有可能是涉及體育的,因為塊3包含到網(wǎng)頁4的鏈接,而不是到網(wǎng)頁3的。同樣,圖像4比對網(wǎng)頁3的圖像5和6更有可能涉及圖像7、8、9和10。不是基于塊級別的分析的技術會識別圖像4是同等地涉及網(wǎng)頁3和網(wǎng)頁4的,因為這些技術并不區(qū)分網(wǎng)頁2上的塊3和塊2。
      在一個實施例中,鏈接分析系統(tǒng)為每個塊和頁面的結合計算頁面對塊的重要性,作為選擇該塊鏈接的用戶將選擇到該頁面鏈接的概率。如果塊沒有到頁面的鏈接,那么概率為0。如果塊有到頁面的鏈接,那么鏈接分析系統(tǒng)會假設用戶以相等的概率選擇該塊的每一個鏈接。塊到頁面的概率矩陣由以下公式定義
      其中Zij表示選擇塊i鏈接的用戶將選擇到頁面j的鏈接的概率,si是塊i內(nèi)的鏈接數(shù)。附圖1的網(wǎng)頁的塊到頁面矩陣Z如表1所示。表1的行表示塊,以及列表示頁面。在該示例中,選擇塊4鏈接的用戶將選擇到網(wǎng)頁2的鏈接的概率為.5。
      表1

      在一個實施例中,鏈接分析系統(tǒng)為每個頁面和塊的結合計算塊對頁面的重要性,作為該塊成為頁面中最重要塊的概率。沒有包含在頁面中的塊成為該頁面中最重要塊的概率為0。鏈接分析系統(tǒng)會假設包含在頁面上的每個塊成為最重要的塊是具有同等概率的。由以下公式定義頁面到塊概率矩陣

      其中,Xij表示塊j是頁面i最重要塊的概率,以及si是頁面i上的塊數(shù)。
      在一個實施例中,鏈接分析系統(tǒng)根據(jù)塊的位置、大小、字體、顏色和其他物理屬性計算塊是頁面中最重要塊的概率。例如,位于頁面中間的大塊會比位于頁面左下角的小塊更重要。于2004年4月29日申請的美國專利申請?zhí)枮開____,名為“Method and System for Calculating Importace of Block Within aDisplay Page”描述了用于計算塊的重要性和塊的相干相關程度的技術,在這里并入其全文以供參考。頁面到塊的矩陣X更普遍的表示為

      其中,fpi是表示塊j是頁面i最重要塊的概率的函數(shù)。在一個實施例中,函數(shù)fpi定義為當顯示頁面i時由從屏幕中心到塊中心的距離劃分的塊j的大小。函數(shù)f定義如下

      其中α是確保塊的函數(shù)值之和為1的標準化因子。函數(shù)f可以認為是用戶瀏覽頁面i時關注于塊j的概率。附圖1的網(wǎng)頁的頁面到塊矩陣X如表2所示。表2的行表示頁面,而列表示塊。在該示例中,塊4是網(wǎng)頁3的最重要塊的概率是.8。
      表2

      在一個示例中,鏈接分析系統(tǒng)為每個塊和網(wǎng)頁組合計算圖像對塊的重要性作為圖像成為塊的最重要圖像的概率。如果塊不包含某一圖像,那么該圖像成為塊的最重要圖像的概率為0。鏈接分析系統(tǒng)會假設塊的每幅圖像是最重要的概率相同。鏈接分析系統(tǒng)能使用其他圖像對塊重要性方法,例如根據(jù)圖像的相對大小,圖像在塊內(nèi)的位置等。塊到圖像的概率矩陣由下列等式定義

      其中Yij表示圖像j是塊i的最重要圖像的概率,而si是塊i中圖像數(shù)目。附圖1的網(wǎng)頁的塊到矩陣Y如表3所示。表3的行表示塊,而列表示圖像。在該示例中,圖像2是塊1的最重要圖像的概率是.5。
      表3

      在一個實施例中,鏈接分析系統(tǒng)為每對排列的頁面計算一個頁面對另一個頁面的重要性,作為正瀏覽該對的第一頁面的用戶將選擇指向該對的第二頁面的概率。鏈接分析系統(tǒng),通過將第一頁面的每個塊,都用該塊成為第一頁面最重要塊的概率乘以第二頁面是對該塊最重要網(wǎng)頁并將乘積求和,以此來計算每一對的概率。因此,一個頁面對另一個頁面的重要性在于用戶會愿意選擇頁面最重要塊內(nèi)的鏈接。這些頁面到頁面的概率矩陣由以下表示W(wǎng)P=XZ (6)其中WP表示網(wǎng)頁到網(wǎng)頁矩陣。W的概率可以另外表示為Prob(β|α)=∑b∈aProb(β|b)Prob(b|α) (7)其中α表示該對的第一頁面,而β表示該對的第二頁面。附圖1的網(wǎng)頁的頁面到頁面矩陣WP如表4所示。在該示例中,正瀏覽頁面3的用戶將轉換到網(wǎng)頁2的概率為.4。
      表4

      鏈接分析系統(tǒng)為每對排序的塊計算一個塊對另一個塊的重要性作為正在瀏覽該對的第一塊的用戶將選擇指向包含該對第二塊的網(wǎng)頁的鏈接并發(fā)現(xiàn)第二塊是該頁面最重要的概率。鏈接分析系統(tǒng)通過用選擇第一塊的鏈接的用戶將選擇用于包含第二塊的頁面的鏈接的概率乘以第二塊成為該頁面最重要的塊的概率并將乘積求和,來為每一對計算其概率。因此,一個塊對另一塊的重要性表示正瀏覽第一塊的用戶將選擇指向包含第二塊的頁面的鏈接并關注于第二塊。這些塊到塊的概率矩陣由以下表示W(wǎng)B=ZX(8)其中WB表示塊到塊矩陣。W的概率可以另外表示為WB(a,b)=prob(b|a)=∑γ∈PProb(γ|α)Prob(b|γ)=Prob(β|α)Prob(b|β) (9)
      =Z(α,β)X(β,b),a,b∈B對于附圖1的網(wǎng)頁的塊到塊矩陣WB如表5所示。在該示例中,正瀏覽塊4的用戶跳到網(wǎng)頁2并將注意力關注于塊3的概率是.25。
      表5

      在一個實施例中,在塊到塊矩陣的鏈接分析系統(tǒng)因子概率表示相同網(wǎng)頁上的兩個塊是相關的。修正的塊到塊矩陣如下所示W(wǎng)B=(1-t)ZX+tDU (10)其中D是對角矩陣Dij=∑jUij,U是相干相干矩陣,以及t是權因子。矩陣U的定義如下

      其中DOC是包含塊i和塊j的最小塊的相干度。權因子t一般會設置為小值(例如,小于.1),因為在大多數(shù)情況下,在同一網(wǎng)頁上的不同塊涉及不同的主題。
      鏈接分析系統(tǒng)為每對圖像計算該對的第一幅圖像與該對的第二幅圖像相關的概率。鏈接分析系統(tǒng)通過對于結合包含第一幅圖像的每個塊對包含第二幅圖像的每個塊的概率的塊到塊概率進行求和來計算概率。這些概率的圖像到圖像矩陣如下所示W(wǎng)I=YTWBY (12)其中WI表示圖像到圖像矩陣。附圖1的網(wǎng)頁的圖像到圖像矩陣WI如表6所示。在該示例中,正瀏覽塊10的用戶將接著瀏覽網(wǎng)頁3并關注于塊5的概率是.05。
      表6

      在一個實施例中,鏈接分析系統(tǒng)將圖像到圖像矩陣因子乘以同一頁面上的兩個塊是相關的概率。修正的圖像到圖像矩陣如下所示W(wǎng)I=tDYTY+(1-t)YTWBY (13)其中t是權因子,而D是表示如下的對角矩陣Dii=Ej(YTY)ij(14)權因子t會設置為大值(例如,.7-.9),因為同一塊中的兩幅圖像可能是相關的。
      在一個實施例中,鏈接分析系統(tǒng)產(chǎn)生來自圖像到圖像矩陣的、表示每幅圖像的矢量。鏈接分析系統(tǒng)使用最小平方方法產(chǎn)生矢量,其中由圖像到圖像矩陣表明一對圖像之間的相似性的因子。鏈接分析系統(tǒng)最初將圖像到圖像矩陣轉換為相似矩陣,如下所示S=(WI+WIT)/2---(15)]]>其中S表示相似矩陣。如果yi是表示圖像i的矢量,那么圖像矢量的最佳集合是使用下列目標函數(shù)獲得的y=(y1,…ym)miny&Sum;i,j(yi-yj)2Si,j---(16)]]>如果D是對角矩陣,Dii是相似矩陣S的第i行的值之和,那么最小化問題化簡為如下
      minyTy=1yTLy---(17)]]>其中L等于D-S。由最小特征值方法給出解決一般特征值問題的解Ly=λy (18)如果(y0,λ0),(y1,λ0),……,(ym-1,λm-1)是等式16的解,并且λ0<λ1<……<λm-1,那么λ0=0并且y0=(1,1,……,1)。鏈接分析系統(tǒng)選擇特征向量I到K表示k維歐幾里得空間的圖像。一幅圖像的矢量如下所示imagej←(yI(j),…yk(j)) (19)其中yi(j)表示yi的第j個單元。
      鏈接分析系統(tǒng)通過用向量表示每幅圖像來識別相關圖像群,以使圖像矢量之間的距離表示它們的語義相似性??梢詫⒉煌娜杭惴☉糜趫D像矢量以識別語義相關的圖像群。這些群集算法會包括光譜圖表理論的Fiedler矢量,k-手段群集,等等。
      圖像群集可以用于支持瀏覽。例如,當瀏覽網(wǎng)頁時,用戶可以選擇一幅圖像并請求看相關圖像。然后,可以顯示包含與所選擇的圖像群集在一起的圖像的網(wǎng)頁作為請求結果。在一個實施例中,可以以基于在每幅圖像的圖像矢量和所選擇圖像的圖像矢量之間的距離的順序來表示網(wǎng)頁。
      圖像群集也可以用于提供語義相關的圖像的多維顯示??梢詾榫W(wǎng)頁集的圖像產(chǎn)生圖像矢量。一旦識別群,系統(tǒng)能根據(jù)不同的特征向量在表示群的二維網(wǎng)格上的每個群的指示。
      鏈接分析系統(tǒng)能根據(jù)圖像到圖像矩陣來排列圖像。圖像到圖像矩陣表示從圖像轉換到圖像的概率。用戶將可能隨機轉換到一幅圖像。為解釋這個,鏈接分析系統(tǒng)產(chǎn)生概率轉換矩陣,該矩陣將該隨機性乘入到圖像到圖像矩陣如下P=εW+(1-ε)U (20)其中P是概率轉換矩陣,ε是權因子(例如,0.1~0.2),以及U是統(tǒng)一轉換概率的轉換矩陣(對于所有的i,j,Uij=1/m)。由于U的引入,因而連接圖表并存在圖表的隨機移動的靜態(tài)分布。圖表排列如下所示PTπ=π (21)其中,π是表示圖像排列的特征值為1的PT的特征向量,其中特征值表示圖像排列。π=(π1,π1,…,πm)表示靜態(tài)概率分布,而πi表示圖像i的排列。
      附圖2是描述在一個實施例中鏈接分析系統(tǒng)的組件的框圖。鏈接分析系統(tǒng)200包括網(wǎng)頁存儲裝置201、計算圖像排列組件202、識別圖像群組件203、以及產(chǎn)生圖像到圖像矩陣組件211。產(chǎn)生圖像到圖像矩陣組件211使用識別塊組件212、產(chǎn)生塊到頁面矩陣組件213、產(chǎn)生頁面到塊矩陣組件214、以及產(chǎn)生塊到圖像矩陣組件215,以產(chǎn)生表明圖像到圖像相關度的矩陣。網(wǎng)頁存儲器包含網(wǎng)頁的集合。計算圖像排列組件使用產(chǎn)生圖像到圖像組件以計算圖像的相關度然后使用那些相關度的計算來排列圖像。識別圖像群組件使用產(chǎn)生圖像到圖像矩陣組件以計算圖像的相關度,根據(jù)矩陣產(chǎn)生圖像的矢量表示,并使用產(chǎn)生的矢量來識別圖像群。雖然在附圖2中未示出,鏈接分析系統(tǒng)也可以包括用于計算網(wǎng)頁而不是圖像的排列單元的組件。例如,鏈接分析系統(tǒng)會將等式20和21的排列應用到塊到塊矩陣以排列塊,并應用到頁面到頁面矩陣以排列頁面自身。
      鏈接分析系統(tǒng)在其上實施的計算設備包括中央處理單元、存儲器、輸入設備(例如,鍵盤或指示設備)、輸出設備(例如,顯示設備),以及存儲設備(例如,硬盤驅動器)。存儲器和存儲設備是可以包含實施鏈接分析系統(tǒng)的指令的計算機可讀介質。此外,數(shù)據(jù)結構和信息結構可以經(jīng)由數(shù)據(jù)傳輸介質存儲或傳輸,諸如在通信鏈接上的信號。能使用各種通信鏈接,例如,因特網(wǎng)、局域網(wǎng)、廣域網(wǎng)或點對點撥號連接。
      附圖2描述其中可以實施鏈接分析系統(tǒng)的合適操作環(huán)境的示例。操作環(huán)境僅是合適操作環(huán)境的一個示例,而不是用于限制鏈接分析系統(tǒng)的用途或功能的范圍。其它適合使用的、已知計算機系統(tǒng)、環(huán)境和配置包括個人計算機,服務器計算機,手持或臺式計算機設備,多處理器系統(tǒng),基于微處理器的系統(tǒng),可編程用戶電子設備,網(wǎng)絡PC,微計算機,大型計算機,包括任何上述系統(tǒng)或設備的分布式計算環(huán)境,等等。
      可以在計算機可執(zhí)行指令的一般環(huán)境下描述鏈接分析系統(tǒng),所述指令諸如由一個或多個計算機或其它設備執(zhí)行的程序模塊。一般而言,程序模塊包括執(zhí)行特定任務或實施特定抽象數(shù)據(jù)類型的例行程序、程序、對象、組件、數(shù)據(jù)結構等。通常,可以根據(jù)各種實施例的需要來結合或分配程序模塊的功能。
      附圖3是描述在一個實施例中產(chǎn)生圖像到圖像的矩陣組件處理的流程圖。在塊301,組件識別存儲在網(wǎng)頁存儲裝置中的網(wǎng)頁內(nèi)的塊。在塊302,組件調(diào)用產(chǎn)生塊到頁面矩陣組件。在塊303,組件調(diào)用產(chǎn)生頁面到塊矩陣組件。在塊304,組件調(diào)用產(chǎn)生塊到圖像矩陣組件。在塊305,組件產(chǎn)生塊到塊矩陣。在塊306,組件產(chǎn)生圖像到圖像矩陣然后結束。
      附圖4是描述在一個實施例中產(chǎn)生塊到頁面的矩陣組件處理的流程圖。在塊401-408,組件循環(huán)選擇每個網(wǎng)頁,每個網(wǎng)頁內(nèi)的每個塊,以及每個塊內(nèi)的每個鏈接,并設置由該鏈接鏈接到塊的頁面的重要性。在塊401,組件選擇下一個頁面。在決定塊402,如果所有頁面都已經(jīng)選擇過了,那么組件返回到塊到頁面矩陣,否則組件繼續(xù)塊403。在塊403,組件選擇選中頁面的下一個塊。在決定塊404,如果選定頁面的所有塊都已選擇過了,那么組件循環(huán)到塊401以選擇下一個頁面,否則組件繼續(xù)塊405。在塊405,組件計算選中塊內(nèi)的鏈接數(shù)。在塊406,組件選擇選中塊的下一個鏈接的鏈接到頁面。在決定塊407,如果選定塊的所有鏈接到頁面都已經(jīng)選擇過了,那么組件循環(huán)到塊403以選擇下一個塊,否則組件繼續(xù)塊408。在塊408,組件設置鏈接到頁面到塊的重要性然后循環(huán)到塊406以選擇選中塊的下一個鏈接的鏈接到頁面。
      附圖5是描述在一個實施例中產(chǎn)生頁面到塊矩陣組件處理的流程圖。在塊501-506,組件循環(huán)選擇每個頁面和每個頁面內(nèi)的每個塊并設置塊到所選擇頁面的重要性。在塊501,組件選擇網(wǎng)頁存儲裝置的下一個頁面。在決定塊502,如果所有頁面都已選擇過了,那么組件返回到頁面到塊的矩陣,否則組件繼續(xù)塊503。在塊503,組件選擇所選定頁面的下一個塊。在決定塊504,如果選中頁面的所有塊都已經(jīng)選擇過了,那么組件循環(huán)到塊501以選擇下一個頁面,否則組件繼續(xù)塊505。在塊505,組件計算選中塊到選中頁面的重要性。在塊506,組件設置選中塊到選中頁面的重要性并然后循環(huán)到塊503以選擇選中頁面的下一個塊。
      附圖6是描述在一個實施例中,產(chǎn)生塊到圖像矩陣組件處理的流程圖。在塊601-607中,組件循環(huán)選擇每個頁面,每個頁面內(nèi)的每個塊,以及每個塊內(nèi)的每幅圖像,并設置圖像到選定塊的重要性。在塊601,組件選擇網(wǎng)頁存儲裝置的下一個頁面。在決定塊602,如果所有頁面都已選擇過了,那么組件返回塊到圖像矩陣,否則組件繼續(xù)塊603。在塊603,組件選擇選中頁面的下一個塊。在決定塊604,如果選定頁面的所有的塊都已經(jīng)選擇過了,那么組件循環(huán)到塊601以選擇下一個頁面,否則組件繼續(xù)到塊605。在塊605,組件計算選中塊的圖像數(shù)。在塊606,組件選擇選中塊的下一個圖像。在決定塊607,如果選定塊的所有的圖像都已經(jīng)選擇過了,那么組件循環(huán)到塊603已選擇下一個塊,否則組件繼續(xù)塊608。在塊608,組件設置選中圖像到選中塊的重要性然后循環(huán)到塊606以選擇選中塊的下一個圖像。
      熟知本領域的人士將理解,雖然這里為了便于解釋已描述鏈接分析系統(tǒng)的具體實施例,但是可在不背離本發(fā)明精神和范圍的情況下作出各種改變。因此,除了所附權利要求之外不能用于限制本發(fā)明。
      權利要求
      1.一種用于在計算機系統(tǒng)中確定頁面的塊內(nèi)圖像之間相關度的方法,該方法包括計算塊對頁面的重要性指標;計算頁面對塊的重要性指標;計算圖像對塊的重要性指標;以及通過結合塊對頁面的重要性指標、頁面對塊的重要性指標,以及圖像對塊的重要性指標,來計算一幅圖像對另一幅圖像的圖像對圖像的相關度指標。
      2.如權利要求1所述的方法,其中頁面對塊的重要性指標是用戶將從每個塊選擇指向每個其它頁面的鏈接的概率。
      3.如權利要求1所述的方法,其中塊對頁面的重要性指標是用戶將關注于頁面的每個塊的概率。
      4.如權利要求1所述的方法,其中圖像對塊的重要性指標是用戶將關注于每個塊的每幅圖像的概率。
      5.如權利要求1所述的方法,其中頁面對塊的重要性指標是用戶將從每個塊選擇指向每個其它頁面的鏈接的概率,塊對頁面的重要性指標是用戶將關注于頁面的每個塊的概率,以及圖像對塊的重要性指標是用戶將關注于每個塊的每幅圖像的概率。
      6.如權利要求1所述的方法,包括根據(jù)圖像對圖像的指標計算圖像的排列。
      7.如權利要求6所述的方法,其中所計算的排列是基于開始于任意圖像的用戶在圖像間進行任意多數(shù)量的轉移之后轉移到另一幅圖像的概率。
      8.如權利要求1所述的方法,其中如下計算圖像對圖像指標WI=YTWBY其中,WI是圖像對圖像的指標的矩陣,Y是圖像對塊的指標的矩陣,以及WB=ZX其中,WB是塊對塊的指標的矩陣,Z是頁面對塊的重要性指標的矩陣,以及X是塊對頁面的重要性指標的矩陣。
      9.如權利要求1所述的方法,包括根據(jù)圖像對圖像的指標產(chǎn)生每幅圖像的矢量表示;以及根據(jù)它們的矢量表示來識別圖像群,其中群中圖像是相關的。
      10.一種用于在計算機系統(tǒng)中確定頁面中塊之間的相關度的方法,該方法包括計算頁面對塊的重要性指標;計算塊對頁面的重要性指標;以及通過結合塊對頁面的重要性指標和頁面對塊的重要性指標,來計算一個塊到另一個塊的塊到塊的相關度指標。
      11.如權利要求10所述的方法,其中頁面對塊的重要性指標是用戶將從每個塊選擇指向每個其它網(wǎng)頁的鏈接的概率。
      12.如權利要求10所述的方法,其中塊對頁面的重要性指標是用戶將關注于頁面內(nèi)每個塊的概率。
      13.如權利要求10所述的方法,其中頁面對塊的重要性指標是用戶將從每個塊選擇將指向每個其它網(wǎng)頁的鏈接的概率,以及塊對頁面的重要性指標是用戶將關注于頁面每個塊的概率。
      14.如權利要求10所述的方法,包括根據(jù)塊到塊指標計算塊的排列。
      15.如權利要求14所述的方法,其中所計算的排列是基于開始于任意塊的用戶在圖像間進行任意多數(shù)量的轉移之后轉移到另一幅圖像的概率。
      16.如權利要求10所述的方法,其中如下計算塊到塊的指標WB=ZX其中X是塊對頁面的重要性指標的矩陣,以及Z是頁面對塊的重要性指標的矩陣。
      17.一種用于在計算機系統(tǒng)中確定具有塊的頁面之間相關度的方法,該方法包括計算頁面對塊的重要性指標;計算塊對頁面的重要性指標;以及通過結合塊對頁面的指標和頁面對塊的指標,來計算一個頁面對另一個頁面的頁面到頁面的相關度指標。
      18.如權利要求17所述的方法,其中頁面對塊的重要性指標是用戶將從每個塊選擇指向每個其它網(wǎng)頁的鏈接的概率。
      19.如權利要求17所述的方法,其中塊對頁面的重要性指標是用戶將關注于頁面每個塊的概率。
      20.如權利要求17所述的方法,其中塊對頁面的重要性指標是用戶將關注于頁面每個塊的概率,以及頁面對塊的重要性指標是用戶將從每個塊選擇指向每個其它網(wǎng)頁的鏈接的概率。
      21.如權利要求17所述的方法,包括根據(jù)頁面到頁面指標計算頁面的排列。
      22.如權利要求21所述的方法,其中所計算的排列是基于開始于任意頁面的用戶在圖像間進行任意多數(shù)量的轉移之后轉移到另一幅圖像的概率。
      23.如權利要求17所述的方法,其中如下計算頁面到頁面的指標WP=WZ其中,WP是頁面到頁面的指標的矩陣,X是塊對頁面的重要性指標的矩陣,以及Z是頁面對塊的重要性指標的矩陣。
      24.一種用于在計算機系統(tǒng)中識別在具有鏈接的頁面上的相關圖像的方法,每個鏈接從包含圖像的頁面上的塊指向具有包含另一幅圖像的另一個塊的頁面,該方法包括對于每幅圖像,對每一其他圖像計算如果用戶正在瀏覽該圖像那么用戶將選擇從包含該圖像的頁面上的塊指向具有包含該其他圖像的塊的另一頁面的鏈接的概率;對于每幅圖像,根據(jù)計算的概率,產(chǎn)生該圖像的矢量表示;以及根據(jù)圖像的矢量表示來識別圖像群,其中群中的圖像是相關的。
      25.如權利要求24所述的方法,其中產(chǎn)生矢量表示包括選擇最小化目標函數(shù)的矢量表示。
      26.如權利要求26所述的方法,其中目標函數(shù)是每對圖像的矢量表示之間距離的平方和乘以來自所計算的概率的該圖像對的相似性。
      27.如權利要求24所述的方法,其中計算概率包括計算表明用戶將從每個塊選擇指向每個其它頁面的鏈接的概率的概率,表明用戶將關注于該頁面的每個塊的概率的概率,以及表明用戶將關注于每個塊的每個圖像的概率的概率。
      28.一種計算機可讀介質,包含用于控制計算機系統(tǒng)確定頁面單元之間的相關度的指令,該方法包括計算第一單元對第二單元的重要性指標;計算第二單元對第一單元的重要性指標;以及通過結合第一單元對第二單元的重要性指標以及第二單元對第一單元的重要性指標,來計算第一單元對另一個第一單元的相關度指標。
      29.如權利要求28的計算機可讀介質,其中第一單元是頁面而第二單元是頁面的塊。
      30.如權利要求28的計算機可讀介質,其中第一單元是頁面的塊而第二單元是頁面。
      31.如權利要求28的計算機可讀介質,其中第一單元是頁面的塊的圖像而第二單元是塊。
      32.如權利要求28的計算機可讀介質,其中重要性指標是概率。
      33.一種用于確定頁面的塊內(nèi)圖像之間相關度的計算機系統(tǒng),包括頁面對塊的重要性指標;塊對頁面的重要性指標;圖像對塊的重要性指標;以及用于通過結合塊對頁面的重要性指標、頁面對塊的重要性指標、以及圖像對塊的指標,來計算一幅圖像到另一幅圖像的圖像對圖像的相關度指標的裝置。
      34.如權利要求33的計算機系統(tǒng)包括用于將頁面對塊的重要性指標計算為用戶將從每個塊選擇指向每個其它頁面的概率的裝置。
      35.如權利要求33的計算機系統(tǒng)包括用于將塊對頁面的重要性指標計算為用戶將關注于頁面的每個塊的概率的裝置。
      36.如權利要求33的計算機系統(tǒng)包括用于將圖像對塊的重要性指標計算為用戶將關注于每個塊的每個圖像的裝置。
      37.如權利要求33的計算機系統(tǒng)包括用于根據(jù)圖像對圖像的指標來計算圖像排列的裝置。
      38.如權利要求37的計算機系統(tǒng),其中所計算的排列是基于開始于任意圖像的用戶在圖像間進行任意多數(shù)量的轉移之后轉移到另一幅圖像的概率。
      39.如權利要求33的計算機系統(tǒng)包括用于根據(jù)圖像對圖像的指標來產(chǎn)生每幅圖像的矢量表示的裝置;以及用于根據(jù)圖像的矢量表示來識別圖像群的裝置,其中群中的圖像是相關的。
      全文摘要
      一種用于根據(jù)鏈接和頁面布局分析來確定頁面圖像相關度的方法和系統(tǒng)。鏈接分析系統(tǒng)通過首先識別網(wǎng)頁內(nèi)的塊,然后分析塊對網(wǎng)頁、網(wǎng)頁對塊、以及圖像對塊的重要性,來確定圖像之間的相關度。根據(jù)該分析,鏈接分析系統(tǒng)確定每幅圖像與其它各幅圖像的相關度。鏈接分析系統(tǒng)也可以使用圖像的相關度產(chǎn)生圖像的排列。鏈接分析系統(tǒng)也可以根據(jù)圖像的相關度產(chǎn)生圖像的矢量表示,并將群集算法應用于矢量表示以識別相關圖像群。
      文檔編號G06F17/30GK1694102SQ20051007922
      公開日2005年11月9日 申請日期2005年4月29日 優(yōu)先權日2004年4月29日
      發(fā)明者蔡登 , 文繼榮, 馬維英, X·何 申請人:微軟公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1