国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于配對圖片搜索的方法和提供配對圖片的搜索系統(tǒng)的制作方法

      文檔序號:6368813閱讀:256來源:國知局
      專利名稱:用于配對圖片搜索的方法和提供配對圖片的搜索系統(tǒng)的制作方法
      技術領域
      本發(fā)明涉及互聯(lián)網搜索技術領域,尤其涉及一種用于配對圖片搜索的方法和提供配對圖片的搜索系統(tǒng)。
      背景技術
      在互聯(lián)網的圖片資源中,部分圖片是以配對的形式向用戶展現(xiàn)的。用戶可以通過搜索引擎輸入關鍵詞進行配對圖片的搜索,通過用戶搜索行為的統(tǒng)計分析得出在圖片配對的需求占總需求量的0. 9%。現(xiàn)有技術中,由于檢索系統(tǒng)構架和通用流程等問題,配對圖片是分散的,不滿足用戶需求,用戶體驗差。

      發(fā)明內容
      本發(fā)明旨在至少解決現(xiàn)有技術中存在的技術問題之一。為此,本發(fā)明的第一個目的在于提出一種可將搜索結果按照連續(xù)配對的方式反饋給用戶以提升用戶體驗的用于配對圖片搜索的方法。本發(fā)明的第二個目的在于提出一種用于配對圖片搜索的系統(tǒng)。為了實現(xiàn)上述目的,本發(fā)明的第一方面實施例的用于配對圖片搜索的方法包括以下步驟搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁;從所述抓取的源站點網頁中獲得所述源站點網頁中的圖片;按照所述原始站點對獲得的所述圖片進行聚類以生成多個已收錄站點圖片集;對每個所述已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片;以及所述搜索系統(tǒng)根據用戶的搜索要求為所述用戶提供相應的配對圖片。根據本發(fā)明實施例的用于配對圖片搜索的方法,搜索系統(tǒng)對已收錄站點圖片集中的圖片進行匹配分析生成多個配對圖片之后,根據用戶的搜索要求將結果按照連續(xù)配對的方式反饋給用戶,滿足用戶需求,提升用戶體驗。為了實現(xiàn)上述目的,本發(fā)明的第二方面實施例的用于提供配對圖片的搜索系統(tǒng)包括抓取裝置,用于根據搜索信息從各個原始站點抓取源站點網頁;匹配處理裝置,用于從所述抓取的源站點網頁中獲得所述源站點網頁中的圖片,并按照所述原始站點對獲得的所述圖片進行聚類以生成多個已收錄站點圖片集,以及對每個所述已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片;以及搜索提供裝置,用于根據用戶的搜索要求為所述用戶提供相應的配對圖片。根據本發(fā)明實施例的用于提供配對圖片的搜索系統(tǒng),通過匹配處理裝置對已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片,然后搜索提供裝置根據用戶的搜索要求將結果按照通過提供模塊以連續(xù)配對的方式反饋給用戶,滿足用戶需求,提升用戶體驗。本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。


      本發(fā)明的上述和/或附加的方面和優(yōu)點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中圖I是根據本發(fā)明一個實施例的用于配對圖片搜索的方法的流程圖;圖2是根據本發(fā)明一個實施例的用于配對圖片搜索的方法的流程圖;圖3是根據本發(fā)明一個實施例的用于配對圖片搜索的方法的流程圖;圖4是根據本發(fā)明一個實施例的用于配對圖片搜索的方法的示意圖; 圖5是根據本發(fā)明一個實施例的用于配對圖片搜索的方法的流程圖;圖6是根據本發(fā)明一個實施例的用于配對圖片搜索的方法的流程圖;圖7是根據本發(fā)明一個實施例的用于提供配對圖片的搜索系統(tǒng)的結構框圖;圖8是根據本發(fā)明一個實施例的用于提供配對圖片的搜索系統(tǒng)的結構框圖;圖9是根據本發(fā)明實施例的匹配分析模塊的結構框圖;圖10是根據本發(fā)明實施例的匹配分析模塊的結構框圖;以及圖11是根據本發(fā)明一個實施例的用于提供配對圖片的搜索系統(tǒng)的結構框圖。
      具體實施例方式下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。在本發(fā)明的描述中,術語“縱向”、“橫向”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了便于描述本發(fā)明而不是要求本發(fā)明必須以特定的方位構造和操作,因此不能理解為對本發(fā)明的限制。下面參考說明書附圖描述根據本發(fā)明實施例的用于配對圖片搜索的方法。一種用于配對圖片搜索的方法,包括以下步驟搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁;從抓取的源站點網頁中獲得源站點網頁中的圖片;按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集;對每個已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片;以及搜索系統(tǒng)根據用戶的搜索要求為用戶提供相應的配對圖片。圖I為本發(fā)明一個實施例的用于配對圖片搜索的方法的流程圖。如圖I所示,根據本發(fā)明實施例的用于配對圖片搜索的方法包括下述步驟。步驟S101,搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁。其中,配對圖片對應的原始站點數據集中且文本特征顯明,原始站點的網頁數據段中包括重要的數據字段如alt和title等,搜索信息可包括關鍵詞和閾值等。具體地,首先搜索系統(tǒng)將多個關鍵詞與重要的數據字段的文本內容進行匹配,獲取多個關鍵詞的適應權重w_offset,然后根據適應權重w_offset和多個關鍵詞權重w_query計算匹配權值w_final,例如 w_final = (max_offset-offset) / (max_offset) *w_offset+w_query,其中max_offset為多個關鍵詞中的最大適用值,offset為平均適應值,搜索系統(tǒng)將匹配權值w_final與設置的閾值比較,如果匹配權值w_final大于所設置的閾值,則搜索系統(tǒng)判斷命中該站點并抓取該站點相應的源站點圖片。 其中,關鍵詞可以包括配對、對稱、一對、兩張、男女、左右、一左一右、一男一女、一組、分開和卡通動漫等。在實際的抓取過程中可能獲取不滿足要求的配對圖片,例如在進行情侶頭像的配對中抓取女女或者男男的配對圖,此時可以設置對原始站點進行降權處理的關鍵詞,例如,姐妹、男生、男孩、女生和女孩等。步驟S102,從抓取的源站點網頁中獲得源站點網頁中的圖片。步驟S103,按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集。具體地,將屬于一個原始站點的圖片匯聚到一個類中,然后生成多個已收錄站點圖片集。其中,已收錄站點圖片集是被搜索系統(tǒng)所收錄的,源站點圖片集中包括被搜索系統(tǒng)收錄的圖片和未被搜索系統(tǒng)收錄的圖片。步驟S104,對每個已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片。步驟S105,搜索系統(tǒng)根據用戶的搜索要求為用戶提供相應的配對圖片。根據本發(fā)明實施例的用于配對圖片搜索的方法,搜索系統(tǒng)對已收錄站點圖片集中的圖片進行匹配分析生成多個配對圖片之后,根據用戶的搜索要求將結果按照連續(xù)配對的方式反饋給用戶,滿足用戶需求,提升用戶體驗。圖2為本發(fā)明一個實施例的用于配對圖片搜索的方法的流程圖。如圖2所示,根據本發(fā)明實施例的用于配對圖片搜索的方法包括下述步驟。步驟S201,搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁。 步驟S202,從抓取的源站點網頁中獲得源站點網頁中的圖片。步驟S203,按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集。步驟S204,對源站點網頁進行分析以生成源站點圖片集。步驟S205,獲取源站點網頁中的HTML格式文件和CSS格式文件。步驟S206,根據HTML格式文件中的各個標簽建立DOM-Tree。步驟S207,根據CSS格式文件和DOM-Tree分析源站點圖片集中圖片在源站點網頁中的位置以獲得源站點圖片集中圖片的位置信息。步驟S208,根據位置信息對已收錄站點圖片集中的圖片進行匹配分析。例如,可設置位置閾值,將閾值范圍內已收錄站點圖片集的圖片進行匹配分析。步驟S209,搜索系統(tǒng)根據用戶的搜索要求為用戶提供相應的配對圖片。根據本發(fā)明實施例的用于配對圖片搜索的方法,通過源站點網頁的DOM-Tree獲取源站點圖片集中圖片的位置信息,根據位置信息對已收錄站點圖片集中的圖片進行匹配分析,簡單易行。圖3為本發(fā)明一個實施例的用于配對圖片搜索的方法的流程圖。 如圖3所示,根據本發(fā)明實施例的用于配對圖片搜索的方法包括下述步驟。步驟S301,搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁。步驟S302,從抓取的源站點網頁中獲得源站點網頁中的圖片。步驟S303,按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集。步驟S304,對源站點網頁進行分析以生成源站點圖片集。步驟S305,獲取源站點網頁中的HTML格式文件和CSS格式文件。
      步驟S306,根據HTML格式文件中的各個標簽建立DOM-Tree。步驟S307,根據CSS格式文件和DOM-Tree分析源站點圖片集中圖片在源站點網頁中的位置以獲得源站點圖片集中圖片的位置信息。步驟S308,根據位置信息獲得已收錄站點圖片集中每個圖片的位置信息。步驟S309,根據已收錄站點圖片集生成已收錄站點圖片集在源站點網頁中對應的第一范圍。如圖4(a)所示為源站點中每個圖片按照位置信息分布示意圖,其中每個小方塊代表一個圖片,為了說明方便將每個圖片進行了編號,圖4(b)所示為源站點中對應已收錄站點圖片按照位置信息分布示意圖,則確定圖4(b)中5’至9’之間的范圍為第一范圍。步驟S310,根據源站點圖片集和第一范圍獲得第一范圍內的所有圖片。如圖4(c)中所示,根據源站點圖片集和第一范圍獲取第一范圍內的所有圖片5(5’)、6、7(7’)、8(8’)和 9(9,)。在本發(fā)明的一個實施例中,計算第一范圍內圖片的數量,如果第一范圍內圖片的數量小于預設值,則過濾第一范圍內所有圖片。在本發(fā)明的一個實施例中,將第一范圍內不滿足圖片大小要求的圖片去除。例如,過大圖片、過小圖片或者噪聲圖片等。步驟S311,計算第一范圍內的所有圖片之間的第一平均間隔,并根據第一平均間隔及預設的比例將第一范圍擴大至第二范圍。如圖4(d)所示,按照設置的比例1.6倍將第一范圍向前向后做偏移,其中預設的比例還可設置其他比例。步驟S312,對已收錄站點圖片集中的屬于第二范圍的圖片進行匹配分析。例如,如圖4(d)所示,經過匹配分析得出第二范圍內7’和8,為配對圖片。步驟S313,搜索系統(tǒng)根據用戶的搜索要求為用戶提供相應的配對圖片。

      根據本發(fā)明實施例的用于配對圖片搜索的方法,根據位置信息擴大配對圖片的匹配分析范圍,提高匹配分析的準確性。圖5為本發(fā)明一個實施例的用于配對圖片搜索的方法的流程圖。如圖5所示,根據本發(fā)明實施例的用于配對圖片搜索的方法包括下述步驟。步驟S401,搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁。步驟S402,從抓取的源站點網頁中獲得源站點網頁中的圖片。步驟S403,按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集。步驟S404,對源站點網頁進行分析以生成源站點圖片集。步驟S405,獲取源站點網頁中的HTML格式文件和CSS格式文件。步驟S406,根據HTML格式文件中的各個標簽建立DOM-Tree。步驟S407,根據CSS格式文件和DOM-Tree分析源站點圖片集中圖片在源站點網頁中的位置以獲得源站點圖片集中圖片的位置信息。步驟S408,根據位置信息獲得已收錄站點圖片集中每個圖片的位置信息。步驟S409,根據已收錄站點圖片集生成已收錄站點圖片集在源站點網頁中對應的
      第一范圍。步驟S410,根據源站點圖片集和第一范圍獲得第一范圍內的所有圖片。在本發(fā)明的一個實施例中,計算第一范圍內圖片的數量,如果第一范圍內圖片的數量小于預設值,則過濾第一范圍內所有圖片。
      在本發(fā)明的一個實施例中,將第一范圍內不滿足圖片大小要求的圖片去除。例如,過大圖片、過小圖片或者噪聲圖片等。步驟S411,計算第一范圍內的所有圖片之間的第一平均間隔,并根據第一平均間隔及預設的比例將第一范圍擴大至第二范圍。步驟S412,去除第二范圍內不滿足要求的圖片,并再次計算第二范圍內圖片的第二平均間隔。在本發(fā)明的一個實施例中,判斷第二范圍內超鏈接的數量是否大于閾值,如果大于閾值,則過濾第二范圍內的所有圖片。步驟S413,根據第二平均間隔及預設的比例將第二范圍擴大至第三范圍。其中,第 三范圍的擴大與第二范圍的擴大方法相同。步驟S414,計算屬于第三范圍內圖片之間的匹配度。在本發(fā)明的一個實施例中,匹配度通過位置關系權重值、顏色相似度權重值、圖片大小權重值、圖片顯著區(qū)域相似度權重值、圖片背景區(qū)域相似度權重值、圖片連續(xù)性權重值中的一種或多種計算得到。步驟S415,根據匹配度確定第三范圍內的配對圖片。步驟S416,判斷確定的配對圖片均屬于已收錄站點圖片集。步驟S417,如果確定的配對圖片均屬于已收錄站點圖片集,則將配對圖片作為已收錄站點圖片集中的配對圖片并保存。例如,將配對圖片保存到配對字典之中。步驟S418,確定的配對圖片均不屬于已收錄站點圖片集,則丟棄該配對圖片。例如,配對圖片中有一張是屬于已收錄站點圖片集,另一張是屬于源站點圖片集,或者配對圖片均屬于源站點圖片集,將該配對圖片丟棄。步驟S419,搜索系統(tǒng)根據用戶的搜索要求為用戶提供相應的配對圖片。根據本發(fā)明實施例的用于配對圖片搜索的方法,重新計算第二范圍內的圖片平均間隔并將匹配分析的范圍擴大至第三范圍,進一步提高匹配分析的準確性。圖6為本發(fā)明一個實施例的用于配對圖片搜索的方法的流程圖。如圖6所示,根據本發(fā)明實施例的用于配對圖片搜索的方法包括下述步驟。步驟S501,搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁。步驟S502,從抓取的源站點網頁中獲得源站點網頁中的圖片。步驟S503,按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集。步驟S504,對源站點網頁進行分析以生成源站點圖片集。步驟S505,獲取源站點網頁中的HTML格式文件和CSS格式文件。步驟S506,根據HTML格式文件中的各個標簽建立DOM-Tree。步驟S507,根據CSS格式文件和DOM-Tree分析源站點圖片集中圖片在源站點網頁中的位置以獲得源站點圖片集中圖片的位置信息。步驟S508,根據位置信息獲得已收錄站點圖片集中每個圖片的位置信息。步驟S509,根據已收錄站點圖片集生成已收錄站點圖片集在源站點網頁中對應的
      第一范圍。步驟S510,根據源站點圖片集和第一范圍獲得第一范圍內的所有圖片。在本發(fā)明的一個實施例中,計算第一范圍內圖片的數量,如果第一范圍內圖片的數量小于預設值,則過濾第一范圍內所有圖片。在本發(fā)明的一個實施例中,將第一范圍內不滿足圖片大小要求的圖片去除。例如,過大圖片、過小圖片或者噪聲圖片等。步驟S511,計算第一范圍內的所有圖片之間的第一平均間隔,并根據第一平均間隔及預設的比例將第一范圍擴大至第二范圍。步驟S512,去除第二范圍內不滿足要求的圖片,并再次計算第二范圍內圖片的第二平均間隔。
      在本發(fā)明的一個實施例中,判斷第二范圍內超鏈接的數量是否大于閾值,如果大于閾值,則過濾第二范圍內的所有圖片。步驟S513,根據第二平均間隔及預設的比例將第二范圍擴大至第三范圍。其中,第三范圍的擴大與第二范圍的擴大方法相同。步驟S514,計算屬于第三范圍內圖片之間的匹配度。在本發(fā)明的一個實施例中,匹配度通過位置關系權重值、顏色相似度權重值、圖片大小權重值、圖片顯著區(qū)域相似度權重值、圖片背景區(qū)域相似度權重值、圖片連續(xù)性權重值中的一種或多種計算得到。步驟S515,根據匹配度確定第三范圍內的配對圖片。步驟S516,判斷確定的配對圖片均屬于已收錄站點圖片集。步驟S517,如果確定的配對圖片均屬于已收錄站點圖片集,則將配對圖片作為已收錄站點圖片集中的配對圖片并保存。在本發(fā)明的一個實施例中,搜索系統(tǒng)包括多級搜索模塊,且配對圖片保存在配對字典之中,其中,中級搜索模塊與多個下級搜索模塊相連,上級搜索模塊與多個中級搜索模塊相連。具體地,保存在配對字典之中的配對圖片包括該圖片的ID、配對圖片ID等。步驟S518,確定的配對圖片均不屬于已收錄站點圖片集,則丟棄該配對圖片。例如,配對圖片中有一張是屬于已收錄站點圖片集,另一張是屬于源站點圖片集,或者配對圖片均屬于源站點圖片集,將該配對圖片丟棄。步驟S519,下級搜索模塊根據搜索要求生成初級搜索結果。步驟S520,下級搜索模塊從初級搜索結果中選擇屬于配對字典的圖片,并對選擇的圖片的相關性信息進行加權提檔處理。步驟S521,下級搜索模塊按照圖片的相關性信息將預定數目的圖片上傳至中級搜索模塊。其中,圖片的相關性信息主要涉及圖片的質量和配對信息,如果圖片為配對圖片則對將其相關性進行加權處理,由此保證下級搜索模塊將高質量的配對圖片上傳至中級搜索模塊,例如將加權之后的相關性排列在前的2000個圖片上傳至中級搜索模塊。步驟S522,中級搜索模塊將多個下級搜索模塊發(fā)送的圖片加入至中間配對字典之中,并對經過下級搜索模塊加權提檔處理的圖片進行恢復降檔處理。其中,判斷接收到的圖片是否被下級搜索模塊加權提檔,如果進行加權提檔則進行恢復降檔處理。步驟S523,中級搜索模塊對中間配對字典中成對的圖片進行加權提檔處理,并按照圖片的相關性信息將預定數目的圖片上傳至上級搜索模塊。步驟S524,上級搜索模塊對多個中級搜索模塊上傳的圖片進行重新排序,將成對的圖片的顯示位置提前并做相鄰處理。
      根據本發(fā)明實施例的用于配對圖片搜索的方法,通過初級搜索模塊將配對圖片進行提檔以確定高質量的配對圖片上傳到中級搜索模塊,中級搜索模塊將成對的圖片進行加權提檔處理并上傳到上級搜索模塊,上級搜索模塊對上傳的圖片進行重新排序并將成對的圖片的顯示位置提前并做相鄰處理,實現(xiàn)搜索結果按照連續(xù)配對進行呈現(xiàn),進一步提升用戶體驗。為了實現(xiàn)上述實施例,本發(fā)明又提出一種用于配對圖片搜索的系統(tǒng)。下面參考說明書附圖描述根據本發(fā)明實施例的用于配對圖片搜索的系統(tǒng)。一種用于提供配對圖片的搜索系統(tǒng),包括抓取裝置,用于根據搜索信息從各個原始站點抓取源站點網頁;匹配處理裝置,用于從抓取的源站點網頁中獲得源站點網頁中的圖片,并按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集,以及對每個已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片;以及搜索提供裝置,用于根據用戶的搜索要求為用戶提供相應的配對圖片。
      圖7為本發(fā)明一個實施例的用于提供配對圖片的搜索系統(tǒng)的結構框圖。如圖7所示,根據本發(fā)明實施例的用于提供配對圖片的搜索系統(tǒng)包括抓取裝置100、匹配處理裝置200和搜索提供裝置300。具體地,抓取模塊100用于搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁。其中,配對圖片對應的原始站點數據集中且文本特征顯明,原始站點的網頁數據段中包括重要的數據字段如alt和title等,搜索信息可包括關鍵詞和閾值等。具體地,抓取模塊100首先搜索系統(tǒng)將多個關鍵詞與重要的數據字段的文本內容進行匹配,獲取多個關鍵詞的適應權重w_offset,然后根據適應權重w_offset和多個關鍵詞權重w_query計算匹配權值 w_final,例如 w_final = (max_offset-offset) / (max_offset)氺w_offset+w_query,其中max_offset為多個關鍵詞中的最大適用值,offset為平均適應值,搜索系統(tǒng)將匹配權值w_final與設置的閾值比較,如果匹配權值w_final大于所設置的閾值,則搜索系統(tǒng)判斷命中該站點并抓取該站點相應的源站點圖片。其中,關鍵詞可以包括配對、對稱、一對、兩張、男女、左右、一左一右、一男一女、一組、分開和卡通動漫等。在實際的抓取過程中可能獲取不滿足要求的配對圖片,例如在進行情侶頭像的配對中抓取女女或者男男的配對圖,此時可以設置對原始站點進行降權處理的關鍵詞,例如,姐妹、男生、男孩、女生和女孩等。匹配處理裝置200用于從抓取的源站點網頁中獲得源站點網頁中的圖片,并按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集,以及對每個已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片。其中匹配處理裝置200將屬于一個原始站點的圖片匯聚到一個類中,然后生成多個已收錄站點圖片集,已收錄站點圖片集是被搜索系統(tǒng)所收錄的,源站點圖片集中包括被搜索系統(tǒng)收錄的圖片和未被搜索系統(tǒng)收錄的圖片。搜索提供裝置300用于根據用戶的搜索要求為用戶提供相應的配對圖片。根據本發(fā)明實施例的用于提供配對圖片的搜索系統(tǒng),通過匹配處理裝置對已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片,然后搜索提供裝置根據用戶的搜索要求將結果按照通過提供模塊以連續(xù)配對的方式反饋給用戶,滿足用戶需求,提升用戶體驗。
      圖8為本發(fā)明一個實施例的用于提供配對圖片的搜索系統(tǒng)的結構框圖。如圖8所示,根據本發(fā)明實施例的用于提供配對圖片的搜索系統(tǒng)包括抓取裝置100、匹配處理裝置200和搜索提供裝置300,其中匹配處理裝置200包括圖片集生成模塊210、位置信息獲取模塊220和匹配分析模塊230。具體地,抓取模塊100用于搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁。匹配處理裝置200用于從抓取的源站點網頁中獲得源站點網頁中的圖片,并按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集,以及對每個已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片。搜索提供裝置300用于根據用戶的搜索要求為用戶提供相應的配對圖片。在本發(fā)明的一個實施例中,匹配處理裝置200包括圖片集生成模塊210、位置信息獲取模塊220和匹配分析模塊230。具體地,圖片集生成模塊210用于對源站點網頁進行分析以生成源站點圖片集。位置信息獲取模塊220用于獲取源站點網頁中的HTML格式文件和CSS格式文件,并根據HTML格式文件中的各個標簽建立DOM-Tree,以及根據CSS格式文件和DOM-Tree分析源站點圖片集中圖片在源站點網頁中的位置以獲得源站點圖片集中圖片的位置信息。匹配分析模塊230用于根據位置信息對已收錄站點圖片集中的圖片進行匹配分析,例如,匹配分析模塊230可設置位置閾值,將閾值范圍內已收錄站點圖片集的圖片進行匹配分析。根據本發(fā)明實施例的用于提供配對圖片的搜索系統(tǒng),根據位置信息獲取模塊通過源站點網頁的DOM-Tree獲取源站點圖片集中圖片的位置信息,匹配分析模塊根據位置信息對已收錄站點圖片集中的圖片進行匹配分析,簡單易行。圖9為本發(fā)明實施例的匹配分析模塊230的結構框圖。如圖9所示,根據本發(fā)明實施例的匹配分析模塊230包括第一范圍生成單元231、第二范圍生成單元232和匹配分析單元233。具體地,第一范圍生成單元231用于根據位置信息獲得已收錄站點圖片集中每個圖片的位置信息,并根據已收錄站點圖片集生成已收錄站點圖片集在源站點網頁中對應的第一范圍。例如圖4(a)所示為源站點中每個圖片按照位置信息分布示意圖,其中每個小方塊代表一個圖片,為了說明方便將每個圖片進行了編號,圖4(b)所示為源站點中對應已收錄站點圖片按照位置信息分布示意圖,則確定圖4(b)中5’至9’之間的范圍為第一范圍。第二范圍生成單元232用于根據源站點圖片集和第一范圍獲得第一范圍內的所有圖片,并計算第一范圍內的所有圖片之間的第一平均間隔,以及根據第一平均間隔及預設的比例將第一范圍擴大至第二范圍。例如圖4(c)中所示,根據源站點圖片集和第一范圍獲取第一范圍內的所有圖片5(5’)、6、7(7’)、8(8’)和9(9’),如圖4((1)所示,按照設置的比例I. 6倍將第一范圍向前向后做偏移,其中預設的比例還可設置其他比例。匹配分析單元233對已收錄站點圖片集中的屬于第二范圍的圖片進行匹配分析。例如圖4(d)所示,經過匹配分析得出第二范圍內V和8’為配對圖片。根據本發(fā)明實施例的匹配分析模塊可以根據位置信息擴大配對圖片的匹配分析范圍,提高匹配分析的準確性。圖10為本發(fā)明實施例的匹配分析模塊230的結構框圖。如圖10所示,根據本發(fā)明實施例的匹配分析模塊230包括第一范圍生成單元231、第二范圍生成單元232和匹配分析單元233,其中匹配分析單元233包括去除子單元2331、第三范圍生成子單元2332、匹配度計算子單元2333和配對確定子單元2334。具體地,第一范圍生成單元231用于根據位置信息獲得已收錄站點圖片集中每個圖片的位置信息,并根據已收錄站點圖片集生成已收錄站點圖片集在源站點網頁中對應的第一范圍。第二范圍生成單元232用于根據源站點圖片集和第一范圍獲得第一范圍內的所有圖片,并計算第一范圍內的所有圖片之間的第一平均間隔,以及根據第一平均間隔及預設的比例將第一范圍擴大至第二范圍。匹配分析單元233對已收錄站點圖片集中的屬于第二范圍的圖片進行匹配分析。在本發(fā)明的一個實施例中,匹配分析單元233包括去除子單元2331、第三范圍生成子單元2332、匹配度計算子單元2333和配對確定子單元2334。 具體地,去除子單元2331用于去除第二范圍內不滿足要求的圖片。在本發(fā)明的一個實施例中,去除子單元2331還用于計算第一范圍內圖片的數量,如果第一范圍內圖片的數量小于預設值,則過濾第一范圍內所有圖片。在本發(fā)明的一個實施例中,去除子單元2331還用于將第一范圍內不滿足圖片大小要求的圖片去除。例如,過大圖片、過小圖片或者噪聲圖片等。第三范圍生成子單元2332用于再次計算第二范圍內圖片的第二平均間隔,并根據第二平均間隔及預設的比例將第二范圍擴大至第三范圍。其中,第三范圍的擴大與第二范圍的擴大方法相同。匹配度計算子單元2333用于計算屬于第三范圍內圖片之間的匹配度。具體地,匹配度通過位置關系權重值、顏色相似度權重值、圖片大小權重值、圖片顯著區(qū)域相似度權重值、圖片背景區(qū)域相似度權重值、圖片連續(xù)性權重值中的一種或多種計算得到。配對確定子單元2334用于根據匹配度確定第三范圍內的配對圖片,并在確定的配對圖片均屬于已收錄站點圖片集時,將配對圖片作為已收錄站點圖片集中的配對圖片并保存,例如,將配對圖片保存到配對字典之中,其中如果確定配對圖片均不屬于已收錄站點圖片集,則丟棄該配對圖片,例如,配對圖片中有一張是屬于已收錄站點圖片集,另一張是屬于源站點圖片集,或者配對圖片均屬于源站點圖片集,將該配對圖片丟棄。在本發(fā)明的一個實施例中,匹配分析單元還包括判斷子單元(圖中未示出),判斷子單元用于判斷第二范圍內超鏈接的數量是否大于閾值,其中,去除子單元2331還用于在大于閾值時過濾第二范圍內的所有圖片。由此提高準確性。根據本發(fā)明實施例的匹配分析模塊可以重新計算第二范圍內的圖片平均間隔并將匹配分析的范圍擴大至第三范圍,進一步提高匹配分析的準確性。圖11為本發(fā)明一個實施例的用于提供配對圖片的搜索系統(tǒng)的結構框圖。如圖11所示,根據本發(fā)明實施例的用于提供配對圖片的搜索系統(tǒng)包括抓取裝置100、匹配處理裝置200和搜索提供裝置300,其中搜索提供裝置300包括初級搜索結果生成模塊310、第一加權處理模塊320、降權處理模塊330、第二加權處理模塊340和排序模塊350。具體地,抓取模塊100用于搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁。匹配處理裝置200用于從抓取的源站點網頁中獲得源站點網頁中的圖片,并按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集,以及對每個已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片。搜索提供裝置300用于根據用戶的搜索要求為用戶提供相應的配對圖片。在本發(fā)明的一個實施例中,搜索系統(tǒng)包括多級搜索模塊,且配對圖片保存在配對字典之中,其中,中級搜索模塊與多個下級搜索模塊相連,上級搜索模塊與多個中級搜索模塊相連。具體地,保存在配對字典之中的配對圖片包括該圖片的ID、配對圖片ID等。在本發(fā)明的一個實施例中,搜索提供裝置300包括初級搜索結果生成模塊310、第一加權處理模塊320、降權處理模塊330、第二加權處理模塊340和排序模塊350。具體地,初級搜索結果生成模塊310用于下級搜索模塊根據搜索要求生成初級搜索結果。第一加權處理模塊320用于下級搜索模塊從初級搜索結果中選擇屬于配對字典的圖片,并對選擇的圖片的相關性信息進行加權提檔處理,以及下級搜索模塊按照圖片的相關性信息將預定數目的圖片上傳至中級搜索模塊。其中,圖片的相關性信息主要涉及圖 片的質量和配對信息,如果圖片為配對圖片則通過第一加權處理模塊320對將其相關性進行加權處理,由此保證下級搜索模塊將高質量的配對圖片上傳至中級搜索模塊,例如將加權之后的相關性排列在前的2000個圖片上傳至中級搜索模塊。降權處理模塊330用于中級搜索模塊將多個下級搜索模塊發(fā)送的圖片加入至中間配對字典之中,并對經過下級搜索模塊加權提檔處理的圖片進行恢復降檔處理。其中,判斷接收到的圖片是否被下級搜索模塊加權提檔,如果進行加權提檔則進行恢復降檔處理。第二加權處理模塊340用于中級搜索模塊對中間配對字典中成對的圖片進行加權提檔處理,并按照圖片的相關性信息將預定數目的圖片上傳至上級搜索模塊。排序模塊350用于上級搜索模塊對多個中級搜索模塊上傳的圖片進行重新排序,將成對的圖片的顯示位置提前并做相鄰處理。根據本發(fā)明實施例的用于提供配對圖片的搜索系統(tǒng),通過第一加權處理模塊將配對圖片進行提檔以確定高質量的配對圖片上傳到中級搜索模塊,通過第二加權處理模塊中級搜索模塊將成對的圖片進行加權提檔處理并上傳到上級搜索模塊,通過排序模塊上級搜索模塊對上傳的圖片進行重新排序并將成對的圖片的顯示位置提前并做相鄰處理,實現(xiàn)搜索結果按照連續(xù)配對進行呈現(xiàn),進一步提升用戶體驗。在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質中,以供指令執(zhí)行系統(tǒng)、裝置或設備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設備取指令并執(zhí)行指令的系統(tǒng))使用,或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用。就本說明書而言,“計算機可讀介質”可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設備或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用的裝置。計算機可讀介質的更具體的示例(非窮盡性列表)包括以下具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(R0M),可擦除可編輯只讀存儲器(EPR0M或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(CDROM)。另外,計算機可讀介質甚至可以是可在其上打印所述程序的紙或其他合適的介質,因為可以例如通過對紙或其他介質進行光學掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。應當理解,在本發(fā)明的實施例中,移動終端可以是手機、平板電腦、個人數字助理、電子書等具有各種操作系統(tǒng)的硬件設備。應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn)具有用于對數據信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。盡管已經示出和描述了本發(fā)明的實施例,本領域的普通技術人員可以理解在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由權利要求及其等同物限定。
      權利要求
      1.一種用于配對圖片搜索的方法,其特征在于,包括以下步驟 搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁; 從所述抓取的源站點網頁中獲得所述源站點網頁中的圖片; 按照所述原始站點對獲得的所述圖片進行聚類以生成多個已收錄站點圖片集; 對每個所述已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片;以及 所述搜索系統(tǒng)根據用戶的搜索要求為所述用戶提供相應的配對圖片。
      2.如權利要求I所述的用于配對圖片搜索的方法,其特征在于,所述對每個所述已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片還包括 對所述源站點網頁進行分析以生成源站點圖片集; 獲取所述源站點網頁中的HTML格式文件和CSS格式文件; 根據所述HTML格式文件中的各個標簽建立DOM-Tree ; 根據所述CSS格式文件和所述DOM-Tree分析所述源站點圖片集中圖片在所述源站點網頁中的位置以獲得所述源站點圖片集中圖片的位置信息; 根據所述位置信息對所述已收錄站點圖片集中的圖片進行匹配分析。
      3.如權利要求2所述的用于配對圖片搜索的方法,其特征在于,所述根據位置信息對所述已收錄站點圖片集中的圖片進行匹配分析進一步包括 根據所述位置信息獲得所述已收錄站點圖片集中每個圖片的位置信息; 根據所述已收錄站點圖片集生成所述已收錄站點圖片集在所述源站點網頁中對應的第一范圍; 根據所述源站點圖片集和所述第一范圍獲得所述第一范圍內的所有圖片; 計算所述第一范圍內的所有圖片之間的第一平均間隔,并根據所述第一平均間隔及預設的比例將所述第一范圍擴大至第二范圍; 對所述已收錄站點圖片集中的屬于所述第二范圍的圖片進行匹配分析。
      4.如權利要求3所述的用于配對圖片搜索的方法,其特征在于,所述對所述已收錄站點圖片集中的屬于所述第二范圍的圖片進行匹配分析進一步包括 去除所述第二范圍內不滿足要求的圖片,并再次計算所述第二范圍內圖片的第二平均間隔; 根據所述第二平均間隔及預設的比例將所述第二范圍擴大至第三范圍; 計算屬于所述第三范圍內圖片之間的匹配度; 根據所述匹配度確定所述第三范圍內的配對圖片;以及 如果所述確定的配對圖片均屬于所述已收錄站點圖片集,則將所述配對圖片作為所述已收錄站點圖片集中的配對圖片并保存。
      5.如權利要求3所述的用于配對圖片搜索的方法,其特征在于,還包括 計算所述第一范圍內圖片的數量,如果所述第一范圍內圖片的數量小于預設值,則過濾所述第一范圍內所有圖片。
      6.如權利要求3所述的用于配對圖片搜索的方法,其特征在于,還包括 將所述第一范圍內不滿足圖片大小要求的圖片去除。
      7.如權利要求4所述的用于配對圖片搜索的方法,其特征在于,還包括 判斷所述第二范圍內超鏈接的數量是否大于閾值;如果大于所述閾值,則過濾所述第二范圍內的所有圖片。
      8.如權利要求4所述的用于配對圖片搜索的方法,其特征在于,所述匹配度通過位置關系權重值、顏色相似度權重值、圖片大小權重值、圖片顯著區(qū)域相似度權重值、圖片背景區(qū)域相似度權重值、圖片連續(xù)性權重值中的一種或多種計算得到。
      9.如權利要求I所述的用于配對圖片搜索的方法,其特征在于,所述搜索系統(tǒng)包括多級搜索模塊,且所述配對圖片 保存在配對字典之中,其中,中級搜索模塊與多個下級搜索模塊相連,上級搜索模塊與多個中級搜索模塊相連。
      10.如權利要求9所述的用于配對圖片搜索的方法,其特征在于,所述搜索系統(tǒng)根據用戶的搜索要求為所述用戶提供相應的配對圖片進一步包括 所述下級搜索模塊根據所述搜索要求生成初級搜索結果; 所述下級搜索模塊從所述初級搜索結果中選擇屬于所述配對字典的圖片,并對選擇的所述圖片的相關性信息進行加權提檔處理; 所述下級搜索模塊按照圖片的相關性信息將預定數目的圖片上傳至所述中級搜索模塊; 所述中級搜索模塊將所述多個下級搜索模塊發(fā)送的圖片加入至中間配對字典之中,并對經過所述下級搜索模塊加權提檔處理的圖片進行恢復降檔處理; 所述中級搜索模塊對所述中間配對字典中成對的圖片進行加權提檔處理,并按照圖片的相關性信息將預定數目的圖片上傳至所述上級搜索模塊;以及 所述上級搜索模塊對所述多個中級搜索模塊上傳的圖片進行重新排序,將成對的圖片的顯示位置提前并做相鄰處理。
      11.一種用于提供配對圖片的搜索系統(tǒng),其特征在于,包括 抓取裝置,用于根據搜索信息從各個原始站點抓取源站點網頁; 匹配處理裝置,用于從所述抓取的源站點網頁中獲得所述源站點網頁中的圖片,并按照所述原始站點對獲得的所述圖片進行聚類以生成多個已收錄站點圖片集,以及對每個所述已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片;以及 搜索提供裝置,用于根據用戶的搜索要求為所述用戶提供相應的配對圖片。
      12.如權利要求11所述的用于提供配對圖片的搜索系統(tǒng),其特征在于,所述匹配處理裝置進一步包括 圖片集生成模塊,用于對所述源站點網頁進行分析以生成源站點圖片集; 位置信息獲取模塊,用于獲取所述源站點網頁中的HTML格式文件和CSS格式文件,并根據所述HTML格式文件中的各個標簽建立DOM-Tree,以及根據所述CSS格式文件和所述DOM-Tree分析所述源站點圖片集中圖片在所述源站點網頁中的位置以獲得所述源站點圖片集中圖片的位置信息; 匹配分析模塊,用于根據所述位置信息對所述已收錄站點圖片集中的圖片進行匹配分析。
      13.如權利要求12所述的用于提供配對圖片的搜索系統(tǒng),其特征在于,所述匹配分析模塊進一步包括 第一范圍生成單元,用于根據所述位置信息獲得所述已收錄站點圖片集中每個圖片的位置信息,并根據所述已收錄站點圖片集生成所述已收錄站點圖片集在所述源站點網頁中對應的第一范圍; 第二范圍生成單元,用于根據所述源站點圖片集和所述第一范圍獲得所述第一范圍內的所有圖片,并計算所述第一范圍內的所有圖片之間的第一平均間隔,以及根據所述第一平均間隔及預設的比例將所述第一范圍擴大至第二范圍; 匹配分析單元,對所述已收錄站點圖片集中的屬于所述第二范圍的圖片進行匹配分析。
      14.如權利要求13所述的用于提供配對圖片的搜索系統(tǒng),其特征在于,所述匹配分析·單元進一步包括 去除子單元,用于去除所述第二范圍內不滿足要求的圖片; 第三范圍生成子單元,用于再次計算所述第二范圍內圖片的第二平均間隔,并根據所述第二平均間隔及預設的比例將所述第二范圍擴大至第三范圍; 匹配度計算子單元,用于計算屬于所述第三范圍內圖片之間的匹配度; 配對確定子單元,用于根據所述匹配度確定所述第三范圍內的配對圖片,并在所述確定的配對圖片均屬于所述已收錄站點圖片集時,將所述配對圖片作為所述已收錄站點圖片集中的配對圖片并保存。
      15.如權利要求13所述的用于提供配對圖片的搜索系統(tǒng),其特征在于,所述去除子單元還用于 計算所述第一范圍內圖片的數量,并在所述第一范圍內圖片的數量小于預設值時過濾所述第一范圍內所有圖片。
      16.如權利要求13所述的用于提供配對圖片的搜索系統(tǒng),其特征在于,所述去除子單元還用于 將所述第一范圍內不滿足圖片大小要求的圖片去除。
      17.如權利要求14所述的用于提供配對圖片的搜索系統(tǒng),其特征在于,所述匹配分析單元還包括 判斷子單元,用于判斷所述第二范圍內超鏈接的數量是否大于閾值,其中,所述過濾子單元還用于在大于所述閾值時過濾所述第二范圍內的所有圖片。
      18.如權利要求14所述的用于提供配對圖片的搜索系統(tǒng),其特征在于,所述匹配度通過位置關系權重值、顏色相似度權重值、圖片大小權重值、圖片顯著區(qū)域相似度權重值、圖片背景區(qū)域相似度權重值、圖片連續(xù)性權重值中的一種或多種計算得到。
      19.如權利要求11所述的用于提供配對圖片的搜索系統(tǒng),其特征在于,所述搜索系統(tǒng)包括多級搜索模塊,且所述配對圖片保存在配對字典之中,其中,中級搜索模塊與多個下級搜索模塊相連,上級搜索模塊與多個中級搜索模塊相連。
      20.如權利要求19所述的用于提供配對圖片的搜索系統(tǒng),其特征在于,所述搜索提供裝置進一步包括 初級搜索結果生成模塊,用于所述下級搜索模塊根據所述搜索要求生成初級搜索結果; 第一加權處理模塊,用于所述下級搜索模塊從所述初級搜索結果中選擇屬于所述配對字典的圖片,并對選擇的所述圖片的相關性信息進行加權提檔處理,以及所述下級搜索模塊按照圖片的相關性信息將預定數目的圖片上傳至所述中級搜索模塊;降權處理模塊,用于所述中級搜索模塊將所述多個下級搜索模塊發(fā)送的圖片加入至中間配對字典之中,并對經過所述下級搜索模塊加權提檔處理的圖片進行恢復降檔處理; 第二加權處理模塊,用于所述中級搜索模塊對所述中間配對字典中成對的圖片進行加權提檔處理,并按照圖片的相關性信息將預定數目的圖片上傳至所述上級搜索模塊;以及排序模塊,用于所述上級搜索模塊對所述多個中級搜索模塊上傳的圖片進行重新排序,將成對的圖片的顯示位置提前并做相鄰處理。
      全文摘要
      本發(fā)明提出一種用于配對圖片搜索的方法和系統(tǒng),其中所述方法包括以下步驟搜索系統(tǒng)根據搜索信息從各個原始站點抓取源站點網頁;從抓取的源站點網頁中獲得源站點網頁中的圖片;按照原始站點對獲得的圖片進行聚類以生成多個已收錄站點圖片集;對每個已收錄站點圖片集中的圖片進行匹配分析以生成多個配對圖片;以及搜索系統(tǒng)根據用戶的搜索要求為用戶提供相應的配對圖片。根據本發(fā)明實施例的方法,搜索系統(tǒng)對已收錄站點圖片集中的圖片進行匹配分析生成多個配對圖片之后,根據用戶的搜索要求將結果按照連續(xù)配對的方式反饋給用戶,滿足用戶需求,提升用戶體驗。
      文檔編號G06F17/30GK102682095SQ201210129100
      公開日2012年9月19日 申請日期2012年4月27日 優(yōu)先權日2012年4月27日
      發(fā)明者李靖 申請人:百度在線網絡技術(北京)有限公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1