一種用于提供待呈現(xiàn)信息的方法與裝置制造方法
【專利摘要】本發(fā)明的目的是提供一種用于提供待呈現(xiàn)信息方法與裝置。其中,網絡設備通過根據(jù)來自用戶設備的第一查詢序列進行查詢,以獲取與該第一查詢序列相對應的一個或多個搜索結果,接著,獲取一個或多個待呈現(xiàn)信息,隨后,通過計算所述待呈現(xiàn)信息中每個與所述一個或多個搜索結果中每個的第一相關度信息,來確定每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息,接著,根據(jù)所確定的每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息,來建立或更新相關度信息庫,隨后,當接收到第二查詢序列時,根據(jù)該第二查詢序列,在所述相關度信息庫中進行查詢,以確定與該第二查詢序列相對應的待呈現(xiàn)信息。
【專利說明】—種用于提供待呈現(xiàn)信息的方法與裝置
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網【技術領域】,尤其涉及一種用于提供待呈現(xiàn)信息的方法與裝置?!颈尘凹夹g】
[0002]當前,隨著互聯(lián)網技術的發(fā)展及互聯(lián)網應用對用戶學習、工作與生活的滲透,人們越來越多地通過搜索引擎獲取信息。在搜索引擎所提供的內容中,除了搜索結果之外可能還有其他呈現(xiàn)信息,如熱點新聞、廣告信息等。
[0003]現(xiàn)有技術中,搜索引擎確定待呈現(xiàn)信息與查詢序列的相關度信息的方式包括以下兩種:一、直接計算待呈現(xiàn)信息與查詢序列的相關度信息,然而這種方式受限于查詢序列所包括的關鍵詞,當查詢序列中只包括較少的關鍵詞時,搜索引擎只能根據(jù)這些關鍵詞來獲得待呈現(xiàn)信息;二、采用待呈現(xiàn)信息對應的用戶點擊率來代替待呈現(xiàn)信息與查詢序列的相關度信息,這種方式首先設置待呈現(xiàn)信息與查詢序列的對應關系,之后假使與查詢序列對應的待呈現(xiàn)信息的用戶點擊率越高,該待呈現(xiàn)信息與查詢序列的相關度信息越高,然而這種方式只考慮了用戶點擊率,有可能產生較多的錯誤案例(bad case)。
【發(fā)明內容】
[0004]本發(fā)明的目的是提供一種用于提供待呈現(xiàn)信息的方法與裝置。
[0005]根據(jù)本發(fā)明的一個方面,提供了一種用于提供待呈現(xiàn)信息的方法,該方法包括以下步驟:
[0006]-根據(jù)來自用戶設備的第一查詢序列進行查詢,以獲取與該第一查詢序列相對應的一個或多個搜索結果;
[0007]-獲取一個或多個待呈現(xiàn)信息;
[0008]-通過計算所述待呈現(xiàn)信息中每個與所述一個或多個搜索結果中每個的第一相關度信息,來確定每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息;
[0009]-根據(jù)所確定的每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息,來建立或更新相關度信息庫;
[0010]其中,該方法還包括:
[0011]a當接收到第二查詢序列時,根據(jù)該第二查詢序列,在所述相關度信息庫中進行查詢,以確定與該第二查詢序列相對應的待呈現(xiàn)信息。
[0012]根據(jù)本發(fā)明的另一個方面,還提供了一種用于提供待呈現(xiàn)信息的裝置,該裝置包括:
[0013]搜索結果獲取裝置,用于根據(jù)來自用戶設備的第一查詢序列進行查詢,以獲取與該第一查詢序列相對應的一個或多個搜索結果;
[0014]待呈現(xiàn)信息獲取裝置,用于獲取一個或多個待呈現(xiàn)信息;
[0015]相關度信息確定裝置,用于通過計算所述待呈現(xiàn)信息中每個與所述一個或多個搜索結果中每個的第一相關度信息,來確定每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度?目息;
[0016]信息庫建立裝置,用于根據(jù)所確定的每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息,來建立或更新相關度信息庫;
[0017]其中,該裝置還包括:
[0018]待呈現(xiàn)信息確定裝置,用于當接收到第二查詢序列時,根據(jù)該第二查詢序列,在所述相關度信息庫中進行查詢,以確定與該第二查詢序列相對應的待呈現(xiàn)信息。
[0019]與現(xiàn)有技術相比,本發(fā)明通過根據(jù)來自用戶設備的第一查詢序列進行查詢,以獲取與該第一查詢序列相對應的一個或多個搜索結果,接著,獲取一個或多個待呈現(xiàn)信息,隨后,通過計算所述待呈現(xiàn)信息中每個與所述一個或多個搜索結果中每個的第一相關度信息,來確定每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息,接著,根據(jù)所確定的每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息,來建立或更新相關度信息庫,隨后,當接收到第二查詢序列時,根據(jù)該第二查詢序列,在所述相關度信息庫中進行查詢,以確定與該第二查詢序列相對應的待呈現(xiàn)信息;由于搜索結果與查詢序列的相關度很高,使得本發(fā)明可以提供與查詢序列相關度更高的待呈現(xiàn)信息,并且,本發(fā)明可以采用搜索結果中所包括的關鍵詞來對查詢序列中所包括的關鍵詞進行拓展,還可以采用多條搜索結果來提供不同的關鍵詞組合,以提供更多種類的比對樣本。
[0020]而且,本發(fā)明還可以根據(jù)第一查詢序列進行查詢,來獲取與第一查詢序列相對應的一個或多個待呈現(xiàn)信息,以提高計算處理的效率。
[0021]而且,本發(fā)明還可以通過計算第二查詢序列與預存的查詢序列的近似度的方式,或者建立待呈現(xiàn)信息與查詢序列的相關度擬合模型的方式,來計算待呈現(xiàn)信息與查詢序列的相關度信息,以提高計算處理的效率,并且使得當接收到的第二查詢序列不存在于相關度信息庫中時,可以根據(jù)所計算出的待呈現(xiàn)信息與查詢序列的相關度信息,來提供與該第二查詢序列相對應的待呈現(xiàn)信息。
[0022]而且,本發(fā)明還可以根據(jù)預定規(guī)則來從預存的多個待呈現(xiàn)信息中確定與第二查詢序列相對應的待呈現(xiàn)信息,從而可根據(jù)具體的待呈現(xiàn)信息與查詢序列的相關度信息來確定待呈現(xiàn)信息,以提升用戶的體驗。
【專利附圖】
【附圖說明】
[0023]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,
[0024]本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0025]圖1示出根據(jù)本發(fā)明一個方面的用于提供待呈現(xiàn)信息的方法流程圖;
[0026]圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于提供待呈現(xiàn)信息的方法流程圖;
[0027]圖3示出根據(jù)本發(fā)明另一個方面的用于提供待呈現(xiàn)信息的裝置示意圖;
[0028]圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于提供待呈現(xiàn)信息的裝置示意圖。
[0029]附圖中相同或相似的附圖標記代表相同或相似`的部件。
【具體實施方式】
[0030]下面結合附圖對本發(fā)明作進一步詳細描述。
[0031]本發(fā)明的方法和裝置在網絡設備端實現(xiàn),如由搜索引擎來實現(xiàn)。在此,網絡設備包括但不限于如網絡主機、單個網絡服務器、多個網絡服務器集或多個服務器構成的云;其中,云由基于云計算(Cloud Computing)的大量計算機或網絡服務器構成,云計算是分布式計算的一種,由一群松散耦合的計算機集合組成的一個虛擬超級計算機。
[0032]進一步地,本發(fā)明的裝置可裝置于網絡設備,并當網絡設備為多臺設備中,本發(fā)明的裝置可裝置于其中一臺或多臺設備中。如無特別說明,本文中網絡設備與信息提供裝置等同使用。
[0033]本領域技術人員應能理解上述搜索引擎僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的網絡設備或用戶設備如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并在此以引用方式包含于此。在此,網絡設備及用戶設備均包括一種能夠按照事先設定或存儲的指令,自動進行數(shù)值計算和信息處理的電子設備,其硬件包括但不限于微處理器、專用集成電路(ASIC)、可編程門陣列(FPGA)、數(shù)字處理器(DSP)、嵌入式設備等。
[0034]圖1示出根據(jù)本發(fā)明一個方面的用于提供待呈現(xiàn)信息的方法流程圖。
[0035]具體地,在步驟SI中,網絡設備2根據(jù)來自用戶設備I的第一查詢序列進行查詢,以獲取與該第一查詢序列相對應的一個或多個搜索結果;在步驟S2中,網絡設備2獲取一個或多個待呈現(xiàn)信息;在步驟S3中,網絡設備2通過計算待呈現(xiàn)信息中每個與一個或多個搜索結果中每個的第一相關度信息,來確定每個待呈現(xiàn)信息與第一查詢序列的第二相關度信息;在步驟S4中,網絡設備2根據(jù)所確定的每個待呈現(xiàn)信息與第一查詢序列的第二相關度信息,來建立或更新相關度信息庫;在步驟S5中,網絡設備2當接收到第二查詢序列時,根據(jù)該第二查詢序列,在相關度信息庫中進行查詢,以確定與該第二查詢序列相對應的待呈現(xiàn)/[目息。
[0036]上述各步驟之間是持續(xù)不斷工作的,在此,本領域技術人員應理解“持續(xù)”是指上述各步驟分別實時地,或者按照設定的或實時調整的工作模式要求,網絡設備2進行搜索結果的獲取、待呈現(xiàn)信息的獲取、第一相關度信息的計算以及第二相關度信息的確定、相關度信息庫的建立或更新、待呈現(xiàn)信息的確定等,直至網絡設備2停止獲取與第一查詢序列相對應的一個或多個搜索結果。
[0037]具體地,在步驟SI中,用戶設備I通過約定的通信方式,如http或https等通信協(xié)議,向網絡設備2發(fā)送查詢請求,接著,網絡設備2通過約定的通信方式,如http或https等通信協(xié)議,接收來自用戶設備I的查詢請求,其中,所述查詢請求包括第一查詢序列,隨后,網絡設備2根據(jù)所接收到的來自用戶設備I的第一查詢序列在索引庫中進行查詢,以獲取與該第一查詢序列相對應的一個或多個搜索結果。
[0038]其中,第一查詢序列是指網絡設備2所接收的來自用戶設備I的用于獲得搜索結果的查詢序列。第一查詢序列包括但不限于查詢關鍵詞或查詢語句等。
[0039]其中,網絡設備2通過基于字符串匹配的分詞方法,或基于統(tǒng)計的分詞方法對第一查詢序列進行切詞處理,以獲取其中的一個或多個關鍵詞,接著,網絡設備2基于該等關鍵詞在索引庫中進行查詢,獲取與該等關鍵詞相對應的一個或多個搜索結果,作為與第一查詢序列相對應的一個或多個搜索結果。
[0040]其中,搜索結果的內容包括但不限于頁面的標題信息、頁面的摘要信息。網絡設備2可獲取與第一查詢序列相對應的所有搜索結果,也可獲取一部分搜索結果,例如,獲取排名前20位的搜索結果,以提高計算處理的效率。[0041]本領域技術人員能理解上述獲取與第一查詢序列相對應的一個或多個搜索結果的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取與第一查詢序列相對應的一個或多個搜索結果的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。
[0042]在步驟S2中,網絡設備2獲取一個或多個待呈現(xiàn)信息。其中,待呈現(xiàn)信息是指網絡設備2將其與搜索結果同時發(fā)送給用戶設備1,以供用戶設備I來進行呈現(xiàn)的信息,例如熱點新聞、廣告信息。待呈現(xiàn)信息的內容包括但不限于待呈現(xiàn)信息的標題信息、待呈現(xiàn)信息的摘要信息。網絡設備2獲取一個或多個待呈現(xiàn)信息的方式至少包括以下兩種方式:
[0043]I)網絡設備2直接從待呈現(xiàn)信息庫中獲取待呈現(xiàn)信息。其中,待呈現(xiàn)信息庫中包括但不限于所有待呈現(xiàn)信息。這種方式可以更全面地獲取待呈現(xiàn)信息。
[0044]2)網絡設備2根據(jù)第一查詢序列進行查詢,來獲取與第一查詢序列相對應的一個或多個待呈現(xiàn)信息。具體地,網絡設備2通過基于字符串匹配的分詞方法,或基于統(tǒng)計的分詞方法對第一查詢序列進行切詞處理,以獲取其中的一個或多個關鍵詞,接著,網絡設備2基于該等關鍵詞在待呈現(xiàn)信息庫中進行查詢,獲取與該等關鍵詞相對應的一個或多個搜索結果,以作為與該第一查詢序列相對應的一個或多個待呈現(xiàn)信息。其中,網絡設備2可獲取與第一查詢序列相對應的所有待查詢信息,網絡設備2也可獲取一部分待查詢信息,例如,只獲取排名前20位的待呈現(xiàn)信息,以提高計算處理的效率。
[0045]本領域技術人員能理解上述獲取一個或多個待呈現(xiàn)信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取一個或多個待呈現(xiàn)信息的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。
[0046]在步驟S3中,網絡設備2通過計算待呈現(xiàn)信息中每個與一個或多個搜索結果中每個的第一相關度信息,來確定每個待呈現(xiàn)信息與第一查詢序列的第二相關度信息。其中,相關度信息包括但不限于相關度分數(shù)、相關度等級。
[0047]網絡設備2可直接將待呈現(xiàn)信息與搜索結果中排名最高的搜索結果的第一相關度信息作為該待呈現(xiàn)信息與第一查詢序列的第二相關度信息;也可對待呈現(xiàn)信息與多個搜索結果的多個第一相關度信息求取平均值,隨后,將該平均值作為該待呈現(xiàn)信息與第一查詢序列的第二相關度信息;還可根據(jù)多個搜索結果各自對應第一查詢序列的相關度信息,或根據(jù)多個搜索結果各自對應的頁面權重信息,來對待呈現(xiàn)信息與多個搜索結果的多個第一相關度信息進行加權計算,隨后,將加權計算的結果作為待呈現(xiàn)信息與第一查詢序列的第二相關度信息??商娲?,網絡設備2可將一個或多個搜索結果所具有的關鍵詞進行匯總,以獲得匯總后的多個關鍵詞,接著,網絡設備2計算待呈現(xiàn)信息與匯總后的多個關鍵詞的相關度信息,隨后,網絡設備2將該相關度信息作為待呈現(xiàn)信息與第一查詢序列的第二相關度信息。
[0048]其中,網絡設備2計算待呈現(xiàn)信息中每個與一個或多個搜索結果中每個的第一相關度信息的方式至少包括以下兩種方式:
[0049]I)網絡設備2通過將每個待呈現(xiàn)信息的關鍵詞與每個搜索結果的關鍵詞進行比較,來確定第一相關度信息。
[0050]例如,網絡設備2可基于向量空間模型的方式來計算每個待呈現(xiàn)信息與每個搜索結果的第一相關度信息,網絡設備2首先對待呈現(xiàn)信息和搜索結果進行切詞處理,以獲得待呈現(xiàn)信息對應的多個關鍵詞和搜索結果對應的多個關鍵詞,接著,網絡設備2將這兩部分關鍵詞進行匯總和去重,以獲得匯總和去重后的關鍵詞集,將匯總和去重后的關鍵詞集采用S=S (T1' T2...Tn)來進行表示,其中,S表示匯總和去重后的關鍵詞集,T n表示S中第η個關鍵詞。例如,待呈現(xiàn)信息對應的多個關鍵詞為“汽車;寶馬”,搜索結果對應的多個關鍵詞為“汽車;奔馳”,匯總和去重后的關鍵詞集為’(s=s (汽車;寶馬;奔馳)”。
[0051]網絡設備2可通過計算Tn的詞頻-反文檔頻率(TFIDF)值來獲得其對應的權重信息,以獲得上述匯總和去重后的關鍵詞集S中各個關鍵詞在搜索結果的關鍵詞集D與待呈現(xiàn)信息的關鍵詞集A中的權重信息。在此,包含權重信息的關鍵詞集D與A可表示如下:
[0052]D = D(T1, Wdi ;…;1\,ffDi ;…,Tn, ffDn)
[0053]其中,D表示搜索結果的關鍵詞集,WDi為Ti在D中對應的權重信息,其中,當Ti不在D中時,其對應的杈重Wm為0,其中,i為I至η ;和
[0054]A = A (T1, Wai ;…Jj, Waj ;…Tn,ffAn)
[0055]其中,A表示待呈現(xiàn)信息的關鍵詞集,Waj為L在A中對應的權重信息,其中,當Tj不在A中時,其對應的權重Wiu為O,其 中,j為I至η:
[0056]其中,TFIDF用于表示關鍵詞T在文檔中的重要程度,其可根據(jù)關鍵詞的詞頻(TF)與反文檔頻率(IDF)來確定,可選地,TFIDF=TF*IDF。其中,關鍵詞的TF值為該關鍵詞在文檔中的出現(xiàn)頻率,可選地,可為該關鍵詞在文檔中出現(xiàn)的次數(shù)除以文檔中所有關鍵詞出現(xiàn)的總次數(shù)所得到的商;關鍵詞的IDF表示一個關鍵詞普遍重要性的度量,可選地,為總文件數(shù)目除以包含該關鍵詞的文件的數(shù)目的商的對數(shù),文檔頻率(DF)為IDF的倒數(shù),其可通過對大批量網頁(如N篇網頁)進行統(tǒng)計近似地得到。
[0057]例如以關鍵詞“汽 車’’為例,若在總計為N的網頁中,關鍵詞“汽車’’出現(xiàn)在10000篇網頁中,則其IDF值為Log(N/10000),而關鍵詞“汽車’’在切詞后的關鍵詞集中出現(xiàn)了 3次,關鍵詞集中關鍵詞所出現(xiàn)的總次數(shù)為11,則關鍵詞“汽車’’在切詞后的關鍵詞集中的詞頻TF值為3/11,從而,關鍵詞“汽車’’的對應的TFIDF值為TF*IDF=(3/11)X log(N/10000)。
[0058]例如,繼前例,待呈現(xiàn)信息的關鍵詞集為(汽車,0.5 ;寶馬,0.5 ;奔馳,O);搜索結果的關鍵詞集為(汽車,0.4 ;寶馬,O ;奔馳,0.6)。
[0059]可選地,網絡設備2計算待呈現(xiàn)信息與搜索結果之間的第一相關度信息Rev(D,A)可用向量之間夾角的余弦值表示,具體如下:
[0060]Rev(D, A) = cos Θ 二 rk=1wDk><wAkχ )
J(Σ}^ wDkM^L1 wAk^
[0061]其中,WDk為搜索結果中第k個關鍵詞的杈重,WAk為待呈現(xiàn)信息中第k個關鍵詞的權重。
[0062]再如,網絡設備2可根據(jù)待呈現(xiàn)信息的特征來確定待呈現(xiàn)信息與搜索結果的第一相關度信息。其中,待呈現(xiàn)信息的特征包括但不限于關鍵詞的分布、關鍵詞對應的主題等。
[0063]其中,關鍵詞的分布意指關鍵詞位于標題、摘要、正文的不同位置。例如,當搜索結果的標題中包含“鮮花”、“速遞”這兩個關鍵詞時,而待呈現(xiàn)信息I的標題中也包含這兩個關鍵詞,待呈現(xiàn)信息2的標題中只包含“鮮花”這一個關鍵詞,網絡設備2可確定待呈現(xiàn)信息I與搜索結果的第一相關度信息大于待呈現(xiàn)信息2與搜索結果的第一相關度信息。
[0064]其中,關鍵詞對應的主題意指,關鍵詞所屬于的領域。例如,“鮮花”、“跑鞋”對應的主題為“商品”,“速遞”、“家政”對應的主題為“服務”。網絡設備2可根據(jù)待呈現(xiàn)信息和搜索結果內容中的關鍵詞,來確定待呈現(xiàn)信息和搜索結果對應的主題,隨后,網絡設備2根據(jù)所確定的待呈現(xiàn)信息和搜索結果對應的主題是否一致,來確定待呈現(xiàn)信息與搜索結果的第一相關度信息。
[0065]2)網絡設備2對每個待呈現(xiàn)信息與每個搜索結果進行語義分析,將每個待呈現(xiàn)信息的語義分析結果與每個搜索結果的語義分析結果進行比較,來確定第一相關度信息。
[0066]網絡設備2可基于LSA或PLSA的方式來對每個待呈現(xiàn)信息與每個搜索結果進行語義分析。例如,網絡設備2可建立同義詞庫,同義詞庫中包括多組同義詞,每組同義詞具有與該組同義詞相對應的同義替換詞。網絡設備2對待呈現(xiàn)信息和搜索結果進行切詞處理,以獲得待呈現(xiàn)信息的關鍵詞集和搜索結果的關鍵詞集,再根據(jù)預建立的同義詞庫對每個待呈現(xiàn)信息與每個搜索結果進行語義分析,以將關鍵詞集中的關鍵詞替換為同義替換詞。例如,網絡設備2可將“報價”、“價目”等同義詞替換為“價格”,將“跑步鞋”、“慢跑鞋”等同義詞替換為“跑鞋”。
[0067]隨后,網絡設備2可將同義替換詞作為關鍵詞,以基于關鍵詞的方式來計算每個待呈現(xiàn)信息的語義分析結果與每個搜索結果的語義分析結果的第一相關度信息。計算的過程與上述計算的方式相同或基本相同,故此處不再贅述,并通過引用的方式包含于此。
[0068]網絡設備2對每個待呈現(xiàn)信息與每個搜索結果進行語義分析,可以解決不同信息采用不同的關鍵詞來闡述同一概念的問題,提升計算第一相關度信息的準確度。
[0069]本領域技術人員能理解上述計算待呈現(xiàn)信息中每個與一個或多個搜索結果中每個的第一相關度信息的方式、以及根據(jù)第一相關度信息來確定第二相關度信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的計算待呈現(xiàn)信息中每個與一個或多個搜索結果中每個的第一相關度信息的方式、以及根據(jù)第一相關度信息來確定第二相關度信息的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。
[0070]在步驟S4中,網絡設備2根據(jù)所確定的每個待呈現(xiàn)信息與第一查詢序列的第二相關度信息,來建立或更新相關度信息庫。網絡設備2可根據(jù)正向索引或倒排索引的方式來建立相關度信息庫,例如,網絡設備2建立第一查詢序列與多個待呈現(xiàn)信息的映射關系,其中每個待呈現(xiàn)信息具有相應的與第一查詢序列的第二相關度信息。網絡設備2可將所確定的每個待呈現(xiàn)信息與第一查詢序列的第二相關度信息添加至相關度信息庫中,還可對相關度信息庫中已有的每個待呈現(xiàn)信息與第一查詢序列的第二相關度信息進行更新。
[0071]本領域技術人員能理解上述建立或更新相關度信息庫的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的建立或更新相關度信息庫的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。
[0072]在步驟S5中,當接收到第二查詢序列時,網絡設備2根據(jù)該第二查詢序列,在相關度信息庫中進行查詢,以確定與該第二查詢序列相對應的待呈現(xiàn)信息。第二查詢序列是指網絡設備2在相關度信息庫建立之后所接收到的來自用戶設備I的查詢序列。第二查詢序列包括但不限于查詢關鍵詞或查詢語句等。網絡設備2確定與第二查詢序列相對應的待呈現(xiàn)信息的方式至少包括以下兩種方式:[0073]I)當接收到第二查詢序列時,網絡設備2根據(jù)該第二查詢序列,在相關度信息庫中進行查詢,以獲取相關度信息庫中與該第二查詢序列一致的預存的查詢序列,隨后,網絡設備2將與該預存的查詢序列相對應的待呈現(xiàn)信息,作為與該第二查詢序列相對應的待呈現(xiàn)信息。[0074]2)網絡設備2根據(jù)第二查詢序列,在相關度信息庫中查詢,以確定該第二查詢序列與預存的每個查詢序列的近似度,接著,網絡設備2根據(jù)第二查詢序列與預存的每個查詢序列的近似度以及預存的每個待呈現(xiàn)信息與其分別對應的每個查詢序列的第二相關度信息,來確定第二查詢序列與待呈現(xiàn)信息的第三相關度信息,隨后,網絡設備2根據(jù)預定規(guī)貝U,基于第三相關度信息從多個待呈現(xiàn)信息中確定與第二查詢序列相對應的待呈現(xiàn)信息。
[0075]例如,網絡設備2可根據(jù)同義詞規(guī)則來對多個關鍵詞進行編碼,以獲取每個關鍵詞所對應的代碼,接著,網絡設備2根據(jù)這些代碼來計算第二查詢序列與預存的每個查詢序列的近似度。例如,同義詞規(guī)則為多層樹狀分類體系,在第一層,根據(jù)“人”、“物”、“抽象事物”、“特征”、“現(xiàn)象與狀態(tài)”等類別進行分類,在第二層,例如“人”的分類下,根據(jù)“泛稱”、“男女老少”、“職業(yè)”、“身份”、“關系”等繼續(xù)進行分類,在第三層,例如,“泛稱”的分類下,繼續(xù)進行分類,以使關鍵詞具有對應于分類體系的代碼。例如,“人”的代碼為AaOlAOl,其中,第一個“A”表示第一層的編碼,“a”表示第二層的編碼,第一個“01”表示第三層的編碼,第二個“A”表示第四層的編碼,第二個“01”表示第五層的編碼。
[0076]給定兩個關鍵詞Ta和關鍵詞Tb,它們之間的近似度可通過以下方式來進行計算:
[0077]若兩個關鍵詞Ta與Tb的近似度用Sim(Ta,Tb)表示,如果這兩個關鍵詞對應的代碼的最大相同層為第N層,用m表示與該兩個關鍵詞在第N至最底層相同的所有代碼的數(shù)量,用d表示這兩個關鍵詞的代碼在第N層內的距離,其中,最大相同層是指兩個關鍵詞代碼在該最大相同層之前的各層的編碼均相同而在該最大相同層的編碼不同,例如,“人”對應代碼為Aa01A01、“老弟”對應的代碼為Aa03A03,則“人”和“老弟”的最大相同層為第三層,該第三層內所具有的Aa開頭的代碼個數(shù)為55個,所以m=55 ;第3層內,“人”的編碼為01,“老弟”的編碼為03,因此這兩個代碼之間的距離為2,所以d=2。
[0078]因此,當確定了兩個關鍵詞時,網絡設備2可根據(jù)預定同義詞規(guī)則來確定這兩個關鍵詞所對應的代碼,接著,網絡設備2根據(jù)這兩個關鍵詞所對應的代碼,可確定m、d,隨后,網絡設備2可采用以下方式來計算這兩個關鍵詞的近似度:
[0079]a)若兩個關鍵詞Ta與Tb的第一層編碼不同,兩者的相似度如下式2)所示:
[0080]Sim(Ta, Tb) = ul2)
[0081]兩個關鍵詞Ta與Tb的第一層編碼不同,也即其最大相同層為第一層,則兩者的相似度確定為ul,ul為一常數(shù)。例如:關鍵詞Ta為“人”,其對應的代碼為AaOlAOl ;而關鍵詞Tb為“實物”,其對應的代碼為BaOlAOl,這兩個關鍵詞的第一層編碼不同。
[0082]b )若兩個關鍵詞在第一層的編碼相同,則進一步根據(jù)兩者以后各層的情況進行確定如下:
[0083](I)若兩個關鍵詞的最大相同層為第二層,兩者的近似度如下式3)所示:
[0084]Sim(Ta, Tb) = u2X cos (mX π /180) X [ (m-d+1) /m] 3)
[0085]其中,u2為一常數(shù);如:“人 AaOlAOl” 和“少兒 Ab04B01”。[0086]由于A開頭的代碼個數(shù)為1309個,所以m=1309;在第2層,人的代碼是a,少兒的代碼是b,這兩個代碼之間的距離為1,所以d=l。
[0087](2)若兩個關鍵詞的最大相同層為第三層,兩者的近似度如下式4)所示:
[0088]Sim(Ta, Tb) = u3X cos (mX π /180) X [ (m-d+1) /m] 4)
[0089]其中,u3為一常數(shù);如:“人 AaOlAOl” 和“老弟 Aa03A03”。
[0090]Aa開頭的代碼個數(shù)為55個,所以m=55 ;第3層人的代碼為01,老弟的代碼為03,這兩個代碼之間的距離為2,所以d=2。
[0091](3)若兩個關鍵詞的最大相同層為第四層,兩者的近似度如下式5)所示:
[0092]Sim(Ta, Tb) = u4X cos (mX π /180) X [ (m-d+1) /m] 5)
[0093]其中,u4為一常數(shù);
[0094](4)若兩個關鍵詞的最大相同層為第五層,兩者的近似度如下式6)所示:
[0095]Sim(Ta, Tb) =U 5 X cos (mX η /180) X [ (m-d+1) /m] 6)
[0096]其中,u5為一常數(shù);
[0097]......[0098]也即,若兩個關鍵詞的最大相同層為第k層,k為I至N,N為大于2的正整數(shù),則兩者的近似度如下式7)所示:
[0099]Sim(Ta,Tb) = uX cos (mX η /180) X [ (m-d+1) /m] 7)
[0100]其中,uI , u2, u3, u4, u5...等可通過實驗來確定,例如,u2=0.65、u3 = 0.8、u4=0.9、u5 = 0.96、ul = 0.1。
[0101]網絡設備2可根據(jù)所確定的第二查詢序列與預存的每個查詢序列的近似度,以及預存的每個待呈現(xiàn)信息與其分別對應的每個查詢序列的第二相關度信息,通過乘法運算或其它計算方式來確定第二查詢序列與待呈現(xiàn)信息的第三相關度信息。
[0102]本領域技術人員能理解上述確定與第二查詢序列相對應的待呈現(xiàn)信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定與第二查詢序列相對應的待呈現(xiàn)信息的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。
[0103]優(yōu)選地,在步驟S6 (未示出)中,網絡設備2根據(jù)預定規(guī)則,基于第二相關度信息或第三相關度信息從預存的多個待呈現(xiàn)信息中確定與第二查詢序列相對應的待呈現(xiàn)信息。預定規(guī)則至少包括以下三種方式:
[0104]I)網絡設備2可根據(jù)預定的相關度閾值,來選擇高于預定相關度閾值的待呈現(xiàn)信息作為與查詢序列相對應的待呈現(xiàn)信息。
[0105]2)網絡設備2可根據(jù)預定數(shù)量,來選擇相關度信息較高的預定數(shù)量的待呈現(xiàn)信息作為與查詢序列相對應的待呈現(xiàn)信息。
[0106]3)網絡設備2可根據(jù)預定的相關度閾值,當待呈現(xiàn)信息與查詢序列的相關度信息高于該預定相關度閾值時,網絡設備2將高于該預定相關度閾值的待呈現(xiàn)信息作為與查詢序列相對應的待呈現(xiàn)信息;當待呈現(xiàn)信息與查詢序列的相關度信息低于該預定相關度閾值時,網絡設備2將相關度信息較高的預定數(shù)量的待呈現(xiàn)信息作為與查詢序列相對應的待呈現(xiàn)信息。
[0107]本領域技術人員能理解上述根據(jù)預定規(guī)則來確定與第二查詢序列相對應的待呈現(xiàn)信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的根據(jù)預定規(guī)則來確定與第二查詢序列相對應的待呈現(xiàn)信息的方式如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內,并以引用方式包含于此。
[0108]圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于提供待呈現(xiàn)信息的方法流程圖。
[0109]其中,包括步驟SI,、步驟S2,、步驟S3,、步驟S4,和步驟S5 ’,其中,步驟S4 ’包括步驟S41’和步驟S42’。具體地,在步驟SI’中,網絡設備2根據(jù)來自用戶設備的第一查詢序列進行查詢,以獲取與該第一查詢序列相對應的一個或多個搜索結果;在步驟S2’中,網絡設備2獲取一個或多個待呈現(xiàn)信息;在步驟S3’中,網絡設備2通過計算待呈現(xiàn)信息中每個與一個或多個搜索結果中每個的第一相關度信息,來確定每個待呈現(xiàn)信息與第一查詢序列的第二相關度信息;在步驟S41’中,網絡設備2根據(jù)所確定的每個待呈現(xiàn)信息與第一查詢序列的第二相關度信息,來建立或更新相關度信息庫;在步驟S42’中,網絡設備2根據(jù)相關度信息庫中待呈現(xiàn)信息與查詢序列的第二相關度信息,建立待呈現(xiàn)信息與查詢序列的相關度擬合模型;在步驟S5’中,網絡設備2根據(jù)第二查詢序列,并基于相關度擬合模型,來確定預存的每個待呈現(xiàn)信息與第二查詢序列的第三相關度信息,隨后,網絡設備2根據(jù)預定規(guī)則,基于第三相關度信息從預存的多個待呈現(xiàn)信息中確定與第二查詢序列相對應的待呈現(xiàn)信息。在此,步驟SI’、步驟S2’、步驟S3’和步驟S41’與圖1所示對應步驟相同或相似,故此處不再贅述,并通過引用的方式包含于此。
[0110]上述各步驟之間是持續(xù)不斷工作的,在此,本領域技術人員應理解“持續(xù)”是指上述各步驟分別實時地,或者按照設定的或實時調整的工作模式要求,網絡設備2進行搜索結果的獲取、待呈現(xiàn)信息的獲取、第一相關度信息的計算以及第二相關度信息的確定、相關度信息庫的建立或更新、相關度擬合模型的建立、待呈現(xiàn)信息的確定等,直至網絡設備2停止獲取與第一查詢序列相對應的一個或多個搜索結果。
[0111]在步驟S42’中,網絡設備2根據(jù)相關度信息庫中待呈現(xiàn)信息與查詢序列的第二相關度信息,建立待呈現(xiàn)信息與查詢序列的相關度擬合模型。具體地,網絡設備2首先對在步驟S41’中所確定的每個待呈現(xiàn)信息與第一查詢序列的第二相關度信息進行分析,接著,網絡設備2采用待呈現(xiàn)信息的特征來替換待呈現(xiàn)信息,以獲取待呈現(xiàn)信息的特征與第一查詢序列的第二相關度信息;其中,待呈現(xiàn)信息的特征包括但不限于關鍵詞的分布、關鍵詞對應的主題等。隨后,網絡設備2通過諸如機器學習如線性回歸分析、非線性回歸分析等方式建立與第一查詢序列及待呈現(xiàn)信息的特征相對應的相關度擬合模型。
[0112]例如,網絡設備2所確定的待呈現(xiàn)信息的特征與第一查詢序列的第二相關度信息如表I所示:
[0113]表1:
[0114]
【權利要求】
1.一種用于提供待呈現(xiàn)信息的方法,其中,該方法包括以下步驟: -根據(jù)來自用戶設備的第一查詢序列進行查詢,以獲取與該第一查詢序列相對應的一個或多個搜索結果; -獲取一個或多個待呈現(xiàn)信息; -通過計算所述待呈現(xiàn)信息中每個與所述一個或多個搜索結果中每個的第一相關度信息,來確定每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息; -根據(jù)所確定的每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息,來建立或更新相關度信息庫; 其中,該方法還包括: a當接收到第二查詢序列時,根據(jù)該第二查詢序列,在所述相關度信息庫中進行查詢,以確定與該第二查詢序列相對應的待呈現(xiàn)信息。
2.根據(jù)權利要求1所述的方法,其中,所述獲取一個或多個待呈現(xiàn)信息的步驟包括: -根據(jù)所述第一查詢序列進行查詢,來獲取與所述第一查詢序列相對應的一個或多個待呈現(xiàn)?目息。
3.根據(jù)權利要求1或2所述的方法,其中,所述計算所述待呈現(xiàn)信息中每個與所述一個或多個搜索結果中每個的第一相關度信息的步驟包括: -通過將所述每個待呈現(xiàn)信息的關鍵詞與所述每個搜索結果的關鍵詞進行比較,來確定所述第一相關度信息。`
4.根據(jù)權利要求1或2所述的方法,其中,所述計算所述待呈現(xiàn)信息中每個與所述一個或多個搜索結果中每個的第一相關度信息的步驟包括: -對所述每個待呈現(xiàn)信息與所述每個搜索結果進行語義分析; -將所述每個待呈現(xiàn)信息的語義分析結果與所述每個搜索結果的語義分析結果進行比較,來確定所述第一相關度信息。
5.根據(jù)權利要求1至4中任一項所述的方法,其中,所述步驟a包括: -根據(jù)所述第二查詢序列,在所述相關度信息庫中查詢,以確定該第二查詢序列與預存的每個查詢序列的近似度; -根據(jù)所述第二查詢序列與預存的每個查詢序列的近似度以及預存的每個待呈現(xiàn)信息與其分別對應的每個查詢序列的第二相關度信息,來確定所述第二查詢序列與所述待呈現(xiàn)信息的第三相關度信息; -根據(jù)預定規(guī)則,基于所述第三相關度信息從所述多個待呈現(xiàn)信息中確定與所述第二查詢序列相對應的待呈現(xiàn)信息。
6.根據(jù)權利要求1至4中任一項所述的方法,其中,所述方法還包括: -根據(jù)所述相關度信息庫中待呈現(xiàn)信息與查詢序列的第二相關度信息,建立待呈現(xiàn)信息與查詢序列的相關度擬合模型; 所述步驟a還包括: -根據(jù)所述第二查詢序列,并基于所述相關度擬合模型,來確定預存的每個待呈現(xiàn)信息與所述第二查詢序列的第三相關度信息; -根據(jù)預定規(guī)則,基于所述第三相關度信息從所述預存的多個待呈現(xiàn)信息中確定與所述第二查詢序列相對應的待呈現(xiàn)信息。
7.根據(jù)權利要求5或6所述的方法,其中,所述預定規(guī)則包括以下至少任一項: -選擇第三相關度信息高于預定相關度閾值的待呈現(xiàn)信息作為與查詢序列相對應的待呈現(xiàn)?目息; -從所述多個待呈現(xiàn)信息中選擇第三相關度信息較高的預定數(shù)量的待呈現(xiàn)信息作為與查詢序列相對應的待呈現(xiàn)信息。
8.一種用于提供待呈現(xiàn)信息的裝置,其中,該裝置包括: 搜索結果獲取裝置,用于根據(jù)來自用戶設備的第一查詢序列進行查詢,以獲取與該第一查詢序列相對應的一個或多個搜索結果; 待呈現(xiàn)信息獲取裝置,用于獲取一個或多個待呈現(xiàn)信息; 相關度信息確定裝置,用于通過計算所述待呈現(xiàn)信息中每個與所述一個或多個搜索結果中每個的第一相關度信息,來確定每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息; 信息庫建立裝置,用于根據(jù)所確定的每個待呈現(xiàn)信息與所述第一查詢序列的第二相關度信息,來建立或更新相關度信息庫; 其中,該裝置還包括: 待呈現(xiàn)信息確定裝置,用于當接收到第二查詢序列時,根據(jù)該第二查詢序列,在所述相關度信息庫中進行查詢,以確定與該第二查詢序列相對應的待呈現(xiàn)信息。
9.根據(jù)權利要求8所述的裝置,其中,所述待呈現(xiàn)信息獲取裝置用于: -根據(jù)所述第一查詢序列進行查詢,來獲取與所述第一查詢序列相對應的一個或多個待呈現(xiàn)?目息。
10.根據(jù)權利要求8或9所述的裝置,其中,所述相關度信息確定裝置用于: -通過將所述每個待呈現(xiàn)信息的關鍵詞與所述每個搜索結果的關鍵詞進行比較,來確定所述第一相關度信息。
11.根據(jù)權利要求8或9所述的裝置,其中,所述相關度信息確定裝置用于: -對所述每個待呈現(xiàn)信息與所述每個搜索結果進行語義分析; -將所述每個待呈現(xiàn)信息的語義分析結果與所述每個搜索結果的語義分析結果進行比較,來確定所述第一相關度信息。
12.根據(jù)權利要求8至11中任一項所述的裝置,其中,所述待呈現(xiàn)信息確定裝置用于: -根據(jù)所述第二查詢序列,在所述相關度信息庫中查詢,以確定該第二查詢序列與預存的每個查詢序列的近似度; -根據(jù)所述第二查詢序列與預存的每個查詢序列的近似度以及預存的每個待呈現(xiàn)信息與其分別對應的每個查詢序列的第二相關度信息,來確定所述第二查詢序列與所述待呈現(xiàn)信息的第三相關度信息; -根據(jù)預定規(guī)則,基于所述第三相關度信息從所述多個待呈現(xiàn)信息中確定與所述第二查詢序列相對應的待呈現(xiàn)信息。
13.根據(jù)權利要求8至11中任一項所述的裝置,其中,該裝置還包括: 擬合模型建立裝置,用于根據(jù)所述相關度信息庫中待呈現(xiàn)信息與查詢序列的第二相關度信息,建立待呈現(xiàn)信息與查詢序列的相關度擬合模型; 所述待呈現(xiàn)信息確定裝置還用于:-根據(jù)所述第二查詢序列,并基于所述相關度擬合模型,來確定預存的每個待呈現(xiàn)信息與所述第二查詢序列的第三相關度信息; -根據(jù)預定規(guī)則,基于所述第三相關度信息從所述預存的多個待呈現(xiàn)信息中確定與所述第二查詢序列相對應的待呈現(xiàn)信息。
14.根據(jù)權利要求12或13所述的裝置,其中,所述預定規(guī)則包括以下至少任一項: -選擇第三相關度信息高于預定相關度閾值的待呈現(xiàn)信息作為與查詢序列相對應的待呈現(xiàn)?目息; -從所述多個待呈現(xiàn)信息中選擇第三相關度信息較高的預定數(shù)量的待呈現(xiàn)信息作為與查詢序列相對應的待呈現(xiàn)信`息。
【文檔編號】G06F17/30GK103514268SQ201310413058
【公開日】2014年1月15日 申請日期:2013年9月11日 優(yōu)先權日:2013年9月11日
【發(fā)明者】朱延峰, 宋飛, 劉林 申請人:百度在線網絡技術(北京)有限公司