個標簽的熵值,從而生成標簽的在線權(quán)重值。
[0064] 基于上述計算得到了每個標簽的在線權(quán)重值,本申請實施例一提供的方案中,步 驟S30實現(xiàn)的結(jié)合在線權(quán)重值和歷史標簽權(quán)重值對搜索結(jié)果列表中的搜索結(jié)果的標簽進 行重新排序,生成當前搜索詞對應的推薦標簽列表的步驟可以包括如下實施步驟:
[0065] 步驟S301,將在線權(quán)重值與對應標簽的歷史標簽權(quán)重值進行累加,生成每個標簽 的新標簽權(quán)重值.
[0066] 步驟S303,按照新標簽權(quán)重值對每個標簽進行升序排序或者降序排序,生成當前 搜索詞對應的推薦標簽列表;其中,對于沒有發(fā)生操作行為的搜索結(jié)果的標簽,該標簽的在 線權(quán)重值不變或者累加固定權(quán)重值。
[0067] 上述步驟S301和步驟S303可以實現(xiàn),將在線計算的在線標簽權(quán)重和離線標簽列 表中的歷史標簽權(quán)重值進行疊加,從而生成大于某一個閾值的標簽降序列表。按照該標簽 降序列表將對應的搜索結(jié)果推送給前段客戶端供用戶瀏覽,使得用戶翻頁時可以展示動態(tài) 導航得到的搜索結(jié)果。
[0068] 在本申請實施例一提供的方案中,在執(zhí)行步驟S28從歷史搜索日志中查詢得到當 前搜索詞對應的歷史搜索結(jié)果列表,并獲取歷史搜索結(jié)果列表中每個歷史搜索結(jié)果的標簽 對應的歷史標簽權(quán)重值之前,還可以執(zhí)行如下步驟:
[0069] 步驟S271,記錄接收到的歷史搜索詞及歷史搜索詞在歷史搜索日志中的歷史搜索 結(jié)果,得到歷史搜索結(jié)果列表;
[0070] 步驟S273,計算歷史搜索結(jié)果所對應的標簽的歷史標簽權(quán)重值。
[0071] -種可選的方案中,該步驟S273通過如下步驟來實現(xiàn):
[0072] 步驟S2731,從歷史搜索結(jié)果列表中提取發(fā)生歷史操作行為的歷史搜索結(jié)果。
[0073] 步驟S2733,提取發(fā)生歷史操作行為的歷史搜索結(jié)果的標簽。
[0074] 步驟S2735,使用權(quán)重算法計算發(fā)生歷史操作行為的歷史搜索結(jié)果的標簽的歷史 標簽權(quán)重值,其中,權(quán)重算法包括如下任意一種或多種方式:詞頻算法、TF*IDF算法和條件 概率算法。
[0075] 由此可知,仍舊以電子商務領(lǐng)域的應用場景為例,上述方案可以實現(xiàn),針對歷史搜 索詞對應的發(fā)生了點擊操作、購買操作、交易操作等操作行為的商品信息,可以提取上述發(fā) 生操作行為的商品列表的標簽,并計算每個標簽的歷史表情權(quán)重值來表征該標簽的重要 度,標簽的重要度計算方法可以有多種,例如基于統(tǒng)計的詞頻方法、TF*IDF、條件概率等等, 在計算得到標簽的重要度中,建立并保存歷史搜索詞與其歷史搜索結(jié)果對應的標簽的歷史 標簽權(quán)重值的映射關(guān)系表,使得當用戶輸入當前搜索詞之后,可以通過匹配處理,來提取與 該當前搜索詞匹配的歷史搜索詞的歷史標簽權(quán)重值。
[0076] 優(yōu)選地,在權(quán)重算法為TF*IDF算法的情況下,其中,步驟S2735實現(xiàn)的使用權(quán)重算 法計算發(fā)生歷史操作行為的歷史搜索結(jié)果的標簽的歷史標簽權(quán)重值的方案可以通過如下 步驟實現(xiàn):
[0077] 首先,計算發(fā)生歷史操作行為的歷史搜索結(jié)果的標簽的詞頻ID。
[0078] 其次,在獲取到歷史搜索詞的類目列表之后,計算得到發(fā)生歷史操作行為的歷史 搜索結(jié)果的標簽在類目列表中的IDF。
[0079] 最后,根據(jù)如下公式計算得到發(fā)生歷史操作行為的歷史搜索結(jié)果的標簽的歷史標 簽權(quán)重值W :W = TF*IDF。
[0080] 下面就結(jié)合圖4所示的流程圖,以電子商務領(lǐng)域的應用場景為例,對采用TF*IDF 算法計算歷史標簽權(quán)重值的計算方法進行詳細描述:
[0081] 首先,對所有的歷史搜索詞進行類目預測,通過歷史搜索詞從歷史搜索日志中提 取歷史搜索結(jié)果列表,并提取發(fā)生了歷史操作行為的商品信息作為商品歷史行為日志,得 到每個歷史搜索詞對應的發(fā)生了點擊操作、交易操作、收藏操作等操作行為的商品信息,同 時根據(jù)這些商品信息所屬的類目分布,計算該歷史搜索詞所預測的類目列表。
[0082] 其次,根據(jù)上述的商品信息,提取每個商品信息上的標簽序列,計算每個標簽 TF(Term Frequency,詞頻),同時,計算每個標簽在預測的類目中的IDF(Inverse Document Frequency),把TF*IDF的結(jié)果作為每個標簽的臨時權(quán)重,從而計算得到了發(fā)生歷史操作行 為的歷史搜索結(jié)果的標簽的歷史標簽權(quán)重值W。
[0083] 此處需要說明的是,TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集 或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù) 成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形 式常被搜索引擎應用,作為文件與用戶查詢之間相關(guān)程度的度量或評級。除了 TF-IDF以 外,因特網(wǎng)上的搜索引擎還會使用基于鏈接分析的評級方法,以確定文件在搜尋結(jié)果中出 現(xiàn)的順序。其中,詞頻(term frequency, TF)指的是某一個給定的詞語在該文件中出現(xiàn)的 次數(shù)。這個數(shù)字通常會被歸一化,以防止它偏向長的文件(同一個詞語在長文件里可能 會比短文件有更高的詞頻,而不管該詞語重要與否);逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目 除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到。由此可知,某一特定文件內(nèi)的高 詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因 此,TF-IDF傾向于保留文檔中較為特別的詞語,過濾常用詞。
[0084] 然后,還可以對歷史搜索詞進行分詞和標志,根據(jù)標簽信息,標記出歷史搜索詞中 已經(jīng)確定的維度,并把推薦結(jié)果中該維度的標簽去除。
[0085] 最后,把每個歷史搜索詞下的標簽權(quán)重歸一化,并輸出。
[0086] 例如,以歷史搜索詞為"手機蘋果"為例,首先根據(jù)用戶的點擊、購買、收藏等行 為計算出類目預測的結(jié)果是"手機類目";其次統(tǒng)計該歷史搜索詞對應的商品標簽信息,計 算每個標簽的TF*IDF,結(jié)果為"品牌:蘋果,權(quán)重0. 2 ;Iphone型號:Iphone4s,權(quán)重0. 1 ; Iphone 型號:Iphone 5s,權(quán)重 0· 05 ;Iphone 型號:Iphone 5,權(quán)重 0· 05 ;Iphone 型號: Iphone 5c,權(quán)重0. 04 ;屏幕尺寸:4. 0英寸,權(quán)重0. 02 ;核心數(shù):雙核,權(quán)重0. 02 ;操作系統(tǒng): I0S,權(quán)重0. 02 ;品牌:三星,權(quán)重0. 001"等等;然后Query中"蘋果"在標簽序列中已經(jīng)被 打上"品牌標記",說明用戶已經(jīng)指定該維度,因此會在推薦的結(jié)果中,把該維度的標簽刪 除,結(jié)果為" Iphone 型號:Iphone 4s,權(quán)重 0· I ;Iphone 型號:Iphone 5s,權(quán)重 0.05 ;Iphone 型號:Iphone 5,權(quán)重0.05;Iphone型號:Iphone 5c,權(quán)重0.04;屏幕尺寸:4.0英寸,權(quán)重 0. 02 ;核心數(shù):雙核,權(quán)重0. 02 ;操作系統(tǒng):I0S,權(quán)重0. 02" ;最后把每個Query下的權(quán)重進 一步歸一,最終離線數(shù)據(jù)輸出的結(jié)果為"Iphone型號:Iphone 4s,權(quán)重0. 333 ;Iphone型 號:Iphone 5s,權(quán)重 0· 167 ; Iphone 型號:Iphone 5,權(quán)重 0· 167 ;Iphone 型號:Iphone5c,權(quán) 重0. 133 ;屏幕尺寸:4. 0英寸,權(quán)重0.067 ;核心數(shù):雙核,權(quán)重0.067 ;操作系統(tǒng):I0S,權(quán)重 0· 067 ; "。
[0087] 上述方案實現(xiàn)了,對提取到的歷史搜索詞對應的離線推薦的各個標簽的歷史標簽 權(quán)重值,可以計算出該標簽中的平均權(quán)重(由于標簽中的權(quán)重已經(jīng)做了歸一化,因此1/標 簽的個數(shù)就是標簽的平均權(quán)重),此時,有點擊行為的搜索結(jié)果的標簽的權(quán)重值是正均值, 沒有點擊行為的搜索結(jié)果的標簽的權(quán)重值是負均值。
[0088] 下面就結(jié)合圖3至圖4,以電子商務領(lǐng)域為應用場景,對本申請實施例一提供的方 案進行詳細描述:
[0089] 步驟A,用戶發(fā)送搜索請求給客戶端,客戶端的搜索框獲取到當前搜索詞。
[0090] 步驟B,客戶端獲取到用戶的信息和當前搜索詞中,發(fā)送請求給中間服務器。
[0091] 步驟C,中間服務器發(fā)送請求給引擎服務器,其中,該引擎服務器提供的引擎服務 了加入了排序算法。
[0092] 步驟D,引擎服務器根據(jù)請求中攜帶的當前搜索詞查詢得到對應的搜索結(jié)果,即 獲取到當前搜索詞對應的商品信息的商品信息列表,并將該商品信息列表返回給中間服務 器。
[0093] 步驟E,引擎服務器除了可以將上述商品信息列表返回給中間服務器,另一方面也 可以把返回的商品信息列表寫回第三方服務器。
[0094] 步驟F,中間服務器把獲取到的商品信息列表返回客戶端,供用戶進行瀏覽,此時 中間服務器實時監(jiān)控客戶端上顯示的商品信息的操作行為。
[0095] 步驟G,客戶端將發(fā)生了點擊、收藏、交易等操作行為的商品信息返回給中間服務 器。
[0096] 步驟H,中間服務器把客戶端返回的發(fā)生了操作行為商品信息寫回第三方服務器。
[0097] 步驟I,此時,算法服務器發(fā)出算法請求給第三方服務器后,算法服務器會獲取到 每個發(fā)生了操作行為的搜索結(jié)果的用戶行為數(shù)據(jù),然后,在抽取發(fā)生了不同行為的商品信 息對應的標簽之后,計算每個標簽的在線權(quán)重值,采用一對一疊加的方式將在線權(quán)重值累 加到該當前搜索詞對應的歷史標簽權(quán)重值中,并進行重排序,產(chǎn)出導購標簽列表。
[0098] 步驟J,通過算法產(chǎn)出的標簽列表,返回給客戶端,用戶在翻頁的時候,時時產(chǎn)出用 戶感興趣的標簽列表。
[0099] 此處需要說明的是,上述步驟I中歷史標簽權(quán)重值可以由歷史標簽服