国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      選購熱點標簽的挖掘方法

      文檔序號:9727412閱讀:334來源:國知局
      選購熱點標簽的挖掘方法
      【技術領域】
      [0001 ]本發(fā)明提供一種基于海量商品數(shù)據的選購熱點標簽挖掘方法。
      【背景技術】
      [0002]隨著電子商務迅速的發(fā)展,網上購物由于其節(jié)省時間和提供豐富的可對比選擇商 品受到人們的青睞。目前京東(公司名稱)商品庫中有海量的商品提供給用戶選擇,隨著商 品數(shù)量的劇增、商品名稱書寫的不規(guī)范等因素的出現(xiàn),當用戶搜索一類產品時,搜索結果頁 會召回成千上萬的商品,用戶可能在短時間內無法獲取當前比較流行的各個元素的商品。 例如,用戶搜索連衣裙,召回的商品包含成千上萬,可能排名靠前的并不是用戶喜歡的類 型,用戶無法短時間內找到自己心儀的商品,這樣可能會造成部分用戶流失。有些比較有耐 心的用戶,會在搜索框中補充信息,如:"修身顯瘦連衣裙"、"蕾絲拼接連衣裙","小香風連 衣裙"等,搜索自己喜歡類型的連衣裙。通過用戶增加關鍵詞召回商品增加了用戶購物的復 雜性。
      [0003 ]結合用戶喜歡選購當前比較流行元素的商品這一習慣,我們從海量的商品中結合 商品類目、該類目下商家最近上架的商品描述的文本信息和用戶的搜索習慣,挖掘出各個 類別商品的熱點選購詞。給每一個商品打上標簽,這些標簽可以反映當前該類商品流行的 趨勢,選購熱點標簽將商品的賣點及特色以一種比較簡潔的方式展示給用戶,可以對用戶 進行導購,將其從海量的商品選購中解放出來。
      [0004] 熱點選購標簽與其他導航屬性相比,更能吸引用戶的眼球,符合大眾挑選用戶的 習慣,節(jié)省用戶購買商品的成本。
      [0005] 與本發(fā)明相關的技術有新詞識別,新詞識別主要有兩類方法:一是基于統(tǒng)計的方 法,對待處理的文本統(tǒng)計其重復字符串的頻率,然后利用信息熵計算詞邊界;二是基于監(jiān)督 的方法,首先選取能區(qū)分詞邊界的特征,然后利用大量訓練語料訓練,利用學習的模型進行 分詞。
      [0006] 現(xiàn)有技術存在以下缺點?,F(xiàn)有技術雖然可以提取到新詞,但是選購熱點標簽又不 同于一般的新詞,選購熱點標簽大部分是修飾新詞,目前還沒有修飾詞提取較為成熟的技 術。目前電子商務網站中的選購熱點標簽都是由運營人員編輯設定的,所以存在不能及時 發(fā)現(xiàn)并更新的問題。而且維護這些標簽會浪費大量的人力物力。

      【發(fā)明內容】

      [0007] 本發(fā)明提供一種基于海量商品數(shù)據的選購熱點標簽挖掘方法,其目的有兩個:一 是將商品的賣點及特色以一種比較簡單的方式展示給用戶,可以對用戶進行導購,將其從 海量的商品選購中解放出來;二是減少運營人員的工作量,并完成及時更新,最快地將最近 的選購熱點標簽反映給用戶。
      [0008] 與本發(fā)明相關的主要技術有以下三個方面:
      [0009] ?按照商品類目挖掘標簽,該技術是新詞識別,將描述商品的材質、
      [0010] 類型、風格的詞識別出來,這類詞主要是修飾詞。
      [0011] ?優(yōu)質搜索詞提取,該技術提取用戶點擊率高于基準值(例如1000次)
      [0012] 的搜索詞(即,優(yōu)質搜索詞),過濾掉用戶反饋不好以及包含錯別字
      [0013] 的搜索詞。
      [0014] ?產品詞類別判斷,該技術是高相關分類,通過用戶在一段時間內的
      [0015] 搜索點擊行為給搜索詞一個最相關的類目信息。
      [0016] 本發(fā)明的選購熱點標簽的挖掘方法包括以下步驟:搜索步驟,根據用戶輸入的關 鍵詞進行搜索,得到與搜索結果有關的商品標題;分詞步驟,使用分詞工具對搜索到的商品 標題進行分詞;組合步驟,使用語言模型N-Gram對分詞結果進行組合,得到候選標簽;和交 集步驟,將使用最大匹配算法對優(yōu)質搜索詞和用戶輸入的關鍵詞進行處理而得到的修飾詞 與在上述候選標簽做交集,從而獲得選購熱點標簽,其中,上述優(yōu)質搜索詞是指在有效時間 內,點擊搜索率高于某閾值的查詢式。
      [0017]發(fā)明效果
      [0018] 根據本發(fā)明,能將商品的賣點及特色以一種比較簡單的方式展示給用戶,可以對 用戶進行導購,將其從海量的商品選購中解放出來,另外能減少運營人員的工作量,并完成 及時更新,最快地將最近的選購熱點標簽反映給用戶。
      【附圖說明】
      [0019] 圖1是表示本發(fā)明的概要的流程圖。
      [0020] 圖2是利用優(yōu)質搜索詞挖掘選購熱點標簽的流程圖。
      [0021 ]圖3是利用高相關分類挖掘選購熱點標簽的流程圖。
      【具體實施方式】
      [0022]下面結合圖1對本發(fā)明的概要進行說明,圖1是表示本發(fā)明的概要的流程圖。
      [0023] 本發(fā)明的一方式的選購熱點標簽的挖掘方法,包括以下步驟:搜索步驟,根據用戶 輸入的關鍵詞進行搜索,得到與搜索結果有關的商品標題;分詞步驟,使用分詞工具對搜索 到的商品標題進行分詞;組合步驟,使用語言模型N-Gram對分詞結果進行組合,得到候選標 簽;和交集步驟,將使用最大匹配算法對優(yōu)質搜索詞和用戶輸入的關鍵詞進行處理而得到 的修飾詞與在上述候選標簽做交集,從而獲得選購熱點標簽,其中,上述優(yōu)質搜索詞是指在 有效時間內,點擊搜索率高于某閾值的查詢式。
      [0024] 根據上述方式所述的選購熱點標簽的挖掘方法,其中,在上述組合步驟中,保留組 合之后詞長大于等于第1詞長且小于等于第2詞長的標簽,并且對只包含字母和漢字的標簽 進行N-Gram計算,其中,上述第1詞長小于上述第2詞長。
      [0025] 根據上述方式所述的選購熱點標簽的挖掘方法,其中,在上述組合步驟中,在采用 語言模型N-Gram獲取候選標簽時刪除了商品標題的前部和后部的商品信息。
      [0026] 根據上述方式所述的選購熱點標簽的挖掘方法,其中,在上述組合步驟中,在采用 語言模型N-Gram獲取候選標簽時刪除了商品標題的前部1/5和后部1/5的商品信息。
      [0027] 根據上述方式所述的選購熱點標簽的挖掘方法,其中,上述優(yōu)質搜索詞滿足的條 件如下:條件(1),搜索詞在最近N天的點擊搜索日志中出現(xiàn),其中N = 7;條件(2),累計搜索 量大于等于某閾值TIME,其中TIME = 100;條件(3),點擊搜索率大于等于某閾值P,其中P = 15%〇
      [0028]根據上述方式所述的選購熱點標簽的挖掘方法,其中,挖掘上述優(yōu)質 [0029]搜索詞的步驟包括:當EK 7時,一旦滿足上述條件(1 )、(2)、(3),則輸出查詢式,作 為優(yōu)質搜索詞,當滿足上述條件(1)、(2)且不滿足條件(3)時,則輸出查詢式,作為低反饋 詞,該低反饋詞是指點擊搜索率低于某閾值的搜索詞,當只滿足上述條件(1)時,繼續(xù)計算 第D+1天的點擊搜索量;當D>7時,將不符合上述條件(1)的查詢式輸出,其余的處理邏輯與 D < 7的情況相同,當D = 180時,結束統(tǒng)計,其中,上述D是指統(tǒng)計的日期距當日的天數(shù)。
      [0030] 根據上述方式所述的選購熱點標簽的挖掘方法,其中,在上述交集步驟之后,還包 括通過商品標題的關鍵詞匹配來綁定上述選購熱點標簽的步驟。
      [0031] 下面對具體的實施方式進行說明。
      [0032] 本發(fā)明基于京東海量的商品標題并結合用戶的搜索習慣自動挖掘出選購熱點標 簽,整個技術方案分為以下三個部分:
      [0033 ] -、挖掘17個一級類目下商品的候選熱點標簽
      [0034] 17個一級類目涉及的三級類目有800多個(此處列舉的數(shù)字只是京東海量的商品 數(shù)量的一個例子),統(tǒng)計的數(shù)據是最近4個月上架且仍然在柜上的商品,商家為了使自己的 商品更容易被用戶搜索到,會在商品名稱中填寫一系列熱點選購標簽組合。下面是一個商 品名稱的例子:
      [0035]花田雅織2015寬松大碼九分褲女小腳褲韓國BF風破洞牛仔圖片色29。
      [0036]其中,"寬松大碼"、"九分褲"、"小腳褲"、"BF風"、"破洞牛仔"都是描述牛仔褲的標 簽。因此,本發(fā)明通過商品標題提取到大量的候選熱點標簽。
      [0037]將提取到的商品名稱按照類別分別放在各個文件夾中。京東商品有自己的三級類 目體系,將不同類別的商品區(qū)分開。選購熱點標簽與商品類目有密切的關系,每個類別下的 標簽差別很大,因此需要分別處理。如連衣裙類目下的標簽:"波西米亞"、"歐根紗"、"收腰 顯瘦"等;牛仔褲類目下的標簽:"高腰排扣"、"韓版破洞"、"BF風"等。首先,我們使用分詞工 具對上面的商品標題進行分詞,分詞后的結果例如如下:
      [0038]花田/雅/織//2015/寬松/大/碼/九分褲//女/小腳褲/韓國/BF/風/破洞/牛仔// 圖片/色//29。
      [0039] 我們將只包含一個詞的選購熱點標簽稱為簡單標簽,將包含兩個或者兩個以上詞 的選購熱點標簽稱為復合標簽。只依賴現(xiàn)有的分詞系統(tǒng)無法提取到包含新詞的熱點標簽和 復合標簽,無法更好的描述該商品。為了得到更多的選購熱點標簽("熱點標簽"是指本發(fā)明 的挖掘目標),本發(fā)明使用以下兩種方法A和B獲取候選標簽("候選標簽"只是一個候選集 合,里面有很多雜質,熱點標簽是從這個候選標簽中獲取的)。
      [0040] ?方法 A
      [0041 ]使用N-Gram將分詞的上下文term( "term"是指"詞")組合起來,保留組合之后詞長 大于等于3且小于等于5的候選選購熱點標簽。對只包含字母和漢字的term進行N-Gram計 算,當符合以下兩個條件時停止計算:(1)詞長大于等于5; (2)遇到非字母或者漢字的字。該 term計算完畢之后,從下一個term繼續(xù)計算,直到最后一個term。
      [0042]這里所說的N-Gram是指:大詞匯連續(xù)語音識別中常用的一種語言模型,對中文而 言,我們稱之為"漢語語言模型",常用的是二元的Bi-Gram和三元的Tri-Gram。本發(fā)明中因 為限制詞長為5,所以最多利用了五元Gram。
      [0043]另外,為了過濾噪音,我們采用N-Gram獲取候選熱點標簽時刪除了商品標題的前 部(例如,前1/5)和后部(例如,后1/5)的商品信息。因為商品標題前部的信息多為品牌,后 部多為顏色、尺碼等。假設,上面標題,過濾掉前面和后面之后的信息為:
      [0044] 2015/寬松/大/碼/九分褲//女/小腳褲/韓國/BF/風/破洞/牛仔。
      [0045] 米用N-Gram之后得到的候選標簽為:
      [0046] 寬松大;寬松大碼;大碼九分褲;碼九分褲;九分褲;女小腳褲;小腳褲;小腳褲韓 國;韓國BF;韓國BF風;BF風;BF風破洞;風破洞;風破洞牛仔;破洞牛仔。
      [0047] ?方法 B
      [0048] 基于分詞的標注結果,選取修飾詞、人名、字母的詞。如果詞長度大于等于3,則該 詞直接作為一個標簽;如果詞長小于等于2,且該
      當前第1頁1 2 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1