国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法和系統(tǒng)的制作方法

      文檔序號:10624894閱讀:516來源:國知局
      對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法和系統(tǒng)的制作方法
      【專利摘要】本發(fā)明公開了一種對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法和系統(tǒng),從用戶搜索詞出發(fā),分析用戶真正的搜索意圖,通過外網(wǎng)相關(guān)數(shù)據(jù)的爬取,再對爬取結(jié)果進(jìn)行數(shù)據(jù)挖掘提取出與該詞相關(guān)度較高的關(guān)鍵詞即高頻詞,同時結(jié)合常用語料庫對高頻詞進(jìn)行歸類。本發(fā)明擴(kuò)大了關(guān)聯(lián)數(shù)據(jù)的爬取范圍,克服了普通無結(jié)果處理方法中主要局限于對站內(nèi)搜索數(shù)據(jù)及用戶行為的挖掘,容易出現(xiàn)處理失敗的缺陷。
      【專利說明】
      對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法和系統(tǒng)[0001]
      技術(shù)領(lǐng)域
      [0002]本發(fā)明屬于互聯(lián)網(wǎng)電子商務(wù)領(lǐng)域,涉及互聯(lián)網(wǎng)電子商務(wù)中商品搜索發(fā)生無結(jié)果返回時的二次搜索場景,尤其涉及一種對無結(jié)果詞進(jìn)行標(biāo)簽識別并生成替換搜索詞的搜索方法和系統(tǒng)。
      [0003]【背景技術(shù)】
      [0004]目前搜索技術(shù)對搜索詞的處理僅存在分詞、同義詞處理、糾錯、減詞等模塊,對于正常檢索無結(jié)果的關(guān)鍵詞,采用糾錯處理及減詞搜索,增加搜索二次召回,但還存在較多的用戶關(guān)注度較高的搜索詞無法被糾錯或減詞所消化,即該關(guān)鍵詞經(jīng)糾錯處理和減詞搜索處理后,最終還是無搜索結(jié)果返回。
      [0005]用戶關(guān)注度較高的搜索詞(如日搜索次數(shù)大于20次以上的搜索詞)主要為包含品牌、品類、屬性信息的不操作商品詞,這里的不操作商品詞指電子商務(wù)網(wǎng)站因缺貨、未采購入貨、國家政策規(guī)定禁賣等原因不銷售的商品詞條。對不操作商品詞進(jìn)行搜索時,通過糾錯處理及減詞搜索效果不夠理想,在前臺頁面展示上仍跳轉(zhuǎn)到搜索無結(jié)果頁,故需要對此類關(guān)鍵詞作品牌、品類及屬性信息的擴(kuò)展和識別,增加搜索結(jié)果的再次召回,提高搜索的單品轉(zhuǎn)化率。
      [0006]
      【發(fā)明內(nèi)容】

      [0007]技術(shù)問題:本發(fā)明提供一種提高搜索檢全率,結(jié)果更精準(zhǔn),搜索結(jié)果更接近用戶真正意圖的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法。本發(fā)明同時提供一種實(shí)現(xiàn)上述方法的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索系統(tǒng)。技術(shù)方案:本發(fā)明的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法,包括以下步驟:(1)對于無結(jié)果詞,基于外網(wǎng)數(shù)據(jù)的爬取和分詞切分,提取出高頻詞并對其進(jìn)行標(biāo)注;(2)在標(biāo)注的高頻詞基礎(chǔ)上生成替換詞;(3)對無結(jié)果詞進(jìn)行擴(kuò)展,如得到的擴(kuò)展詞中包括替換詞,則進(jìn)一步,對該替換詞進(jìn)行前臺搜索,如果有檢索結(jié)果,則將前臺搜索的結(jié)果作為最終搜索結(jié)果輸出。
      [0008]本發(fā)明搜索方法的優(yōu)選方案中,步驟(1)具體包括:對無結(jié)果詞進(jìn)行外網(wǎng)數(shù)據(jù)的爬取,對爬取后的文檔進(jìn)行分詞切分,并從切分結(jié)果中提取出高頻詞;用商品庫中記錄的品牌、品類、屬性信息對高頻詞進(jìn)行詞性標(biāo)注。
      [0009]本發(fā)明搜索方法的優(yōu)選方案中,替換詞的生成方法為:從被標(biāo)注為品牌的高頻詞中取計(jì)算得分最高的記錄,從被標(biāo)注為品類的高頻詞中取計(jì)算得分最高的記錄,從標(biāo)注為屬性的高頻詞中取計(jì)算得分最高的多條記錄;然后將所取的三部分高頻詞拼接,即為替換詞。
      [0010]本發(fā)明搜索方法的優(yōu)選方案中,對無結(jié)果詞進(jìn)行擴(kuò)展包括:對屬于純品牌詞的無結(jié)果詞,擴(kuò)展出該品牌的多個類似或相近的語義和表達(dá)形式; 對屬于純品類詞的無結(jié)果詞,擴(kuò)展出該品類的多種類似或相近的語義和表達(dá)形式; 對屬于品牌+品類詞的無結(jié)果詞,分別在該品牌/品類基礎(chǔ)上擴(kuò)展此品牌/品類的多種類似或相近的語義和表達(dá)形式;對屬于純型號詞的無結(jié)果詞,根據(jù)該型號所屬品牌或分類,擴(kuò)展為以下三種之一:品類詞、品牌詞、品牌+品類詞。
      [0011]本發(fā)明搜索方法的優(yōu)選方案中,所述的對無結(jié)果詞進(jìn)行擴(kuò)展還包括:對屬于品類 +屬性詞的無結(jié)果詞,分別將品類詞和屬性詞擴(kuò)展為該詞的多種類似或相近的語義和表達(dá)形式。
      [0012]本發(fā)明的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索系統(tǒng),包括:高頻詞處理單元,用以生成高頻詞并對其進(jìn)行標(biāo)注;替換詞生成單元,用以在標(biāo)注的高頻詞的基礎(chǔ)上生成替換詞;商品庫,用于存儲記錄商品的的品牌、品類、屬性信息;前臺應(yīng)用層,用以實(shí)時接收替換詞,對替換詞進(jìn)行搜索,并將檢索結(jié)果反饋給校驗(yàn)單元;校驗(yàn)單元,用以對生成的替換詞進(jìn)行校驗(yàn),并根據(jù)校驗(yàn)結(jié)果輸出搜索結(jié)果。
      [0013]本發(fā)明搜索系統(tǒng)的優(yōu)選方案中,高頻詞處理單元包括:爬取模塊,用以對無結(jié)果詞進(jìn)行外網(wǎng)數(shù)據(jù)的爬??;分詞切分模塊,用以對爬取后獲得的文檔進(jìn)行分詞切分;高頻詞提取模塊,用以從分詞切分后的結(jié)果中提取出高頻詞;詞性識別模型,用以根據(jù)商品庫中記錄的品牌、品類、屬性信息對高頻詞進(jìn)行詞性標(biāo)注。
      [0014]本發(fā)明搜索系統(tǒng)的優(yōu)選方案中,校驗(yàn)單元包括擴(kuò)展模塊和判定模塊,所述擴(kuò)展模塊用以對無結(jié)果詞進(jìn)行擴(kuò)展,獲得擴(kuò)展詞;所述判定模塊在擴(kuò)展詞中包括替換詞,同時前臺應(yīng)用層反饋該替換詞有搜素結(jié)果時,判定通過校驗(yàn),并將前臺應(yīng)用層的搜索結(jié)果作為最終搜索結(jié)果。
      [0015]本發(fā)明搜索系統(tǒng)的優(yōu)選方案中,判定模塊還包括:將已包括在擴(kuò)展詞中的替換詞發(fā)送給前臺應(yīng)用層;所述前臺應(yīng)用層僅對上述判定模塊發(fā)送過來的替換詞進(jìn)行檢索。本發(fā)明通過對搜索無結(jié)果詞識別,并對其進(jìn)行品牌品類及屬性的擴(kuò)展,尋找相應(yīng)的替換搜索詞,同時采用替換搜索詞作為此無結(jié)果詞的二次召回對象,返回其搜索結(jié)果,提高搜索檢全率。
      [0016]有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn):擴(kuò)大了關(guān)聯(lián)數(shù)據(jù)的爬取范圍,克服了普通無結(jié)果處理方法中主要局限于對站內(nèi)搜索數(shù)據(jù)及用戶行為的挖掘,容易出現(xiàn)處理失敗的缺陷。
      [0017]本發(fā)明方法中用商品庫的品牌詞、品類詞、屬性詞及相互關(guān)聯(lián)的關(guān)系,對提取出的高頻詞進(jìn)行歸類,同時借助品類品牌屬性的關(guān)系,判斷各個高頻詞是否有關(guān)聯(lián)及其關(guān)聯(lián)性,使得輸出的結(jié)果更精準(zhǔn)。
      [0018]本發(fā)明中的替換詞生成方法,不僅從詞本身包含的內(nèi)容,還挖掘用戶在搜索該詞返回的相關(guān)內(nèi)容,更接近用戶真正的搜索意圖。
      [0019]【附圖說明】[〇〇2〇] 圖1是本發(fā)明方法的處理流程圖。
      [0021]圖2是本發(fā)明中的前端展示調(diào)用流程圖。
      [0022]【具體實(shí)施方式】
      [0023]下面結(jié)合實(shí)施例和說明書附圖對本發(fā)明作進(jìn)一步的說明。
      [0024]現(xiàn)有對無結(jié)果詞的處理方法有糾錯及減詞兩種,其中糾錯,主要以無結(jié)果詞為核心,從字形、字音兩方面對原詞進(jìn)行相似詞擴(kuò)展,并根據(jù)原詞與相似詞之前的相似度得分, 獲取與原詞相似度較高的相似詞作為替換詞。減詞,則是對無結(jié)果詞進(jìn)行分詞處理后的結(jié)果進(jìn)行取舍,保留有結(jié)果的部分作為原詞的替換詞。
      [0025]本發(fā)明方法的系統(tǒng)模塊數(shù)據(jù)流程如圖1所示,首先對經(jīng)糾錯處理和減詞搜索后仍無結(jié)果的搜索詞(即無結(jié)果詞)進(jìn)行外網(wǎng)數(shù)據(jù)的爬取,對爬取后的文檔進(jìn)行分詞切分并提取出高頻詞,其中品牌和品類均提取出現(xiàn)頻率最高的那個詞作為高頻詞(可以為空),屬性則提取出現(xiàn)頻率最高的1至3個詞作為高頻詞(最多為3個,可以不足3個)。結(jié)合現(xiàn)有的商品庫中的數(shù)據(jù)(即商品庫中記錄的品牌、品類、屬性信息)對高頻詞進(jìn)行詞性標(biāo)注,即將高頻詞與商品庫中的品牌、品類和屬性詞進(jìn)行匹配,生成相應(yīng)的匹配結(jié)果;然后按照生成規(guī)則,在詞性標(biāo)注后得到的匹配結(jié)果基礎(chǔ)上生成替換詞,如果根據(jù)生成規(guī)則無法得到替換詞,則結(jié)束本方法流程并輸出“結(jié)果為空”,如果得到了替換詞,則進(jìn)入后續(xù)的校驗(yàn)環(huán)節(jié);最后對替換詞進(jìn)行后臺校驗(yàn)和前臺搜索校驗(yàn),如兩種校驗(yàn)方式均獲通過,則將前臺搜索校驗(yàn)的結(jié)果作為最終輸出的搜索結(jié)果,否則結(jié)束本方法流程并輸出結(jié)果為空:后臺校驗(yàn),即在后臺對無結(jié)果詞進(jìn)行擴(kuò)展,如替換詞落入得到的擴(kuò)展詞中,則為通過校驗(yàn),否則為沒有通過;前臺搜索校驗(yàn),即由前臺對替換詞進(jìn)行檢索,如果有檢索結(jié)果,則校驗(yàn)通過,否則校驗(yàn)沒有通過。
      [0026]本發(fā)明方法主要是從用戶搜索詞出發(fā),分析用戶真正的搜索意圖,通過外網(wǎng)相關(guān)數(shù)據(jù)(指與該關(guān)鍵詞相關(guān)的網(wǎng)頁信息、用戶點(diǎn)評信息等)的爬取,再對爬取結(jié)果進(jìn)行數(shù)據(jù)挖掘提取出與該詞相關(guān)度較高的關(guān)鍵詞即高頻詞(相關(guān)度的判斷,主要考慮提取出的關(guān)鍵詞在爬取結(jié)果中的出現(xiàn)頻次,以及與原詞是否在完整語句中同時出現(xiàn)兩方面),同時結(jié)合常用語料庫(包含商品品牌、商品分類、商品屬性數(shù)據(jù))對高頻詞進(jìn)行歸類。
      [0027]本發(fā)明方法中應(yīng)用商品庫的收集和整理數(shù)據(jù),用到了全網(wǎng)(包含應(yīng)用本方法的網(wǎng)上商城的站內(nèi)站外)的品牌詞、品類詞(即分類詞)、屬性詞和他們之間的相互關(guān)聯(lián)關(guān)系(即某品類下,如冰箱分類包含某幾個品牌-海爾/美菱/西門子等,同時包含哪些屬性-對開門/變頻/恒溫等)。該商品庫能幫助對提取出的高頻詞進(jìn)行歸類,同時借助品類品牌屬性的關(guān)系,判斷各個高頻詞是否有關(guān)聯(lián)及其關(guān)聯(lián)性,使得輸出的結(jié)果更精準(zhǔn)。例如:原詞 “52nx255a”,算法輸出高頻詞有:“夏普、電視、液晶、日本、進(jìn)口、大金”,根據(jù)商品庫對高頻詞進(jìn)行詞義標(biāo)注及其之間的關(guān)聯(lián)關(guān)系進(jìn)行識別,最終輸出為“夏普-品牌,電視-品類,液晶、進(jìn)口 _屬性”。
      [0028]本發(fā)明的實(shí)施例中,以無結(jié)果詞“tel 48f 3700”為例,具體包括以下步驟:(1)首先利用爬蟲對無結(jié)果詞“tel 48f 3700”進(jìn)行外網(wǎng)數(shù)據(jù)的爬取,獲取與該結(jié)果詞相關(guān)的文檔信息(如:文檔1、文檔2、文檔3-);然后對爬取的結(jié)果進(jìn)行分詞切分,對爬取到的網(wǎng)頁數(shù)據(jù)處理方法中用到的分詞詞典, 不僅僅包括常用詞典內(nèi)容,還包含品牌詞、品類詞及屬性詞。然后從切分的結(jié)果中提取出高頻詞;如:切分結(jié)果有一 tc 1、電視、省電、大促、液晶、網(wǎng)絡(luò),對切分后的各個單元,統(tǒng)計(jì)各自的tf (term frequency,關(guān)鍵詞在每篇文檔中出現(xiàn)的頻率)及df (document frequency,出現(xiàn)過關(guān)鍵詞的文檔在整個文檔集的占比)。其中tf為該單元在網(wǎng)頁中出現(xiàn)的次數(shù),若超過 3次則記3次,df為某詞在多少個文檔出現(xiàn)過(1~30),最大為30,并對各個單元進(jìn)行高頻計(jì)算(各個單元的頻次=tf/df ),并保留top30作為高頻詞,所以最終提取的高頻詞〈=30個,貝1J 其中提取的尚頻詞有一tel、電視、液晶。
      [0029] 接下來根據(jù)商品庫中的數(shù)據(jù)(即商品庫中記錄的品牌、品類、屬性信息),對上述提取的高頻詞進(jìn)行詞性標(biāo)注。如:tcl_品牌,電視-品類,液晶-屬性。本發(fā)明增加了語料庫, 輔助對高頻詞的詞性以及高頻詞之間的關(guān)系進(jìn)行標(biāo)注。
      [0030](2)結(jié)合高頻詞及其標(biāo)注結(jié)果,生成替換詞。如:tel液晶電視。
      [0031]替換詞具體的生成方法為:高頻詞提取的結(jié)果最多可為30個,故其標(biāo)注后的結(jié)果最多也可是30個標(biāo)注記錄。這樣就存在多個被標(biāo)注為品牌的尚頻詞和多個被標(biāo)注為品類的尚頻詞。
      [0032] 對于被標(biāo)注為品牌的高頻詞進(jìn)行篩選,取高頻計(jì)算得分最高的那條記錄。同樣標(biāo)注為品類的高頻詞也取高頻計(jì)算得分最高的那條記錄。標(biāo)注為屬性的高頻詞,取高頻計(jì)算得分的多條(例如top5條)記錄。
      [0033] 直接對這三部分抽取的結(jié)果進(jìn)行拼接,生成一個含有品牌詞(含標(biāo)注)、品類詞和屬性(含標(biāo)注)的高頻詞組合,即為替換詞。
      [0034]同時替換詞必須滿足以下生成規(guī)則:1)品牌、品類均最多只能有一個輸出(但可以沒有輸出),屬性可以有多個輸出(但可以沒有輸出);2)替換詞中包含的品牌、品類和屬性均必須是商品庫中已有的信息;3)如果替換詞是品類-品牌組合詞,以及品類-屬性組合詞,則其必須是商品庫中已有的組合詞。
      [0035](3)首先根據(jù)擴(kuò)展規(guī)則,在后臺對無結(jié)果詞進(jìn)行擴(kuò)展,生成擴(kuò)展詞。如tel擴(kuò)展為: tel液晶電視。然后對替換詞進(jìn)行后臺校驗(yàn)(即圖1中所示的“擴(kuò)展詞校驗(yàn)”):檢查得到的擴(kuò)展詞是否包含了已生成的替換詞。
      [0036]同時進(jìn)行前臺搜索校驗(yàn):前臺應(yīng)用層實(shí)時獲取替換詞,并對其是否存在搜索結(jié)果進(jìn)行校驗(yàn)(即圖1中所示的“前臺搜索校驗(yàn)”),有結(jié)果的在前臺進(jìn)行展示,無結(jié)果的不在前臺展示。
      [0037]在本發(fā)明方法的一種優(yōu)選實(shí)施例中,上述步驟(3)僅將通過后臺校驗(yàn)的替換詞提交給前臺應(yīng)用層進(jìn)行前臺搜索校驗(yàn),這樣可以降低搜索工作量,進(jìn)一步提高搜索效率和準(zhǔn)確度。
      [0038]本發(fā)明方法中,按照以下方式對無結(jié)果詞進(jìn)行擴(kuò)展,得到擴(kuò)展詞:1)對于無結(jié)果詞為純品牌詞的,在該無結(jié)果詞基礎(chǔ)上擴(kuò)展出該品牌的多個類似或相近的語義和表達(dá)形式,例如海爾擴(kuò)展為haier,但此處的擴(kuò)展要同時滿足以下條件:a、若該品牌只包含一個品類,則需要將該純品牌詞擴(kuò)展為品牌+品類的組合詞,例如: 諾基亞擴(kuò)展為諾基亞手機(jī);若該品牌有多個品類,則對該純品牌詞不做品類上的擴(kuò)展,例如:對于“三星”的擴(kuò)展就不需要擴(kuò)展品類。
      [0039]b、若該品牌為不操作商品詞,則轉(zhuǎn)換成此品牌主打的操作品類詞。
      [0040]例如:吉安特——山地車、自行車口口?!獔?jiān)果2)對于無結(jié)果詞為純品類詞的,在該無結(jié)果詞基礎(chǔ)上擴(kuò)展出該品類的多種類似或相近的語義和表達(dá)形式,但此處的擴(kuò)展要同時滿足以下條件:a、若該品類只包含一個品牌,則需要將該純品類詞擴(kuò)展為品牌+品類的組合詞;若該品類涉及多個品牌,則品牌不要擴(kuò)展;例如微波爐如果只包括格蘭仕一個品牌,則擴(kuò)展為格蘭仕+微波爐,如果還包括其他品牌,則對該純品類詞不做品牌上的擴(kuò)展。
      [0041]b、若該品類為不操作商品詞,則轉(zhuǎn)換成此品類的相關(guān)品類(替代品類或上一層大品類)例如:冷暖扇空調(diào)扇、空調(diào)、電風(fēng)扇3)對于無結(jié)果詞為品牌+品類詞的,則對品牌和品類分別按如下方式擴(kuò)展:對品牌詞:在該品牌基礎(chǔ)上擴(kuò)展此品牌的多種類似或相近的語義和表達(dá)形式;對品類詞:在該品類基礎(chǔ)上擴(kuò)展此品類的多種類似或相近的語義和表達(dá)形式。
      [0042]對上述擴(kuò)展后的品牌+品類詞,若其中有不操作詞,則結(jié)合現(xiàn)有的商品庫進(jìn)行取舍(即舍棄該不操作詞),例如:擴(kuò)展后為格力空調(diào),而格力為不操作詞,則調(diào)整為空調(diào);又例如:擴(kuò)展后為臺鈴電動車,而該商城不銷售臺鈴品牌的電動車,但賣其他品牌的電動車(即臺鈴為不操作詞),則調(diào)整為電動車。
      [0043]4)對于無結(jié)果詞為純型號詞的,則通過識別出該型號(屬性)所屬品牌/分類,得到擴(kuò)展詞為以下三種之一:品類詞、品牌詞、品牌+品類詞,其中對于商品庫中存在品牌+品類對應(yīng)關(guān)系的,才擴(kuò)展出品牌+品類詞。
      [0044]上述商品庫中存在品牌+品類對應(yīng)關(guān)系是指:網(wǎng)上商城銷售該型號所屬的品類且該品類可賣的商品,也包含與該型號一致的品牌。例如:夏普電視某款型號,該型號在網(wǎng)上商城上不賣,出現(xiàn)無結(jié)果,但該型號對應(yīng)的電視這個品類,在網(wǎng)上商城上是可銷售的,同時網(wǎng)上商城可銷售的電視中也包含夏普這個品牌。此時則應(yīng)擴(kuò)展出“夏普電視”這種品牌+品類詞的組合。
      [0045]如果網(wǎng)上商城可銷售的電視中,不賣夏普這個品牌,則應(yīng)只擴(kuò)展出“電視”這個品類詞,如同格力空調(diào)型號的這個例子。
      [0046]在本發(fā)明方法的優(yōu)選實(shí)施例中,上述對無結(jié)果詞進(jìn)行擴(kuò)展的環(huán)節(jié)還可以包括對無結(jié)果詞為品類+屬性詞的擴(kuò)展,即分別將其中的品類詞和屬性詞擴(kuò)展為該詞的多種類似或相近的語義和表達(dá)形式,然后將擴(kuò)展后的品類+屬性詞組合作為擴(kuò)展詞。
      [0047]本發(fā)明方法的優(yōu)選實(shí)施例中,還可以提供對算法的自學(xué)習(xí)功能,在整個流程中增加修正結(jié)果的反饋環(huán)節(jié),算法可根據(jù)反饋的結(jié)果,檢查分詞詞典和語料庫,從而提高算法輸出的準(zhǔn)確性,其中“反饋“的內(nèi)容為:從擴(kuò)展詞和替換詞的差異上,可以看出生成的替換詞所欠缺的內(nèi)容,將其所欠缺的這些內(nèi)容作為更新補(bǔ)充內(nèi)容輸入商品庫,對商品庫中已有信息進(jìn)行補(bǔ)充完善,從而提升對后續(xù)無結(jié)果詞進(jìn)行標(biāo)簽識別和搜索的成功率和準(zhǔn)確度。比如 “口口?!保商鎿Q詞為“堅(jiān)果”,而擴(kuò)展的結(jié)果為“ 口口福堅(jiān)果”。在兩者的對比中,會發(fā)現(xiàn), 生成的替換詞中缺少了 “口口?!边@個品牌,故需作相應(yīng)的反饋,對商品庫中的品牌數(shù)據(jù)進(jìn)行補(bǔ)充。
      [0048]本發(fā)明方法的優(yōu)選實(shí)施例中,還可以包括前端應(yīng)用對用戶搜索場景的識別及獲取后端存儲數(shù)據(jù)啟動二次召回的內(nèi)容,基本流程為:1、當(dāng)用戶輸入的搜索詞無返回?cái)?shù)據(jù)時,則對搜索詞進(jìn)行智能糾錯處理,如果能正常返回搜索結(jié)果,則直接輸出搜索結(jié)果,無需調(diào)用二次召回流程;若用戶搜索詞經(jīng)過智能糾錯處理后,不能正常返回搜索結(jié)果,則發(fā)起對該搜索詞的二次召回;2、按照上述對無結(jié)果詞進(jìn)行標(biāo)簽識別和搜索的方法和流程,進(jìn)行搜索詞的二次召回, 其中生成的替換詞作為該搜索詞二次召回的輸入。
      [0049]本發(fā)明的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索系統(tǒng)包括:高頻詞處理單元,用以生成高頻詞并對其進(jìn)行標(biāo)注;替換詞生成單元,用以在標(biāo)注的高頻詞的基礎(chǔ)上生成替換詞;商品庫,用于存儲記錄商品的的品牌、品類、屬性信息;前臺應(yīng)用層,用以實(shí)時接收替換詞,對替換詞進(jìn)行搜索,并將有無檢索結(jié)果反饋給校驗(yàn)單元;校驗(yàn)單元,用以對生成的替換詞進(jìn)行校驗(yàn),并根據(jù)校驗(yàn)結(jié)果輸出搜索結(jié)果。
      [0050]本發(fā)明搜索系統(tǒng)的實(shí)施例中,高頻詞處理單元包括:爬取模塊,用以對無結(jié)果詞進(jìn)行外網(wǎng)數(shù)據(jù)的爬?。环衷~切分模塊,用以對爬取后獲得的文檔進(jìn)行分詞切分并提取出高頻詞;詞性識別模型,用以根據(jù)商品庫中記錄的品牌、品類、屬性信息對高頻詞進(jìn)行標(biāo)注。
      [0051]本發(fā)明搜索系統(tǒng)的實(shí)施例中,校驗(yàn)單元包括擴(kuò)展模塊和校驗(yàn)判定模塊,所述擴(kuò)展模塊用以對無結(jié)果詞進(jìn)行擴(kuò)展,獲得擴(kuò)展詞;所述校驗(yàn)判定模塊在擴(kuò)展詞中包括替換詞,同時前臺應(yīng)用層反饋該替換詞有搜素結(jié)果時,判定通過校驗(yàn),并將前臺應(yīng)用層的搜索結(jié)果作為最終搜索結(jié)果。
      [0052]本發(fā)明搜索系統(tǒng)的優(yōu)選實(shí)施例中,校驗(yàn)判定模塊還將已包括在擴(kuò)展詞中的替換詞發(fā)送給前臺應(yīng)用層,所述前臺應(yīng)用層僅對上述校驗(yàn)判定模塊發(fā)送過來的擴(kuò)展詞進(jìn)行檢索。
      [0053]本發(fā)明搜索系統(tǒng)的優(yōu)選實(shí)施例中擴(kuò)展模塊包括:用以對屬于純品牌詞的無結(jié)果詞進(jìn)行擴(kuò)展的純品牌詞子模塊;用以對屬于純品類詞的無結(jié)果詞進(jìn)行擴(kuò)展的品類詞詞子模塊;用以對屬于品牌+品類詞的無結(jié)果詞進(jìn)行擴(kuò)展的品牌+品類詞子模塊;用以對屬于純型號詞的無結(jié)果詞進(jìn)行擴(kuò)展的純型號詞子模塊。本發(fā)明搜索系統(tǒng)的另一種優(yōu)選實(shí)施例中,擴(kuò)展模塊還包括:用以對屬于品類+屬性詞的無結(jié)果詞進(jìn)行擴(kuò)展的品類+屬性詞子模塊。
      [0054]下面通過舉例說明本發(fā)明搜索系統(tǒng)的工作過程:該系統(tǒng)包括:爬取模塊一一對無結(jié)果詞進(jìn)行外網(wǎng)數(shù)據(jù)的爬取,返回與該無結(jié)果詞相關(guān)的文檔。爬取模塊經(jīng)過網(wǎng)站爬蟲工具獲取與該詞相關(guān)的文檔資料(如:文檔1、文檔2、文檔 3?),并返回給分詞切分模塊。
      [0055]分詞切分模塊,對返回的文檔數(shù)據(jù)進(jìn)行切分。分詞切分模塊使用公開分詞算法(IK 分詞器)對文檔資料進(jìn)行切分,生成多個詞條(如:京東、價(jià)格、型號、全網(wǎng)、底價(jià)、tcl、冰箱、 雙門、冰箱、變頻……)后。
      [0056]對分詞結(jié)果進(jìn)行詞頻統(tǒng)計(jì),提取出高頻詞:對切分后的結(jié)果進(jìn)行tf?和df計(jì)算, 并計(jì)算總得分(=tf/df),如京東2*3,價(jià)格3*4,型號1*4,全網(wǎng)1*2,底價(jià)2*2, tcl8*9,冰箱 9*9,雙門6*9,變頻8*8 ;獲取top30作為高頻詞,如tcl、冰箱、雙門、變頻。
      [0057]詞性識別模型,用以詞性標(biāo)注:根據(jù)商品庫(提前準(zhǔn)備好的品牌、品類、屬性信息等數(shù)據(jù))對高頻詞的進(jìn)行詞性標(biāo)注,可標(biāo)為品牌、品類和屬性中其中一類,如:tel:品牌、冰箱:分類、雙門:屬性。
      [0058]替換詞生成單元,用以生成替換詞,品牌和品類各最多只能是1個,屬性最多5個。 取topi的品牌詞(如tel)、topi品類詞(如:冰箱),屬性詞(如:雙門、變頻)。
      [0059]擴(kuò)展模塊,對無結(jié)果詞進(jìn)行擴(kuò)展,輸出不同的擴(kuò)展結(jié)果,如擴(kuò)展出結(jié)果為tel冰箱。
      [0060]對生成的替換詞與擴(kuò)展結(jié)果進(jìn)行校驗(yàn),校驗(yàn)通過的作為最終輸出。
      [0061]對于用戶搜索無結(jié)果詞“tel bcd-155ksa9”,首先,爬取模塊經(jīng)過網(wǎng)站爬蟲工具獲取與該詞相關(guān)的文檔資料(如:文檔1、文檔2、文檔3…),并返回給分詞切分模塊;分詞切分模塊使用公開分詞算法(IK分詞器)對文檔資料進(jìn)行切分,生成多個詞條(如:京東、價(jià)格、 型號、全網(wǎng)、底價(jià)、tcl、冰箱、雙門、冰箱、變頻……)后,提取出高頻詞;詞性識別模型根據(jù)商品庫(提前準(zhǔn)備好的品牌、品類、屬性信息等數(shù)據(jù))對各個高頻詞條進(jìn)行詞性標(biāo)注,即將上一步切分處理中生成的詞條與商品庫中的品牌、品類和屬性詞進(jìn)行匹配,并將生成的匹配結(jié)果作為高頻詞標(biāo)注結(jié)果輸出(如:tel:品牌、冰箱:分類、雙門:屬性)。
      [0062]擴(kuò)展模塊分別采用純品牌詞子模塊、品類詞詞子模塊、品牌+品類詞子模塊和純型號詞子模塊對無結(jié)果詞進(jìn)行擴(kuò)展,獲得擴(kuò)展詞;校驗(yàn)判定模塊在擴(kuò)展詞中包括替換詞,同時前臺應(yīng)用層反饋該替換詞有搜素結(jié)果時,判定通過校驗(yàn),并將前臺應(yīng)用層的搜索結(jié)果作為最終搜索結(jié)果。
      [0063]另外,本發(fā)明的優(yōu)選實(shí)施例中,校驗(yàn)單元也記錄著替換詞生成的結(jié)果和前臺應(yīng)用層反饋的結(jié)果,并通過校驗(yàn)的替換詞反饋給商品庫進(jìn)行信息的補(bǔ)充更新。例如“tel bcd-155ksa9”新發(fā)現(xiàn)存在“變頻”的屬性,則會修正最終生成的結(jié)果,修正后的結(jié)果定期反饋給商品庫,完善其所使用的商品庫數(shù)據(jù),方便其他無結(jié)果詞的替換詞擴(kuò)展。
      [0064]上述實(shí)施例僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和等同替換,這些對本發(fā)明權(quán)利要求進(jìn)行改進(jìn)和等同替換后的技術(shù)方案,均落入本發(fā)明的保護(hù)范圍。
      【主權(quán)項(xiàng)】
      1.一種對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法,其特征在于,該方法包括以下步驟:(1)對于無結(jié)果詞,基于外網(wǎng)數(shù)據(jù)的爬取和分詞切分,提取出高頻詞并對其進(jìn)行標(biāo)注;(2)在標(biāo)注的高頻詞基礎(chǔ)上生成替換詞;(3)對無結(jié)果詞進(jìn)行擴(kuò)展,如得到的擴(kuò)展詞中包括替換詞,則進(jìn)一步,對該替換詞進(jìn)行前臺搜索,如果有檢索結(jié)果,則將前臺搜索的結(jié)果作為最終搜索結(jié)果 輸出。2.根據(jù)權(quán)利要求1所述的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法,其特征在于,所述步 驟(1)具體包括:對無結(jié)果詞進(jìn)行外網(wǎng)數(shù)據(jù)的爬取,對爬取后的文檔進(jìn)行分詞切分,并從切 分結(jié)果中提取出高頻詞;用商品庫中記錄的品牌、品類、屬性信息對高頻詞進(jìn)行詞性標(biāo)注。3.根據(jù)權(quán)利要求2所述的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法,其特征在于,所述替 換詞的生成方法為:從被標(biāo)注為品牌的高頻詞中取計(jì)算得分最高的記錄,從被標(biāo)注為品類的高頻詞中取計(jì) 算得分最高的記錄,從標(biāo)注為屬性的高頻詞中取計(jì)算得分最高的多條記錄;然后將所取的 三部分高頻詞拼接,即為替換詞。4.根據(jù)權(quán)利要求1、2或3所述的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法,其特征在于,所 述的對無結(jié)果詞進(jìn)行擴(kuò)展包括:對屬于純品牌詞的無結(jié)果詞,擴(kuò)展出該品牌的多個類似或相近的語義和表達(dá)形式; 對屬于純品類詞的無結(jié)果詞,擴(kuò)展出該品類的多種類似或相近的語義和表達(dá)形式; 對屬于品牌+品類詞的無結(jié)果詞,分別在該品牌/品類基礎(chǔ)上擴(kuò)展此品牌/品類的多 種類似或相近的語義和表達(dá)形式;對屬于純型號詞的無結(jié)果詞,根據(jù)該型號所屬品牌或分類,擴(kuò)展為以下三種之一:品類 詞、品牌詞、品牌+品類詞。5.根據(jù)權(quán)利要求4所述的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索方法,其特征在于,所述的 對無結(jié)果詞進(jìn)行擴(kuò)展還包括:對屬于品類+屬性詞的無結(jié)果詞,分別將品類詞和屬性詞擴(kuò) 展為該詞的多種類似或相近的語義和表達(dá)形式。6.—種對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索系統(tǒng),其特征在于,該系統(tǒng)包括:高頻詞處理單元,用以生成高頻詞并對其進(jìn)行標(biāo)注;替換詞生成單元,用以在標(biāo)注的高頻詞的基礎(chǔ)上生成替換詞;商品庫,用于存儲記錄商品的的品牌、品類、屬性信息;前臺應(yīng)用層,用以實(shí)時接收替換詞,對替換詞進(jìn)行搜索,并將檢索結(jié)果反饋給校驗(yàn)單 元;校驗(yàn)單元,用以對生成的替換詞進(jìn)行校驗(yàn),并根據(jù)校驗(yàn)結(jié)果輸出搜索結(jié)果。7.根據(jù)權(quán)利要求6所述的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索系統(tǒng),其特征在于,所述高 頻詞處理單元包括:爬取模塊,用以對無結(jié)果詞進(jìn)行外網(wǎng)數(shù)據(jù)的爬取;分詞切分模塊,用以對爬取后獲得的文檔進(jìn)行分詞切分;高頻詞提取模塊,用以從分詞切分后的結(jié)果中提取出高頻詞;詞性識別模型,用以根據(jù)商品庫中記錄的品牌、品類、屬性信息對高頻詞進(jìn)行詞性標(biāo)注。8.根據(jù)權(quán)利要求6所述的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索系統(tǒng),其特征在于,所述校 驗(yàn)單元包括擴(kuò)展模塊和判定模塊,所述擴(kuò)展模塊用以對無結(jié)果詞進(jìn)行擴(kuò)展,獲得擴(kuò)展詞;所 述判定模塊在擴(kuò)展詞中包括替換詞,同時前臺應(yīng)用層反饋該替換詞有搜素結(jié)果時,判定通 過校驗(yàn),并將前臺應(yīng)用層的搜索結(jié)果作為最終搜索結(jié)果。9.根據(jù)權(quán)利要求8所述的對無結(jié)果詞進(jìn)行標(biāo)簽識別的搜索系統(tǒng),其特征在于,所述判 定模塊還包括:將已包括在擴(kuò)展詞中的替換詞發(fā)送給前臺應(yīng)用層;所述前臺應(yīng)用層僅對上述判定模塊發(fā)送過來的替換詞進(jìn)行檢索。
      【文檔編號】G06F17/30GK105989125SQ201510082637
      【公開日】2016年10月5日
      【申請日】2015年2月16日
      【發(fā)明人】賈洪園, 張晶
      【申請人】蘇寧云商集團(tuán)股份有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1