本發(fā)明實施例涉及電子商務(wù)領(lǐng)域和數(shù)據(jù)處理領(lǐng)域,更為具體而言,涉及一種數(shù)據(jù)處理方法及相關(guān)裝置。
背景技術(shù):
在互聯(lián)網(wǎng)搜索領(lǐng)域,詞庫的構(gòu)建以及對用戶搜索意圖的識別均對搜索體驗具有重要影響。
在已知的現(xiàn)有技術(shù)中,在詞庫構(gòu)建方面,通常需要手工整理詞庫以便完成詞庫構(gòu)建,這導(dǎo)致當(dāng)類別種類較多或者元數(shù)據(jù)較多時,人力消耗較大;此外,在搜索需求的識別方面,通常需要遍歷所有需求,這導(dǎo)致人工準備需求的方式需要較大的人力投入,并且最終的識別結(jié)果比較粗略,難以準確反映用戶的搜索需求。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)所存在的缺陷,本發(fā)明實施方式提供一種詞庫構(gòu)建方法、識別搜索需求的方法及相關(guān)裝置,能夠自動構(gòu)建適于搜索需求識別的詞庫,并且能提高識別搜索需求的準確度。
第一方面,本發(fā)明實施方式提供了一種詞庫構(gòu)建方法,包括:
基于基礎(chǔ)數(shù)據(jù)確定基礎(chǔ)詞向量集合;
根據(jù)類標簽的初始關(guān)鍵詞和閾值以及所述基礎(chǔ)詞向量集合,確定每一個所述類標簽對應(yīng)的基礎(chǔ)詞向量;
基于每一個所述類標簽及其對應(yīng)的基礎(chǔ)詞向量構(gòu)建詞庫。
在本發(fā)明實施方式的一種實現(xiàn)方式中,所述基于基礎(chǔ)數(shù)據(jù)確定基礎(chǔ)詞向量集合,包括:針對用戶搜索軌跡進行關(guān)鍵詞修復(fù)、軌跡過濾和軌跡擴充,得到第一基礎(chǔ)數(shù)據(jù);針對商戶分組數(shù)據(jù)進行分組過濾,得到第二基礎(chǔ)數(shù)據(jù);將所述第一基礎(chǔ)數(shù)據(jù)和第二基礎(chǔ)數(shù)據(jù)輸入連續(xù)詞袋模型,計算得到所述基礎(chǔ)詞向量集合。
在本發(fā)明實施方式的一種實現(xiàn)方式中,所述基礎(chǔ)詞向量包括:基礎(chǔ)關(guān)鍵詞和向量;所述類標簽包括:所述初始關(guān)鍵詞和所述閾值。
進一步地,所述根據(jù)預(yù)設(shè)的類標簽的初始關(guān)鍵詞和閾值以及所述基礎(chǔ)詞向量集合,所述確定每一個所述類標簽對應(yīng)的基礎(chǔ)詞向量,包括:針對每一個所述類標簽,重復(fù)地計算滿足預(yù)設(shè)條件的基礎(chǔ)詞向量并將該基礎(chǔ)詞向量加入關(guān)鍵詞集,直至確定出所有滿足所述預(yù)設(shè)條件的基礎(chǔ)詞向量;其中,所述關(guān)鍵詞集與所述類標簽一一對應(yīng),且所述關(guān)鍵詞集初始包括對應(yīng)類標簽的初始關(guān)鍵詞;所述預(yù)設(shè)條件為:與所述關(guān)鍵詞集中至少一個關(guān)鍵詞的相似度超過對應(yīng)的類標簽的閾值且未加入所述關(guān)鍵詞集;所述類標簽所對應(yīng)的關(guān)鍵詞集中的關(guān)鍵詞所屬的基礎(chǔ)詞向量,即所述類標簽對應(yīng)的基礎(chǔ)詞向量。
在本發(fā)明實施方式的一種實現(xiàn)方式中,所述詞庫包括:類標簽字段、關(guān)鍵詞字段和向量字段。
第二方面,本發(fā)明實施例中提供了一種詞庫構(gòu)建裝置,該裝置包括:
集合確定模塊,用于基于基礎(chǔ)數(shù)據(jù)確定基礎(chǔ)詞向量集合;
詞向量處理模塊,用于根據(jù)類標簽的初始關(guān)鍵詞和閾值以及所述基礎(chǔ)詞向量集合,確定每一個所述類標簽對應(yīng)的基礎(chǔ)詞向量;
詞庫構(gòu)建模塊,用于基于每一個所述類標簽及其對應(yīng)的基礎(chǔ)詞向量構(gòu)建所述詞庫。
在本發(fā)明實施方式的一種實現(xiàn)方式中,所述集合確定模塊包括:
第一數(shù)據(jù)子模塊,用于針對用戶搜索軌跡進行關(guān)鍵詞修復(fù)、軌跡過濾和軌跡擴充,得到第一基礎(chǔ)數(shù)據(jù);第二數(shù)據(jù)子模塊,用于針對商戶分組數(shù)據(jù)進行分組過濾,得到第二基礎(chǔ)數(shù)據(jù);計算子模塊,用于將所述第一基礎(chǔ)數(shù)據(jù)和第二基礎(chǔ)數(shù)據(jù)輸入連續(xù)詞袋模型,計算得到所述基礎(chǔ)詞向量集合。
在本發(fā)明實施方式的一種實現(xiàn)方式中,所述基礎(chǔ)詞向量包括:基礎(chǔ)關(guān)鍵詞和向量;所述類標簽包括:所述初始關(guān)鍵詞和所述閾值。
進一步地,所述詞向量處理模塊用于:針對每一個所述類標簽,重復(fù)地計算滿足預(yù)設(shè)條件的基礎(chǔ)詞向量并將該基礎(chǔ)詞向量加入關(guān)鍵詞集,直至確定出所有滿足所述預(yù)設(shè)條件的基礎(chǔ)詞向量。其中,所述關(guān)鍵詞集與所述類標簽一一對應(yīng),且所述關(guān)鍵詞集初始包括對應(yīng)類標簽的初始關(guān)鍵詞;所述預(yù)設(shè)條件為:與所述關(guān)鍵詞集中至少一個關(guān)鍵詞的相似度超過對應(yīng)的類標簽的閾值且未加入所述關(guān)鍵詞集;所述類標簽對應(yīng)的關(guān)鍵詞集中的關(guān)鍵詞所屬的基礎(chǔ)詞向量,即所述類標簽對應(yīng)的基礎(chǔ)詞向量。
在本發(fā)明實施方式的一種實現(xiàn)方式中,所述詞庫包括:類標簽字段、關(guān)鍵詞字段和向量字段。
第三方面,本發(fā)明實施例提供了一種識別搜索需求的方法,該方法包括:
對搜索項進行分詞,得到關(guān)鍵詞;
根據(jù)所述關(guān)鍵詞從采用本發(fā)明前述實施方式構(gòu)建的詞庫中獲取所述關(guān)鍵詞的向量;
基于所述關(guān)鍵詞的向量確定表示搜索需求的類標簽。
在本實施方式的一種實現(xiàn)方式中,所述關(guān)鍵詞的數(shù)量為多個。所述基于所述關(guān)鍵詞的向量確定表示搜索需求的類標簽,包括:按照各個所述關(guān)鍵詞在所述搜索項中的位置順序,依次將各個所述關(guān)鍵詞的向量輸入狀態(tài)轉(zhuǎn)移模型;識別所述狀態(tài)轉(zhuǎn)移模型最后一次輸入所述關(guān)鍵詞的狀態(tài),得到表示第一搜索需求的第一類標簽和表示第二搜索需求的第二類標簽。
第四發(fā)明,本發(fā)明實施例提供了一種識別搜索需求的裝置,該裝置包括:
分詞模塊,用于對搜索項進行分詞,得到關(guān)鍵詞;
向量模塊,用于根據(jù)所述關(guān)鍵詞從采用本發(fā)明前述實施方式構(gòu)建的詞庫中獲取所述關(guān)鍵詞的向量;
識別模塊,用于基于所述關(guān)鍵詞的向量確定表示搜索需求的類標簽。
在本實施方式的一種實現(xiàn)方式中,所述關(guān)鍵詞的數(shù)量為多個;所述識別模塊包括:狀態(tài)子模塊,用于按照各個所述關(guān)鍵詞在所述搜索項中的位置順序,依次將各個所述關(guān)鍵詞的向量輸入狀態(tài)轉(zhuǎn)移模型;識別子模塊,用于識別所述狀態(tài)轉(zhuǎn)移模型最后一次輸入所述關(guān)鍵詞的狀態(tài),得到表示第一搜索需求的第一類標簽和表示第二搜索需求的第二類標簽。
第五發(fā)明,本發(fā)明實施例提供了一種計算機存儲介質(zhì),用于儲存所述詞庫構(gòu)建裝置所用的計算機軟件指令,其包含用于執(zhí)行上述詞庫構(gòu)建方法以使所述詞庫構(gòu)建裝置實現(xiàn)相應(yīng)數(shù)據(jù)處理所涉及的程序。
第六發(fā)明,本發(fā)明實施例提供了一種計算機存儲介質(zhì),用于儲存所述識別搜索需求的裝置所用的計算機軟件指令,其包含用于執(zhí)行上述識別搜索需求的方法以使所述詞庫構(gòu)建裝置實現(xiàn)相應(yīng)數(shù)據(jù)處理所涉及的程序。
本發(fā)明實施例,能夠提高構(gòu)建詞庫的效率,提高向量化數(shù)據(jù)的覆蓋范圍以及向量化數(shù)據(jù)的質(zhì)量以及改善識別搜索需求的準確度。
本發(fā)明的這些方面或其他方面在以下實施例的描述中會更加簡明易懂。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是根據(jù)本發(fā)明實施例的一種詞庫構(gòu)建方法的流程示意圖;
圖2是根據(jù)本發(fā)明實施例的一種確定基礎(chǔ)詞向量集合的方法的流程示意圖;
圖3a是根據(jù)本發(fā)明實施例的一種用戶搜索軌跡數(shù)據(jù)的存儲方式示意圖;
圖3b是根據(jù)本發(fā)明實施例的一種還原用戶搜索軌跡的概要處理過程的示意圖;
圖3c是根據(jù)本發(fā)明實施例的一種優(yōu)化用戶搜索軌跡的概要過程示意圖;
圖4a是根據(jù)本發(fā)明實施例的一種商戶分組數(shù)據(jù)的示意圖;
圖4b是根據(jù)本發(fā)明實施例的一種處理商戶分組數(shù)據(jù)的處理流程圖;
圖5a是根據(jù)本發(fā)明實施例的一種指紋庫的存儲方式示意圖;
圖5b根據(jù)本發(fā)明實施例的一種關(guān)鍵詞向量化的概要過程示意圖;
圖5c是根據(jù)本發(fā)明實施例的一種連續(xù)詞袋模型的示意圖;
圖6是根據(jù)本發(fā)明實施例的一種分類指紋庫的字段示意圖;
圖7是根據(jù)本發(fā)明實施例的一種識別搜索需求的方法的流程示意圖;
圖8是根據(jù)本發(fā)明實施例的一種識別搜索需求的過程示意圖;
圖9是根據(jù)本發(fā)明實施例的一種詞庫構(gòu)建裝置的框圖的一例;
圖10是根據(jù)本發(fā)明實施例的一種識別搜索需求的裝置的框圖的一例。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述。
在本發(fā)明的說明書和權(quán)利要求書及上述附圖中的描述的一些流程中,包含了按照特定順序出現(xiàn)的多個操作,但是應(yīng)該清楚了解,這些操作可以不按照其在本文中出現(xiàn)的順序來執(zhí)行或并行執(zhí)行,操作的序號如101、102等,僅僅是用于區(qū)分開各個不同的操作,序號本身不代表任何的執(zhí)行順序。另外,這些流程可以包括更多或更少的操作,并且這些操作可以按順序執(zhí)行或并行執(zhí)行。需要說明的是,本文中的“第一”、“第二”等描述,是用于區(qū)分不同的消息、設(shè)備、模塊等,不代表先后順序,也不限定“第一”和“第二”是不同的類型。
首先,對本發(fā)明涉及或可能涉及的部分名詞進行說明:
用戶搜索軌跡,指用戶搜索(例如,通過app搜索)時輸入的關(guān)鍵詞根據(jù)時間順序排列的列表。
詞庫,指詞與類別的映射集合。
店鋪分類情況,指店鋪擁有者對自家商品的分類。
隱語義模型,指一種預(yù)測用戶喜好的算法。
關(guān)鍵詞向量化,指關(guān)鍵詞與向量映射的過程。
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
圖1是根據(jù)本發(fā)明實施例的一種詞庫構(gòu)建方法的流程示意圖,參照圖1,所述方法包括:
10:基于基礎(chǔ)數(shù)據(jù)確定基礎(chǔ)詞向量集合。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,在數(shù)據(jù)處理過程中,為了得到最終結(jié)果,通常包括數(shù)據(jù)獲取、數(shù)據(jù)加工和數(shù)據(jù)計算過程。本發(fā)明中提及的“基礎(chǔ)數(shù)據(jù)”是指參與數(shù)據(jù)計算以得到最終結(jié)果的數(shù)據(jù)。
12:根據(jù)類標簽的初始關(guān)鍵詞和閾值以及所述基礎(chǔ)詞向量集合,確定每一個所述類標簽對應(yīng)的基礎(chǔ)詞向量。
可選地,在本實施例的一種實施方式中,由用戶自定義所述類標簽。
14:基于每一個所述類標簽及其對應(yīng)的基礎(chǔ)詞向量創(chuàng)建詞庫。換言之,本發(fā)明實施例的詞庫由一系列相互對應(yīng)的類標簽和基礎(chǔ)詞向量組成。
采用本實施例提供的方法,通過將關(guān)鍵詞向量化并確定與類標簽對應(yīng)的詞向量,從而自動化構(gòu)建詞庫,不僅免去了人工整理詞庫的時間,提高構(gòu)建詞庫的效率,還能得到適于進行分類補充以及適于準確確定用戶搜索需求的詞庫。
圖2是根據(jù)本發(fā)明實施例的一種確定基礎(chǔ)詞向量集合的方法的流程示意圖。參照圖2,該方法包括:
102:針對用戶搜索軌跡進行關(guān)鍵詞修復(fù)、軌跡過濾和軌跡擴充,得到第一基礎(chǔ)數(shù)據(jù)。
104:針對商戶分組數(shù)據(jù)進行分組過濾,得到第二基礎(chǔ)數(shù)據(jù)。
106:將所述第一基礎(chǔ)數(shù)據(jù)和第二基礎(chǔ)數(shù)據(jù)輸入連續(xù)詞袋模型,計算得到所述基礎(chǔ)詞向量集合。
本領(lǐng)域技術(shù)人員通過探索發(fā)現(xiàn),以外賣場景為例,通過分析用戶的瀏覽軌跡,用戶對商超、藥品、水果等需求遠遠小于對餐飲需要,因此,直接使用用戶數(shù)據(jù),在對商超、藥品、水果等方面關(guān)鍵詞的識別準確率較低。所以,在本實施例中,考慮到單單使用用戶瀏覽軌跡可能出現(xiàn)局限性,而將商戶對商品的分類數(shù)據(jù)作為補充數(shù)據(jù)以克服該局限性。即,本實施例采用的基礎(chǔ)數(shù)據(jù)包括在一定程度上互補的兩大類數(shù),提高詞庫的覆蓋范圍以及搜索的準確度,提升了數(shù)據(jù)的質(zhì)量。
可選地,在本實施例的一種實現(xiàn)方式中,在處理102中,首先通過以下方式還原用戶搜索軌跡:從統(tǒng)一搜索入口的日志中提取需要的數(shù)據(jù),以session編號和時間為維度進行存儲,如圖3a所示。其中,在所述日志中包含用戶搜索關(guān)鍵詞、session(會話控制)編號和搜索時間。此外,考慮到用戶搜索的關(guān)鍵詞中時常會出現(xiàn)錯別字、拼音、縮寫、缺損等情況,因此在關(guān)鍵詞入庫之前需要對關(guān)鍵詞進行修復(fù)。示例性地,如圖3b所示是還原用戶搜索軌跡的概要處理過程,包括:日志解析、關(guān)鍵詞修復(fù)、根據(jù)session分組、根據(jù)時間排序、(將分組及排序結(jié)果)寫入文件。
在本實施方式中,在還原用戶軌跡之后,對用戶軌跡進行優(yōu)化。具體而言,初始還原的用戶軌跡中可能會出現(xiàn)(大量)短軌跡和(個別)長軌跡。較短的搜索軌跡并不適合用于后續(xù)的操作,將這部分數(shù)據(jù)剔除。較長的搜索軌跡可能由爬蟲產(chǎn)生,這類搜索軌跡并沒有什么價值,也將這部分數(shù)據(jù)剔除。將上述數(shù)據(jù)剔除之后,為了避免實際用戶的查詢軌跡較短,可以使用隱語義模型預(yù)測用戶喜好關(guān)鍵詞,從而擴充用戶搜索軌跡,豐富詞庫資源。簡言之,上述過程如圖3c所示,包括:數(shù)據(jù)讀取、短軌跡過濾、超長軌跡過濾、隱語義模型擴充、數(shù)據(jù)入庫。需要說明的是,軌跡的“長”、“短”、“超長”的標準,可以由本領(lǐng)域技術(shù)人員靈活設(shè)置,本發(fā)明不做特別說明。采用本實現(xiàn)方式,有利于提高向量化的質(zhì)量。
可選地,在本實施例的一種實現(xiàn)方式中,在處理104中,示例性地,以商戶給自家商品的標簽為坐標軸對物品進行分組,分組結(jié)果如圖4a所示。進一步地,為了保證詞庫質(zhì)量而剔除當(dāng)前分類中商品數(shù)目較小的數(shù)據(jù)(例如,圖中第五列的數(shù)據(jù))。關(guān)于處理104的一種概要流程如圖4b所示,包括:讀取商戶數(shù)據(jù)、根據(jù)標簽分類、短分組過濾、超長分組過濾、入庫(即,存入數(shù)據(jù)庫)。其中,分組的“長”、“短”、“超長”的標準,可以由本領(lǐng)域技術(shù)人員靈活設(shè)置,本發(fā)明不做特別說明。采用本實現(xiàn)方式,有利于提高向量化的質(zhì)量。
可選地,在本實施例的一種實現(xiàn)方式中,在處理106中,基礎(chǔ)詞向量集合也可以稱作向量化的指紋庫。其中的詞向量的表現(xiàn)為,一個詞對應(yīng)一個向量。
在該實現(xiàn)方式中,更具體而言,指紋庫的存儲方式如圖5a所示。
在該實現(xiàn)方式中,更具體而言,關(guān)鍵詞向量化的概要過程如圖5b所示,包括:商戶數(shù)據(jù)分類與用戶軌跡數(shù)據(jù)按照1:1的比例進行混合得到混合數(shù)據(jù),然后輸入連續(xù)詞袋模型,得到向量化數(shù)據(jù)。
在該實現(xiàn)方式中,更具體而言,如圖5c所示,連續(xù)詞袋模型是一個三層神經(jīng)網(wǎng)絡(luò),輸入(wi-c,wi-c+1……wi+c)為已知上下文的詞向量,輸出為對下個單詞的預(yù)測。具體而言,該模型的第一層輸入已知上下文的詞向量,中間層將詞向量累加得到向量(wneu1),第三層為哈夫曼樹,葉子節(jié)點(w)為語料庫中的單詞,非葉子節(jié)點為一個分類器,非葉子節(jié)點(wsyn1)與第二層連接。
在本發(fā)明的一種實施例中,基礎(chǔ)詞向量包括基礎(chǔ)關(guān)鍵詞和向量,類標簽則包括初始關(guān)鍵詞(可以由用戶設(shè)置,例如,從基礎(chǔ)關(guān)鍵詞中選取)和閾值。并且,在本實施例中,通過以下方式實現(xiàn)圖1所示的處理12:
針對每一個所述類標簽,重復(fù)地計算滿足預(yù)設(shè)條件的基礎(chǔ)詞向量并將滿足預(yù)設(shè)條件的基礎(chǔ)詞向量加入關(guān)鍵詞集,直至確定出所有滿足所述預(yù)設(shè)條件的基礎(chǔ)詞向量;其中,所述關(guān)鍵詞集與所述類標簽一一對應(yīng),且所述關(guān)鍵詞集初始包括對應(yīng)類標簽的初始關(guān)鍵詞;所述預(yù)設(shè)條件為:與所述關(guān)鍵詞集中至少一個關(guān)鍵詞的相似度超過對應(yīng)閾值且未加入所述關(guān)鍵詞集;所述類標簽對應(yīng)的關(guān)鍵詞集中的關(guān)鍵詞所屬的基礎(chǔ)詞向量,即所述類標簽對應(yīng)的基礎(chǔ)詞向量。
在本實施例中,更具體而言,在生成向量化指紋庫之后,可以由用戶自定義類標簽,每個類標簽包含一個初始關(guān)鍵詞和閾值。對于每個類標簽,將初始關(guān)鍵詞與向量化指紋庫中的數(shù)據(jù)進行匹配,計算相似度并進行排序。取相似度大于閾值的關(guān)鍵詞,將這些關(guān)鍵詞與初始關(guān)鍵詞合并作為“第一版關(guān)鍵詞集”并將這些關(guān)鍵詞從向量化指紋庫中移除;將“第一版關(guān)鍵詞集”分別與詞庫進行比較,獲取大于閾值的關(guān)鍵詞。將這些關(guān)鍵詞與“第一版關(guān)鍵詞集”合并,生成“第二版關(guān)鍵詞集”并將這些關(guān)鍵詞從向量化指紋庫中移除。依此循環(huán),直到?jīng)]有符合條件的關(guān)鍵詞加入關(guān)鍵詞集為止。將“第n版關(guān)鍵詞集”作為分類指紋庫。如圖6所示,分類指紋庫結(jié)構(gòu)包括三個字段,分別是類標簽字段、關(guān)鍵詞字段、向量字段。
采用本實施例,能夠基于類標簽對基礎(chǔ)詞向量進行分類,從而構(gòu)建分類指紋庫。
以上結(jié)合附圖對根據(jù)本發(fā)明實施例的詞庫構(gòu)建方法進行了詳細說明,下面,結(jié)合附圖對根據(jù)本發(fā)明實施例的識別搜索需求的方法進行說明。
圖7是根據(jù)本發(fā)明實施例的一種識別搜索需求的方法的流程示意圖,參照圖7,所述方法包括:
70:對搜索項進行分詞,得到關(guān)鍵詞。
可選地,在本實施例的一種具體實現(xiàn)方式中,分詞得到的關(guān)鍵詞構(gòu)成為包含多個關(guān)鍵詞的關(guān)鍵詞序列的形式。
72:根據(jù)所述關(guān)鍵詞從詞庫中獲取各關(guān)鍵詞的向量。其中,所述詞庫是指采用本發(fā)明前述實施例構(gòu)建的詞庫。
可選地,在本實施例的一種具體實現(xiàn)方式中,獲取的向量可以按照關(guān)鍵詞序列的順序構(gòu)成為向量序列的形式。
74:基于所述關(guān)鍵詞的向量確定表示搜索需求的類標簽。
采用本實施例提供的方法,對用戶輸入的搜索項進行切分并基于本發(fā)明實施方式提供的詞庫進行搜索需求的識別,提高了識別搜索需求的準確度。
可選地,在本實施例的一種實現(xiàn)方式中,在分詞之前,對搜索項的語法、錯別字等進行修復(fù)。
可選地,在本實施例的一種實現(xiàn)方式中,所述關(guān)鍵詞的數(shù)量為多個。此時,處理74包括:按照各個關(guān)鍵詞在所述搜索項中的位置順序,依次將各個所述關(guān)鍵詞的向量輸入狀態(tài)轉(zhuǎn)移模型;識別所述狀態(tài)轉(zhuǎn)移模型最后一次輸入所述關(guān)鍵詞的狀態(tài),得到表示第一搜索需求的第一類標簽和表示第二搜索需求的第二類標簽。
更具體而言,在該實現(xiàn)方式中,使用狀態(tài)轉(zhuǎn)移模型對關(guān)鍵詞的意圖進行識別。識別的結(jié)果包括主需求類標簽和次需求類標簽。如圖8所示,以分詞結(jié)果為三個片段的關(guān)鍵詞為例,首先根據(jù)統(tǒng)計信息(例如,各個分類中關(guān)鍵詞所占的比例),模型初始化為初始狀態(tài)。在這種狀態(tài)下,可以使用判別器(后向反饋神經(jīng)網(wǎng)絡(luò)模型)識別出主需求的類標簽和次需求的類標簽。具體而言,在初始狀態(tài)中加入片段1,初始狀態(tài)發(fā)生變化,變?yōu)橐浑A狀態(tài)。依次加入片段2、片段3,得到三階狀態(tài)。將三階狀態(tài)輸入到判別器,得到主需求的類標簽和次需求的類標簽。三階狀態(tài)得到的主需求分類和次需求分類即為最終的用戶意圖。
圖9是根據(jù)本發(fā)明實施例的一種詞庫構(gòu)建裝置的框圖的一例。參照圖9,所述裝置包括集合確定模塊92、詞向量處理模塊94和詞庫構(gòu)建模塊96。其中,集合確定模塊92用于基于基礎(chǔ)數(shù)據(jù)確定基礎(chǔ)詞向量集合;詞向量處理模塊94用于根據(jù)類標簽的初始關(guān)鍵詞和閾值以及所述基礎(chǔ)詞向量集合,確定每一個所述類標簽對應(yīng)的基礎(chǔ)詞向量;詞庫構(gòu)建模塊96用于基于每一個所述類標簽及其對應(yīng)的基礎(chǔ)詞向量構(gòu)建所述詞庫。
采用本實施例提供的裝置,通過將關(guān)鍵詞向量化并確定與類標簽對應(yīng)的詞向量,從而自動化構(gòu)建詞庫,不僅免去了人工整理詞庫的時間,提高構(gòu)建詞庫的效率,還能得到適于進行分類補充以及適于準確確定用戶搜索需求的詞庫。
可選地,在本實施例的一種實現(xiàn)方式中,集合確定模塊92包括:第一數(shù)據(jù)子模塊,用于針對用戶搜索軌跡進行關(guān)鍵詞修復(fù)、軌跡過濾和軌跡擴充,得到第一基礎(chǔ)數(shù)據(jù);第二數(shù)據(jù)子模塊,用于針對商戶分組數(shù)據(jù)進行分組過濾,得到第二基礎(chǔ)數(shù)據(jù);計算子模塊,用于將所述第一基礎(chǔ)數(shù)據(jù)和第二基礎(chǔ)數(shù)據(jù)輸入連續(xù)詞袋模型,計算得到所述基礎(chǔ)詞向量集合。
可選地,在本實施例的一種實現(xiàn)方式中,所述基礎(chǔ)詞向量包括:基礎(chǔ)關(guān)鍵詞和向量;所述類標簽包括:初始關(guān)鍵詞和閾值。進一步地,詞向量處理模塊94用于:針對每一個所述類標簽,重復(fù)地計算滿足預(yù)設(shè)條件的基礎(chǔ)詞向量并將該基礎(chǔ)詞向量加入關(guān)鍵詞集,直至確定出所有滿足所述預(yù)設(shè)條件的基礎(chǔ)詞向量;其中,所述關(guān)鍵詞集與所述類標簽一一對應(yīng),且所述關(guān)鍵詞集初始包括對應(yīng)類標簽的初始關(guān)鍵詞;所述預(yù)設(shè)條件為:與所述關(guān)鍵詞集中至少一個關(guān)鍵詞的相似度超過對應(yīng)的類標簽的閾值且未加入所述關(guān)鍵詞集;所述類標簽對應(yīng)的關(guān)鍵詞集中的關(guān)鍵詞所屬的基礎(chǔ)詞向量,即所述類標簽對應(yīng)的基礎(chǔ)詞向量。
可選地,在本實施例的一種實現(xiàn)方式中,所述詞庫包括:類標簽字段、關(guān)鍵詞字段和向量字段。
圖10是根據(jù)本發(fā)明實施例的一種識別搜索需求的裝置的框圖的一例。參照圖10,該裝置包括分詞模塊、向量模塊和識別模塊。其中,分詞模塊用于對搜索項進行分詞,得到關(guān)鍵詞(例如,多個關(guān)鍵詞構(gòu)成的關(guān)鍵詞序列);向量模塊用于根據(jù)所述關(guān)鍵詞從詞庫(即,具有與本發(fā)明的方法實施例所創(chuàng)建的詞庫相同結(jié)構(gòu)的詞庫)中獲取所述關(guān)鍵詞的向量;識別模塊用于基于所述關(guān)鍵詞的向量確定表示搜索需求的類標簽。
可選地,在本實施例的一種實現(xiàn)方式中,所述關(guān)鍵詞的數(shù)量為多個所述識別模塊包括:狀態(tài)子模塊,用于按照各個所述關(guān)鍵詞在所述搜索項中的位置順序,依次將各個所述關(guān)鍵詞的向量輸入狀態(tài)轉(zhuǎn)移模型;識別子模塊,用于識別所述狀態(tài)轉(zhuǎn)移模型最后一次輸入所述關(guān)鍵詞的狀態(tài),得到表示第一搜索需求的第一類標簽和表示第二搜索需求的第二類標簽。
以上結(jié)合附圖對根據(jù)本發(fā)明實施例的方法實施例和裝置實施例進行了說明,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明提供的方法實施例或?qū)崿F(xiàn)方式可以相應(yīng)地由本發(fā)明提供的裝置實施例或?qū)崿F(xiàn)方式實現(xiàn),而本發(fā)明的裝置實施例的處理過程/邏輯又與本發(fā)明的方法實施例相一致。因此,在本發(fā)明的裝置實施例中,關(guān)于各個模塊、子模塊所執(zhí)行處理或可執(zhí)行處理的詳細說明,關(guān)于特定名稱、術(shù)語、范圍的解釋,以及關(guān)于各個實施例、相關(guān)特征所具有的有益效果的描述,請參見方法實施例中的相應(yīng)說明,此處不再贅述。
除了圖1-圖10所示的示例性實施例之外,本發(fā)明還保護一種數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置用于構(gòu)建詞庫,其包括存儲器和處理器;其中,所述存儲器用于存儲一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調(diào)用執(zhí)行;所述處理器用于執(zhí)行本發(fā)明各實施例或?qū)崿F(xiàn)方式所提供的詞庫構(gòu)建方法。
除了圖1-圖10所示的示例性實施例之外,本發(fā)明還保護一種數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置用于識別搜索需求,其包括存儲器和處理器;其中,所述存儲器用于存儲一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調(diào)用執(zhí)行;所述處理器用于執(zhí)行本發(fā)明各實施例或?qū)崿F(xiàn)方式所提供的識別搜索需求的方法。
除了圖1-圖10所示的示例性實施例之外,本發(fā)明還保護一種計算機存儲介質(zhì),用于儲存本發(fā)明提供的詞庫構(gòu)建裝置所用的計算機軟件指令,其包含用于執(zhí)行上述詞庫構(gòu)建方法以使所述詞庫構(gòu)建裝置實現(xiàn)相應(yīng)數(shù)據(jù)處理所涉及的程序。
除了圖1-圖10所示的示例性實施例之外,本發(fā)明還保護一種計算機存儲介質(zhì),用于儲存本發(fā)明提供的識別搜索需求的裝置所用的計算機軟件指令,其包含用于執(zhí)行上述識別搜索需求的方法以使所述裝置實現(xiàn)相應(yīng)數(shù)據(jù)處理所涉及的程序。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動的情況下,即可以理解并實施。
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實施方式可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可以通過硬件。基于這樣的理解,上述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在計算機可讀存儲介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個實施例或者實施例的某些部分所述的方法。
最后應(yīng)說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。
本發(fā)明公開a1、一種詞庫構(gòu)建方法,包括:
基于基礎(chǔ)數(shù)據(jù)確定基礎(chǔ)詞向量集合;
根據(jù)類標簽的初始關(guān)鍵詞和閾值以及所述基礎(chǔ)詞向量集合,確定每一個所述類標簽對應(yīng)的基礎(chǔ)詞向量;
基于每一個所述類標簽及其對應(yīng)的基礎(chǔ)詞向量構(gòu)建詞庫。
a2、如a1所述的方法中,所述基于基礎(chǔ)數(shù)據(jù)確定基礎(chǔ)詞向量集合,包括:
針對用戶搜索軌跡進行關(guān)鍵詞修復(fù)、軌跡過濾和軌跡擴充,得到第一基礎(chǔ)數(shù)據(jù);
針對商戶分組數(shù)據(jù)進行分組過濾,得到第二基礎(chǔ)數(shù)據(jù);
將所述第一基礎(chǔ)數(shù)據(jù)和第二基礎(chǔ)數(shù)據(jù)輸入連續(xù)詞袋模型,計算得到所述基礎(chǔ)詞向量集合。
a3、如a1或a2所述的方法中,所述根據(jù)預(yù)設(shè)的類標簽的初始關(guān)鍵詞和閾值以及所述基礎(chǔ)詞向量集合,所述確定每一個所述類標簽對應(yīng)的基礎(chǔ)詞向量,包括:
針對每一個所述類標簽,重復(fù)地計算滿足預(yù)設(shè)條件的基礎(chǔ)詞向量并將該基礎(chǔ)詞向量加入關(guān)鍵詞集,直至確定出所有滿足所述預(yù)設(shè)條件的基礎(chǔ)詞向量;其中,
所述關(guān)鍵詞集與所述類標簽一一對應(yīng),且所述關(guān)鍵詞集初始包括所對應(yīng)的類標簽的初始關(guān)鍵詞;
所述預(yù)設(shè)條件為:與所述關(guān)鍵詞集中至少一個關(guān)鍵詞的相似度超過所對應(yīng)的類標簽的閾值且未加入所述關(guān)鍵詞集;
所述類標簽所對應(yīng)的關(guān)鍵詞集中的關(guān)鍵詞所屬的基礎(chǔ)詞向量,即所述類標簽對應(yīng)的基礎(chǔ)詞向量。
a4、如a1或a2所述的方法中,所述詞庫包括:
類標簽字段、關(guān)鍵詞字段和向量字段。
本發(fā)明還公開了b1、一種詞庫構(gòu)建裝置,包括:
集合確定模塊,用于基于基礎(chǔ)數(shù)據(jù)確定基礎(chǔ)詞向量集合;
詞向量處理模塊,用于根據(jù)類標簽的初始關(guān)鍵詞和閾值以及所述基礎(chǔ)詞向量集合,確定每一個所述類標簽對應(yīng)的基礎(chǔ)詞向量;
詞庫構(gòu)建模塊,用于基于每一個所述類標簽及其對應(yīng)的基礎(chǔ)詞向量構(gòu)建詞庫。
本發(fā)明公開b1、一種詞庫構(gòu)建裝置,包括:
集合確定模塊,用于基于基礎(chǔ)數(shù)據(jù)確定基礎(chǔ)詞向量集合;
詞向量處理模塊,用于根據(jù)類標簽的初始關(guān)鍵詞和閾值以及所述基礎(chǔ)詞向量集合,確定每一個所述類標簽對應(yīng)的基礎(chǔ)詞向量;
詞庫構(gòu)建模塊,用于基于每一個所述類標簽及其對應(yīng)的基礎(chǔ)詞向量構(gòu)建詞庫。
b2、如b1所述的裝置中,所述集合確定模塊包括:
第一數(shù)據(jù)子模塊,用于針對用戶搜索軌跡進行關(guān)鍵詞修復(fù)、軌跡過濾和軌跡擴充,得到第一基礎(chǔ)數(shù)據(jù);
第二數(shù)據(jù)子模塊,用于針對商戶分組數(shù)據(jù)進行分組過濾,得到第二基礎(chǔ)數(shù)據(jù);
計算子模塊,用于將所述第一基礎(chǔ)數(shù)據(jù)和第二基礎(chǔ)數(shù)據(jù)輸入連續(xù)詞袋模型,計算得到所述基礎(chǔ)詞向量集合。
b3、如b1或b2所述的裝置,所述詞向量處理模塊用于:
針對每一個所述類標簽,重復(fù)地計算滿足預(yù)設(shè)條件的基礎(chǔ)詞向量并將該基礎(chǔ)詞向量加入關(guān)鍵詞集,直至確定出所有滿足所述預(yù)設(shè)條件的基礎(chǔ)詞向量;其中,
所述關(guān)鍵詞集與所述類標簽一一對應(yīng),且所述關(guān)鍵詞集初始包括對應(yīng)類標簽的初始關(guān)鍵詞;
所述預(yù)設(shè)條件為:與所述關(guān)鍵詞集中至少一個關(guān)鍵詞的相似度超過對應(yīng)的類標簽的閾值且未加入所述關(guān)鍵詞集;
所述類標簽所對應(yīng)的關(guān)鍵詞集中的關(guān)鍵詞所屬的基礎(chǔ)詞向量,即所述類標簽對應(yīng)的基礎(chǔ)詞向量。
b4、如b1或b2所述的裝置中,所述詞庫包括:
類標簽字段、關(guān)鍵詞字段和向量字段。
本發(fā)明還公開了c1、一種識別搜索需求的方法,包括:
對搜索項進行分詞,得到關(guān)鍵詞;
根據(jù)所述關(guān)鍵詞從基于如a1-a4中任一項所述的方法構(gòu)建的詞庫中獲取所述關(guān)鍵詞的向量;
基于所述關(guān)鍵詞的向量確定表示搜索需求的類標簽。
c2、如c1所述的方法中,
所述關(guān)鍵詞的數(shù)量為多個;
所述基于所述關(guān)鍵詞的向量確定表示搜索需求的類標簽,包括:
按照各個所述關(guān)鍵詞在所述搜索項中的位置順序,依次將各個所述關(guān)鍵詞的向量輸入狀態(tài)轉(zhuǎn)移模型,
識別所述狀態(tài)轉(zhuǎn)移模型最后一次輸入所述關(guān)鍵詞的狀態(tài),得到表示第一搜索需求的第一類標簽和表示第二搜索需求的第二類標簽。
本發(fā)明還公開了d1、一種識別搜索需求的裝置,包括:
分詞模塊,用于對搜索項進行分詞,得到關(guān)鍵詞;
向量模塊,用于根據(jù)所述關(guān)鍵詞從基于如a1-a4中任一項所述的方法構(gòu)建的詞庫中獲取所述關(guān)鍵詞的向量;
識別模塊,用于基于所述關(guān)鍵詞的向量確定表示搜索需求的類標簽。
d2、如d1所述的裝置中,
所述關(guān)鍵詞的數(shù)量為多個;
所述識別模塊包括:
狀態(tài)子模塊,用于按照各個所述關(guān)鍵詞在所述搜索項中的位置順序,依次將各個所述關(guān)鍵詞的向量輸入狀態(tài)轉(zhuǎn)移模型;
識別子模塊,用于識別所述狀態(tài)轉(zhuǎn)移模型最后一次輸入所述關(guān)鍵詞的狀態(tài),得到表示第一搜索需求的第一類標簽和表示第二搜索需求的第二類標簽。
本發(fā)明還公開e1、一種數(shù)據(jù)處理裝置,包括存儲器和處理器;其中,
所述存儲器用于存儲一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調(diào)用執(zhí)行;
所述處理器用于:基于基礎(chǔ)數(shù)據(jù)確定基礎(chǔ)詞向量集合;根據(jù)類標簽的初始關(guān)鍵詞和閾值以及所述基礎(chǔ)詞向量集合,確定每一個所述類標簽對應(yīng)的基礎(chǔ)詞向量;基于每一個所述類標簽及其對應(yīng)的基礎(chǔ)詞向量構(gòu)建詞庫。
e2、如e1所述的數(shù)據(jù)處理裝置中,所述處理器通過執(zhí)行所述計算機指令以執(zhí)行以下處理:針對用戶搜索軌跡進行關(guān)鍵詞修復(fù)、軌跡過濾和軌跡擴充,得到第一基礎(chǔ)數(shù)據(jù);針對商戶分組數(shù)據(jù)進行分組過濾,得到第二基礎(chǔ)數(shù)據(jù);將所述第一基礎(chǔ)數(shù)據(jù)和第二基礎(chǔ)數(shù)據(jù)輸入連續(xù)詞袋模型,計算得到所述基礎(chǔ)詞向量集合。
e3、如e1或e2所述的數(shù)據(jù)處理裝置中,所述處理器通過執(zhí)行所述計算機指令以執(zhí)行以下處理:針對每一個所述類標簽,重復(fù)地計算滿足預(yù)設(shè)條件的基礎(chǔ)詞向量并將該基礎(chǔ)詞向量加入關(guān)鍵詞集,直至確定出所有滿足所述預(yù)設(shè)條件的基礎(chǔ)詞向量;其中,所述關(guān)鍵詞集與所述類標簽一一對應(yīng),且所述關(guān)鍵詞集初始包括所對應(yīng)的類標簽的初始關(guān)鍵詞;所述預(yù)設(shè)條件為:與所述關(guān)鍵詞集中至少一個關(guān)鍵詞的相似度超過所對應(yīng)的類標簽的閾值且未加入所述關(guān)鍵詞集;所述類標簽所對應(yīng)的關(guān)鍵詞集中的關(guān)鍵詞所屬的基礎(chǔ)詞向量,即所述類標簽對應(yīng)的基礎(chǔ)詞向量。
本發(fā)明還公開f1、一種數(shù)據(jù)處理裝置,包括存儲器和處理器;其中,
所述存儲器用于存儲一條或多條計算機指令,其中,所述一條或多條計算機指令供所述處理器調(diào)用執(zhí)行;
所述處理器用于:對搜索項進行分詞,得到關(guān)鍵詞;
根據(jù)所述關(guān)鍵詞從基于如a1-a4中任一項所述的方法構(gòu)建的詞庫中獲取所述關(guān)鍵詞的向量;
基于所述關(guān)鍵詞的向量確定表示搜索需求的類標簽。
f2、如f1所述的數(shù)據(jù)處理裝置中,所述處理器通過執(zhí)行所述計算機指令以執(zhí)行以下處理:按照各個所述關(guān)鍵詞在所述搜索項中的位置順序,依次將各個所述關(guān)鍵詞的向量輸入狀態(tài)轉(zhuǎn)移模型,識別所述狀態(tài)轉(zhuǎn)移模型最后一次輸入所述關(guān)鍵詞的狀態(tài),得到表示第一搜索需求的第一類標簽和表示第二搜索需求的第二類標簽。其中,所述關(guān)鍵詞的數(shù)量為多個。