段“午餐”,得到篩選結(jié)果為“外賣”、“訂餐”和“叫”,隨后可將篩選結(jié)果中分詞長度最短的分詞片段“叫”濾除,得到篩選結(jié)果為“外賣”和“訂餐”,并將篩選結(jié)果確定為中心詞訓(xùn)練集。
[0100]其中,步驟S152包括步驟S1521(圖中未示出)、步驟S1522(圖中未示出)和步驟S1523(圖中未示出)。步驟S1521:將各個分詞片段通過向量維度的方式來表示;步驟S1522:提取中心詞訓(xùn)練集中各個分詞片段的特征屬性;步驟S1523:基于特征屬性,對以向量維度的方式來表示的分詞片段進(jìn)行分類訓(xùn)練來生成機(jī)器學(xué)習(xí)算法。
[0101]其中,特征屬性包括但不限于:
[0102]詞性相關(guān)信息;
[0103]與相應(yīng)的歷史搜索關(guān)鍵詞的關(guān)系信息;
[0104]TF-1DF;
[0105]特殊詞相關(guān)信息;
[0106]實體詞相關(guān)信息。
[0107]例如,將篩選得到的分詞片段,如“外賣”和“訂餐”通過多維度向量來表示各分詞的不同表示方式,并通過類別標(biāo)注方法為每個通過多維度向量表示后的分詞標(biāo)注分詞類另IJ,并將每個通過多維度向量表示后的分詞與分詞片段“外賣”和“訂餐”對應(yīng)的詞標(biāo)注為正例,其它詞為負(fù)例,隨后,提取中心詞訓(xùn)練集中各個分詞片段的特征屬性,包括詞性相關(guān)信息,如不僅考慮詞自身的詞性,還兼顧其前詞和后詞的詞性的相關(guān)信息、與相應(yīng)的歷史搜索關(guān)鍵詞的關(guān)系信息、TF_IDF(Term Frequency-1nverse Document Frequency)、特殊詞相關(guān)信息,如是否出現(xiàn)在特殊詞表中和實體詞相關(guān)信息如是否在實體詞表中等,基于特征屬性,對以向量維度來表示的分詞片段進(jìn)行分類訓(xùn)練來生成機(jī)器學(xué)習(xí)算法,如可通過Liblinear(分類器)對以向量維度來表示的分詞片段“外賣”和“訂餐”進(jìn)行離線分類訓(xùn)練來生成機(jī)器學(xué)習(xí)算法。
[0108]在一具體應(yīng)用場景中,當(dāng)用戶通過終端設(shè)備在搜索引擎的輸入框中輸入搜索關(guān)鍵詞如“春節(jié)搶紅包”,搜索引擎的服務(wù)器實時獲取用戶輸入的搜索關(guān)鍵詞“春節(jié)搶紅包”;隨后,提取搜索關(guān)鍵詞中對應(yīng)的中心詞,如“春節(jié)”、“搶”和“紅包”,根據(jù)本發(fā)明方案中生成的機(jī)器學(xué)習(xí)算法提取到的中心詞“春節(jié)”、“搶”和“紅包”確定向用戶推薦的與搜索關(guān)鍵詞相關(guān)聯(lián)的搜索建議如“微信搶紅包”、“春節(jié)搶紅包活動”、“春節(jié)搶紅包攻略”、“支付寶春節(jié)搶紅包”等,如圖3所示。
[0109]圖4為本發(fā)明中另一實施例的基于中心詞確定搜索建議的裝置的結(jié)構(gòu)示意圖。
[0110]獲取模塊410獲取來自終端設(shè)備的用戶輸入的搜索關(guān)鍵詞;提取模塊420提取與搜索關(guān)鍵詞對應(yīng)的中心詞;推薦模塊430根據(jù)中心詞確定向用戶推薦的與搜索關(guān)鍵詞相關(guān)聯(lián)的搜索建議。
[0111]本發(fā)明的實施例中,提出了一種基于中心詞確定搜索建議的方案,根據(jù)獲取來自終端設(shè)備的用戶輸入的搜索關(guān)鍵詞,可提取與搜索關(guān)鍵詞對應(yīng)的中心詞,隨后根據(jù)中心詞確定向用戶推薦的與搜索關(guān)鍵詞相關(guān)聯(lián)的搜索建議。本方案通過機(jī)器學(xué)習(xí)算法提取與搜索關(guān)鍵詞對應(yīng)的中心詞,可實現(xiàn)中心詞的自動提取,通過標(biāo)準(zhǔn)化且客觀的方式準(zhǔn)確地提取巨大數(shù)量級的搜索關(guān)鍵詞的中心詞,從而極大地節(jié)約了提取中心詞的人力及時間成本;同時,通過機(jī)器學(xué)習(xí)算法在中心詞提取過程中進(jìn)行分類訓(xùn)練,使得提取到的中心詞更符合用戶的真實搜索意圖,避免了因人為主觀評價中心詞的不同標(biāo)準(zhǔn)而導(dǎo)致提取的中心詞與實際用戶的真實搜索意圖偏差較大的情況,實現(xiàn)了高效準(zhǔn)確提取巨大數(shù)量級搜索關(guān)鍵詞的中心詞的目的,并根據(jù)提取到的中心詞向用戶推薦最符合其感興趣的搜索關(guān)鍵詞,幫助用戶快速且準(zhǔn)確地搜索到其所需的查詢結(jié)果,提高用戶的搜索體驗。
[0112]獲取模塊410獲取來自終端設(shè)備的用戶輸入的搜索關(guān)鍵詞。
[0113]例如,用戶通過終端設(shè)備在搜索引擎的輸入框中輸入搜索關(guān)鍵詞如“外賣訂餐”,搜索引擎的服務(wù)器實時獲取到用戶輸入的搜索關(guān)鍵詞“外賣訂餐”,隨后,提取搜索關(guān)鍵詞中對應(yīng)的中心詞如“外賣”和“訂餐”,并根據(jù)中心詞“外賣”和“訂餐”確定向用戶推薦的與搜索關(guān)鍵詞相關(guān)聯(lián)的搜索建議如“百度外賣”、“美團(tuán)外賣”等。
[0114]提取模塊420提取與搜索關(guān)鍵詞對應(yīng)的中心詞。
[0115]在一優(yōu)選實施例中,提取模塊包括第一提取單元(圖中未示出)。第一提取單元通過機(jī)器學(xué)習(xí)算法提取與搜索關(guān)鍵詞對應(yīng)的中心詞。
[0116]例如,各個用戶通過搜索引擎分別針對各個歷史搜索關(guān)鍵詞進(jìn)行搜索,針對每一歷史搜索關(guān)鍵詞獲取相應(yīng)的多個搜索結(jié)果項,各個用戶從多個搜索結(jié)果項選中任一搜索結(jié)果項,通過將選中同一搜索結(jié)果項對應(yīng)的歷史搜索關(guān)鍵詞進(jìn)行聚合,并通過對聚合后搜索關(guān)鍵詞自動標(biāo)注其中PV(Page View,頁面瀏覽量)最高的搜索關(guān)鍵詞的中心詞作為離線訓(xùn)練的訓(xùn)練集,隨后用多維向量表示訓(xùn)練集中的每個中心詞,并通過離線訓(xùn)練來生成機(jī)器學(xué)習(xí)算法,當(dāng)搜索引擎的服務(wù)器在線獲取用戶輸入的搜索關(guān)鍵詞“外賣訂餐”后,通過離線訓(xùn)練得到的機(jī)器學(xué)習(xí)算法提取“外賣訂餐”的中心詞如“外賣”和“訂餐”。
[0117]在一優(yōu)選實施例中,該裝置還包括獲取生成模塊(圖中未示出)和處理模塊(圖中未示出)。獲取生成模塊獲取對應(yīng)同一統(tǒng)一資源定位符的多個歷史搜索關(guān)鍵詞,并生成對應(yīng)于同一統(tǒng)一資源定位符的搜索關(guān)鍵詞集合;處理模塊對搜索關(guān)鍵詞集合中的多個歷史搜索關(guān)鍵詞進(jìn)行處理,并對處理結(jié)果進(jìn)行模型訓(xùn)練來生成機(jī)器學(xué)習(xí)算法。
[0118]如圖5所示,獲取生成模塊具體包括第一獲取單元541、第二提取單元542和第二獲取單元543。第一獲取單元541獲取針對多個用戶的歷史搜索點擊記錄;第二提取單元542提取歷史搜索點擊記錄中歷史搜索關(guān)鍵詞與搜索結(jié)果項、及搜索結(jié)果項與統(tǒng)一資源定位符的對應(yīng)關(guān)系;第二獲取單元543根據(jù)對應(yīng)關(guān)系來獲取對應(yīng)同一統(tǒng)一資源定位符的多個歷史搜索關(guān)鍵詞。
[0119]其中,第二提取單元具體用于提取歷史搜索點擊記錄中多個用戶分別輸入的歷史搜索關(guān)鍵詞,及多個用戶基于其各自輸入的歷史搜索關(guān)鍵詞所點擊的搜索結(jié)果項之間的對應(yīng)關(guān)系;及提取搜索結(jié)果項與相對應(yīng)的統(tǒng)一資源定位符的對應(yīng)關(guān)系。
[0120]例如,獲取針對多個用戶的歷史搜索點擊記錄,從歷史搜索點擊記錄提取歷史搜索點擊記錄中多個用戶分別輸入的歷史搜索關(guān)鍵詞如“外賣”、“外賣訂餐”,并提取多個用戶基于其各自輸入的歷史搜索關(guān)鍵詞所點擊的搜索結(jié)果項,以及歷史搜索關(guān)鍵詞及搜索結(jié)果項之間的對應(yīng)關(guān)系,如基于用戶輸入的歷史搜索關(guān)鍵詞“外賣訂餐”在搜索引擎中進(jìn)行搜索,可得到搜索結(jié)果項包括指向“百度外賣官網(wǎng)”的搜索結(jié)果項、指向“美團(tuán)外賣官網(wǎng)”的搜索結(jié)果項等,用戶從多個搜索結(jié)果項中點擊選中搜索結(jié)果項“百度外賣官網(wǎng)”,可得到用戶基于輸入的歷史搜索關(guān)鍵詞“外賣訂餐”選中的搜索結(jié)果項為“百度外賣官網(wǎng)”,即提取歷史搜索關(guān)鍵詞“外賣訂餐”與搜索結(jié)果項為“百度外賣官網(wǎng)”的對應(yīng)關(guān)系;隨后,提取與搜索結(jié)果項“百度外賣官網(wǎng)”對應(yīng)的URL(Uniform Resource Locator,統(tǒng)一資源定位符)http: //waima1.baidu.com,進(jìn)而提取歷史搜索關(guān)鍵詞“外賣訂餐”與URL:http://waima1.baidu.com的對應(yīng)關(guān)系;隨后根據(jù)提取到的多個歷史搜索關(guān)鍵詞與多個URL的對應(yīng)關(guān)系來獲取對應(yīng)同一URL,如http://waima1.baidu.com的多個歷史搜索關(guān)鍵詞,如獲取到與URL: http://waima1.baidu.com對應(yīng)的歷史搜索關(guān)鍵詞包括“外賣送餐”、“外賣訂餐”、“午餐外賣”和“叫外賣”等,隨后生成對應(yīng)于同一http: //waima1.baidu.com的搜索關(guān)鍵詞集合,其中包括“外賣送餐”、“外賣訂餐”、“午餐外賣”和“叫外賣”。
[0121]其中,處理模塊具體包括處理單元和生成單元。處理單元對搜索關(guān)鍵詞集合中的多個歷史搜索關(guān)鍵詞進(jìn)行分詞處理,以獲取包括多個分詞片段的中心詞訓(xùn)練集;生成單元基于中心詞訓(xùn)練集進(jìn)行模型訓(xùn)練來生成機(jī)器學(xué)習(xí)算法。
[0122]其中,處理單元包括處理子單元和篩選子單元。處理子單元對搜索關(guān)鍵詞集合中的歷史搜索關(guān)鍵詞分別進(jìn)行分詞處理,以獲取多個分詞片段;篩選子單元將多個分詞片段進(jìn)行篩選處理,并將篩選結(jié)果確定為中心詞訓(xùn)練集。
[0123]其中,分詞處理的方法包括但不限于:
[0124]正向最大匹配法(由左到右的方向);
[0125]逆向最大匹配法(由右到左的方向);
[0126]最少切分(使每一句中切出的詞數(shù)最小);
[0127]雙向最大匹配法(進(jìn)行由左到右、由右到左兩次掃描)。
[0128]其中,篩選處理的方法包括:將不包括在候選詞表中的分詞片段濾除;將分詞長度最短的分詞片段濾除。
[0129]例如,對應(yīng)于同一http://waima1.baidu.com的搜索關(guān)鍵詞集合中,包括歷史搜索關(guān)鍵詞“外賣送餐”、“外賣訂餐”、“午餐外賣”和“叫外賣”,對該搜索關(guān)鍵詞集合中的歷史搜索關(guān)鍵詞分別進(jìn)行分詞處理,如對歷史搜索關(guān)鍵詞“外賣送餐”、“外賣訂餐”、“午餐外賣”和“叫外賣”分別進(jìn)行分詞處理,以獲取多個分詞片段;如對歷史搜索關(guān)鍵詞“外賣送餐”通過正向最大匹配法進(jìn)行分詞得到分詞片段“外賣”和“送餐”,同理,分別對歷史搜索關(guān)鍵詞“夕卜賣訂餐”、“午餐外賣”和“