本申請涉及搜索技術(shù)領(lǐng)域,尤其涉及查詢改寫方法及裝置。
背景技術(shù):
用戶在諸多場景下都需要使用搜索功能。在執(zhí)行搜索操作時,用戶可以輸入任意搜索關(guān)鍵詞,并由搜索引擎提供對應(yīng)的搜索結(jié)果。
然而,用戶輸入的搜索關(guān)鍵詞往往比較隨意,并不能夠直接體現(xiàn)出用戶的實(shí)際意圖,導(dǎo)致搜索結(jié)果無法符合用戶的實(shí)際需求。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本申請?zhí)峁┮环N查詢改寫方法及裝置,可以結(jié)合語義實(shí)現(xiàn)查詢改寫,有助于提升推詞覆蓋率和改寫準(zhǔn)確度。
為實(shí)現(xiàn)上述目的,本申請?zhí)峁┘夹g(shù)方案如下:
根據(jù)本申請的第一方面,提出了一種查詢改寫方法,包括:
接收用戶輸入的搜索關(guān)鍵詞;
選取對應(yīng)于所述搜索關(guān)鍵詞的擴(kuò)展詞,所述擴(kuò)展詞與所述搜索關(guān)鍵詞在預(yù)設(shè)維度的語義向量空間中分別對應(yīng)的語義向量之間的相似度達(dá)到預(yù)設(shè)相似度;
將所述搜索關(guān)鍵詞改寫為被選中的擴(kuò)展詞。
根據(jù)本申請的第二方面,提出了一種查詢改寫裝置,包括:
接收單元,接收用戶輸入的搜索關(guān)鍵詞;
選取單元,選取對應(yīng)于所述搜索關(guān)鍵詞的擴(kuò)展詞,所述擴(kuò)展詞與所述搜 索關(guān)鍵詞在預(yù)設(shè)維度的語義向量空間中分別對應(yīng)的語義向量之間的相似度達(dá)到預(yù)設(shè)相似度;
改寫單元,將所述搜索關(guān)鍵詞改寫為被選中的擴(kuò)展詞。
由以上技術(shù)方案可見,本申請通過將搜索關(guān)鍵詞和擴(kuò)展詞映射為語義向量空間中的語義向量,可以由語義向量之間的相似度來體現(xiàn)搜索關(guān)鍵詞與擴(kuò)展詞之間的語義相關(guān)程度,從而簡化了語義比較過程,提升了查詢改寫的準(zhǔn)確度。同時,通過對語義相關(guān)程度的確定,消除了搜索關(guān)鍵詞與擴(kuò)展詞之間的文本相似度需求,有助于提升推詞覆蓋率。
附圖說明
圖1是本申請一示例性實(shí)施例的一種查詢改寫方法的流程圖;
圖2是本申請一示例性實(shí)施例的一種查詢改寫的示意圖;
圖3是本申請一示例性實(shí)施例的另一種查詢改寫的示意圖;
圖4是本申請一示例性實(shí)施例的另一種查詢改寫方法的流程圖;
圖5是本申請一示例性實(shí)施例的一種用于實(shí)現(xiàn)查詢改寫的樣本訓(xùn)練過程的流程圖;
圖6是本申請一示例性實(shí)施例的又一種查詢改寫的示意圖;
圖7是本申請一示例性實(shí)施例的一種電子設(shè)備的結(jié)構(gòu)示意圖;
圖8是本申請一示例性實(shí)施例的一種查詢改寫裝置的框圖。
具體實(shí)施方式
正如背景技術(shù)部分所描述的,由于用戶輸入的搜索關(guān)鍵詞比較隨意,往往并不能夠體現(xiàn)其真實(shí)意圖,從而導(dǎo)致搜索結(jié)果不符合用戶的實(shí)際需求。為了解決該技術(shù)問題,相關(guān)技術(shù)中提出了QR(query rewrite,查詢改寫)處理手段,可以通過對用戶輸入的搜索關(guān)鍵詞進(jìn)行分析,并自動替換為能夠體現(xiàn)用戶實(shí)際意圖的擴(kuò)展詞。
在相關(guān)技術(shù)中,提出了很多種實(shí)現(xiàn)QR的技術(shù)手段,主要包括:
(1)基于文本相似度。具體的,通過諸如TF-IDF(term frequency–inverse document frequency)等方式計算搜索關(guān)鍵詞與擴(kuò)展詞之間的文本相似度,確定搜索關(guān)鍵詞對應(yīng)的擴(kuò)展詞。但是,這種方式無法計算沒有共現(xiàn)詞的搜索關(guān)鍵詞與擴(kuò)展詞之間的相似度(如無法確定“蘋果”與iphone之間的相似度),并且當(dāng)同一個詞存在多種解釋時,很容易出現(xiàn)不良(不符合用戶的實(shí)際需求)的擴(kuò)展詞(如“蘋果水果籃”與“蘋果手機(jī)”)。
(2)基于語義規(guī)則。具體的,通過建立語義規(guī)則,選取符合語義規(guī)則的擴(kuò)展詞。需要說明的是,語義規(guī)則的建立并不能夠真正獲取,比較搜索關(guān)鍵詞與擴(kuò)展詞的語義,只是基于開發(fā)者當(dāng)前的理解進(jìn)行判定,具有很大的局限性,推詞的準(zhǔn)確度和覆蓋率都很低,且需要后期不斷維護(hù)已有規(guī)則、開發(fā)新規(guī)則,成本很高而實(shí)際效果并不理想。
因此,本申請通過改進(jìn)相關(guān)技術(shù)中的查詢改寫方式,以解決相關(guān)技術(shù)中存在的技術(shù)問題。為對本申請進(jìn)行進(jìn)一步說明,提供下列實(shí)施例:
圖1是本申請一示例性實(shí)施例的一種查詢改寫方法的流程圖,如圖1所示,該方法可以包括以下步驟:
步驟102,接收用戶輸入的搜索關(guān)鍵詞。
步驟104,選取對應(yīng)于所述搜索關(guān)鍵詞的擴(kuò)展詞,所述擴(kuò)展詞與所述搜索關(guān)鍵詞在預(yù)設(shè)維度的語義向量空間中分別對應(yīng)的語義向量之間的相似度達(dá)到預(yù)設(shè)相似度。
在本實(shí)施例中,通過將搜索關(guān)鍵詞與擴(kuò)展詞分別映射至語義向量空間,可以實(shí)現(xiàn)搜索關(guān)鍵詞與擴(kuò)展詞之間的實(shí)際語義比較,而不限于相關(guān)技術(shù)中僅在字面上進(jìn)行文本相似度比較,有助于提升推詞的準(zhǔn)確度;同時,由于是各個詞語的實(shí)際語義,因而不限于開發(fā)者對語義規(guī)則的理解和設(shè)置的準(zhǔn)確度,且不需要后期維護(hù)。
步驟106,將所述搜索關(guān)鍵詞改寫為被選中的擴(kuò)展詞。
由上述實(shí)施例可知,本申請通過將搜索關(guān)鍵詞和擴(kuò)展詞映射為語義向量空間中的語義向量,可以由語義向量之間的相似度來體現(xiàn)搜索關(guān)鍵詞與擴(kuò)展 詞之間的語義相關(guān)程度,從而簡化了語義比較過程,提升了查詢改寫的準(zhǔn)確度。同時,通過對語義相關(guān)程度的確定,消除了搜索關(guān)鍵詞與擴(kuò)展詞之間的文本相似度需求,有助于提升推詞覆蓋率。
1、QR原理
由圖1所示的實(shí)施例可知,在本申請的技術(shù)方案中,QR過程的實(shí)現(xiàn)依賴于將搜索關(guān)鍵詞和擴(kuò)展詞分別映射為語義向量空間中的語義向量,以便通過語義向量的對比來確定搜索關(guān)鍵詞和擴(kuò)展詞之間的語義相關(guān)度。
為了實(shí)現(xiàn)上述的映射過程,如圖2所示,可以通過神經(jīng)網(wǎng)絡(luò)算法將搜索關(guān)鍵詞或擴(kuò)展詞映射至語義向量空間中,以得到對應(yīng)的語義向量。舉例而言,比如當(dāng)用戶輸入的搜索關(guān)鍵詞為“蘋果手機(jī)”時,若將“蘋果手機(jī)”映射至語義向量空間,則可以得到對應(yīng)的語義向量1,比如該語義向量1為X;而當(dāng)存在一個備選詞語為“iphone6”時,假定該“iphone6”映射至語義向量空間得到對應(yīng)的語義向量2,比如該語義向量2為Y,則如果向量X與向量Y之間具有預(yù)設(shè)相似度,則認(rèn)為該備選詞語“iphone6”與搜索關(guān)鍵詞“蘋果手機(jī)”之間具有較高的語義相關(guān)度,因而可以將該備選詞語“iphone6”作為搜索關(guān)鍵詞“蘋果手機(jī)”對應(yīng)的擴(kuò)展詞,因而將搜索關(guān)鍵詞“蘋果手機(jī)”改寫為“iphone6”。
其中,在將搜索關(guān)鍵詞或擴(kuò)展詞映射至語義向量空間并得到對應(yīng)的語義向量時,作為一示例性實(shí)施例,可以直接將搜索關(guān)鍵詞或擴(kuò)展詞映射為對應(yīng)的語義向量。而作為另一示例性實(shí)施例,如圖3所示,該實(shí)現(xiàn)過程可以包括:通過神經(jīng)網(wǎng)絡(luò)算法將構(gòu)成搜索關(guān)鍵詞或擴(kuò)展詞的所有分詞分別映射至語義向量空間,得到對應(yīng)的分詞向量;按照預(yù)設(shè)策略將構(gòu)成搜索關(guān)鍵詞或擴(kuò)展詞的所有分詞分別對應(yīng)的分詞向量進(jìn)行組合,并將得到的整詞向量作為上述的語義向量;通過將每個分詞分別映射為對應(yīng)的分詞向量,有助于降低處理過程的復(fù)雜度。
舉例而言,比如當(dāng)用戶輸入的搜索關(guān)鍵詞為“蘋果手機(jī)”時,通過對該搜索關(guān)鍵詞的分詞處理,假定對應(yīng)的分詞包括分詞11為“蘋果”和分詞12 “手機(jī)”等,則通過將所有分詞分別映射至語義向量空間,分別得到對應(yīng)的分詞向量31為對應(yīng)于分詞“蘋果”的X1、分詞向量32為對應(yīng)于分詞“手機(jī)”的X2等。類似地,假定存在備選詞語“iphone6”,對該備選詞語進(jìn)行分詞處理,得到對應(yīng)的分詞包括分詞21“iphone”和分詞22“6”等,則通過將所有分詞分別映射至語義向量空間,分別得到對應(yīng)的分詞向量41為對應(yīng)于分詞“iphone”的Y1、分詞向量42為對應(yīng)于分詞“6”的Y2等。
然后,按照預(yù)設(shè)策略對搜索關(guān)鍵詞“蘋果手機(jī)”對應(yīng)的所有分詞向量(即分詞向量31“X1”和分詞向量32“X2”等)進(jìn)行組合,得到對應(yīng)的整詞向量1,比如該整詞向量1為X;并且,按照預(yù)設(shè)策略對備選詞語“iphone6”對應(yīng)的所有分詞向量(即分詞向量41“Y1”和分詞向量42“Y2”等)進(jìn)行組合,得到對應(yīng)的整詞向量2,比如該整詞向量2為Y。那么,搜索關(guān)鍵詞“蘋果手機(jī)”和備選詞語“iphone6”之間的語義相關(guān)度分析,即可轉(zhuǎn)換為對整詞向量1“X”與整詞向量2“Y”之間的相似度分析。
顯然地,在搜索關(guān)鍵詞“蘋果手機(jī)”與詞語“iphone6”之間完全不存在字面上的文本相似度,并且兩者之間的語義規(guī)則設(shè)置難度很大,通過相關(guān)技術(shù)中的技術(shù)方案時,很難準(zhǔn)確地實(shí)現(xiàn)類似的QR處理。而本申請中,通過將搜索關(guān)鍵詞和備選詞語分別映射為語義向量空間中的整詞向量1(該整詞向量1可以作為搜索關(guān)鍵詞的語義向量)和整詞向量2(該整詞向量2可以作為備選詞語的語義向量),可以將搜索關(guān)鍵詞與備選詞語之間實(shí)現(xiàn)較為困難的語義相關(guān)度,轉(zhuǎn)換為實(shí)現(xiàn)較為簡單的整詞向量1與整詞向量2之間的相似度比較,可以實(shí)現(xiàn)更為準(zhǔn)確、便捷的QR處理操作,確定搜索關(guān)鍵詞對應(yīng)的擴(kuò)展詞。
2、基于樣本訓(xùn)練的QR實(shí)現(xiàn)過程
為了使每個詞語都能夠正確地映射至語義向量空間中,即每個分詞均能夠正確地映射為語義向量空間中的分詞向量,并進(jìn)而組合為相應(yīng)的詞語對應(yīng)的整詞向量(該整詞向量可以被作為相應(yīng)詞語的語義向量),可以通過樣本訓(xùn)練來預(yù)先得到所有可能的分詞在語義向量空間中對應(yīng)的分詞向量。下面按 照樣本訓(xùn)練和QR處理的執(zhí)行順序,對本申請的技術(shù)方案進(jìn)行詳細(xì)說明。
圖4是本申請一示例性實(shí)施例的另一種查詢改寫方法的流程圖,如圖4所示,該方法可以包括以下步驟:
步驟402,提取訓(xùn)練樣本。
一種情況下,用戶的歷史行為可以在很大程度上體現(xiàn)出搜索關(guān)鍵詞與擴(kuò)展詞之間的語義相關(guān)度,因而可以基于用戶的歷史行為,選取合適的訓(xùn)練樣本。舉例而言,訓(xùn)練樣本可以包括:歷史搜索點(diǎn)擊日志中提取的歷史搜索關(guān)鍵詞和被點(diǎn)擊的業(yè)務(wù)對象對應(yīng)的歷史擴(kuò)展詞;比如當(dāng)用戶歷史上輸入了搜索關(guān)鍵詞“蘋果手機(jī)”時,在搜索結(jié)果中點(diǎn)擊了某個業(yè)務(wù)對象,比如該業(yè)務(wù)對象對應(yīng)的歷史擴(kuò)展詞為“iphone6”時,可以將歷史搜索關(guān)鍵詞“蘋果手機(jī)”作為樣本搜索關(guān)鍵詞、將歷史擴(kuò)展詞“iphone6”作為樣本擴(kuò)展詞。
另一種情況下,可以基于與被點(diǎn)擊的業(yè)務(wù)對象相關(guān)的數(shù)據(jù)或信息,得到對應(yīng)的訓(xùn)練樣本。舉例而言,訓(xùn)練樣本可以來自:
1)歷史搜索點(diǎn)擊日志中提取的歷史搜索關(guān)鍵詞和從被點(diǎn)擊的業(yè)務(wù)對象的展示內(nèi)容中提取的預(yù)測擴(kuò)展詞;舉例而言,當(dāng)歷史搜索關(guān)鍵詞為“蘋果手機(jī)”時,在被點(diǎn)擊的業(yè)務(wù)對象的展示內(nèi)容中還包括“iphone6P”,且該詞語“iphone6P”被認(rèn)為與歷史搜索關(guān)鍵詞“蘋果手機(jī)”之間具有較高的語義相關(guān)度,因而將該詞語“iphone6P”作為預(yù)測擴(kuò)展詞。其中,可以將歷史搜索關(guān)鍵詞“蘋果手機(jī)”作為樣本搜索關(guān)鍵詞、將預(yù)測擴(kuò)展詞“iphone6P”作為樣本擴(kuò)展詞。
2)歷史搜索點(diǎn)擊日志中提取的歷史擴(kuò)展詞和從被點(diǎn)擊的業(yè)務(wù)對象的展示內(nèi)容中提取的預(yù)測搜索關(guān)鍵詞;舉例而言,當(dāng)歷史擴(kuò)展詞為“iphone6”時,在被點(diǎn)擊的業(yè)務(wù)對象的展示內(nèi)容中還包括“蘋果最新款”,且該詞語“蘋果最新款”被認(rèn)為與歷史擴(kuò)展詞“iphone6”之間具有較高的語義相關(guān)度,因而將該詞語“蘋果最新款”作為預(yù)測搜索關(guān)鍵詞。其中,可以將預(yù)測搜索關(guān)鍵詞“蘋果最新款”作為樣本搜索關(guān)鍵詞、將歷史擴(kuò)展詞“iphone6”作為樣本擴(kuò)展詞。
3)從所述被點(diǎn)擊的業(yè)務(wù)對象的展示內(nèi)容中提取的預(yù)測搜索關(guān)鍵詞和預(yù)測擴(kuò)展詞;舉例而言,當(dāng)歷史搜索關(guān)鍵詞為“蘋果手機(jī)”、被點(diǎn)擊的業(yè)務(wù)對象對應(yīng)的歷史擴(kuò)展詞為“iphone6”時,若該被點(diǎn)擊的業(yè)務(wù)對象的展示內(nèi)容中還包括“蘋果最新款”和“iphone6P”,且該詞語“蘋果最新款”被認(rèn)為與詞語“iphone6P”之間具有較高的語義相關(guān)度,因而將該詞語“蘋果最新款”作為預(yù)測搜索關(guān)鍵詞、將該詞語“iphone6P”作為預(yù)測擴(kuò)展詞。其中,可以將預(yù)測搜索關(guān)鍵詞“蘋果最新款”作為樣本搜索關(guān)鍵詞、將預(yù)測擴(kuò)展詞“iphone6P”作為樣本擴(kuò)展詞。
在又一種情況下,基于用戶自身的認(rèn)知和判斷,可以主動創(chuàng)建搜索關(guān)鍵詞和對應(yīng)的擴(kuò)展詞,并認(rèn)為兩者之間具有較高的語義相關(guān)度;其中,可以分別將用戶創(chuàng)建的搜索關(guān)鍵詞作為樣本搜索關(guān)鍵詞、將用戶創(chuàng)建的擴(kuò)展詞作為樣本擴(kuò)展詞。
當(dāng)然,對于上述的三種情況以及第二種情況下的三種具體實(shí)現(xiàn)方式,可以認(rèn)為具體列舉出了訓(xùn)練樣本的五種來源;相應(yīng)的,可以選取其中的任意一種或多種實(shí)現(xiàn)方式,作為本申請的技術(shù)方案中的訓(xùn)練樣本的來源?;蛘?,也可以將其中的部分實(shí)現(xiàn)方式作為必要的實(shí)現(xiàn)方式,而另一部分作為可選的補(bǔ)足方式,比如將上述第一種情況作為必要的實(shí)現(xiàn)方式,而將其他四種實(shí)現(xiàn)方式作為可選的補(bǔ)足方式。
步驟404,訓(xùn)練分詞向量。
下面結(jié)合圖5和圖6,對該步驟中的分詞向量的訓(xùn)練過程進(jìn)行詳細(xì)描述。其中,圖5是本申請一示例性實(shí)施例的一種用于實(shí)現(xiàn)查詢改寫的樣本訓(xùn)練過程的流程圖;圖6是本申請一示例性實(shí)施例的又一種查詢改寫的示意圖。如圖5所示,該樣本訓(xùn)練過程可以包括以下步驟:
步驟502,獲取樣本特征詞組。
在本實(shí)施例中,由于在步驟402中提取訓(xùn)練樣本時,樣本搜索關(guān)鍵詞與樣本擴(kuò)展詞之間一一對應(yīng),因而將相互對應(yīng)的一個樣本搜索關(guān)鍵詞與一個樣本擴(kuò)展詞作為一個樣本特征詞組,而其中的樣本搜索關(guān)鍵詞或樣本擴(kuò)展詞分 別作為該樣本特征詞組中的一個樣本特征詞。
步驟504A,對樣本特征詞組中的樣本搜索關(guān)鍵詞進(jìn)行分詞處理,得到該樣本搜索關(guān)鍵詞的所有分詞。
如圖6所示,比如對樣本搜索關(guān)鍵詞進(jìn)行分詞處理后,分別得到樣本分詞11’和樣本分詞12’等;那么,假定該樣本搜索關(guān)鍵詞為“蘋果手機(jī)”,則樣本分詞11’可以為“蘋果”、樣本分詞12’可以為“手機(jī)”。
步驟506A,生成樣本分詞向量。
在本實(shí)施例中,針對上述的樣本分詞11’和樣本分詞12’等,分別生成對應(yīng)的樣本分詞向量31’和樣本分詞向量32’等。舉例而言,假定樣本分詞向量31’為X1、樣本分析向量32’為X2,則當(dāng)語義向量空間為n維時,向量X1、向量X2等均為n維向量,比如向量X1={x11,x12,x13,…,x1n},向量X2={x21,x22,x23,…,x2n}等。
其中,由于后續(xù)還需要完成對每個樣本分詞向量的訓(xùn)練操作,因而此處對于每個樣本分詞向量在每一維度上的具體數(shù)值并沒有要求,只要確保每個樣本分詞向量為n維即可。舉例而言,比如可以通過隨機(jī)初始化的方式,生成每一維度均為隨機(jī)數(shù)值的各個樣本分詞向量,即任一樣本分詞向量Xi在各個維度上的數(shù)值xi1、xi2、……、xin等均為隨機(jī)值。
步驟508A,生成樣本整詞向量。
在本實(shí)施例中,樣本搜索關(guān)鍵詞的所有分詞分別對應(yīng)于樣本分詞向量31’和樣本分詞向量32’等,而按照預(yù)設(shè)策略對上述的所有樣本分詞向量進(jìn)行組合,即可得到該樣本搜索關(guān)鍵詞對應(yīng)的樣本整詞向量1’。其中,本申請并不對該預(yù)設(shè)策略進(jìn)行限制,只要該預(yù)設(shè)策略具有可重復(fù)執(zhí)行性,且生成的樣本整詞向量1’與樣本分詞向量的維度一致,比如均為上述的n維向量,即可應(yīng)用于本申請的技術(shù)方案中。
舉例而言,可以將樣本搜索關(guān)鍵詞對應(yīng)的所有樣本分詞向量在每一維度上的數(shù)值分別按照對應(yīng)于上述預(yù)設(shè)策略的預(yù)設(shè)算法進(jìn)行計算,得到樣本整詞向量1’在各個維度上對應(yīng)的數(shù)值。其中,該預(yù)設(shè)算法可以為:平均算法、加 權(quán)平均算法等,本申請并不對此進(jìn)行限制。
比如,當(dāng)樣本搜索關(guān)鍵詞對應(yīng)于樣本分詞向量31’和樣本分詞向量32’時,即向量X1和向量X2,假定預(yù)設(shè)算法為平均算法,則分別對樣本分詞向量31’和樣本分詞向量32’在各個維度上的數(shù)值進(jìn)行平均計算,得到對應(yīng)的樣本整詞向量1’為X’={x1’,x2’,…,xn’},其中x1’=(x11+x21)/2、x2’=(x12+x22)/2,……,xn’=(x1n+x2n)/2。
當(dāng)然,也可以通過下述方式,使得上述對于樣本整詞向量1’的生成方式更容易操作:當(dāng)所述語義向量空間為n維時,將構(gòu)成所述任一特征詞的所有m個分詞分別在所述語義向量空間中對應(yīng)的n維分詞向量組成m×n規(guī)格的特征矩陣;分別將所述特征矩陣中的每列m個元素按照預(yù)設(shè)算法進(jìn)行計算,以得到所述任一特征詞對應(yīng)的整詞向量在相應(yīng)維度上的數(shù)值;將各列的計算結(jié)果組合為所述任一特征詞對應(yīng)的n維整詞向量。
比如,當(dāng)樣本搜索關(guān)鍵詞對應(yīng)于樣本分詞向量31’和樣本分詞向量32’,且每個樣本分詞向量均為9維時,即m=2、n=9,則由樣本分詞向量31’和樣本分詞向量32’構(gòu)成的特征矩陣為:
然后,分別將該特征矩陣Wx中的每列上的2(m=2)個元素按照預(yù)設(shè)算法進(jìn)行計算,即可得到樣本整詞向量1’,即X’={x1’,x2’,…,x9’}。
其中,若預(yù)設(shè)算法為平均算法,則x1’=(x11+x21)/2、x2’=(x12+x22)/2,……,x9’=(x19+x29)/2。若預(yù)設(shè)算法為加權(quán)平均算法,則可以計算樣本整詞向量1’在各個維度上的數(shù)值為:x1’=x11×a1+x21×a2,x2’=x12×b1+x22×b2,……,x9’=x19×i1+x29×i2,其中a1、a2等分別為相應(yīng)元素的權(quán)重值;其中,在加權(quán)平均算法中,同一列中每一元素的權(quán)重可以與該元素對應(yīng)分詞的出現(xiàn)詞頻正相關(guān),比如可以根據(jù)TF-IDF算法獲取上述的權(quán)重值,當(dāng)然本申請并不對此進(jìn)行限制。
與步驟504A~步驟508A相類似地,在步驟504B、步驟506B和步驟508B 中,可以針對樣本擴(kuò)展詞對應(yīng)的所有分詞(比如圖6所示的樣本分詞21’和樣本分詞22’等),分別生成對應(yīng)的樣本分詞向量(比如圖6所示的樣本分詞向量41’和樣本分詞向量42’等),并按照上述的預(yù)設(shè)策略,將所有的樣本分詞向量組合為對應(yīng)的樣本整詞向量2’,比如該樣本整詞向量2’為Y’。
步驟510,訓(xùn)練樣本。
在本實(shí)施例中,計算樣本整詞向量1’與樣本整詞向量2’之間的相似度,假定此時該相似度為初始相似度Z1。而在步驟502中獲取樣本特征詞組時,每個樣本特征詞組中的樣本搜索關(guān)鍵詞與樣本擴(kuò)展詞之間均具有預(yù)設(shè)關(guān)聯(lián)度Z,該預(yù)設(shè)關(guān)聯(lián)度Z體現(xiàn)了樣本搜索關(guān)鍵詞與該樣本擴(kuò)展詞之間的實(shí)際語義相關(guān)度。而由于步驟506A和步驟506B中分別生成每個樣本分詞向量時,每個樣本分詞向量在各個維度上的數(shù)值為任意值,因而樣本整詞向量1’與樣本整詞向量2’之間的初始相似度Z1往往并不符合預(yù)設(shè)關(guān)聯(lián)度Z。
因此,可以將預(yù)設(shè)關(guān)聯(lián)度Z作為目標(biāo),通過神經(jīng)網(wǎng)絡(luò)算法對與樣本特征詞組中的樣本搜索關(guān)鍵詞和樣本擴(kuò)展詞分別對應(yīng)的樣本整詞向量相應(yīng)的每一樣本分詞向量進(jìn)行訓(xùn)練,即對圖6所示的樣本分詞向量31’、樣本分詞向量32’、樣本分詞向量41’和樣本分詞向量42’等進(jìn)行訓(xùn)練,通過每個樣本分詞向量在各個維度上的數(shù)值變化,使得對應(yīng)的樣本整詞向量1’和樣本整詞向量2’分別在各個維度上的數(shù)值、以及兩者之間的相似度均產(chǎn)生相應(yīng)的變化,從而將樣本整詞向量1’與樣本整詞向量2’之間的相似度由初始相似度Z1逐步變化至盡可能地接近于預(yù)設(shè)關(guān)聯(lián)度Z,直至匹配于(相等或者差值小于預(yù)設(shè)數(shù)值)該預(yù)設(shè)關(guān)聯(lián)度Z,則認(rèn)為訓(xùn)練完成。
基于上述原理,在執(zhí)行訓(xùn)練操作時,可以建立如下的損失函數(shù):
其中,為訓(xùn)練目標(biāo),target為上述的預(yù)設(shè)關(guān)聯(lián)度Z,output為樣本整詞向量1’與樣本整詞向量2’之間的相似度,且output的初始值為上述的初始相似度Z1。
那么,通過反射傳播方法不斷的更新神經(jīng)網(wǎng)絡(luò)的各層隱變量和激活層參數(shù)以及詞向量,最終使得損失函數(shù)最小化,則樣本整詞向量1’與樣本整詞向量2’之間的相似度將匹配于預(yù)設(shè)關(guān)聯(lián)度Z。
其中,預(yù)設(shè)關(guān)聯(lián)度Z可以根據(jù)相應(yīng)的樣本特征詞組對應(yīng)的點(diǎn)擊數(shù)、瀏覽數(shù)、點(diǎn)擊比例、瀏覽比例等得到,比如當(dāng)點(diǎn)擊數(shù)/比例、瀏覽數(shù)/比例越高時,對應(yīng)的預(yù)設(shè)關(guān)聯(lián)度Z的數(shù)值越大,表明相應(yīng)的樣本搜索關(guān)鍵詞與樣本擴(kuò)展詞之間具有更高的語義相關(guān)度。當(dāng)然,也可以根據(jù)其他參數(shù)來確定預(yù)設(shè)關(guān)聯(lián)度Z,本申請并不對此進(jìn)行限制。
步驟512A,得到分詞向量。
在本實(shí)施例中,如圖6所示,在完成對樣本整詞向量1’與樣本整詞向量2’之間的相似度訓(xùn)練后,確定已經(jīng)將樣本搜索關(guān)鍵詞對應(yīng)的樣本分詞向量訓(xùn)練為對應(yīng)的分詞向量,比如樣本分詞向量31’被訓(xùn)練為分詞向量31(圖中未示出)、樣本分詞向量32’被訓(xùn)練為分詞向量32(圖中未示出)。相應(yīng)地,樣本整詞向量1’與樣本整詞向量2’經(jīng)過訓(xùn)練后,分別變化為圖6所示的整詞向量1和整詞向量2。
步驟512B,得到分詞向量。
在本實(shí)施例中,如圖6所示,在完成對樣本整詞向量1’與樣本整詞向量2’之間的相似度訓(xùn)練后,確定已經(jīng)將樣本擴(kuò)展詞對應(yīng)的樣本分詞向量訓(xùn)練為對應(yīng)的分詞向量,比如樣本分詞向量41’被訓(xùn)練為分詞向量41(圖中未示出)、樣本分詞向量42’被訓(xùn)練為分詞向量42(圖中未示出)。相應(yīng)地,樣本整詞向量1’與樣本整詞向量2’經(jīng)過訓(xùn)練后,分別變化為圖6所示的整詞向量1和整詞向量2。
步驟406,組合整詞向量,作為相應(yīng)詞的語義向量。
在本實(shí)施例中,步驟402提取的訓(xùn)練樣本中包括很多樣本特征詞組,各個樣本特征詞組均通過上述圖5所示的實(shí)施例進(jìn)行處理,可以得到所有樣本特征詞對應(yīng)的樣本分詞構(gòu)成的分詞結(jié)果集合,且該分詞結(jié)果集合中的每個樣本分詞對應(yīng)的樣本分詞向量均被訓(xùn)練為對應(yīng)的分詞向量。
而在步驟406中組合整詞向量時,不僅是組合得到樣本特征詞對應(yīng)的整詞向量,還在分詞結(jié)果集合中的樣本分詞可以任意組合為非樣本特征詞時,由對應(yīng)的分詞向量組合得到該非樣本特征詞對應(yīng)的整詞向量。其中,非樣本特征詞可以為備選詞語,比如商家購買的競價詞(Bidword)等,或者用戶可能輸入的搜索關(guān)鍵詞。
舉例而言,假定樣本搜索關(guān)鍵詞“蘋果手機(jī)”和樣本擴(kuò)展詞“iphone6”的樣本分詞、樣本分詞向量和訓(xùn)練得到的分詞向量如下表1所示,則除了由分詞向量P1和分詞向量P2組合得到樣本搜索關(guān)鍵詞“蘋果手機(jī)”對應(yīng)的語義向量,以及由分詞向量Q1和分詞向量Q2組合得到樣本擴(kuò)展詞“iphone6”對應(yīng)的語義向量,還可以通過對各個樣本分詞的任意組合,得到諸如“蘋果iphone”等對應(yīng)的語義向量。
表1
需要指出的是:
在對分詞向量進(jìn)行組合得到整詞向量時,應(yīng)當(dāng)采用與步驟404的訓(xùn)練過程中的“預(yù)設(shè)策略”一致,即具體為步驟508A、步驟508B中對樣本分詞向量進(jìn)行組合得到樣本整詞向量時的“預(yù)設(shè)策略”一致,比如對所有分詞向量在同一維度上的數(shù)值進(jìn)行平均計算或加權(quán)平均計算等。
而在計算兩個向量之間的相似度時,實(shí)際上存在多種計算方式。舉例而言,可以直接計算兩個向量本身的相似度,比如余弦(cosine)距離,皮爾遜相關(guān)系數(shù)等;或者,也可以通過映射至神經(jīng)網(wǎng)絡(luò)層,比較對應(yīng)的搜索關(guān)鍵詞與擴(kuò)展詞之間的關(guān)聯(lián)度;或者,還可以采用其他方式,本申請并不對此進(jìn)行限制。
步驟408,生成QR列表。
步驟410,執(zhí)行QR處理。
在本實(shí)施例中,QR列表中記載了預(yù)定義的搜索關(guān)鍵詞與擴(kuò)展詞之間的對應(yīng)關(guān)系,該對應(yīng)關(guān)系中記載的每對搜索關(guān)鍵詞和擴(kuò)展詞在語義向量空間中分別對應(yīng)的語義向量之間的相似度均達(dá)到預(yù)設(shè)相似度。
因此,根據(jù)用戶實(shí)際輸入的搜索關(guān)鍵詞,只需要從該QR列表中查找并提取對應(yīng)的詞語,即可將該詞語作為該搜索關(guān)鍵詞對應(yīng)的擴(kuò)展詞,且該擴(kuò)展詞必然與搜索關(guān)鍵詞之間存在較高的語義相關(guān)度,可以實(shí)現(xiàn)準(zhǔn)確的QR處理并滿足用戶的搜索需求。
當(dāng)然,用戶輸入的搜索關(guān)鍵詞可能并未存在于QR列表中,或者可能并未事先建立QR列表,則可以通過將搜索關(guān)鍵詞進(jìn)行分詞處理,并根據(jù)得到的分詞在上述的分詞結(jié)果集合中對應(yīng)的樣本分詞,將這些樣本分詞對應(yīng)的分詞向量組合為該搜索關(guān)鍵詞對應(yīng)的語義向量,并進(jìn)一步將該搜索關(guān)鍵詞與備選詞語的語義向量進(jìn)行比較,選取語義向量之間的相似度達(dá)到預(yù)設(shè)相似度的備選詞語,作為該搜索關(guān)鍵詞對應(yīng)的擴(kuò)展詞。
進(jìn)一步地,在步驟410中,可以確保QR處理得到的擴(kuò)展詞均與搜索關(guān)鍵詞屬于相同的業(yè)務(wù)對象類別。比如當(dāng)用戶輸入“蘋果手機(jī)”時,主動識別出該搜索關(guān)鍵詞所屬的業(yè)務(wù)對象類別為“電子產(chǎn)品”,并QR處理為該“電子產(chǎn)品”類別下的“iphone6”等擴(kuò)展詞,而非“工藝品”類別的“蘋果手機(jī)模型”等擴(kuò)展詞。其中,可以通過獲取用戶的歷史行為數(shù)據(jù),并根據(jù)該歷史行為數(shù)據(jù)確定搜索關(guān)鍵詞所屬的業(yè)務(wù)對象類別;比如,該歷史行為數(shù)據(jù)可以包括該用戶的歷史搜索、歷史瀏覽、歷史點(diǎn)擊、歷史收藏、歷史購買等各種數(shù)據(jù)。
圖7示出了根據(jù)本申請的一示例性實(shí)施例的電子設(shè)備的示意結(jié)構(gòu)圖。請參考圖7,在硬件層面,該電子設(shè)備包括處理器、內(nèi)部總線、網(wǎng)絡(luò)接口、內(nèi)存以及非易失性存儲器,當(dāng)然還可能包括其他業(yè)務(wù)所需要的硬件。處理器從非易失性存儲器中讀取對應(yīng)的計算機(jī)程序到內(nèi)存中然后運(yùn)行,在邏輯層面上 形成查詢改寫裝置。當(dāng)然,除了軟件實(shí)現(xiàn)方式之外,本申請并不排除其他實(shí)現(xiàn)方式,比如邏輯器件抑或軟硬件結(jié)合的方式等等,也就是說以下處理流程的執(zhí)行主體并不限定于各個邏輯單元,也可以是硬件或邏輯器件。
請參考圖8,在軟件實(shí)施方式中,該查詢改寫裝置可以包括接收單元、選取單元和改寫單元。其中:
接收單元,接收用戶輸入的搜索關(guān)鍵詞;
選取單元,選取對應(yīng)于所述搜索關(guān)鍵詞的擴(kuò)展詞,所述擴(kuò)展詞與所述搜索關(guān)鍵詞在預(yù)設(shè)維度的語義向量空間中分別對應(yīng)的語義向量之間的相似度達(dá)到預(yù)設(shè)相似度;
改寫單元,將所述搜索關(guān)鍵詞改寫為被選中的擴(kuò)展詞。
可選的,所述選取單元具體用于:
調(diào)取預(yù)定義的搜索關(guān)鍵詞與擴(kuò)展詞之間的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系中記載的每對搜索關(guān)鍵詞和擴(kuò)展詞在所述語義向量空間中分別對應(yīng)的語義向量之間的相似度均達(dá)到預(yù)設(shè)相似度;
獲取所述對應(yīng)關(guān)系中記載的與所述搜索關(guān)鍵詞對應(yīng)的擴(kuò)展詞。
可選的,所述語義向量是通過神經(jīng)網(wǎng)絡(luò)算法將對應(yīng)的搜索關(guān)鍵詞或擴(kuò)展詞映射至所述語義向量空間而得到。
可選的,通過下述方式將搜索關(guān)鍵詞或擴(kuò)展詞映射至所述語義向量空間并得到對應(yīng)的所述語義向量:
通過神經(jīng)網(wǎng)絡(luò)算法將構(gòu)成搜索關(guān)鍵詞或擴(kuò)展詞的所有分詞分別映射至所述語義向量空間,得到對應(yīng)的分詞向量;按照預(yù)設(shè)策略將構(gòu)成搜索關(guān)鍵詞或擴(kuò)展詞的所有分詞分別對應(yīng)的分詞向量進(jìn)行組合,并將得到的整詞向量作為所述語義向量。
可選的,所述分詞向量對應(yīng)的分詞屬于作為訓(xùn)練樣本的所有樣本特征詞對應(yīng)的分詞結(jié)果集合,其中所述樣本特征詞為樣本搜索關(guān)鍵詞或樣本擴(kuò)展詞,且每一樣本搜索關(guān)鍵詞分別與相關(guān)聯(lián)的每一樣本擴(kuò)展詞構(gòu)成具有預(yù)設(shè)關(guān)聯(lián)度的一樣本特征詞組;
以及,當(dāng)所述分詞結(jié)果集合中的每個分詞分別對應(yīng)于所述語義向量空間中各維度數(shù)值均為任意初始值的樣本分詞向量時,由構(gòu)成任一樣本特征詞的所有分詞分別對應(yīng)的樣本分詞向量按照所述預(yù)設(shè)策略組合為所述任一樣本特征詞對應(yīng)的樣本整詞向量,且任一樣本特征詞組中的樣本搜索關(guān)鍵詞和樣本擴(kuò)展詞分別對應(yīng)的樣本整詞向量之間存在對應(yīng)的初始相似度;
其中,當(dāng)以所述任一樣本特征詞組對應(yīng)的預(yù)設(shè)關(guān)聯(lián)度為目標(biāo)、通過所述神經(jīng)網(wǎng)絡(luò)算法對與所述任一樣本特征詞組中的樣本搜索關(guān)鍵詞和樣本擴(kuò)展詞分別對應(yīng)的樣本整詞向量相應(yīng)的每一樣本分詞向量進(jìn)行訓(xùn)練時,若訓(xùn)練結(jié)果使得所述初始相似度變化至匹配于所述預(yù)設(shè)關(guān)聯(lián)度,則確定所述任一樣本特征詞組對應(yīng)的所有分詞被映射至所述語義向量空間,且與所述任一樣本特征詞組中的樣本搜索關(guān)鍵詞和樣本擴(kuò)展詞分別對應(yīng)的樣本整詞向量相應(yīng)的每一樣本分詞向量被訓(xùn)練為相應(yīng)分詞對應(yīng)的分詞向量。
可選的,所述訓(xùn)練樣本來自以下至少之一:
歷史搜索點(diǎn)擊日志中提取的歷史搜索關(guān)鍵詞和被點(diǎn)擊的業(yè)務(wù)對象對應(yīng)的歷史擴(kuò)展詞;
所述歷史搜索關(guān)鍵詞和從所述被點(diǎn)擊的業(yè)務(wù)對象的展示內(nèi)容中提取的預(yù)測擴(kuò)展詞;
所述歷史擴(kuò)展詞和從所述被點(diǎn)擊的業(yè)務(wù)對象的展示內(nèi)容中提取的預(yù)測搜索關(guān)鍵詞;
從所述被點(diǎn)擊的業(yè)務(wù)對象的展示內(nèi)容中提取的預(yù)測搜索關(guān)鍵詞和預(yù)測擴(kuò)展詞;
用戶創(chuàng)建的搜索關(guān)鍵詞和用戶創(chuàng)建的擴(kuò)展詞;
其中,所述歷史搜索關(guān)鍵詞、所述預(yù)測搜索關(guān)鍵詞和用戶創(chuàng)建的搜索關(guān)鍵詞被作為樣本搜索關(guān)鍵詞,所述歷史擴(kuò)展詞、所述預(yù)測擴(kuò)展詞和用戶創(chuàng)建的擴(kuò)展詞被作為樣本擴(kuò)展詞。
可選的,所述預(yù)設(shè)策略包括:
當(dāng)所述語義向量空間為n維時,將構(gòu)成任一詞的所有m個分詞分別在所 述語義向量空間中對應(yīng)的n維分詞向量組成m×n規(guī)格的特征矩陣;
分別將所述特征矩陣中的每列m個元素按照預(yù)設(shè)算法進(jìn)行計算,以得到所述任一詞對應(yīng)的整詞向量在相應(yīng)維度上的數(shù)值;
將各列的計算結(jié)果組合為n維整詞向量,以作為所述任一詞在所述語義向量空間中對應(yīng)的語義向量。
可選的,所述預(yù)設(shè)算法包括以下任一:
平均算法;
加權(quán)平均算法,且同一列中每一元素的權(quán)重與該元素對應(yīng)分詞的出現(xiàn)詞頻正相關(guān)。
可選的,所述擴(kuò)展詞與所述搜索關(guān)鍵詞屬于相同的業(yè)務(wù)對象類別。
可選的,還包括:
獲取單元,獲取用戶的歷史行為數(shù)據(jù);
確定單元,根據(jù)所述歷史行為數(shù)據(jù),確定所述搜索關(guān)鍵詞所屬的業(yè)務(wù)對象類別。
在一個典型的配置中,計算設(shè)備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
內(nèi)存可能包括計算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內(nèi)存是計算機(jī)可讀介質(zhì)的示例。
計算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲。信息可以是計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、其他類型的隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計 算設(shè)備訪問的信息。按照本文中的界定,計算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。
還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。
以上所述僅為本申請的較佳實(shí)施例而已,并不用以限制本申請,凡在本申請的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請保護(hù)的范圍之內(nèi)。