專利名稱:檢索詞的聚類方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)搜索技術(shù),特別涉及檢索詞的聚類方法和裝置。
背景技術(shù):
在網(wǎng)絡(luò)搜索技術(shù)中,用戶都是通過檢索詞搜索到相應(yīng)的結(jié)果。應(yīng)用于競價廣告系 統(tǒng)中,該檢索詞具體實現(xiàn)時可為廣告商提供的廣告的標(biāo)識,也可稱為購買詞,目的是便于用戶通過該檢索詞搜索到相應(yīng)的廣告。在競價廣告系統(tǒng)中,為了提高廣告搜索效率,提出了對競價廣告系統(tǒng)中由廣告商提供的檢索詞進(jìn)行聚類。其中,對檢索詞進(jìn)行聚類,其可以抽象為對一個短文本串的集合進(jìn)行聚類的過程。目前,現(xiàn)有最常用的聚類方法為針對一廣告商提供的檢索詞,僅從目前已存在的所有廣告商提供的檢索詞中找出字面上相似度較大的檢索詞,將該廣告商提供的檢索詞和找出的檢索詞聚類在一起。如此,當(dāng)搜索引擎用戶通過一檢索詞檢索相應(yīng)的廣告時,將與該檢索詞對應(yīng)的廣告,以及與該檢索詞聚類在一起的檢索詞對應(yīng)的廣告展示給用戶。然而,有一些檢索詞,盡管廣告商沒有提供,但其實質(zhì)上與廣告商提供的檢索詞對應(yīng)的廣告相關(guān),而前述的聚類方法是僅將廣告商提供的檢索詞進(jìn)行字面相關(guān)的聚類,沒有考慮到這些與廣告商提供的檢索詞語義相關(guān)的、且目前還未被廣告商提供的其他檢索詞,這降低了檢索詞聚類的準(zhǔn)確度。
發(fā)明內(nèi)容
本發(fā)明提供了檢索詞的聚類方法和裝置,以提高檢索詞聚類的準(zhǔn)確度。本發(fā)明提供的技術(shù)方案包括一種檢索詞的聚類方法,包括建立候選檢索詞集合,所述候選檢索詞集合包含由用戶提供的第一檢索詞、以及與第一檢索詞相關(guān)的第二檢索詞;根據(jù)檢索詞的文本特征和/或語義特征對所述候選檢索詞集合中的第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作。一種檢索詞的聚類裝置,包括建立單元,用于建立候選檢索詞集合,所述候選檢索詞集合包含由用戶提供的第一檢索詞、以及與第一檢索詞相關(guān)的第二檢索詞;聚類單元,用于根據(jù)檢索詞的文本特征和/或語義特征對所述候選檢索詞集合中的第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作。由以上技術(shù)方案可以看出,本發(fā)明提供的檢索詞的聚類方法和裝置在進(jìn)行檢索詞聚類時,并非像現(xiàn)有技術(shù)那樣僅將用戶提供的檢索詞進(jìn)行字面關(guān)系的聚類,而是同時考慮到用戶提供的檢索詞,以及與該用戶提供的檢索詞相關(guān)的其他檢索詞,并根據(jù)檢索詞的文本特征和/或語義特征對用戶提供的檢索詞,以及與該用戶提供的檢索詞相關(guān)的其他檢索詞進(jìn)行聚類,因而能夠增加檢索詞聚類的準(zhǔn)確度。
圖I為本發(fā)明實施例提供的基本流程圖;圖2a為本發(fā)明實施例提供的步驟102的流程圖;圖2b為本發(fā)明實施例提供的潛在聚類關(guān)系挖掘流程圖;圖3a為本發(fā)明實施例提供的檢索詞之間的拓?fù)鋱D結(jié)構(gòu)第一示意圖;圖3b為本發(fā)明實施例提供的檢索詞之間的拓?fù)鋱D結(jié)構(gòu)第二示意圖;圖3c為本發(fā)明實施例提供的檢索詞之間潛在的聚類關(guān)系示意圖;圖3d為本發(fā)明實施例提供的增加檢索詞時拓?fù)鋱D結(jié)構(gòu)第三示意圖;圖4為本發(fā)明實施例提供的新增加檢索詞時的流程圖;圖5為本發(fā)明實施例提供的裝置的基本結(jié)構(gòu)圖;圖6為本發(fā)明實施例提供的裝置的詳細(xì)結(jié)構(gòu)圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進(jìn)行詳細(xì)描述。本發(fā)明在進(jìn)行檢索詞聚類時,并非像現(xiàn)有技術(shù)那樣僅將用戶比如廣告商提供的檢索詞進(jìn)行字面關(guān)系的聚類,而是根據(jù)檢索詞的文本特征和/或語義特征將用戶提供的檢索詞,以及與該檢索詞相關(guān)的檢索詞聚類,以便增加檢索詞聚類的準(zhǔn)確度,下面對本發(fā)明提供的方法進(jìn)行描述。參見圖1,圖I為本發(fā)明實施例提供的基本流程圖。如圖I所示,該流程可包括以下步驟步驟101,建立候選檢索詞集合,所述候選檢索詞集合包含由用戶提供的第一檢索詞、以及與第一檢索詞相關(guān)的第二檢索詞。本步驟101中,與用戶提供的第一檢索詞相關(guān)的第二檢索詞具體可包括與該用戶提供的第一檢索詞匹配的檢索詞,和/或,以該用戶提供的第一檢索詞為關(guān)鍵詞搜索的搜索結(jié)果中的檢索詞。其中,與用戶提供的第一檢索詞匹配的檢索詞具體可通過對該用戶提供的第一檢索詞進(jìn)行簡單的字符串變換處理得到的檢索詞,或者根據(jù)實際經(jīng)驗確定出的與第一檢索詞經(jīng)常在一起使用的檢索詞。比如,如果用戶提供的第一檢索詞為咖啡壺,則根據(jù)經(jīng)驗可以知道咖啡壺通常與咖啡杯等經(jīng)常使用,基于此,可確定與該第一檢索詞匹配的檢索詞可為咖啡杯等。其中,以用戶提供的第一檢索詞為關(guān)鍵詞進(jìn)行搜索所得到的搜索結(jié)果中的檢索詞具體可通過用戶搜索串與廣告檢索詞映射整合系統(tǒng)(QBM :Query Bidterm Merge)實現(xiàn),其中,QBM具體實現(xiàn)時可為以用戶提供的第一檢索詞作為輸入進(jìn)行搜索,從搜索到的搜索結(jié)果中獲取檢索詞,將該獲取的檢索詞作為與該用戶提供的第一檢索詞相關(guān)的檢索詞。至此,通過步驟101即可得到候選檢索詞集合。需要說明的是,本實施例需要保證步驟101得到的候選檢索詞集合中沒有重復(fù)的檢索詞。
步驟102,根據(jù)檢索詞的文本特征和/或語義特征對所述候選檢索詞集合中的第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作。本步驟102具體實現(xiàn)時,可根據(jù)第一檢索詞的文本特征和/或語義特征計算該第一檢索詞和所述候選檢索詞集合中與該第一檢索詞相關(guān)的第二檢索詞之間的相似度值,將該第一檢索詞和與該第一檢索詞具有較高相似度值的第二檢索詞聚類在一起。具體地,該步驟102可通過圖2a所示的流程體現(xiàn)。參見圖2a,圖2a為本發(fā)明實施例提供的步驟102的流程圖。該流程示出了基本聚類關(guān)系的具體實現(xiàn)原理,如圖2a所示,該流程可包括以下步驟 步驟201a,根據(jù)第一檢索詞的文本特征和/或語義特征計算該第一檢索詞和其相關(guān)的每一個第二檢索詞之間的相似度值。步驟202a,如果該第一檢索詞和第二檢索詞之間的相似度值大于或等于第一預(yù)設(shè)閾值,則將該第一檢索詞和該第二檢索詞聚類在一起。通過步驟202a,能夠?qū)⒌谝粰z索詞和其相關(guān)的、且與該第一檢索詞之間的相似度值大于或等于第一預(yù)設(shè)閾值的第二檢索詞聚類在一起,即實現(xiàn)了本發(fā)明實施例的基本聚類。優(yōu)選地,為保證更加完整的聚類關(guān)系,本實施例還提供了潛在聚類關(guān)系的挖掘流程,具體可通過圖2b所示的流程體現(xiàn)。參見圖2b,圖2b為本發(fā)明實施例提供的潛在聚類關(guān)系挖掘流程圖。如圖2b所示,該流程可包括以下步驟步驟201b,從與第一檢索詞相關(guān)的各個第二檢索詞中選取與該第一檢索詞之間的相似度值大于或等于第二預(yù)設(shè)閾值的第二檢索詞。作為本發(fā)明實施例的一種擴(kuò)展,為降低潛在聚類關(guān)系挖掘的復(fù)雜度,本步驟201b還可替換為從與第一檢索詞聚類在一起的各個第二檢索詞中選取與該第一檢索詞之間的相似度值大于或等于第二預(yù)設(shè)閾值的第二檢索詞。其中,本步驟201b中的第二預(yù)設(shè)閾值與步驟202a中的第一預(yù)設(shè)閾值無關(guān),兩者可相等,也可不等。步驟202b,計算該選取的任意兩個第二檢索詞之間的相似度值,如果該計算的相似度值大于或等于所述第一預(yù)設(shè)閾值,則將該兩個第二檢索詞聚類在一起。通過步驟201b至步驟202b,能夠?qū)崿F(xiàn)潛在聚類關(guān)系的挖掘。如此,本發(fā)明實施例將步驟202a中聚類在一起的第一檢索詞和第二檢索詞(即該第一檢索詞和第二檢索詞之間具有聚類關(guān)系),以及步驟202b中聚類在一起的第二檢索詞合并在一起,即可形成了本發(fā)明實施例的全量聚類結(jié)果。優(yōu)選地,本實施例中,步驟202a的聚類和步驟202b的聚類均可按照類似現(xiàn)有的機(jī)器學(xué)習(xí)模型實現(xiàn),這里并不具體限定。為使圖2所示的流程更加清楚,下面通過一個具體實施例對本發(fā)明提供的流程進(jìn)行描述。假如用戶提供的第一檢索詞分別為bl,b3、b4和b5,其中,通過步驟101,可以得到:與bl相關(guān)的第二檢索詞為b2,b3和b4,與b3相關(guān)的第二檢索詞為b5、b6和b4,與b4相關(guān)配的第二檢索詞為b7、b8和b9,與b5相關(guān)的第二檢索詞為b3。將所有檢索詞通過圖3a所示的圖數(shù)據(jù)結(jié)構(gòu)表示。參見圖3a,圖3a為本發(fā)明實施例提供的檢索詞之間的拓?fù)鋱D結(jié)構(gòu)第一示意圖。在圖3a中,將每個檢索詞作為節(jié)點(diǎn)bi (i取值為I至9),從節(jié)點(diǎn)bi至節(jié)點(diǎn)bj(j取值為I至9)的箭頭,表示bi可擴(kuò)展出bj,也即,與bi的相關(guān)檢索詞為bj。從圖3a可以看出,圖3a示出的拓?fù)鋱D是一個有向無環(huán)圖,也就是說,兩個檢索詞之間的相關(guān)關(guān)系并非保證是雙向相關(guān),具體為從bi可以擴(kuò)展出與bi相關(guān)的檢索詞為檢索詞bj,但從檢索詞bj并非一定擴(kuò)展出與檢索詞bj相關(guān)的檢索詞為檢索詞bi之后,基于步驟201a,則可得到針對bl,根據(jù)bl的文本特征和/或語義特征計算bl和b2之間的相似度值wl2,bl和b3之間的相似度值wl3,bl和b4之間的相似度值《14 ;針對b3,根據(jù)b3的文本特征和/或語義特征計算b3和b4之間的相似度值wl4,b3和b5之間的相似度值w35,b3和b6之間的相似度值《36 ;針對b4,根據(jù)b4的文本特征和/或語義特征計算b4和b7之間的相似度值《47,b4和b8之間的相似度值w48,b4和b9之間的相似度值w49 ;針對b5,根據(jù)b5的文本特征和/或語義特征計算b5和b3之間的相似度值w53。之后,針對圖3a中用戶提供的每一個第一檢索詞執(zhí)行步驟202a,當(dāng)執(zhí)行完步驟202a時,圖3a即可變成圖3b。參見圖3b,圖3b為本發(fā)明實施例提供的檢索詞之間的拓?fù)鋱D結(jié)構(gòu)第二示意圖。圖3b示出了相互連接的檢索詞之間的聚類關(guān)系,其中,實線連接的兩個檢索詞表示該兩個檢索詞具有的聚類關(guān)系為兩者被認(rèn)為等價,可聚類在一起;虛線連接的兩個檢索詞具有的聚類關(guān)系為兩者不等價,不可聚類在一起,后續(xù)可去掉該虛線。由于在圖3a所示的拓?fù)鋱D中,與同一個第一檢索詞相關(guān)的各個第二檢索詞之間也可能具有潛在的聚類關(guān)系。這種聚類關(guān)系可能已經(jīng)在步驟203找到(比如,b3和b4之間的聚類關(guān)系),也可能沒有(比如,b2和b3之間的聚類關(guān)系)。為使檢索詞聚類更加精確,依據(jù)圖2b所示的潛在聚類關(guān)系挖掘流程,可得到其中,與用戶提供的相關(guān)的之間潛在的聚類關(guān)系可通過圖3c中的虛線表示的潛在的聚類關(guān)系。以圖3c中用戶提供的第一檢索詞bl為例進(jìn)行描述,用戶提供的其他檢索詞原理類似。如此,根據(jù)上面圖3a的描述可以知道,與bl的第二檢索詞為b2、b3和b4,如此,基于步驟201b,當(dāng)b2、b3和b4與bl之間的相似度值均大于或等于第二預(yù)設(shè)閾值時,本發(fā)明可以補(bǔ)充挖掘出3條潛在的聚類關(guān)系b2與b3之間的聚類關(guān)系,b2與b4之間的聚類關(guān)系,以及b3與b4之間的聚類關(guān)系。其中,b3與b4之間的聚類關(guān)系已經(jīng)在上述步驟202a被確定,因此,作為本發(fā)明實施例的一種擴(kuò)展,本發(fā)明可省略執(zhí)行確定b3與b4之間的聚類關(guān)系的操作,只需增加b2與b3之間的聚類關(guān)系和b2與b4之間的聚類關(guān)系。之后計算出b2與b3之間的相似度值,以及b2與b4之間的相似度值,判斷b2與b3之間的聚類關(guān)系和b2與b4之間的聚類關(guān)系是否符合聚類的標(biāo)準(zhǔn),具體為基于上述步驟202b,判斷該b2與b3之間的相似度值是否大于或等于第一預(yù)設(shè)閾值,如果是,則確定b2與b3之間的聚類關(guān)系為b2和b3等價,可聚類在一起,否則,確定b2與b3之間的聚類關(guān)系為不將b2和b3聚類在一起。同理,b2與b4之間的相似度值也是執(zhí)行類似方法。當(dāng)通過上面描述驗證出圖3c中虛線連接的兩個檢索詞等價,可以聚類在一起時,將該虛線變?yōu)閷嵕€;否則,保持該虛線不變,即認(rèn)為虛線連接的兩個檢索詞不等價,不可聚類在一起,后續(xù)可將該虛線去掉。之后,將最終由實線連接的所有檢索詞作為本發(fā)明實施例最終的聚類結(jié)果。由于本發(fā)明實施例中,檢索詞之間的聚類關(guān)系通過檢索詞之間的實線(也稱為邊關(guān)系)表示,因此,本發(fā)明實施例可僅遍歷邊關(guān)系,這樣,可以使本發(fā)明實施例的復(fù)雜度降低為0(n+e),其中n表示檢索詞的個數(shù),e表示邊關(guān)系的個數(shù)。需要說明的是,作為本發(fā)明實施例的一種擴(kuò)展,本發(fā)明實施例中,還可進(jìn)一步挖掘圖3a中與用戶提供的第一檢索詞相關(guān)的第二檢索詞,以及該第二檢索詞在N(比如N為3)跳以內(nèi)各“子孫”節(jié)點(diǎn)之間潛在的聚類關(guān)系,具體實現(xiàn)方式參見圖2b所示流程,這里不再詳述。另外,在競價廣告系統(tǒng)中,候選檢索詞集合并非固定不變,其可隨著時間的推移遞增檢索詞。比如,在某一個時間點(diǎn),候選檢索詞集合又新增加了用戶提供的第一檢索詞,該新增加的第一檢索詞,相對之前的所有檢索詞是新出現(xiàn)的。對該新增加的第一檢索詞,也需要對其執(zhí)行類似圖2a和圖2b所示的聚類操作,同時,將執(zhí)行聚類操作后得到的結(jié)果與之前的聚類結(jié)果整合到一起。具體見圖4所示的流程。參見圖4,圖4為本發(fā)明實施例提供的新增加第一檢索詞時的流程(記為增量更新流程)圖。如圖4所示,該流程可包括以下步驟步驟401,確定與該增加的第一檢索詞相關(guān)的第二檢索詞,并將該增加的第一檢索詞和該確定的與該增加的第一檢索詞相關(guān)的第二檢索詞中與所述候選檢索詞集合中任一檢索詞不同的第二檢索詞添加到所述候選檢索詞集合中。比如,候選檢索詞集合在執(zhí)行步驟401之前存放的檢索詞為圖3a所示的bl至b9,當(dāng)執(zhí)行到本步驟401時,如果新增加以下兩個第一檢索詞nl和n2。其中,與nl相關(guān)的第二檢索詞為b5和b6,與n2相關(guān)的第二檢索詞為bl、b2、b3、b4、b8和n3,具體可參見圖3d所示。由于與nl相關(guān)的b5和b6,以及與n2相關(guān)的bl、b2、b3、b4、b8都已存放在候選檢索詞集合中,因此,本步驟401僅可將nl、n2,以及與n2相關(guān)的n3添加至候選檢索詞集合。步驟402,根據(jù)檢索詞的文本特征和/或語義特征對所述候選檢索詞集合中新增加的第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作。該聚類操作與圖2a所示的流程類似。下面僅以新增加的第一檢索詞為nl為例對本步驟402進(jìn)行描述,增加的其他檢索詞原理類似。貝丨』,針對nl,基于步驟401,確定出與該nl相關(guān)的第二檢索詞為b5和b6。如此,執(zhí)行到本步驟402時,基于圖2a所示的流程,則根據(jù)nl的文本特征和/或語義特征計算nl與b5之間的相似度值,以及計算nl與b6之間的相似度值,之后判斷nl與b5之間的相似度值是否大于或等于第一預(yù)設(shè)閾值,如果是,則確定nl與b5等價,兩者可以聚類在一起,否貝U,不將nl與b5聚類在一起。針對nl與b6之間的相似度值也執(zhí)行同樣操作。步驟403,對候選檢索詞集合中與增加的第一檢索詞相關(guān)的第二檢索詞進(jìn)行潛在聚類關(guān)系的挖掘。本步驟403可采用圖2b所示的流程進(jìn)行潛在聚類關(guān)系的挖掘,簡單描述為從候選檢索詞集合中與增加的第一檢索詞相關(guān)的各個第二檢索詞,或者從與增加的第一檢索詞聚類在一起的各個第二檢索詞中選取與該第一檢索詞之間的相似度值大于或等于第二預(yù)設(shè)閾值的第二檢索詞;計算該選取的任意兩個第二檢索詞之間的相似度值,如果該計算的相似度值大于或等于所述第一預(yù)設(shè)閾值,則將該兩個第二檢索詞聚類在一起。仍以新增加的第一檢索詞為檢索詞nl為例,由于在步驟401確定出與該nl相關(guān)的第二檢索詞為b5和b6,因此,執(zhí)行到本步驟403時,如果b5和b6分別與nl之間的相似度值均大于第二預(yù)設(shè)閾值,則可計算b5和b6之間的相似度值,如果該計算的相似度值大于、或等于第一預(yù)設(shè)閾值,則將該兩個檢索詞b5和b6聚類在一起,否則,不將b5和b6聚類在一起。至此,通過上述步驟401至步驟403實現(xiàn)了新增加的第一檢索詞(記為增量檢索詞)與原來已存在的檢索詞(記為舊檢索詞)之間的聚類關(guān)系(下文記為增量聚類結(jié)果)。該增量聚類結(jié)果與之前存在的全量聚類結(jié)果統(tǒng)稱為本發(fā)明最終的聚類結(jié)果。需要說明的是,本實施例中,與第一檢索詞相關(guān)的第二檢索詞并非固定不變,其也會根據(jù)用戶的增刪發(fā)生變化,基于此,本發(fā)明實施例提供的方法還應(yīng)能夠反映該變化。該變化通過定期更新候選檢索詞集合(記為全量更新)實現(xiàn),具體實現(xiàn)為在設(shè)定的全量更新時間到達(dá)時,針對所述候選檢索詞集合中的第一檢索詞,確定與該第一檢索詞相關(guān)的第二檢 索詞,將該第一檢索詞和確定的與該第一檢索詞相關(guān)的第二檢索詞均放入一個新的候選檢索詞集合中,之后按照圖2a和圖2所示的流程對該新的候選檢索詞集合中的檢索詞進(jìn)行聚類,得到全量聚類結(jié)果。這可通過表I形象描述。假設(shè)第一天用戶提供的第一檢索詞為=B1,該第一檢索詞相應(yīng)的QBM擴(kuò)展結(jié)果為Q1= Q(B1)中,該擴(kuò)展結(jié)果主要為與該第一檢索詞相關(guān)的第二檢索詞的集合。基于圖2a和圖2b所示的流程對第一檢索詞和第二檢索詞進(jìn)行聚類得到的聚類結(jié)果為=C1 = C(Q^1));如此,隨著時間推移需要增加檢索詞時,參見表I :
增量更新全量更新備注
截至當(dāng)天全量檢索詞B2 增加的檢索詞B2I=BrB1 增加的檢索詞對應(yīng)的QBM擴(kuò)展
只做增量更新,不做全量更
第2天結(jié)果Q(B21)
新。
增量聚類結(jié)果C(CKB21))
最終聚類結(jié)果
C2=C(Q(B21))UC1
截至當(dāng)天全量檢索詞B,只做增量更新,不做全量更
第3天'
增加的檢索詞B32=B3-B2新。
權(quán)利要求
1.一種檢索詞的聚類方法,其特征在于,該方法包括 建立候選檢索詞集合,所述候選檢索詞集合包含由用戶提供的第一檢索詞、以及與第一檢索詞相關(guān)的第二檢索詞; 根據(jù)檢索詞的文本特征和/或語義特征對所述候選檢索詞集合中的第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,當(dāng)用戶增加第一檢索詞時,該方法進(jìn)一步包括 確定與該增加的第一檢索詞相關(guān)的第二檢索詞,并將該增加的第一檢索詞和該確定的與該增加的第一檢索詞相關(guān)的第二檢索詞中與所述候選檢索詞集合中任一檢索詞不同的第二檢索詞添加到所述候選檢索詞集合中; 根據(jù)檢索詞的文本特征和/或語義特征對所述候選檢索詞集合中新增加的第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,該方法進(jìn)一步包括 在設(shè)定的全量更新時間到達(dá)時,針對所述候選檢索詞集合中的第一檢索詞,確定與該第一檢索詞相關(guān)的第二檢索詞,將該第一檢索詞和確定的與該第一檢索詞相關(guān)的第二檢索詞均放入一個新的候選檢索詞集合中,根據(jù)檢索詞的文本特征和/或語義特征對該新的候選檢索詞集合中第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作。
4.根據(jù)權(quán)利要求I至3任一所述的方法,其特征在于,根據(jù)檢索詞的文本特征和/或語義特征對第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作包括 根據(jù)第一檢索詞的文本特征和/或語義特征分別計算該第一檢索詞和與該第一檢索詞相關(guān)的各個第二檢索詞之間的相似度值,如果第一檢索詞和第二檢索詞之間的相似度值大于或等于第一預(yù)設(shè)閾值,則將該第一檢索詞和該第二檢索詞聚類在一起。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,該方法進(jìn)一步包括 從與第一檢索詞相關(guān)的各個第二檢索詞,或者從與第一檢索詞聚類在一起的各個第二檢索詞中選取與該第一檢索詞之間的相似度值大于或等于第二預(yù)設(shè)閾值的第二檢索詞; 計算該選取的任意兩個第二檢索詞之間的相似度值,如果該計算的相似度值大于或等于所述第一預(yù)設(shè)閾值,則將該兩個第二檢索詞聚類在一起。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,與第一檢索詞相關(guān)的第二檢索詞包括 與第一檢索詞匹配的檢索詞,和/或,以第一檢索詞為關(guān)鍵詞搜索的搜索結(jié)果中的檢索詞。
7.一種檢索詞的聚類裝置,其特征在于,該裝置包括 建立單元,用于建立候選檢索詞集合,所述候選檢索詞集合包含由用戶提供的第一檢索詞、以及與第一檢索詞相關(guān)的第二檢索詞; 聚類單元,用于根據(jù)檢索詞的文本特征和/或語義特征對所述候選檢索詞集合中的第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置進(jìn)一步包括 添加單元,用于當(dāng)用戶增加第一檢索詞時,確定與該增加的第一檢索詞相關(guān)的第二檢索詞,并將該增加的第一檢索詞和該確定的與該增加的第一檢索詞相關(guān)的第二檢索詞中與所述候選檢索詞集合中任一檢索詞不同的第二檢索詞添加到所述候選檢索詞集合中;所述聚類單元,還用于根據(jù)檢索詞的文本特征和/或語義特征對所述候選檢索詞集合中新增加的第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置進(jìn)一步包括 更新單元,用于在設(shè)定的全量更新時間到達(dá)時,針對所述候選檢索詞集合中的第一檢索詞,確定與該第一檢索詞相關(guān)的第二檢索詞,將該第一檢索詞和確定的與該第一檢索詞相關(guān)的第二檢索詞均放入一個新的候選檢索詞集合中; 所述聚類單元還用于根據(jù)檢索詞的文本特征和/或語義特征對該新的候選檢索詞集合中第一檢索詞和與該第一檢索詞相關(guān)的第二檢索詞執(zhí)行聚類操作。
10.根據(jù)權(quán)利要求7至9任一所述的裝置,其特征在于,所述聚類單元通過以下子單元執(zhí)行聚類操作 計算子單元,用于根據(jù)第一檢索詞的文本特征和/或語義特征分別計算該第一檢索詞和與該第一檢索詞相關(guān)的各個第二檢索詞之間的相似度值; 聚類子單元,用于在第一檢索詞和第二檢索詞之間的相似度值大于或等于第一預(yù)設(shè)閾值時,將該第一檢索詞和該第二檢索詞聚類在一起。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述聚類子單元還用于從與第一檢索詞相關(guān)的各個第二檢索詞,或者從與第一檢索詞聚類在一起的各個第二檢索詞中選取與該第一檢索詞之間的相似度值大于或等于第二預(yù)設(shè)閾值的第二檢索詞;以及計算該選取的任意兩個第二檢索詞之間的相似度值,如果該計算的相似度值大于或等于所述第一預(yù)設(shè)閾值,則將該兩個第二檢索詞聚類在一起。
全文摘要
本發(fā)明提供了檢索詞的聚類方法和裝置,其中,該方法包括A,建立候選檢索詞集合,所述候選檢索詞集合包含由用戶提供的檢索詞、以及與該用戶提供的檢索詞相關(guān)的檢索詞;B,根據(jù)檢索詞的文本特征和/或語義特征對所述候選檢索詞集合中的檢索詞執(zhí)行聚類操作。采用本發(fā)明,能夠提高檢索詞聚類的準(zhǔn)確度。
文檔編號G06F17/30GK102646103SQ201110043030
公開日2012年8月22日 申請日期2011年2月18日 優(yōu)先權(quán)日2011年2月18日
發(fā)明者朱建朋, 王艷敏, 王迪, 胡立新, 赫南, 郭陽 申請人:騰訊科技(深圳)有限公司