一種基于多粒度主題模型的短文本哈希學(xué)習(xí)方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于多粒度主題模型的短文本哈希學(xué)習(xí)方法,采用外部大規(guī)模語(yǔ)料庫(kù)訓(xùn)練候選主題模型,可依據(jù)數(shù)據(jù)集類(lèi)型選擇最優(yōu)的多粒度主題特征,并賦予權(quán)重,由該方法選擇出來(lái)的多粒度主題模型有較好的區(qū)分度,在構(gòu)建稀疏短文本間相似語(yǔ)義關(guān)聯(lián)的同時(shí)有助于哈希函數(shù)學(xué)習(xí);本發(fā)明方法采用了兩種基于多主題模型的哈希學(xué)習(xí)策略,分別為多粒度主題特征融合、哈希碼學(xué)習(xí)同哈希函數(shù)訓(xùn)練相獨(dú)立的學(xué)習(xí)方法,以及多粒度主題特征獨(dú)立、哈希碼學(xué)習(xí)同哈希函數(shù)訓(xùn)練相耦合的學(xué)習(xí)方法,較基于單粒度主題特征方法,在精度和召回率等多項(xiàng)測(cè)評(píng)指標(biāo)上均有大幅度提升。
【專(zhuān)利說(shuō)明】一種基于多粒度主題模型的短文本哈希學(xué)習(xí)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本信息檢索領(lǐng)域,更具體地涉及一種短文本哈希學(xué)習(xí)方法,可應(yīng)用 于海量短文本快速語(yǔ)義檢索、問(wèn)答系統(tǒng)相似問(wèn)句快速匹配、微博語(yǔ)義相似內(nèi)容推薦等子領(lǐng) 域。
【背景技術(shù)】
[0002] 隨著社交媒體的迅猛發(fā)展,大量的短文本以各種形式產(chǎn)生,如:微博、短消息、問(wèn)答 網(wǎng)站中的問(wèn)題,以及在線廣告等。為了解決海量文本數(shù)據(jù)的快速相似查詢(xún)問(wèn)題,近幾年相關(guān) 研究者提出一種語(yǔ)義哈希方法,它可以將文本特征映射到具有相似信息保存性的二進(jìn)制編 碼中,并在快速語(yǔ)義搜索中得到了廣泛的應(yīng)用。然而,目前許多哈希學(xué)習(xí)方法都是基于關(guān)鍵 詞特征空間的,短文本原始特征空間的稀疏性導(dǎo)致這些哈希方法不能很好的保存語(yǔ)義相似 信息。例如,有三個(gè)短文本:
[0003] 文本1 :"拉斐爾納達(dá)爾錯(cuò)過(guò)了澳網(wǎng)公開(kāi)賽";
[0004] 文本2 :"羅杰費(fèi)德勒榮獲大滿貫頭銜";
[0005] 文本3 :"泰格伍茲打破多次高爾夫記錄"。
[0006] 顯然,基于關(guān)鍵詞特征空間的哈希學(xué)習(xí)方法無(wú)法保存文本1、文本2和文本3之間 的語(yǔ)義關(guān)聯(lián)信息。近些年,一些研究者嘗試通過(guò)潛層主題模型來(lái)解決文本表示中語(yǔ)義鴻溝 給哈希學(xué)習(xí)方法所帶來(lái)的上述問(wèn)題。但是,基于特定粒度的主題特征并沒(méi)有充分表示文本 間的內(nèi)在語(yǔ)義關(guān)聯(lián)。如我們所知,指定不同主題數(shù)的主題模型能夠從文本中抽取出不同層 次的語(yǔ)義特征。當(dāng)我們?cè)O(shè)定的主題數(shù)較多時(shí),可以從文本中抽取出細(xì)粒的隱層主題特征, 如:從文本1、2中抽取出"網(wǎng)球",從文本3中抽取出"高爾夫"。這種粒度的主題特征無(wú)法 構(gòu)建文本3和其他文本間的關(guān)聯(lián)性。當(dāng)主題數(shù)設(shè)定的較少時(shí),我們可以從文本中抽取出較 粗粒的隱層主題特征,如:從文本1、2及3中都抽取出"運(yùn)動(dòng)員"和"明星"。這種粒度的主 題特征缺乏區(qū)分度信息而無(wú)法有效地學(xué)習(xí)哈希映射函數(shù)。因而,針對(duì)短文本哈希問(wèn)題,多粒 度主題特征更適合用于哈希碼的相似度保存及哈希映射函數(shù)學(xué)習(xí)。
[0007] 另一方面,在哈希學(xué)習(xí)方法中應(yīng)該充分挖掘文本中的標(biāo)簽信息。因?yàn)樵诤芏鄬?shí)際 應(yīng)用中,文本都是具有多標(biāo)簽信息的。例如:?jiǎn)柎鹣到y(tǒng)中,提問(wèn)者會(huì)給自己的問(wèn)句張貼所屬 類(lèi)別或相關(guān)類(lèi)別標(biāo)簽;在微博文本中,很多用戶會(huì)通過(guò)" #關(guān)鍵詞"形式給微博張貼相關(guān)內(nèi) 容標(biāo)簽。因此,有必要充分挖掘這些標(biāo)簽信息來(lái)增強(qiáng)相關(guān)文本間的語(yǔ)義相似度。
【發(fā)明內(nèi)容】
[0008] 針對(duì)上述問(wèn)題,作為本發(fā)明的一個(gè)方面,本發(fā)明提出了一種基于多粒度主題模型 的短文本哈希離線訓(xùn)練方法,包括以下步驟:
[0009] 步驟1,利用大規(guī)模語(yǔ)料庫(kù)訓(xùn)練N個(gè)候選主題模型T = IT1, T2, ...,TN},其中所述 大規(guī)模語(yǔ)料庫(kù)為外部通用的大規(guī)模語(yǔ)料庫(kù),N為訓(xùn)練得到的候選主題模型的數(shù)目,為一個(gè)正 整數(shù);
[0010] 步驟2,從訓(xùn)練集X中隨即抽取一部分帶有標(biāo)簽信息的樣本f選擇M個(gè)最優(yōu)多粒度 主題模型集合及對(duì)應(yīng)權(quán)重U ={> (T1), y (T2), ...,y (Tn) },其中,M為預(yù)先設(shè)定的最優(yōu) 多粒度主題模型的數(shù)目,為一個(gè)正整數(shù);
[0011] 步驟3,計(jì)算訓(xùn)練集原始特征的TF-IDF特征w,并進(jìn)行歸一化;
[0012] 步驟4,從最優(yōu)的M個(gè)主題模型中抽取多粒度主題特征{ 0 p 0 2, . . .,0 M};
[0013] 步驟5,通過(guò)兩種學(xué)習(xí)策略融合多粒度主題特征及標(biāo)簽信息進(jìn)行哈希學(xué)習(xí),得到訓(xùn) 練集哈希碼和哈希函數(shù)。
[0014] 其中,在步驟2中,所述選擇M個(gè)最優(yōu)多粒度主題模型集合及對(duì)應(yīng)權(quán)重的步驟包 括:
[0015] 步驟2. 1,從訓(xùn)練樣本X中隨機(jī)采樣小部分帶有標(biāo)簽的樣本f ;
[0016] 步驟2. 2,從候選的N個(gè)主題模型中抽出樣本集文的多粒度主題特征汍其 中主題特征0為文本上主題概率分布P (z I X),并初始化權(quán)重向量ii = 0;
[0017] 步驟2. 3,開(kāi)始遍歷樣本集合i中的每個(gè)樣本皂;
[0018] 步驟2. 4,尋找樣本矣.的兩組近鄰集合々+--+(毛)和;
[0019] 其中,集合〃+--+沃)是從同樣本矣所帶標(biāo)簽有任意匹配的樣本集合中找到k+近鄰, 另一個(gè)集合(幻是從同樣本彳所帶標(biāo)簽未有任意匹配的樣本集合中找到f近鄰,k+ = k- = 10 ;
[0020] 步驟2. 5,開(kāi)始遍歷候選主題集合T中的每個(gè)主題模型Ti ;
[0021] 步驟2. 6,按照下面的公式(1)更新當(dāng)前主題模型Ti的權(quán)重值i! (Ti):
【權(quán)利要求】
1. 一種基于多粒度主題模型的短文本哈希離線訓(xùn)練方法,包括以下步驟: 步驟1,利用大規(guī)模語(yǔ)料庫(kù)訓(xùn)練N個(gè)候選主題模型T= {1\,T2,. . .,TN},其中所述大規(guī)模 語(yǔ)料庫(kù)為外部通用的大規(guī)模語(yǔ)料庫(kù),N為訓(xùn)練得到的候選主題模型的數(shù)目,為一個(gè)正整數(shù); 步驟2,從訓(xùn)練集X中隨即抽取一部分帶有標(biāo)簽信息的樣本f選擇M個(gè)最優(yōu)多粒度主題 模型集合及對(duì)應(yīng)權(quán)重U 0\),y(T2),...,y(TN)},其中,M為預(yù)先設(shè)定的最優(yōu)多粒 度主題模型的數(shù)目,為一個(gè)正整數(shù); 步驟3,計(jì)算訓(xùn)練集原始特征的TF-IDF特征w,并進(jìn)行歸一化; 步驟4,從最優(yōu)的M個(gè)主題模型中抽取多粒度主題特征{ 0 0 2, . . .,0 M}; 步驟5,通過(guò)兩種學(xué)習(xí)策略融合多粒度主題特征及標(biāo)簽信息進(jìn)行哈希學(xué)習(xí),得到訓(xùn)練集 哈希碼和哈希函數(shù)。
2. 根據(jù)權(quán)利要求1所述的基于多粒度主題模型的短文本哈希離線訓(xùn)練方法,其中在步 驟2中,所述選擇M個(gè)最優(yōu)多粒度主題模型集合及對(duì)應(yīng)權(quán)重的步驟包括: 步驟2. 1,從訓(xùn)練樣本X中隨機(jī)采樣小部分帶有標(biāo)簽的樣本f; 步驟2. 2,從候選的N個(gè)主題模型中抽出樣本集爻的多粒度主題特征!,其中主 題特征0為文本上主題概率分布p(z|x),并初始化權(quán)重向量y= 0; 步驟2. 3,開(kāi)始遍歷樣本集合f中的每個(gè)樣本矣; 步驟2.4,尋找樣本為的兩組近鄰集合為)和; 其中,集合&++(#是從同樣本矣所帶標(biāo)簽有任意匹配的樣本集合中找到k+近鄰,另一 個(gè)集合hwra,)是從同樣本$所帶標(biāo)簽未有任意匹配的樣本集合中找到f近鄰,k+ =f= 10 ; 步驟2. 5,開(kāi)始遍歷候選主題集合T中的每個(gè)主題模型凡; 步驟2. 6,按照下面的公式(1)更新當(dāng)前主題模型的權(quán)重值y〇\):
步驟2. 7,判斷候選主題模型T是否已經(jīng)全部遍歷完畢,若是則繼續(xù),若否則跳轉(zhuǎn)至步 驟 2. 5 ; 步驟2. 8,判斷樣本集合文是否已經(jīng)全部遍歷完畢,若是則繼續(xù),若否則跳轉(zhuǎn)至步驟 2. 3 ; 步驟2. 9,權(quán)重向量更新完畢之后,直接根據(jù)前M個(gè)最高權(quán)重值選出對(duì)應(yīng)的主題模型集 合〇,即為最優(yōu)多粒度主題模型。
3.根據(jù)權(quán)利要求1所述的基于多粒度主題模型的短文本哈希離線訓(xùn)練方法,其中在步 驟5中,所述兩種學(xué)習(xí)策略如下所示: 第一策略,基于多粒度主題特征融合、哈希碼學(xué)習(xí)同哈希函數(shù)訓(xùn)練相獨(dú)立的學(xué)習(xí)方法, 包括以下步驟: 步驟5.1,將多粒度主題特征{0:,02,...,0M}及原始特征w整合到一個(gè)高維向量 中:
其中,入為原始特征與多粒度主題特征的權(quán)衡系數(shù),說(shuō)A也}為多粒度主題特征之 間的權(quán)重調(diào)節(jié)系數(shù):A ; 步驟5.2,基于高維特征Q構(gòu)造相似度矩陣s,同時(shí)引入標(biāo)簽信息增強(qiáng)相關(guān)文本間的語(yǔ) 義相似度; 構(gòu)建局部相似度矩陣,并重新定義文本之間的相似度計(jì)算方法如下:
其中,NNk (x)表示樣本x的k近鄰集合,eg為置信系數(shù);當(dāng)兩個(gè)樣本Xi和&共享任意 相同標(biāo)簽時(shí)= 1),置Cij 一個(gè)較高的值a;相反地,如果兩個(gè)樣本Xi和Xj不相關(guān)時(shí)(1^. =〇),置eg-個(gè)較低的值b,如下所示:
其中,參數(shù)a和b滿足1彡a彡b> 0 ; 步驟5. 3,引入到兩步哈希方法中進(jìn)行學(xué)習(xí); 通過(guò)引入一個(gè)兩階段的自學(xué)習(xí)式哈希框架,哈希碼和哈希函數(shù)可獨(dú)立學(xué)習(xí),優(yōu)化目標(biāo) 函數(shù)如下:
s.t.YG{-1,l}nX1,Yt1 = 0,YtY=I 其中,Sij是基于高維特征Q構(gòu)造的局部相似度矩陣,yi是文本Xi的哈希碼,| | ? ||F 是F-范數(shù);通過(guò)松弛哈希碼離散化的約束條件Ye{-1,l}nxl,最優(yōu)的1維實(shí)值向量f可以 通過(guò)求解拉普拉斯特征映射問(wèn)題解決; 步驟5. 4,得到1維實(shí)值向量f及其中值向量= ; 步驟5. 5,采用m為閾值對(duì)實(shí)值向量:f進(jìn)行二值化,得到哈希碼Y;所述哈希碼Y即為訓(xùn) 練樣本集語(yǔ)料X映射后的1維二進(jìn)制編碼集合; 步驟5. 6,訓(xùn)練1個(gè)線性支持向量機(jī)分類(lèi)器; 基于前面得到的1維哈希碼及現(xiàn)有訓(xùn)練集語(yǔ)料X的特征集合學(xué)習(xí)1個(gè)線性支持向量機(jī) 二值分類(lèi)器f(x) =sgn(wTx),輸出為0或1;以及 第二策略,基于多粒度主題特征獨(dú)立、哈希碼學(xué)習(xí)同哈希函數(shù)訓(xùn)練相耦合的學(xué)習(xí)方法, 包括以下步驟: 步驟5. 1,提取訓(xùn)練樣本集X的M+1種特征集合{w,0 0 2, . . .,0 M}; 步驟5. 2,基于M+1種特征構(gòu)造M+1個(gè)相似度矩陣集合以,S2, . . .,SM+1},同時(shí)引入標(biāo) 簽信息增強(qiáng)相關(guān)文本間的語(yǔ)義相似度;構(gòu)建局部相似度矩陣,并重新定義文本之間的相似 度計(jì)算方法如下:
其中,NNk (x)表示樣本x的k近鄰集合,eg為置信系數(shù);當(dāng)兩個(gè)樣本Xi和&共享任意 相同標(biāo)簽時(shí)= 1),置Cij 一個(gè)較高的值a;相反地,如果兩個(gè)樣本Xi和Xj不相關(guān)時(shí)(1^. =〇),置eg-個(gè)較低的值b,如下所示:
其中,參數(shù)a和b滿足1彡a彡b> 0 ; 步驟5. 3,引入到多源哈希方法中進(jìn)行學(xué)習(xí); 通過(guò)引入一種多源哈希學(xué)習(xí)框架,同時(shí)進(jìn)行哈希碼和哈希函數(shù)學(xué)習(xí);直接對(duì)M+1種特 征所對(duì)應(yīng)的相似度矩陣{SpS2, . . .,SM+1}進(jìn)行線性組合,如下:
其中,是第k個(gè)特征對(duì)應(yīng)的相似度矩陣;通過(guò)引入一個(gè)nXn對(duì)角矩陣D(k),其對(duì)角元
則上式可重新為如下形式:
其中,L(k)是定義在第k個(gè)特征上的拉普拉斯矩陣;該步驟整體優(yōu)化目標(biāo)函數(shù)如下:
s.t.YG{-1,l}nXk,Yt1= 0, YtY=I,aT1 = 1,a^〇 其中,和C2是權(quán)衡系數(shù),通過(guò)交叉驗(yàn)證方式進(jìn)行參數(shù)尋優(yōu);a為M+1維調(diào)和系數(shù)向 量,來(lái)權(quán)衡M+1種特征的線性函數(shù)輸出權(quán)重;松弛哈希碼離散化的約束條件Ye{_l,l}nxl, 并參考多源哈希學(xué)習(xí)方法中的迭代優(yōu)化過(guò)程進(jìn)行求解,可得到1維實(shí)值向量?,M+1維調(diào)和 系數(shù)向量a,及M+1個(gè)線性函數(shù){ff(1),W(2),...,W(M+1)}; 步驟5. 4,得到1維實(shí)值向量;f及其中值向量= ; 步驟5. 5,采用m為閾值對(duì)實(shí)值向量f進(jìn)行二值化,得到哈希碼Y; 步驟5. 6,由步驟5. 3得到M+1個(gè)1維線性哈希函數(shù)及調(diào)和系數(shù)向量a。
4. 一種基于多粒度主題模型的短文本哈希檢索方法,包括以下步驟: 步驟1,計(jì)算查詢(xún)文本q的TF-IDF特征w,并進(jìn)行歸一化; 步驟2,對(duì)如權(quán)利要求1至3任意一項(xiàng)所述的基于多粒度主題模型的短文本哈希離線訓(xùn) 練方法中選定的訓(xùn)練文本集X進(jìn)行主題特征抽取,從最優(yōu)的M個(gè)主題模型中抽取多粒度主 題特征{0 p 0 2, . . .,9; 步驟3,通過(guò)如權(quán)利要求1至3任意一項(xiàng)所述的基于多粒度主題模型的短文本哈希離線 訓(xùn)練方法得到的哈希函數(shù)得到所述查詢(xún)文本的哈希碼yq: 步驟4,通過(guò)所述查詢(xún)文本的哈希碼在二值漢明空間中進(jìn)行匹配搜索來(lái)對(duì)所述查詢(xún)文 本進(jìn)行語(yǔ)義相似檢索。
5. 根據(jù)權(quán)利要求4所述的基于多粒度主題模型的短文本哈希檢索方法,其中在步驟3 中所述通過(guò)哈希函數(shù)得到查詢(xún)文本的哈希碼的步驟包括: 第一策略,基于多粒度主題特征融合、哈希碼學(xué)習(xí)同哈希函數(shù)訓(xùn)練相獨(dú)立的學(xué)習(xí)方法 的在線哈希編碼步驟包括: 步驟3.1,將多粒度主題特征{0:,02,...,0M}及原始特征w整合到一個(gè)高維向量中
步驟3. 2,通過(guò)如權(quán)利要求1至3任意一項(xiàng)所述的基于多粒度主題模型的短文本哈希離 線訓(xùn)練方法得到的1個(gè)線性支持向量機(jī)二值分類(lèi)器對(duì)高維特征Q進(jìn)行二分類(lèi)得到查詢(xún)樣 本q的1維哈希碼;或者 第二策略,基于多粒度主題特征獨(dú)立、哈希碼學(xué)習(xí)同哈希函數(shù)訓(xùn)練相耦合的學(xué)習(xí)方法 的在線哈希編碼步驟包括: 步驟3. 1,得到查詢(xún)樣本q的M+1種特征{w,0 ^ 0 2,…,0 M}; 步驟3. 2,通過(guò)如權(quán)利要求1至3任意一項(xiàng)所述的基于多粒度主題模型的短文本哈希 離線訓(xùn)練方法得到的M+1個(gè)1維線性函數(shù){W(1),W(2),. . .,W(M+1)}及輸出權(quán)重向量a進(jìn)行映 射,得到1維實(shí)值低維向量之:
步驟3. 3,采用m為閾值對(duì)實(shí)值向量&進(jìn)行二值化,得到哈希碼yq。
6. -種基于多粒度主題的短文本哈希學(xué)習(xí)方法,包括以下步驟: 離線訓(xùn)練階段,通過(guò)大規(guī)模語(yǔ)料庫(kù)對(duì)輸入的短文本訓(xùn)練集X= {Xl,x2,. . .,xn}、對(duì)應(yīng)標(biāo) 簽信息t={tpt2, . . .,tn}及最優(yōu)多粒度主題數(shù)M進(jìn)行離線訓(xùn)練,得到所述短文本訓(xùn)練集 的哈希碼和哈希函數(shù)、最優(yōu)多粒度主題模型〇= ,TM}和權(quán)重向量y= {> 〇\), y(T2),? --,y(TN)};以及 在線預(yù)測(cè)階段,根據(jù)所述離線訓(xùn)練階段得到的哈希函數(shù)、最優(yōu)多粒度主題模型〇={Tp T2,...,TM},權(quán)重向量y= {> 〇\),y(T2),...,y(TN)}計(jì)算待查詢(xún)文本的哈希碼和哈希 函數(shù),通過(guò)哈希碼在二值漢明空間中進(jìn)行匹配搜索來(lái)對(duì)查詢(xún)文本進(jìn)行語(yǔ)義相似檢索。
7. 根據(jù)權(quán)利要求6所述的基于多粒度主題的短文本哈希學(xué)習(xí)方法,其中所述離線訓(xùn)練 階段采用如權(quán)利要求1至3任意一項(xiàng)所述的基于多粒度主題模型的短文本哈希離線訓(xùn)練方 法來(lái)得到所述短文本訓(xùn)練集的哈希碼和哈希函數(shù)、最優(yōu)多粒度主題模型0 = {1\,T2,..., TM}和權(quán)重向量U= {> 〇\),y(T2),…,y(TN)}。
8. 根據(jù)權(quán)利要求6所述的基于多粒度主題的短文本哈希學(xué)習(xí)方法,其中所述在線預(yù)測(cè) 階段采用如權(quán)利要求4或5所述的基于多粒度主題模型的短文本哈希檢索方法來(lái)根據(jù)所述 離線訓(xùn)練階段得到的哈希函數(shù)、最優(yōu)多粒度主題模型〇 ={TpT2,. . .,TM},權(quán)重向量y= {> 〇\),y(T2),. ..,y(TN)}計(jì)算待查詢(xún)文本的哈希碼和哈希函數(shù)。
【文檔編號(hào)】G06F17/30GK104408153SQ201410729347
【公開(kāi)日】2015年3月11日 申請(qǐng)日期:2014年12月3日 優(yōu)先權(quán)日:2014年12月3日
【發(fā)明者】郝紅衛(wèi), 許家銘, 徐博, 田冠華, 王方圓 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所