一種基于深度語義特征學習的短文本聚類方法
【技術領域】
[0001] 本發(fā)明涉及文本特征向量化表示領域,特別是涉及一種基于深度語義特征學習的 短文本聚類方法。
【背景技術】
[0002] 隨著社交媒體的廣泛流行,短文本聚類日益成為一項重要的任務,它的主要挑戰(zhàn) 在于文本表示的稀疏性。為了克服這個困難,一些研宄者嘗試通過維基百科或本體庫對短 文本數據進行豐富和擴展??墒沁@些方法需要大量的自然語言處理知識,并且仍然采用高 維的特征表示,很容易浪費存儲和計算時間。另外一些研宄者嘗試開發(fā)復雜的模型用于聚 類短文本數據。但是如何設計一個有效的模型是一個開放性的問題,并且之前大多數方法 都是基于詞袋特征的潛層模型。
[0003] 隨著深度神經網絡的興起,一些研宄者嘗試采用深度學習方法學習特征。如 Hinton等人利用深度自編碼模型(DAE)從原始特征數據中學習文本表示。近幾年,詞向 量化表示方法大大改善了神經網絡模型的性能,如遞歸神經網絡(RecNN)和循環(huán)神經網絡 (RNN)。然而,遞歸神經網絡需要構建額外的句法樹并具有較高的復雜度,且循環(huán)神經網絡 的文本語義表示更偏重于最后一個詞的表示信息。近日,卷積神經網絡已經在很多自然語 言處理領域取得多項突破性進展。但目前大多數工作都致力于利用卷積神經網絡做有監(jiān)督 任務學習,如主題分類、關系分類等。本發(fā)明方法則著重于挖掘卷積神經網絡在無監(jiān)督學習 任務的潛力,如文本聚類工作。
【發(fā)明內容】
[0004] 本發(fā)明的主要目的在于提供一種基于深度語義特征學習的短文本聚類方法,從而 能夠將海量語義相似的短文本進行快速和準確地聚類。
[0005] 為了實現上述目的,根據本發(fā)明的一方面,本發(fā)明提供了一種基于深度語義特征 學習的短文本聚類方法,包括以下步驟:
[0006] 選取訓練文本,通過特征降維方法在局部信息保存約束下對所述訓練文本的原始 特征進行降維,并對低維實值向量進行二值化;
[0007] 從所述訓練文本中獲取詞特征,根據所述詞特征通過查表分別獲取所述詞特征對 應的詞向量,以此作為卷積神經網絡的輸入特征學習深度語義表示特征;
[0008] 所述卷積神經網絡的輸出節(jié)點通過多個邏輯斯特回歸擬合降維得到二值碼;
[0009] 通過所述卷積神經網絡輸出的二值特征與所述原始特征降維后二值化特征的擬 合殘差進行誤差反向傳播訓練所述卷積神經網絡模型;
[0010] 利用所述更新后的卷積神經網絡模型對所述訓練文本進行深度語義特征映射,然 后利用K均值聚類算法得到所述短文本的聚類結果。
[0011] 其中,所述選取訓練文本,通過特征降維方法在局部信息保存約束下對所述訓練 文本的原始特征進行降維,并對低維實值向量進行二值化的步驟包括:
[0012] 選取訓練文本;
[0013] 根據所述訓練文本構造相似度矩陣;
[0014] 通過所述相似度矩陣獲取拉普拉斯特征向量;
[0015] 通過所述拉普拉斯特征向量獲取中值向量;
[0016] 通過所述中值向量對所述拉普拉斯特征向量進行二值化,從而生成低維二值碼。
[0017] 其中,所述根據所述訓練文本構造相似度矩陣的步驟包括:
[0018] 根據下式計算所述相似度矩陣:
[0019]
[0020] 其中,Sij為所述相似度矩陣,。為局部縮放因子,NNk(X)為所述訓練文本X的k 近鄰集合。
[0021] 其中,所述從訓練文本中獲取詞特征,根據所述詞特征通過查表分別獲取詞特征 對應的詞向量,以此作為卷積神經網絡的輸入特征學習深度語義表示特征的步驟包括:
[0022] 從訓練文本中獲取詞特征;
[0023] 根據所述詞特征通過查表分別獲取詞特征對應的詞向量;
[0024] 將所述詞向量進行一維卷積,獲取卷積后的特征矩陣;
[0025] 所述特征矩陣通過折疊操作和采樣進行特征壓縮;
[0026] 從所述壓縮后特征中動態(tài)選取K最大神經單元;
[0027] 所述K最大神經單元根據正切激活函數得到所述訓練文本的隱式語義特征。
[0028] 其中,所述折疊操作和采樣操作分別為:
[0029] 折疊操作:對卷積層相鄰兩行神經元特征按對應所在列進行簡單求和,給定一個 dw行的卷積層,通過折疊操作可以得到dw/2行特征;以及
[0030] 采樣操作:根據輸入文本長度進行動態(tài)K最大神經單元采樣。
[0031] 所述從所述壓縮后特征中動態(tài)選取K最大神經單元的步驟包括:
[0032] 給定一個頂層采樣的參數Kttjp,則第1層的采樣參數K可根據如下公式計算得到:
[0033]
[0034] 其中,L是選用卷積神經網絡的層數,歹為短文本的長度。
[0035] 其中,所述K最大神經單元根據正切激活函數得到所述訓練文本的隱式語義特征 的步驟包括:
[0036] 根據下式計算所述訓練文本的隱式語義特征:
[0037]
[0038] 其中,h為所述訓練文本的隱式語義特征。
[0039] 其中,所述通過所述卷積神經網絡輸出的二值特征與所述原始特征降維后二值化 特征的擬合殘差進行誤差反向傳播訓練所述卷積神經網絡模型的步驟包括:
[0040] 將所述訓練文本的隱式語義特征通過卷積神經網絡模型的全連接輸出到輸出 層;
[0041] 在所述輸出層特征上添加多個邏輯斯特回歸進行特征變換,得到最終輸出特征;
[0042] 將所述低維二值碼同所述最終輸出特征的殘差進行誤差反向傳播得到更新的卷 積神經網絡模型的參數。
[0043] 其中,所述將低維二值碼同所述最終輸出特征的殘差進行誤差反向傳播得到更新 的卷積神經網絡模型的參數的步驟中,所述卷積神經網絡模型采用交叉熵作為優(yōu)化目標函 數,并利用基于梯度下降的Adagrad更新規(guī)則。
[0044] 其中,所述訓練文本來自兩種公開短文本數據集:
[0045] SearchSnippets:該數據集搜集了網絡檢索引擎的結果片段,按照事先預定的領 域范圍檢索詞將檢索結果劃分為8個類別;
[0046] StackOverflow:該數據集包含了從2012年7月31日至2012年8月14日的3百 多萬條問題,從其中20個不同類別標簽下隨機抽取了 2萬條文本。
[0047] 由上述技術方案可知,本發(fā)明的方法采用外部大規(guī)模語料無監(jiān)督訓練詞向量,并 對文本中每個詞按詞序進行向量化表示,做為卷積神經網絡結構的初始化輸入特征學習文 本的隱式語義特征。得到文本的深度語義特征表示之后,本發(fā)明采用傳統的K均值算法對 文本進行聚類,可以得到更好的聚類結果。
[0048] 相比于基于知識庫語義擴展的短文本聚類方法,本發(fā)明方法不需要額外的自然語 言處理等專業(yè)知識。相比于基于復雜模型語義抽取的短文本聚類方法,本發(fā)明方法設計簡 單而且可學習深度的語義特征。而且與目前流型的基于語言模型的無監(jiān)督深度學習模型不 同,本發(fā)明方法學習到的語義特征具有無偏性,可更有效地達到較好的聚類性能。
【附圖說明】
[0049] 圖1為作為本發(fā)明一個實施例的基于深度語義特征學習的短文本聚類方法的流 程圖;
[0050] 圖2為作為本發(fā)明一個實施例的基于深度語義特征學習的短文本聚類方法的框 架示意圖;
[0051] 圖3為在本發(fā)明一個實施例中采用的一種深度卷積神經網絡的結構示意圖;
[0052] 圖4為本發(fā)明一個實施例中基于深度特征表示的聚類的性能示意圖;
[0053] 圖5為本發(fā)明另一個實施例中基于深度特征表示的聚類的性能示意圖。
【具體實施方式】
[0054] 為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照 附圖,對本發(fā)明作進一步的詳細說明。
[0055] 本發(fā)明的總體構思是,通過特征降維方法在局部信息保存約束下對原始特征進行 降維,并對低維實值向量進行二值化,以此二值化特征做為卷積神經網絡結構的監(jiān)督信息 進行誤差反向傳播訓練模型。利用訓練好的卷積神經網絡結構對短文本集合進行特征映 射,得到文本的深