一種領域問答系統(tǒng)咨詢的快速可增量聚類方法
【技術領域】
[0001] 本發(fā)明涉及人工智能計算機領域中的數(shù)據(jù)挖掘和自然語言處理,特別涉及領域問 答系統(tǒng)等文本客服咨詢系統(tǒng)的用戶咨詢聚類方法。
【背景技術】
[0002] 在領域問答系統(tǒng)等大量的自然語言應用中,有一個基本的而又共同的問題:在系 統(tǒng)中出現(xiàn)大量的用戶咨詢歷史,用戶咨詢由一個由短文本構成(以下簡稱短文本語料集或 用戶咨詢語料集),如何將其中的咨詢歷史按照某種相似度聚集成不同的類,并且將聚類結 果用戶領域問答系統(tǒng)中,通過聚類結果來識別和幫助問答系統(tǒng)理解用戶的咨詢。
[0003] 在搜索引擎領域、百度知道、領域問答系統(tǒng)、智能客服等中,有大量的用戶咨詢問 題歷史,如何對用戶的搜索歷史、咨詢歷史進行分類,通過對用戶咨詢的聚類,可以提高自 動問答系統(tǒng)、智能客服系統(tǒng)的效率和準確率。
[0004] 傳統(tǒng)的聚類算法非常多,主要包括層次聚類算法、κ-means算法等。但隨著大數(shù)據(jù) 時代的到來,任何一個領域的數(shù)據(jù)呈數(shù)量級的增長,因此目前聚類存在以下幾個問題:
[0005] 1)數(shù)據(jù)量大,直接利用聚類,算法效率很低,無法滿足應用的需要;
[0006] 2)用戶咨詢問題中都大量的語義噪聲,這些噪聲是導致聚類效果不好的一個主要 的原因;
[0007] 3)漢語句子語義相似度計算是決定聚類結果好壞的一個最主要的問題,而漢語中 同詞不同義、不同詞同義、詞義與領域相關性等都是決定漢語句子相似度計算的問題;
[0008] 4)數(shù)據(jù)中有大量的相同的咨詢,如何讓這些相同的咨詢不重復進行聚類;
[0009] 5)由于聚類算法的效率比較低,因此如果對所有數(shù)據(jù)進行聚類,需要花大量的時 間,這無法滿足應用的要求;
[0010] 針對上述幾個問題,本發(fā)明提出并且實現(xiàn)了一種多離線聚類與在線聚類相結合的 聚類方法。
【發(fā)明內容】
[0011] 發(fā)明目的:為了克服現(xiàn)有技術中存在的不足,本發(fā)明提供了一種領域問答系統(tǒng)咨 詢的快速可增量聚類方法。
[0012] 技術方案:
[0013] 為達到上述目的,本發(fā)明提供的一種領域問答系統(tǒng)咨詢的快速可增量聚類方法, 該方法基于將離線聚類和在線聚類相結合的聚類框架,包括以下步驟:
[0014] 1)通過咨詢歷史的離線聚類算法,結合咨詢去重,利用語義無關詞典和詞類詞典 對用戶咨詢進行語義預處理,從而實現(xiàn)語義的歸一化,然后基于多特征融合的相似度計算 構建相似度圖,基于相似度圖對用戶咨詢歷史進行離線聚類;所述基于多特征融合的相似 度計算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
[0015] 2)利用離線聚類的結果作為聚類特征,對用戶咨詢進行在線聚類,對離線聚類和 在線聚類結果進行合并,生成聚類結果。
[0016] 優(yōu)選的,所述的步驟1)包括以下步驟:
[0017] 步驟11)咨詢語義預處理,包括:
[0018] (1)刪除句子中的特殊符號;
[0019] (2)進行大小寫轉換,將句子中的英文統(tǒng)一轉化成小寫;
[0020] (3)通過建立語義無關詞的雙數(shù)組Trie樹的結構,識別并刪除句子中的語義無關 詞;
[0021] (4)利用詞類詞典建立雙數(shù)組Trie樹的詞典結構,通過向后最大匹配來匹配句子 中的詞,用詞類名稱來替換所匹配到的屬于該詞類的詞條;
[0022] 步驟12)咨詢的特征向量的提?。豪冒═F-IDF特征、詞性特征和詞類特征的 特征進行特征提取,形成詞的特征向量;
[0023] 步驟13)咨詢去重:選取咨詢數(shù)據(jù)中特征向量相同的句子中的一條參與聚類,并 建立重復咨詢索引;
[0024] 步驟14)咨詢相似度圖的建立:給定兩條咨詢S# S2,通過多特征的相似度融合 算法計算咨詢間的相似度SinKS1, S2),建立相似度圖SimGraph ;所述基于多特征融合的相 似度計算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度;
[0025] 步驟15)利用以下聚類算法對相似度圖SimGraph進行聚類:
[0026] (1)初始化將相似圖中的所有頂點都各自作為一個類,對N條咨詢共有N個類 cluster (i);
[0027] (2)遍歷相似度圖SimGraph,查找圖中相似度最大的兩個類cluster (i)和 cluster (j),并且該相似度要大于聚類的閾值β ;如果找不到則聚類終止;
[0028] (3)兩個類 cluster (i)和 cluster (j)合并成一個新類 cluster (k);
[0029] (4)更新相似度圖,將類cluster (i)和類cluster (j)刪除,同時在圖中加入新類 cluster(k),同時定義更新新類cluster(k)與圖中各舊類cluster(m)的相似度為:
【主權項】
1. 一種領域問答系統(tǒng)咨詢的快速可增量聚類方法,其特征在于該方法基于將離線聚類 和在線聚類相結合的聚類框架,包括以下步驟: 1) 通過咨詢歷史的離線聚類算法,結合咨詢去重,利用語義無關詞典和詞類詞典對用 戶咨詢進行語義預處理,從而實現(xiàn)語義的歸一化,然后基于多特征融合的相似度計算構建 相似度圖,基于相似度圖對用戶咨詢歷史進行離線聚類;所述基于多特征融合的相似度計 算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度; 2) 利用離線聚類的結果作為聚類特征,對用戶咨詢進行在線聚類,對離線聚類和在線 聚類結果進行合并,生成聚類結果。
2. 根據(jù)權利要求1所述的領域問答系統(tǒng)咨詢的快速可增量聚類方法,其特征在于: 所述的步驟1)包括以下步驟: 步驟11)咨詢語義預處理,包括: (1) 刪除句子中的特殊符號; (2) 進行大小寫轉換,將句子中的英文統(tǒng)一轉化成小寫; (3) 通過建立語義無關詞的雙數(shù)組Trie樹的結構,識別并刪除句子中的語義無關詞; (4) 利用詞類詞典建立雙數(shù)組Trie樹的詞典結構,通過向后最大匹配來匹配句子中的 詞,用詞類名稱來替換所匹配到的屬于該詞類的詞條; 步驟12)咨詢的特征向量的提?。豪冒═F-IDF特征、詞性特征和詞類特征的特征 進行特征提取,形成詞的特征向量; 步驟13)咨詢去重:選取咨詢數(shù)據(jù)中特征向量相同的句子中的一條參與聚類,并建立 重復咨詢索引; 步驟14)咨詢相似度圖的建立:給定兩條咨詢SJPS2,通過多特征的相似度融合算法 計算咨詢間的相似度Sin^Si,S2),建立相似度圖SimGraph;所述基于多特征融合的相似度 計算方法至少包括基于特征向量的相似度、2-gram相似度和搭配相似度; 步驟15)利用以下聚類算法對相似度圖SimGraph進行聚類: (1) 初始化將相似圖中的所有頂點都各自作為一個類,對N條咨詢共有N個類 cluster(i); (2) 遍歷相似度圖SimGraph,查找圖中相似度最大的兩個類cluster(i)和 cluster(j),并且該相似度要大于聚類的閾值0 ;如果找不到則聚類終止; (3) 兩個類cluster(i)和cluster(j)合并成一個新類cluster(k); (4) 更新相似度圖,將類cluster(i)和類cluster(j)刪除,同時在圖中加入新類 cluster(k),同時定義更新新類cluster(k)與圖中各舊類cluster(m)的相似度為:
其中|cluster(i) | :表示類cluster(i)中元素的個數(shù) ;sim(cluster(i),cluster(m)) 表示cluster(i)與cluster(m)的相似度; (5) 迭代步驟(2)至步驟(3)直到沒有新的類產生; (6) 將咨詢去重步驟標記的相同的句子分別加入到各自的類中,從而生成聚類結果。
3. 根據(jù)權利要求1所述的領域問答系統(tǒng)咨詢的快速可增量聚類方法,其特征在于所述 2)利用離線聚類的結果作為聚類特征對用戶咨詢進行在線聚類,對離線聚類和在線聚類結 果進行合并生成聚類結果包括如下步驟: 步驟21)計算在線用戶咨詢和離線聚類后的類之間的相似度: 遍歷離線類cluster(i)中的每一條咨詢,利用通過多特征的相似度融合算法計算新 咨詢q和離線類咨詢qi間的相似度Sim(q,qJ,qiGcluster(i),通過式(6)獲得新咨詢q 構成的類cluster(q)和類cluster(i)之間的相似度為:
其中|cluster(i) |表示類i中的咨詢的數(shù)量; 步驟22)通過步驟21獲得的在線用戶咨詢與離線聚類后的每個類的相似度,形成相似 度圖; 步驟23)遍歷相似度圖,找到相似度最大的邊,且如果相似度最大的邊的相似度滿足 閾值條件Sim(cluster(q),cluster(i))>|3,則將該咨詢加入到類cluster(i)中,轉向步 驟25);否則轉向步驟24); 步驟24)如果沒有找到滿足條件的類,則將該咨詢形成一個新的類newcluster; 步驟25)迭代步驟21)至步驟24),直到所有的在線咨詢分別加入到各自的類中,從而 生成了新的聚類結果。
4. 根據(jù)權利要求2或3所述的領域問答系統(tǒng)咨詢的快速可增量聚類方法,其特征在于 所述通過多特征的相似度融合算法計算給定的咨詢間的相似度的步驟為:用SJPS2表示給 定的兩個咨詢, (1) 計算特征向量的相似度: 構造的特征向量空間為V= {XDXD...XJ,句子Si的特征向量為v1=i,,… ,《n},其中《i表示特征詞Xi在句子Si中出現(xiàn)的次數(shù),句子S2的特征向量為 K= {cp1;cp2<…,cpn},(Pi是特征詞Xi在句子S2中出現(xiàn)的次數(shù),則S占S2間的的特征向量相 似度為:
(2) 計算句子間的2-Gram相似度,分別求出句子SjPS2的2-Gram序列 Seqi={Bww^,? ? ?Wj^Wn,wnE},Seq2 = {Bw/,w/w2',? ? ?Wn-/wn,,wn,E},其中B和E是特殊的符號,分別表不句子的開始和句子的結束,則SjPS2間的2-Gram相似度為:
(3) 計算咨詢間的搭配相似度;對句子進行搭配分析,獲取句子中的搭配對,其中Col: 為Si的詞的搭配的集合,Col2為S2的詞的搭配的集合,則S:和S2咨詢間的搭配相似度為:
(4) 通過多特征的相似度融合算法計算咨詢間的相似度: Sim(S^S2) =w^Sini! (S^S2) +w2*Sim2 (S^S2) +w3*Sim3 (S^S2) (4); 其中WpW2, ¥3分別表示這三種相似度的權重,且滿足:Wi+W2+W3= 1。
5.根據(jù)權利要求2所述的領域問答系統(tǒng)咨詢的快速可增量聚類方法,其特征在于:所 述步驟14)咨詢相似度圖的建立中,對于給定的兩條咨詢SJPS2,通過多特征的相似度融 合算法計算咨詢間的相似度SinKSpS^,在構建相似度的過程中,如果相似度小于閾值a, 貝1J將圖中的兩個頂點的邊刪除掉,建立相似度圖SimGraph。
【專利摘要】本發(fā)明公開了一種領域問答系統(tǒng)咨詢的快速可增量聚類方法,該方法基于將離線聚類和在線聚類相結合的聚類框架,通過咨詢歷史的離線聚類算法,結合咨詢去重,利用語義無關詞典和詞類詞典對用戶咨詢進行語義預處理,從而實現(xiàn)語義的歸一化,然后基于多特征的相似度計算構建相似度圖,基于相似度圖對用戶咨詢歷史進行離線聚類的步驟;進而利用離線聚類的結果作為聚類特征,對用戶咨詢進行在線聚類,對離線聚類和在線聚類結果進行合并,生成聚類結果。本發(fā)明提供的聚類方法,系統(tǒng)響應快、精度符合實際應用需求,有效性和準確性高。
【IPC分類】G06F17-30, G06F17-27
【公開號】CN104778256
【申請?zhí)枴緾N201510187231
【發(fā)明人】馬健, 劉亮亮, 吳健康, 李洪梅
【申請人】江蘇科技大學
【公開日】2015年7月15日
【申請日】2015年4月20日