一種短文本分類方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種短文本分類方法及裝置。該方法包括:對(duì)待分類的短文本進(jìn)行分詞預(yù)處理,并獲取分詞得到的每個(gè)詞語的擴(kuò)展詞;根據(jù)預(yù)先構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值;根據(jù)權(quán)重值,利用多個(gè)類別SVM分類模型獲取短文本所屬每個(gè)類別的概率;根據(jù)預(yù)設(shè)的概率分類模型確定短文本的所屬類別。本發(fā)明所提供的短分本分類方法,克服了短文本特征稀疏的問題,有效降低采用多分類模型的復(fù)雜度,更符合實(shí)際應(yīng)用。
【專利說明】
一種短文本分類方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計(jì)算機(jī)自然語言處理領(lǐng)域,尤其涉及一種短文本分類方法及裝置。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)送,互聯(lián)網(wǎng)已經(jīng)成為海量信息的載體,用戶創(chuàng)建的內(nèi)容已 經(jīng)成為互聯(lián)網(wǎng)上一個(gè)重要數(shù)據(jù)源。尤其是微博、微信、購物等移動(dòng)應(yīng)用推廣之后,基于微博、 微信、QQ聊天及商品評(píng)論等短文本的數(shù)量正在呈爆炸式增長。各種形式的短文本已經(jīng)成為 我國各階層的信息溝通渠道和情感交流手段,深刻改變了億萬中國人的溝通方式和生活習(xí) 慣。
[0003] 短文本數(shù)據(jù)量異常龐大,數(shù)據(jù)中包含人們對(duì)社會(huì)各種現(xiàn)象的各種觀點(diǎn)和立場,話 題涉及政治、經(jīng)濟(jì)、軍事、娛樂、生活等各個(gè)領(lǐng)域。然而如何從短文本中挖掘出有價(jià)值的信息 成為當(dāng)前的一個(gè)非常關(guān)鍵的問題。短文本在很多方面都有廣泛應(yīng)用,例如幫助用戶快速了 解產(chǎn)品的優(yōu)劣,選擇滿意的商品,再例如,追蹤社會(huì)輿論趨勢,發(fā)現(xiàn)社會(huì)熱點(diǎn)問題,幫助政府 把握社會(huì)態(tài)勢等。因此,短文本分類具有很強(qiáng)的應(yīng)用價(jià)值。
[0004] 短文本分類的顯著特征是受其長度的限制,所包含的詞語和上下文信息不足,因 此基于統(tǒng)計(jì)量的傳統(tǒng)的文本表示方法和分類模型面臨數(shù)據(jù)稀疏性問題。因此,準(zhǔn)確的進(jìn)行 短文本的語義特征表示并實(shí)現(xiàn)自動(dòng)分類,是一項(xiàng)極具挑戰(zhàn)性而且亟待研究的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種高效的短文本分類方法及裝置,用以解決現(xiàn)有技術(shù)中短文本特 征稀疏、噪聲大導(dǎo)致分類不準(zhǔn)確的技術(shù)問題。
[0006] 依據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供一種短文本分類方法,包括:
[0007] 對(duì)待分類的短文本進(jìn)行分詞預(yù)處理,并獲取分詞得到的每個(gè)詞語的擴(kuò)展詞;
[0008] 根據(jù)預(yù)先構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值;
[0009] 根據(jù)所述權(quán)重值,利用多個(gè)類別SVM分類模型獲取所述短文本所屬每個(gè)類別的概 率;
[0010] 根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別。
[0011] 進(jìn)一步地,根據(jù)詞向量空間模型獲取分詞得到的每個(gè)詞語的擴(kuò)展詞。
[0012] 進(jìn)一步地,預(yù)先構(gòu)建所述詞項(xiàng)集時(shí),包括:
[0013] 對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞預(yù)處理,并獲取每個(gè)詞語的擴(kuò)展詞;
[0014] 計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值,并將詞語、擴(kuò)展詞語及權(quán)重值保存至所 述詞項(xiàng)集中。
[0015] 進(jìn)一步地,所述權(quán)重值為TF-IDF值。
[0016] 進(jìn)一步地,所述根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別,包括:
[0017] 步驟1,若所述短文本所屬某個(gè)類別的概率在[S1,1]之間,則將所述類別作為短文 本所屬類別,否則,執(zhí)行步驟2;其中,SlG[0.5,l);
[0018] 步驟 2,設(shè)置 S2 = S1_0.1;
[0019] 步驟3,判斷S2與0.5的大?。?br>[0020]若S2>0.5,且所述短文本所屬某個(gè)類別的概率在[S2,S1]之間,則將所述類別作 為短文本所屬類別,否則,SI = S2,并執(zhí)行步驟2;
[0021 ]若S2<0.5,且所述短文本所屬某個(gè)類別的概率在[0.4,S1 ]之間,則將概率值最大 的類別作為短文本所屬類別;否則沒有所屬類別。
[0022 ]依據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供一種短文本分類裝置,包括:
[0023]預(yù)處理單元,用于對(duì)待分類的短文本進(jìn)行分詞預(yù)處理;
[0024]第一獲取單元,用于獲取分詞得到的每個(gè)詞語的擴(kuò)展詞;
[0025]構(gòu)建單元,用于預(yù)先構(gòu)建詞項(xiàng)集;
[0026] 第二獲取單元,用于根據(jù)所述構(gòu)建單元構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的 權(quán)重值;
[0027] 第三獲取單元,用于根據(jù)所述權(quán)重值,利用多個(gè)類別SVM分類模型獲取所述短文本 所屬每個(gè)類別的概率;
[0028] 確定單元,用于根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別。
[0029] 進(jìn)一步地,所述第一獲取單元具體用于根據(jù)詞向量空間模型獲取分詞得到的每個(gè) 詞語的擴(kuò)展詞。
[0030]進(jìn)一步地,所述構(gòu)建單元具體用于:
[0031] 對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞預(yù)處理,并獲取每個(gè)詞語的擴(kuò)展詞;
[0032] 計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值,并將詞語、擴(kuò)展詞語及權(quán)重值保存至所 述詞項(xiàng)集中。
[0033] 進(jìn)一步地,所述確定單元具體用于:
[0034] 步驟1,若所述短文本所屬某個(gè)類別的概率在[SI,1]之間,則將所述類別作為短文 本所屬類別,否則,執(zhí)行步驟2;其中,SlG[0.5,l);
[0035] 步驟 2,設(shè)置 S2 = S1_0.1;
[0036] 步驟3,判斷S2與0.5的大?。?br>[0037]若S2>0.5,且所述短文本所屬某個(gè)類別的概率在[S2,S1]之間,則將所述類別作 為短文本所屬類別,否則,令SI = S2,并執(zhí)行步驟2;
[0038]若S2<0.5,且所述短文本所屬某個(gè)類別的概率在[0.4,S1]之間,則將概率值最大 的類別作為短文本所屬類別;否則判定所述短文本沒有所屬類別。
[0039]本發(fā)明具有以下有益效果:
[0040] 本發(fā)明所提供的短分本分類方法及裝置,引入詞向量模型對(duì)短文本進(jìn)行擴(kuò)充,克 服了短文本的特征稀疏的問題;同時(shí)通過多個(gè)類別的SVM模型,有效降低采用多分類模型的 復(fù)雜度;以及根據(jù)概率分類模型,使得同一短文本可以屬于多個(gè)類別,更符合實(shí)際應(yīng)用。
[0041] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0042] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖僅僅是 本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還 可以根據(jù)這些附圖獲得其他的附圖。
[0043] 圖1為本發(fā)明實(shí)施例中短文本分類方法的流程圖;
[0044] 圖2為本發(fā)明實(shí)施例中采用的短文本分類模型的示意圖;
[0045]圖3為本發(fā)明實(shí)施例中短文本分類裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0046] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0047] 本發(fā)明實(shí)施例提供一種短文本分類方法,包括如下步驟:
[0048]步驟1,對(duì)待分類的短文本進(jìn)行分詞預(yù)處理,并獲取分詞得到的每個(gè)詞語的擴(kuò)展 詞;
[0049] 步驟2,根據(jù)構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值;
[0050] 步驟3,根據(jù)權(quán)重值,利用多個(gè)類別SVM分類模型獲取所屬每個(gè)類別的概率;
[0051] 步驟4,根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別。
[0052]本發(fā)明所提供的短文本分類方法,對(duì)每個(gè)短文本進(jìn)行分詞處理后,將映射到高維 空間的向量,向量的每一維代表某種潛在語義。越相似詞語之間的向量距離越接近,這樣可 以將每個(gè)詞語進(jìn)行語義擴(kuò)展,有效克服了短文本的特征稀疏問題。通過SVM分類模型獲取短 文本所屬每個(gè)類別的概率,根據(jù)預(yù)設(shè)的概率分類模型確定該短文本所屬的類別,有效解決 了文本信息因噪聲大導(dǎo)致分類不準(zhǔn)確的問題。
[0053]下面結(jié)合附圖1和具體實(shí)施例對(duì)本發(fā)明的技術(shù)內(nèi)容做進(jìn)一步地詳細(xì)說明。
[0054]本發(fā)明的執(zhí)行環(huán)境采用一臺(tái)具有2.4G赫茲中央處理器和8G字節(jié)內(nèi)存的奔騰4計(jì)算 機(jī)并用JAVA語言編制了短文本分類方法,還可以采用其他的執(zhí)行環(huán)境,在此不再贅述。
[0055]參見圖1中的測試過程,首先對(duì)待分類的短文本進(jìn)行分詞預(yù)處理,并獲取每個(gè)詞語 的擴(kuò)展詞。
[0056]本發(fā)明實(shí)施例中利用NLPIR的分詞工具將一個(gè)短文本切割為一個(gè)個(gè)獨(dú)立的詞語, 那么一個(gè)短文本就可以表示為[詞1,詞2……詞n],其中n為該短文本的詞語數(shù)目。預(yù)處理工 作除了進(jìn)行分詞外,還包括去除短文本中的I"等特殊符號(hào),以達(dá)到去除一定的干擾 的目的。本發(fā)明對(duì)訓(xùn)練短文本集中數(shù)據(jù)的特殊字符的干擾,進(jìn)行針對(duì)性的判別,提高了分類 的精度。
[0057]在該步驟中,根據(jù)訓(xùn)練的詞向量空間模型對(duì)分詞后的短文本進(jìn)行擴(kuò)充。本發(fā)明實(shí) 施例中采用word2VeC詞向量空間模型,可以將短文本擴(kuò)展成指定數(shù)目或滿足特定相似度的 向量,表示為:詞語一>與該詞語強(qiáng)關(guān)聯(lián)的向量 [0058]對(duì)每一個(gè)詞語特征擴(kuò)展后,可以得到一段短文本的特征擴(kuò)展。
[0059]
[詞1,詞2, "?"?詞n].擴(kuò)_ [詞1,詞2, ??詞n]+ [詞1強(qiáng)關(guān)聯(lián)的詞語 組合,……詞11強(qiáng)關(guān)聯(lián)的詞浯組合]
[0060] 本發(fā)明通過引入詞向量模型對(duì)短文本進(jìn)行擴(kuò)充,可以有效克服短文本的特征稀疏 的問題。
[0061] 接著,根據(jù)詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值。
[0062] 本發(fā)明實(shí)施例中,在構(gòu)建詞項(xiàng)集時(shí)(圖1中標(biāo)注文本集的過程),按照上述的預(yù)處理 的方法對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞以及詞語擴(kuò)展處理,并計(jì)算每一個(gè)詞語以及 擴(kuò)展詞語的權(quán)重值。其中,權(quán)重值采用詞頻來表示,現(xiàn)在比較常用的特征權(quán)重的計(jì)算方式為 TF*IDF,TF*RF。本發(fā)明實(shí)施例采用TF-IDF值,計(jì)算公式如下:
[0064]其中,|D|表示標(biāo)注樣本集中的文本總數(shù),|Di|表示包含詞語i的文本總數(shù),蟮表示 詞語<在文本i中出現(xiàn)的次數(shù)。
[0065]根據(jù)標(biāo)注文本集中的詞語、詞語的擴(kuò)展詞語、以及根據(jù)每個(gè)詞語的TF-IDF值生成 詞項(xiàng)集。在進(jìn)行分類時(shí),對(duì)待分類的短文本進(jìn)行分詞以及詞語擴(kuò)展處理后,從詞項(xiàng)集中獲取 每個(gè)詞語對(duì)應(yīng)的詞語權(quán)重值。
[0066]然后,根據(jù)權(quán)重值,利用多個(gè)類別SVM分類模型獲取所屬每個(gè)類別的概率。
[0067] 當(dāng)權(quán)重值確定后,利用分類算法進(jìn)行訓(xùn)練和預(yù)測分類模型?,F(xiàn)在文本分類的算法 很多,常見的有Naive 8&768,3¥11,1(順,1(^18^(3回歸等。本發(fā)明實(shí)施例中優(yōu)選采用3¥1 (Support Vector Model,支持向量機(jī))分類模型,對(duì)于支持向量機(jī)屬于本領(lǐng)域技術(shù)人員所 熟知的技術(shù),這里不再進(jìn)行詳細(xì)介紹。本發(fā)明實(shí)施例中,對(duì)于n個(gè)類別,只有n個(gè)SVM分類模 型。本發(fā)明中的SVM分類模型不是判斷屬于正負(fù)類別,而是輸出屬于各類別的概率,最終可 以得到分類結(jié)果的可信度量化數(shù)值。根據(jù)每個(gè)所屬類別的量化值,在進(jìn)一步判斷該短文本 的所屬類別。通過采用多個(gè)單類別的分類模型,在一定程度上有效減少了多分類模型的運(yùn) 算復(fù)雜度。
[0068] 最后,根據(jù)預(yù)設(shè)的概率分類模型確定短文本的所屬類別。
[0069] 參見圖2,本發(fā)明實(shí)施例采用的概率分類模型,假設(shè)有n個(gè)類別,每個(gè)待分類文本輸 入n個(gè)類別的SVM分類模型,得到屬于各類別的概率,利用概率分類模型,確定最終分類。本 發(fā)明的實(shí)施例中采用的概率分類模型,具體包括如下步驟:
[0070] 步驟1,若所屬某個(gè)類別的概率在[Sl,l]之間,則將所述類別作為短文本所屬類 另IJ,否則,執(zhí)行步驟2;其中,SlG[0.5,l);
[0071] 步驟 2,設(shè)置 S2 = S1_0.1;
[0072] 步驟3,判斷S2與0.5的大小:
[0073] 若S2>0.5,且短文本所屬某個(gè)類別的概率在[S2,S1 ]之間,則將類別作為短文本 所屬類別,否則,令SI = S2,并執(zhí)行步驟2;
[0074] 若S2<0.5,且短文本所屬某個(gè)類別的概率在[0.4,S1 ]之間,則將概率值最大的類 別作為短文本所屬類別;否則判定短文本沒有所屬類別。
[0075] 本發(fā)明實(shí)施例提供的概率分類模型,可以取出概率高的類別,極端情況下,模型判 斷不屬于該類別,所有類別概率都小于0.5的情況下,也有可能取到正確類別;此外,最終的 輸出結(jié)果是文本所屬類別或者類別集合,同一段文本可以屬于不同類別,更符合實(shí)際應(yīng)用。
[0076] 參見圖3,本發(fā)明實(shí)施例還提供一種短文本分類裝置,用于實(shí)現(xiàn)上述的短文本分類 方法,具體包括:
[0077]預(yù)處理單元,用于對(duì)待分類的短文本進(jìn)行分詞預(yù)處理;
[0078]第一獲取單元,用于獲取分詞得到的每個(gè)詞語的擴(kuò)展詞;
[0079]構(gòu)建單元,用于預(yù)先構(gòu)建詞項(xiàng)集;
[0080] 第二獲取單元,用于根據(jù)構(gòu)建單元構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重 值;
[0081] 第三獲取單元,用于根據(jù)權(quán)重值,利用多個(gè)類別SVM分類模型獲取短文本所屬每個(gè) 類別的概率;
[0082] 確定單元,用于根據(jù)預(yù)設(shè)的概率分類模型確定短文本的所屬類別。
[0083] 進(jìn)一步地,第一獲取單元具體用于根據(jù)詞向量空間模型獲取分詞得到的每個(gè)詞語 的擴(kuò)展詞。
[0084]進(jìn)一步地,構(gòu)建單元具體用于:
[0085] 對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞預(yù)處理,并獲取每個(gè)詞語的擴(kuò)展詞;
[0086] 計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值,并將詞語、擴(kuò)展詞語及權(quán)重值保存至詞 項(xiàng)集中。
[0087] 進(jìn)一步地,確定單元具體用于:
[0088] 步驟1,若短文本所屬某個(gè)類別的概率在[SI,1]之間,則將類別作為短文本所屬類 另IJ,否則,執(zhí)行步驟2;其中,SlG[0.5,l);
[0089] 步驟 2,設(shè)置 S2 = S1_0.1;
[0090] 步驟3,判斷S2與0.5的大?。?br>[0091]若S2>0.5,且所述短文本所屬某個(gè)類別的概率在[S2,S1]之間,則將所述類別作 為短文本所屬類別,否則,令SI = S2,并執(zhí)行步驟2;
[0092]若S2<0.5,且所述短文本所屬某個(gè)類別的概率在[0.4,S1]之間,則將概率值最大 的類別作為短文本所屬類別;否則判定所述短文本沒有所屬類別。
[0093]綜上所述,本發(fā)明所提供的短分本分類方法及裝置,通過引入詞向量模型對(duì)短文 本進(jìn)行擴(kuò)充,可以有效克服了短文本的特征稀疏的問題;同時(shí)通過多個(gè)單類別的SVM分類模 型,有效降低采用多分類模型的運(yùn)算復(fù)雜度;同時(shí)由于該SVM分類模型獲取的是所屬類別概 率,因此分類結(jié)果是可信度量化值,可以有效提高了分類精度;根據(jù)概率分類模型,取出概 率較高的類別,使得同一短文本可以同時(shí)屬于多個(gè)類別,使得該分類方法更具有實(shí)際意義。 [0094]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以 通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,程序可存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程 序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。
[0095]雖然通過實(shí)施例描述了本申請(qǐng),本領(lǐng)域的技術(shù)人員知道,本申請(qǐng)有許多變形和變 化而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要
【主權(quán)項(xiàng)】
1. 一種短文本分類方法,其特征在于,包括: 對(duì)待分類的短文本進(jìn)行分詞預(yù)處理,并獲取分詞得到的每個(gè)詞語的擴(kuò)展詞; 根據(jù)預(yù)先構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值; 根據(jù)所述權(quán)重值,利用多個(gè)類別SVM分類模型獲取所述短文本所屬每個(gè)類別的概率; 根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別。2. 如權(quán)利要求1所述的方法,其特征在于,根據(jù)詞向量空間模型獲取分詞得到的每個(gè)詞 語的擴(kuò)展詞。3. 如權(quán)利要求1所述的方法,其特征在于,預(yù)先構(gòu)建所述詞項(xiàng)集時(shí),包括: 對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞預(yù)處理,并獲取分詞得到的每個(gè)詞語的擴(kuò)展 詞; 計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值,并將詞語、擴(kuò)展詞語及權(quán)重值保存至所述詞 項(xiàng)集中。4. 如權(quán)利要求1或3所述的方法,其特征在于,所述權(quán)重值為TF-IDF值。5. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)的概率分類模型確定所述短文 本的所屬類別,包括: 步驟1,若所述短文本所屬某個(gè)類別的概率在[SI,1]之間,則將所述類別作為短文本所 屬類別,否則,執(zhí)行步驟2;其中,Sie[〇.5,l); 步驟2,設(shè)置S2 = Sl-0.1; 步驟3,判斷S2與0.5的大?。? 若S2>0.5,且所述短文本所屬某個(gè)類別的概率在[S2,S1]之間,則將所述類別作為短 文本所屬類別,否則,令SI = S2,并執(zhí)行步驟2; 若S2<0.5,且所述短文本所屬某個(gè)類別的概率在[0.4,Sl ]之間,則將概率值最大的類 別作為短文本所屬類別;否則判定所述短文本沒有所屬類別。6. -種短文本分類裝置,其特征在于,包括: 預(yù)處理單元,用于對(duì)待分類的短文本進(jìn)行分詞預(yù)處理; 第一獲取單元,用于獲取分詞得到的每個(gè)詞語的擴(kuò)展詞; 構(gòu)建單元,用于預(yù)先構(gòu)建詞項(xiàng)集; 第二獲取單元,用于根據(jù)所述構(gòu)建單元構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重 值; 第三獲取單元,用于根據(jù)所述權(quán)重值,利用多個(gè)類別SVM分類模型獲取所述短文本所屬 每個(gè)類別的概率; 確定單元,用于根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別。7. 如權(quán)利要求6所述的裝置,其特征在于,所述第一獲取單元具體用于根據(jù)詞向量空間 模型獲取分詞得到的每個(gè)詞語的擴(kuò)展詞。8. 如權(quán)利要求6所述的裝置,其特征在于,所述構(gòu)建單元具體用于: 對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞預(yù)處理,并獲取每個(gè)詞語的擴(kuò)展詞; 計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值,并將詞語、擴(kuò)展詞語及權(quán)重值保存至所述詞 項(xiàng)集中。9. 如權(quán)利要求6所述的裝置,其特征在于,所述確定單元具體用于: 步驟I,若所述短文本所屬某個(gè)類別的概率在[SI,1]之間,則將所述類別作為短文本所 屬類別,否則,執(zhí)行步驟2;其中,sie[0.5,l); 步驟2,設(shè)置S2 = Sl-0.1; 步驟3,判斷S2與0.5的大?。? 若S2>0.5,且所述短文本所屬某個(gè)類別的概率在[S2,S1]之間,則將所述類別作為短 文本所屬類別,否則,令SI = S2,并執(zhí)行步驟2; 若S2<0.5,且所述短文本所屬某個(gè)類別的概率在[0.4,Sl ]之間,則將概率值最大的類 別作為短文本所屬類別;否則判定所述短文本沒有所屬類別。
【文檔編號(hào)】G06K9/62GK105912716SQ201610285420
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月29日
【發(fā)明人】佟玲玲, 杜翠蘭, 鈕艷, 李鵬霄, 易立, 段東圣, 查奇文, 劉曉輝, 柳毅
【申請(qǐng)人】國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心