一種短文本分類方法及裝置的制造方法

文檔序號(hào)：10553067閱讀：265來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種短文本分類方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種短文本分類方法及裝置。該方法包括：對(duì)待分類的短文本進(jìn)行分詞預(yù)處理，并獲取分詞得到的每個(gè)詞語的擴(kuò)展詞；根據(jù)預(yù)先構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值；根據(jù)權(quán)重值，利用多個(gè)類別SVM分類模型獲取短文本所屬每個(gè)類別的概率；根據(jù)預(yù)設(shè)的概率分類模型確定短文本的所屬類別。本發(fā)明所提供的短分本分類方法，克服了短文本特征稀疏的問題，有效降低采用多分類模型的復(fù)雜度，更符合實(shí)際應(yīng)用。
【專利說明】
一種短文本分類方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計(jì)算機(jī)自然語言處理領(lǐng)域，尤其涉及一種短文本分類方法及裝置。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)送，互聯(lián)網(wǎng)已經(jīng)成為海量信息的載體，用戶創(chuàng)建的內(nèi)容已經(jīng)成為互聯(lián)網(wǎng)上一個(gè)重要數(shù)據(jù)源。尤其是微博、微信、購物等移動(dòng)應(yīng)用推廣之后，基于微博、微信、QQ聊天及商品評(píng)論等短文本的數(shù)量正在呈爆炸式增長。各種形式的短文本已經(jīng)成為我國各階層的信息溝通渠道和情感交流手段，深刻改變了億萬中國人的溝通方式和生活習(xí) 慣。
[0003] 短文本數(shù)據(jù)量異常龐大，數(shù)據(jù)中包含人們對(duì)社會(huì)各種現(xiàn)象的各種觀點(diǎn)和立場，話題涉及政治、經(jīng)濟(jì)、軍事、娛樂、生活等各個(gè)領(lǐng)域。然而如何從短文本中挖掘出有價(jià)值的信息成為當(dāng)前的一個(gè)非常關(guān)鍵的問題。短文本在很多方面都有廣泛應(yīng)用，例如幫助用戶快速了解產(chǎn)品的優(yōu)劣，選擇滿意的商品，再例如，追蹤社會(huì)輿論趨勢，發(fā)現(xiàn)社會(huì)熱點(diǎn)問題，幫助政府把握社會(huì)態(tài)勢等。因此，短文本分類具有很強(qiáng)的應(yīng)用價(jià)值。
[0004] 短文本分類的顯著特征是受其長度的限制，所包含的詞語和上下文信息不足，因此基于統(tǒng)計(jì)量的傳統(tǒng)的文本表示方法和分類模型面臨數(shù)據(jù)稀疏性問題。因此，準(zhǔn)確的進(jìn)行短文本的語義特征表示并實(shí)現(xiàn)自動(dòng)分類，是一項(xiàng)極具挑戰(zhàn)性而且亟待研究的技術(shù)問題。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明提供了一種高效的短文本分類方法及裝置，用以解決現(xiàn)有技術(shù)中短文本特征稀疏、噪聲大導(dǎo)致分類不準(zhǔn)確的技術(shù)問題。
[0006] 依據(jù)本發(fā)明的一個(gè)方面，本發(fā)明提供一種短文本分類方法，包括：
[0007] 對(duì)待分類的短文本進(jìn)行分詞預(yù)處理，并獲取分詞得到的每個(gè)詞語的擴(kuò)展詞；
[0008] 根據(jù)預(yù)先構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值；
[0009] 根據(jù)所述權(quán)重值，利用多個(gè)類別SVM分類模型獲取所述短文本所屬每個(gè)類別的概率；
[0010] 根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別。
[0011] 進(jìn)一步地，根據(jù)詞向量空間模型獲取分詞得到的每個(gè)詞語的擴(kuò)展詞。
[0012] 進(jìn)一步地，預(yù)先構(gòu)建所述詞項(xiàng)集時(shí)，包括：
[0013] 對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞預(yù)處理，并獲取每個(gè)詞語的擴(kuò)展詞；
[0014] 計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值，并將詞語、擴(kuò)展詞語及權(quán)重值保存至所述詞項(xiàng)集中。
[0015] 進(jìn)一步地，所述權(quán)重值為TF-IDF值。
[0016] 進(jìn)一步地，所述根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別，包括：
[0017] 步驟1，若所述短文本所屬某個(gè)類別的概率在[S1，1]之間，則將所述類別作為短文本所屬類別，否則，執(zhí)行步驟2;其中，SlG[0.5，l);
[0018] 步驟 2,設(shè)置 S2 = S1_0.1;
[0019] 步驟3,判斷S2與0.5的大?。?br>[0020]若S2>0.5,且所述短文本所屬某個(gè)類別的概率在[S2，S1]之間，則將所述類別作為短文本所屬類別，否則，SI = S2，并執(zhí)行步驟2;
[0021 ]若S2<0.5，且所述短文本所屬某個(gè)類別的概率在[0.4，S1 ]之間，則將概率值最大的類別作為短文本所屬類別；否則沒有所屬類別。
[0022 ]依據(jù)本發(fā)明的一個(gè)方面，本發(fā)明提供一種短文本分類裝置，包括：
[0023]預(yù)處理單元，用于對(duì)待分類的短文本進(jìn)行分詞預(yù)處理；
[0024]第一獲取單元，用于獲取分詞得到的每個(gè)詞語的擴(kuò)展詞；
[0025]構(gòu)建單元，用于預(yù)先構(gòu)建詞項(xiàng)集；
[0026] 第二獲取單元，用于根據(jù)所述構(gòu)建單元構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值；
[0027] 第三獲取單元，用于根據(jù)所述權(quán)重值，利用多個(gè)類別SVM分類模型獲取所述短文本所屬每個(gè)類別的概率；
[0028] 確定單元，用于根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別。
[0029] 進(jìn)一步地，所述第一獲取單元具體用于根據(jù)詞向量空間模型獲取分詞得到的每個(gè) 詞語的擴(kuò)展詞。
[0030]進(jìn)一步地，所述構(gòu)建單元具體用于：
[0031] 對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞預(yù)處理，并獲取每個(gè)詞語的擴(kuò)展詞；
[0032] 計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值，并將詞語、擴(kuò)展詞語及權(quán)重值保存至所述詞項(xiàng)集中。
[0033] 進(jìn)一步地，所述確定單元具體用于：
[0034] 步驟1，若所述短文本所屬某個(gè)類別的概率在[SI，1]之間，則將所述類別作為短文本所屬類別，否則，執(zhí)行步驟2;其中，SlG[0.5，l);
[0035] 步驟 2,設(shè)置 S2 = S1_0.1;
[0036] 步驟3,判斷S2與0.5的大?。?br>[0037]若S2>0.5,且所述短文本所屬某個(gè)類別的概率在[S2，S1]之間，則將所述類別作為短文本所屬類別，否則，令SI = S2，并執(zhí)行步驟2;
[0038]若S2<0.5,且所述短文本所屬某個(gè)類別的概率在[0.4，S1]之間，則將概率值最大的類別作為短文本所屬類別；否則判定所述短文本沒有所屬類別。
[0039]本發(fā)明具有以下有益效果：
[0040] 本發(fā)明所提供的短分本分類方法及裝置，引入詞向量模型對(duì)短文本進(jìn)行擴(kuò)充，克服了短文本的特征稀疏的問題；同時(shí)通過多個(gè)類別的SVM模型，有效降低采用多分類模型的復(fù)雜度；以及根據(jù)概率分類模型，使得同一短文本可以屬于多個(gè)類別，更符合實(shí)際應(yīng)用。
[0041] 上述說明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說明書的內(nèi)容予以實(shí)施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂，以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說明】
[0042] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作一簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0043] 圖1為本發(fā)明實(shí)施例中短文本分類方法的流程圖；
[0044] 圖2為本發(fā)明實(shí)施例中采用的短文本分類模型的示意圖；
[0045]圖3為本發(fā)明實(shí)施例中短文本分類裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0046] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；?本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0047] 本發(fā)明實(shí)施例提供一種短文本分類方法，包括如下步驟：
[0048]步驟1，對(duì)待分類的短文本進(jìn)行分詞預(yù)處理，并獲取分詞得到的每個(gè)詞語的擴(kuò)展詞；
[0049] 步驟2,根據(jù)構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值；
[0050] 步驟3,根據(jù)權(quán)重值，利用多個(gè)類別SVM分類模型獲取所屬每個(gè)類別的概率；
[0051] 步驟4,根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別。
[0052]本發(fā)明所提供的短文本分類方法，對(duì)每個(gè)短文本進(jìn)行分詞處理后，將映射到高維空間的向量，向量的每一維代表某種潛在語義。越相似詞語之間的向量距離越接近，這樣可以將每個(gè)詞語進(jìn)行語義擴(kuò)展，有效克服了短文本的特征稀疏問題。通過SVM分類模型獲取短文本所屬每個(gè)類別的概率，根據(jù)預(yù)設(shè)的概率分類模型確定該短文本所屬的類別，有效解決了文本信息因噪聲大導(dǎo)致分類不準(zhǔn)確的問題。
[0053]下面結(jié)合附圖1和具體實(shí)施例對(duì)本發(fā)明的技術(shù)內(nèi)容做進(jìn)一步地詳細(xì)說明。
[0054]本發(fā)明的執(zhí)行環(huán)境采用一臺(tái)具有2.4G赫茲中央處理器和8G字節(jié)內(nèi)存的奔騰4計(jì)算機(jī)并用JAVA語言編制了短文本分類方法，還可以采用其他的執(zhí)行環(huán)境，在此不再贅述。
[0055]參見圖1中的測試過程，首先對(duì)待分類的短文本進(jìn)行分詞預(yù)處理，并獲取每個(gè)詞語的擴(kuò)展詞。
[0056]本發(fā)明實(shí)施例中利用NLPIR的分詞工具將一個(gè)短文本切割為一個(gè)個(gè)獨(dú)立的詞語，那么一個(gè)短文本就可以表示為[詞1，詞2……詞n]，其中n為該短文本的詞語數(shù)目。預(yù)處理工作除了進(jìn)行分詞外，還包括去除短文本中的I"等特殊符號(hào)，以達(dá)到去除一定的干擾的目的。本發(fā)明對(duì)訓(xùn)練短文本集中數(shù)據(jù)的特殊字符的干擾，進(jìn)行針對(duì)性的判別，提高了分類的精度。
[0057]在該步驟中，根據(jù)訓(xùn)練的詞向量空間模型對(duì)分詞后的短文本進(jìn)行擴(kuò)充。本發(fā)明實(shí) 施例中采用word2VeC詞向量空間模型，可以將短文本擴(kuò)展成指定數(shù)目或滿足特定相似度的向量，表示為:詞語一>與該詞語強(qiáng)關(guān)聯(lián)的向量 [0058]對(duì)每一個(gè)詞語特征擴(kuò)展后，可以得到一段短文本的特征擴(kuò)展。
[0059]
[詞1，詞2, "?"?詞n].擴(kuò)_ [詞1，詞2, ??詞n]+ [詞1強(qiáng)關(guān)聯(lián)的詞語組合，……詞11強(qiáng)關(guān)聯(lián)的詞浯組合]
[0060] 本發(fā)明通過引入詞向量模型對(duì)短文本進(jìn)行擴(kuò)充，可以有效克服短文本的特征稀疏的問題。
[0061] 接著，根據(jù)詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值。
[0062] 本發(fā)明實(shí)施例中，在構(gòu)建詞項(xiàng)集時(shí)（圖1中標(biāo)注文本集的過程），按照上述的預(yù)處理的方法對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞以及詞語擴(kuò)展處理，并計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值。其中，權(quán)重值采用詞頻來表示，現(xiàn)在比較常用的特征權(quán)重的計(jì)算方式為 TF*IDF，TF*RF。本發(fā)明實(shí)施例采用TF-IDF值，計(jì)算公式如下：
[0064]其中，|D|表示標(biāo)注樣本集中的文本總數(shù)，|Di|表示包含詞語i的文本總數(shù)，蟮表示詞語<在文本i中出現(xiàn)的次數(shù)。
[0065]根據(jù)標(biāo)注文本集中的詞語、詞語的擴(kuò)展詞語、以及根據(jù)每個(gè)詞語的TF-IDF值生成詞項(xiàng)集。在進(jìn)行分類時(shí)，對(duì)待分類的短文本進(jìn)行分詞以及詞語擴(kuò)展處理后，從詞項(xiàng)集中獲取每個(gè)詞語對(duì)應(yīng)的詞語權(quán)重值。
[0066]然后，根據(jù)權(quán)重值，利用多個(gè)類別SVM分類模型獲取所屬每個(gè)類別的概率。
[0067] 當(dāng)權(quán)重值確定后，利用分類算法進(jìn)行訓(xùn)練和預(yù)測分類模型?，F(xiàn)在文本分類的算法很多，常見的有Naive 8&768,3￥11，1(順，1(^18^(3回歸等。本發(fā)明實(shí)施例中優(yōu)選采用3￥1 (Support Vector Model，支持向量機(jī))分類模型，對(duì)于支持向量機(jī)屬于本領(lǐng)域技術(shù)人員所熟知的技術(shù)，這里不再進(jìn)行詳細(xì)介紹。本發(fā)明實(shí)施例中，對(duì)于n個(gè)類別，只有n個(gè)SVM分類模型。本發(fā)明中的SVM分類模型不是判斷屬于正負(fù)類別，而是輸出屬于各類別的概率，最終可以得到分類結(jié)果的可信度量化數(shù)值。根據(jù)每個(gè)所屬類別的量化值，在進(jìn)一步判斷該短文本的所屬類別。通過采用多個(gè)單類別的分類模型，在一定程度上有效減少了多分類模型的運(yùn) 算復(fù)雜度。
[0068] 最后，根據(jù)預(yù)設(shè)的概率分類模型確定短文本的所屬類別。
[0069] 參見圖2,本發(fā)明實(shí)施例采用的概率分類模型，假設(shè)有n個(gè)類別，每個(gè)待分類文本輸入n個(gè)類別的SVM分類模型，得到屬于各類別的概率，利用概率分類模型，確定最終分類。本發(fā)明的實(shí)施例中采用的概率分類模型，具體包括如下步驟：
[0070] 步驟1，若所屬某個(gè)類別的概率在[Sl，l]之間，則將所述類別作為短文本所屬類另IJ，否則，執(zhí)行步驟2;其中，SlG[0.5，l);
[0071] 步驟 2,設(shè)置 S2 = S1_0.1;
[0072] 步驟3,判斷S2與0.5的大小：
[0073] 若S2>0.5，且短文本所屬某個(gè)類別的概率在[S2，S1 ]之間，則將類別作為短文本所屬類別，否則，令SI = S2，并執(zhí)行步驟2;
[0074] 若S2<0.5，且短文本所屬某個(gè)類別的概率在[0.4，S1 ]之間，則將概率值最大的類別作為短文本所屬類別；否則判定短文本沒有所屬類別。
[0075] 本發(fā)明實(shí)施例提供的概率分類模型，可以取出概率高的類別，極端情況下，模型判斷不屬于該類別，所有類別概率都小于0.5的情況下，也有可能取到正確類別;此外，最終的輸出結(jié)果是文本所屬類別或者類別集合，同一段文本可以屬于不同類別，更符合實(shí)際應(yīng)用。
[0076] 參見圖3,本發(fā)明實(shí)施例還提供一種短文本分類裝置，用于實(shí)現(xiàn)上述的短文本分類方法，具體包括：
[0077]預(yù)處理單元，用于對(duì)待分類的短文本進(jìn)行分詞預(yù)處理；
[0078]第一獲取單元，用于獲取分詞得到的每個(gè)詞語的擴(kuò)展詞；
[0079]構(gòu)建單元，用于預(yù)先構(gòu)建詞項(xiàng)集；
[0080] 第二獲取單元，用于根據(jù)構(gòu)建單元構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值；
[0081] 第三獲取單元，用于根據(jù)權(quán)重值，利用多個(gè)類別SVM分類模型獲取短文本所屬每個(gè) 類別的概率；
[0082] 確定單元，用于根據(jù)預(yù)設(shè)的概率分類模型確定短文本的所屬類別。
[0083] 進(jìn)一步地，第一獲取單元具體用于根據(jù)詞向量空間模型獲取分詞得到的每個(gè)詞語的擴(kuò)展詞。
[0084]進(jìn)一步地，構(gòu)建單元具體用于：
[0085] 對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞預(yù)處理，并獲取每個(gè)詞語的擴(kuò)展詞；
[0086] 計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值，并將詞語、擴(kuò)展詞語及權(quán)重值保存至詞項(xiàng)集中。
[0087] 進(jìn)一步地，確定單元具體用于：
[0088] 步驟1，若短文本所屬某個(gè)類別的概率在[SI，1]之間，則將類別作為短文本所屬類另IJ，否則，執(zhí)行步驟2;其中，SlG[0.5，l);
[0089] 步驟 2,設(shè)置 S2 = S1_0.1;
[0090] 步驟3,判斷S2與0.5的大?。?br>[0091]若S2>0.5,且所述短文本所屬某個(gè)類別的概率在[S2，S1]之間，則將所述類別作為短文本所屬類別，否則，令SI = S2，并執(zhí)行步驟2;
[0092]若S2<0.5,且所述短文本所屬某個(gè)類別的概率在[0.4，S1]之間，則將概率值最大的類別作為短文本所屬類別；否則判定所述短文本沒有所屬類別。
[0093]綜上所述，本發(fā)明所提供的短分本分類方法及裝置，通過引入詞向量模型對(duì)短文本進(jìn)行擴(kuò)充，可以有效克服了短文本的特征稀疏的問題；同時(shí)通過多個(gè)單類別的SVM分類模型，有效降低采用多分類模型的運(yùn)算復(fù)雜度;同時(shí)由于該SVM分類模型獲取的是所屬類別概率，因此分類結(jié)果是可信度量化值，可以有效提高了分類精度;根據(jù)概率分類模型，取出概率較高的類別，使得同一短文本可以同時(shí)屬于多個(gè)類別，使得該分類方法更具有實(shí)際意義。 [0094]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程，是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成，程序可存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，可包括如上述各方法的實(shí)施例的流程。
[0095]雖然通過實(shí)施例描述了本申請(qǐng)，本領(lǐng)域的技術(shù)人員知道，本申請(qǐng)有許多變形和變化而不脫離本發(fā)明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要
【主權(quán)項(xiàng)】
1. 一種短文本分類方法，其特征在于，包括：對(duì)待分類的短文本進(jìn)行分詞預(yù)處理，并獲取分詞得到的每個(gè)詞語的擴(kuò)展詞；根據(jù)預(yù)先構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值；根據(jù)所述權(quán)重值，利用多個(gè)類別SVM分類模型獲取所述短文本所屬每個(gè)類別的概率；根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別。2. 如權(quán)利要求1所述的方法，其特征在于，根據(jù)詞向量空間模型獲取分詞得到的每個(gè)詞語的擴(kuò)展詞。3. 如權(quán)利要求1所述的方法，其特征在于，預(yù)先構(gòu)建所述詞項(xiàng)集時(shí)，包括：對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞預(yù)處理，并獲取分詞得到的每個(gè)詞語的擴(kuò)展詞；計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值，并將詞語、擴(kuò)展詞語及權(quán)重值保存至所述詞項(xiàng)集中。4. 如權(quán)利要求1或3所述的方法，其特征在于，所述權(quán)重值為TF-IDF值。5. 如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別，包括：步驟1，若所述短文本所屬某個(gè)類別的概率在[SI，1]之間，則將所述類別作為短文本所屬類別，否則，執(zhí)行步驟2;其中，Sie[〇.5，l); 步驟2,設(shè)置S2 = Sl-0.1; 步驟3,判斷S2與0.5的大?。? 若S2>0.5,且所述短文本所屬某個(gè)類別的概率在[S2，S1]之間，則將所述類別作為短文本所屬類別，否則，令SI = S2，并執(zhí)行步驟2; 若S2<0.5，且所述短文本所屬某個(gè)類別的概率在[0.4，Sl ]之間，則將概率值最大的類別作為短文本所屬類別；否則判定所述短文本沒有所屬類別。6. -種短文本分類裝置，其特征在于，包括：預(yù)處理單元，用于對(duì)待分類的短文本進(jìn)行分詞預(yù)處理；第一獲取單元，用于獲取分詞得到的每個(gè)詞語的擴(kuò)展詞；構(gòu)建單元，用于預(yù)先構(gòu)建詞項(xiàng)集；第二獲取單元，用于根據(jù)所述構(gòu)建單元構(gòu)建的詞項(xiàng)集獲取每個(gè)詞語及其擴(kuò)展詞的權(quán)重值；第三獲取單元，用于根據(jù)所述權(quán)重值，利用多個(gè)類別SVM分類模型獲取所述短文本所屬每個(gè)類別的概率；確定單元，用于根據(jù)預(yù)設(shè)的概率分類模型確定所述短文本的所屬類別。7. 如權(quán)利要求6所述的裝置，其特征在于，所述第一獲取單元具體用于根據(jù)詞向量空間模型獲取分詞得到的每個(gè)詞語的擴(kuò)展詞。8. 如權(quán)利要求6所述的裝置，其特征在于，所述構(gòu)建單元具體用于：對(duì)標(biāo)注樣本集中所有的短文本進(jìn)行分詞預(yù)處理，并獲取每個(gè)詞語的擴(kuò)展詞；計(jì)算每一個(gè)詞語以及擴(kuò)展詞語的權(quán)重值，并將詞語、擴(kuò)展詞語及權(quán)重值保存至所述詞項(xiàng)集中。9. 如權(quán)利要求6所述的裝置，其特征在于，所述確定單元具體用于：步驟I，若所述短文本所屬某個(gè)類別的概率在[SI，1]之間，則將所述類別作為短文本所屬類別，否則，執(zhí)行步驟2;其中，sie[0.5，l); 步驟2,設(shè)置S2 = Sl-0.1; 步驟3,判斷S2與0.5的大?。? 若S2>0.5,且所述短文本所屬某個(gè)類別的概率在[S2，S1]之間，則將所述類別作為短文本所屬類別，否則，令SI = S2，并執(zhí)行步驟2; 若S2<0.5，且所述短文本所屬某個(gè)類別的概率在[0.4，Sl ]之間，則將概率值最大的類別作為短文本所屬類別；否則判定所述短文本沒有所屬類別。
【文檔編號(hào)】G06K9/62GK105912716SQ201610285420
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月29日
【發(fā)明人】佟玲玲, 杜翠蘭, 鈕艷, 李鵬霄, 易立, 段東圣, 查奇文, 劉曉輝, 柳毅
【申請(qǐng)人】國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：佟玲玲;杜翠蘭;鈕艷;李鵬霄;易立;段東圣;查奇文;劉曉輝;柳毅;
技術(shù)所有人：國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本分類方法相關(guān)技術(shù)

文本分類的方法相關(guān)技術(shù)

文本分類算法相關(guān)技術(shù)

中文文本分類相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種短文本分類方法及裝置的制造方法