;這些詞性作為文本關(guān)鍵詞的可能性比較大,其他詞性作為關(guān)鍵詞的可能性非常小,所以直接考慮這幾個詞性的詞語,提高執(zhí)行效率。
[0045]步驟202,根據(jù)頻次對剩余的語料詞語進行過濾,保留頻次大于頻次閾值的語料詞語,其余語料詞語舍棄。
[0046]步驟203,根據(jù)每一個問答日志,統(tǒng)計出問答日志所涉及的所有意圖類別,例如,包括天氣、購物、工作、旅游等意圖類別。
[0047]步驟204,計算詞典中每個關(guān)鍵詞的信息熵并保存,其中,信息熵表示該關(guān)鍵詞在各信息分類中出現(xiàn)的概率。
[0048]步驟205,獲取關(guān)鍵詞的信息熵,判斷關(guān)鍵詞的信息熵是否小于預(yù)先設(shè)置的信息熵閾值,如果判斷為是,則執(zhí)行步驟207,否則,執(zhí)行步驟206。
[0049]步驟206,將信息熵大于信息熵閾值的關(guān)鍵詞保留在詞典中。
[0050]步驟207,將信息熵小于信息熵閾值的關(guān)鍵詞從詞典中刪除。
[0051]在實際應(yīng)用中,信息熵等于信息熵閾值時,既可以將相應(yīng)的關(guān)鍵詞保留在所述詞典中,也可以將相應(yīng)的關(guān)鍵詞從所述詞典中刪除。
[0052]綜上所述,借助于本發(fā)明實施例的技術(shù)方案,通過利用詞在不同類別中的信息熵快速過濾候選詞對構(gòu)建的詞典進行降維,解決了現(xiàn)有技術(shù)中的詞典降維方法需要耗費大量的時間,通過多次調(diào)優(yōu)也不能達到最優(yōu)結(jié)果的問題,能夠快速的過濾對分類無用的詞語對詞典進行降維,降維后的詞典對于分類結(jié)果具有很好的準確率。
[0053]方法實施例二
[0054]根據(jù)本發(fā)明的實施例,提供了一種信息分類方法,根據(jù)本發(fā)明實施例的信息分類方法包括方法實施例一中的詞典降維方法,在信息分類方法中,所述信息分類包括:文本描述內(nèi)容分類、文本情感分類、廣告類別分類或垃圾郵件過濾分類。也就是說,在本發(fā)明實施例中,可以根據(jù)不同的信息分類對詞典進行降維,例如,方法實施例一中的步驟104中,需要計算關(guān)鍵詞的信息熵,如果詞典為文本描述內(nèi)容分類處理中需要的詞典,則計算所述詞典中每個關(guān)鍵詞的信息熵時,信息熵表示該關(guān)鍵詞在各文本描述內(nèi)容分類中出現(xiàn)的概率;如果詞典為文本情感分類處理中需要的詞典,則計算所述詞典中每個關(guān)鍵詞的信息熵時,信息熵表示該關(guān)鍵詞在各文本情感分類中出現(xiàn)的概率;如果詞典為廣告類別分類處理中需要的詞典,則計算所述詞典中每個關(guān)鍵詞的信息熵時,信息熵表示該關(guān)鍵詞在各廣告類別分類中出現(xiàn)的概率;如果詞典為垃圾郵件過濾分類處理中需要的詞典,則計算所述詞典中每個關(guān)鍵詞的信息熵時,信息熵表示該關(guān)鍵詞在各垃圾郵件過濾分類中出現(xiàn)的概率。
[0055]在本發(fā)明實施例的詞典降維方法已經(jīng)在上述方法實施例一中進行了詳細的說明,在此不再贅述。
[0056]綜上所述,借助于本發(fā)明實施例的技術(shù)方案,通過詞典降維方法,能夠更快捷準確的進行信息分類。
[0057]裝置實施例一
[0058]根據(jù)本發(fā)明的實施例,提供了一種詞典降維裝置,圖3是本發(fā)明實施例的詞典降維裝置的結(jié)構(gòu)示意圖,如圖3所示,根據(jù)本發(fā)明實施例的詞典降維裝置包括:預(yù)處理模塊30、分詞模塊32、過濾模塊34以及計算模塊36。
[0059]以下對本發(fā)明實施例的各個模塊進行詳細的說明。
[0060]預(yù)處理模塊30,用于對從問答日志中獲取的語料進行預(yù)處理,得到文本數(shù)據(jù);預(yù)處理包括:將語料數(shù)據(jù)的格式統(tǒng)一為文本格式,過濾臟詞、敏感詞和停用詞中的一種或多種,并將過濾后的文本數(shù)據(jù)按照標點劃分為多行。例如,上述標點可以是問號、嘆號、分號或句號,也就是說,可以將過濾后的文本數(shù)據(jù)按照問號、嘆號、分號或句號劃分為多行。
[0061]分詞模塊32,用于對文本數(shù)據(jù)進行分詞處理,得到多個語料詞語;分詞處理采用字典雙向最大匹配法、vi terb i方法、HMM方法和CRF方法中的一種或多種。
[0062]過濾模塊34,用于對語料詞語進行過濾處理,得到包括多個關(guān)鍵詞的詞典;過濾處理可以采用以下任一種或兩種方式:
[0063]方式一:根據(jù)詞性對語料詞語進行過濾,保留名詞、動詞以及形容詞;
[0064]方式二:根據(jù)頻次對語料詞語進行過濾,保留頻次大于頻次閾值的語料詞語,其中,頻次是指語料詞語在語料數(shù)據(jù)中出現(xiàn)的頻率或者次數(shù)。
[0065]本實施例中,先根據(jù)詞性對語料詞語進行過濾,僅保留名詞、動詞以及形容詞,去除其它詞性的語料詞語;然后根據(jù)頻次對保留的名詞、動詞以及形容詞進行過濾,保留頻次大于頻次閾值的語料詞語,從而字典中為頻次大于頻次閾值的名詞、動詞和形容詞。
[0066]在本發(fā)明的其它實施例中,可以僅根據(jù)詞性進行過濾,也可以僅根據(jù)頻次進行過濾,還可以先根據(jù)頻次進行過濾再根據(jù)詞性進行過濾,其都在本發(fā)明的保護范圍之內(nèi)。
[0067]計算模塊36,用于根據(jù)問答日志統(tǒng)計語料涉及到的信息分類,計算詞典中每個關(guān)鍵詞的信息熵,將信息熵小于信息熵閾值的關(guān)鍵詞從詞典中刪除,其中,信息熵表示該關(guān)鍵詞在各信息分類中出現(xiàn)的概率。
[0068]優(yōu)選地,根據(jù)詞典的用途不同,計算模塊36中所涉及的信息分類可以為語料所涉及的意圖類別,其中,上述意圖類別包括:天氣、購物、工作、旅游等等;當然,意圖類別僅僅是信息分類中的一種分類方式,根據(jù)詞典的用戶不同,信息分類也隨之變化。
[0069]在信息分類可以為語料所涉及的意圖類別的情況下,計算模塊36計算詞典中關(guān)鍵詞的信息熵包括:計算詞典中每個關(guān)鍵詞在每個意圖類別中出現(xiàn)的概率。
[°07°]信息熵的計算公式為:H(X)=-Xp(Xi)log p(xi),其中,H(X)表示關(guān)鍵詞的信息熵,P(X1)表示關(guān)鍵詞在第i個意圖類別中出現(xiàn)的概率,i = l,2,…,n,n為意圖類別的個數(shù)。
[0071]本發(fā)明實施例各個模塊的具體處理已經(jīng)在相應(yīng)的方法實施例中進行了詳細的描述,在此不再贅述。
[0072]綜上所述,借助于本發(fā)明實施例的技術(shù)方案,通過利用詞在不同類別中的信息熵快速過濾候選詞對構(gòu)建的詞典進行降維,解決了現(xiàn)有技術(shù)中的詞典降維方法需要耗費大量的時間,通過多次調(diào)優(yōu)也不能達到最優(yōu)結(jié)果的問題,能夠快速的過濾對分類無用的詞語對詞典進行降維,降維后的詞典對于分類結(jié)果具有很好的準確率。
[0073]裝置實施例二
[0074]根據(jù)本發(fā)明的實施例,提供了一種信息分類裝置,根據(jù)本發(fā)明實施例的信息分類裝置包括裝置實施例一中的詞典降維裝置,其中,信息分類裝置所涉及到的信息分類包括:文本描述內(nèi)容分類、文本情感分類、廣告類別分類或垃圾郵件過濾分類。也就是說,在本發(fā)明實施例中,可以根據(jù)不同的信息分類對詞典進行降維,例如,詞典降維裝置需要計算關(guān)鍵詞的信息熵,如果詞典為文本描述內(nèi)容分類處理中需要的詞典,則計算所述詞典中每個關(guān)鍵詞的信息熵時,信息熵表示該關(guān)鍵詞在各文本描述內(nèi)容分類中出現(xiàn)的概率;如果詞典為文本情感分類處理中需要的詞典,則計算所述詞典中每個關(guān)鍵詞的信息熵時,信息熵表示該關(guān)鍵詞在各文本情感分類中出現(xiàn)的概率;如果詞典為廣告類別分類處理中需要的詞典,則計算所述詞典中每個關(guān)鍵詞的信息熵時,信息熵表示該關(guān)鍵詞在各廣告類別分類中出現(xiàn)的概率;如果詞典為垃圾郵件過濾分類處理中需要的詞典,則計算所述詞典中每個關(guān)鍵詞的信息熵時,信息熵表示該關(guān)鍵詞在各垃圾郵件過濾分類中出現(xiàn)的概率。
[0075]在本發(fā)明實施例的詞典降維裝置已經(jīng)在上述裝置實施例一中進行了詳細的說明,在此不再贅述。
[0076]綜上所述,借助于本發(fā)明實施例的技術(shù)方案,借助于詞典降維裝置,能夠更快捷準確的進行信息分類。
[0077]顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
[0078]在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明