一種問題分類方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及自然語言處理及模式識別技術(shù)領(lǐng)域,特別是設(shè)及一種問題分類方法及 裝置。
【背景技術(shù)】
[0002] 自動問答技術(shù)是自然語言處理領(lǐng)域中一個非常熱口的研究方向,一般包括=個主 要組成部分:問題分類、信息檢索和答案抽取。
[0003] 在問答系統(tǒng)中,問題分類作為其第一個重要模塊主要有兩個作用,第一,問題分類 能有效地減少候選答案的空間,提高系統(tǒng)返回答案的準(zhǔn)確率。第二,問題分類提供的答案類 型信息,決定了答案抽取策略。
[0004] 問題分類可W看作一種特殊的文本分類,然而,問題分類與文本分類存在巨大的 差別。例如,文本分類需要將一些無實際貢獻(xiàn)的詞("什么""是"等)作為停用詞過濾,而 對于問題分類運些詞則不能去掉,因為運些詞正是區(qū)分問題類別的關(guān)鍵。再比如在文本分 類中詞頻信息對于區(qū)分文本中每個詞匯的貢獻(xiàn)程度很大,但在問題分類中詞頻信息不具明 顯區(qū)分作用,因為問題通常比較短,問題中每個詞匯的詞頻普遍為1。與文本相比,問題所包 含的詞匯信息較少,運就需要我們加入對問題的情感分析W及更多的輔助特征,運樣才能 獲得較高的分類精度。
[000引傳統(tǒng)的問答分類基本都是針對問題的主題相關(guān)提問類型(例如:"why","what"類 型)進(jìn)行分類,然而,實際應(yīng)用中,用戶會提出許多情感或者事實相關(guān)的問題,即主觀或者 客觀的問題?;卮疬\些問題僅僅檢索句中的主題詞還遠(yuǎn)遠(yuǎn)不夠,還需要對運些主題詞的評 論文本進(jìn)行情感分析,即對問題進(jìn)行主客觀分類。
[0006] 主客觀分類(Subjective/ObjectiveClassification)是將文本分為主觀性文 本或者客觀性文本的任務(wù)。所謂主觀性文本是指對于非事實進(jìn)行描述的文本,在文本中會 帶有發(fā)表者的個人情感傾向。所謂客觀性文本是指作者對于事件、對象等進(jìn)行基于事實的 描述,不帶有個人的好惡和偏見。例如:"淘寶從什么時候開的? 2003年5月10日投資創(chuàng) 立",運句話就是客觀句;"送懷孕班主任什么禮物好?送康乃馨吧"為主觀句。
[0007] 對問題進(jìn)行主客觀分類,能夠更好的幫助我們分析目前的浩滿文本信息中的主客 觀信息,并有助于進(jìn)一步的處理情感分析任務(wù),例如情感傾向性分類。因此,對問題進(jìn)行主 客觀分類技術(shù)的研究具有重要的實用價值和理論意義。
【發(fā)明內(nèi)容】
[000引本發(fā)明的目的是提供一種問題分類方法及裝置,目的在于解決現(xiàn)有技術(shù)中不能對 問題進(jìn)行主客觀分類的問題。
[0009] 為解決上述技術(shù)問題,本發(fā)明提供一種問題分類方法,包括:
[0010] 將待分類問題輸入至預(yù)先建立的分類器中,所述分類器為對多組已知類別的訓(xùn)練 樣本集進(jìn)行訓(xùn)練得到的,包括主觀類別、客觀類別分別在所述訓(xùn)練樣本集中出現(xiàn)的概率W 及每個特征屬性對主觀類別、客觀類別的條件概率;
[0011] 通過所述分類器分別確定所述待分類問題的每個特征屬性對主觀類別W及客觀 類別的條件概率;
[0012] 分別計算所述待分類問題屬于主觀類別的第一后驗概率W及屬于客觀類別的第 二后驗概率;
[0013] 將所述第一后驗概率W及第二后驗概率中較大值對應(yīng)的類別作為所述待分類問 題所屬的類別。
[0014] 可選地,所述分別計算所述待分類問題屬于主觀類別的第一后驗概率W及屬于客 觀類別的第二后驗概率包括:
[0015] 分別計算主觀類別在所述訓(xùn)練樣本集中出現(xiàn)的概率與所述待分類問題對對應(yīng)類 別的條件概率的第一乘積,W及客觀類別在所述訓(xùn)練樣本集中出現(xiàn)的概率與所述待分類問 題對客觀類別的條件概率的第二乘積;
[0016] 所述將所述第一后驗概率W及第二后驗概率中較大值對應(yīng)的類別作為所述待分 類問題所屬的類別包括:
[0017] 將所述第一乘積W及第二乘積中較大值對應(yīng)的類別作為所述待分類問題所屬的 類別。
[0018] 可選地,所述特征屬性為問題中的一元詞特征或一元與二元的組合特征。
[0019] 可選地,預(yù)先建立所述分類器包括步驟:
[0020] 抓取多個問題;
[0021] 通過人工標(biāo)注的方法對所抓取語料進(jìn)行主客觀類別的標(biāo)注,作為訓(xùn)練樣本集;
[0022] 計算主觀類別、客觀類別分別在所述訓(xùn)練樣本集中出現(xiàn)的概率W及每個特征屬性 對主觀類別、客觀類別的條件概率。
[0023] 可選地,所述抓取多個問題之后還包括:
[0024] 將抓取到的問題進(jìn)行過濾后,作為抓取語料。
[00巧]本發(fā)明還提供了一種問題分類裝置,包括:
[00%] 輸入模塊,用于將待分類問題輸入至預(yù)先建立的分類器中,所述分類器為對多組 已知類別的訓(xùn)練樣本集進(jìn)行訓(xùn)練得到的,包括主觀類別、客觀類別分別在所述訓(xùn)練樣本集 中出現(xiàn)的概率W及每個特征屬性對主觀類別、客觀類別的條件概率;
[0027] 確定模塊,用于通過所述分類器分別確定所述待分類問題的每個特征屬性對主觀 類別W及客觀類別的條件概率;
[0028] 計算模塊,用于分別計算所述待分類問題屬于主觀類別的第一后驗概率W及屬于 客觀類別的第二后驗概率;
[0029] 分類模塊,用于將所述第一后驗概率W及第二后驗概率中較大值對應(yīng)的類別作為 所述待分類問題所屬的類別。
[0030] 可選地,所述計算模塊用于分別計算所述待分類問題屬于主觀類別的第一后驗概 率W及屬于客觀類別的第二后驗概率包括:
[0031] 所述計算模塊具體用于分別計算主觀類別在所述訓(xùn)練樣本集中出現(xiàn)的概率與所 述待分類問題對對應(yīng)類別的條件概率的第一乘積,W及客觀類別在所述訓(xùn)練樣本集中出現(xiàn) 的概率與所述待分類問題對客觀類別的條件概率的第二乘積;
[0032]所述分類模塊用于將所述第一后驗概率W及第二后驗概率中較大值對應(yīng)的類別 作為所述待分類問題所屬的類別包括:
[0033]所述分類模塊具體用于將所述第一乘積W及第二乘積中較大值對應(yīng)的類別作為 所述待分類問題所屬的類別。
[0034]本發(fā)明所提供的問題分類方法及裝置,通過將待分類問題輸入至預(yù)先建立的分類 器中,確定得到待分類問題的每個特征屬性對主觀類別W及客觀類別的條件概率;然后分 別計算待分類問題屬于主觀類別的第一后驗概率W及屬于客觀類別的第二后驗概率;將所 述第一后驗概率W及第二后驗概率中較大值對應(yīng)的類別作為待分類問題所屬的類別???見,本發(fā)明所提供的問題分類方法及裝置基于樸素貝葉斯分類器,能夠?qū)崿F(xiàn)對輸入的問題 的主客觀類別分類,具有較高的分類準(zhǔn)確率。
【附圖說明】
[0035] 圖1為本發(fā)明所提供的問題分類方法的一種【具體實施方式】的方法流程圖;
[0036] 圖2為本發(fā)明所提供的問題分類方法的另一種【具體實施方式】的方法流程圖;
[0037] 圖3為本發(fā)明所提供的問題分類裝置的一種【具體實施方式】的結(jié)構(gòu)框圖。
【具體實施方式】
[0038]傳統(tǒng)的問題分類,基本都是針對問題的主題相關(guān)提問類型(例如:"why","what"等類型)進(jìn)行分類。然而,實際應(yīng)用中,用戶會提出許多情感或者事實相關(guān)的問題。例如, 考慮W下四個問題:
[0039] 例1:怎么修理臺燈?(主題問題) W40] 例2 :白酒泡雞蛋可W美白,雞蛋需要去殼浸泡嗎?(主題問題)
[0041] 例3 :御寶珍羊牌奶粉質(zhì)量好不好?(主觀問題)
[00創(chuàng)例4:毛毯什么牌子好???(主觀問題)
[0043]運四個例子中,例1和例2都是傳統(tǒng)的主題問題,回答此類問題可W利用信息檢索 技術(shù)幫助捜素句子中的主題詞進(jìn)行自動答案回復(fù)。然而,