專利名稱:判別設(shè)備、判別方法和計(jì)算機(jī)程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種判別設(shè)備、判別方法和計(jì)算機(jī)程序,其使用基于對(duì)象的特征量來(lái) 單獨(dú)地判別對(duì)象的多個(gè)弱假設(shè)通過(guò)助推(boosting)來(lái)進(jìn)行判別,并且通過(guò)助推來(lái)學(xué)習(xí)弱 假設(shè)。
背景技術(shù):
通過(guò)樣本學(xué)習(xí)獲得的學(xué)習(xí)機(jī)包括許多弱假設(shè)和對(duì)這些假設(shè)進(jìn)行組合的組合器。這 里,作為在不依賴于輸入的情況下使用固定權(quán)重對(duì)弱假設(shè)的輸出進(jìn)行集成的組合器的例 子,提供了“助推”。在助推中,學(xué)習(xí)樣本的分布被處理,使得通過(guò)使用以前生成的弱假設(shè)的學(xué)習(xí)結(jié)果 而增加不擅長(zhǎng)制造錯(cuò)誤的學(xué)習(xí)樣本的權(quán)重,并且基于該分布執(zhí)行新的弱假設(shè)的學(xué)習(xí)。因此, 產(chǎn)生了許多不正確答案并難以判別的學(xué)習(xí)樣本的權(quán)重相對(duì)增加,并且弱判別器一個(gè)接一個(gè) 地被選擇,使得正確的答案被給予具有重的權(quán)重、換言之即難以判別的學(xué)習(xí)樣本。一個(gè)接一 個(gè)地執(zhí)行弱假設(shè)在學(xué)習(xí)中的生成,并且稍后生成的弱假設(shè)依賴于較早生成的弱假設(shè)。這里,基于弱假設(shè)進(jìn)行判別處理的弱判別器對(duì)應(yīng)于“濾波器”,該濾波器使用某種 特征量根據(jù)輸入而輸出二元確定結(jié)果。一般地,當(dāng)助推用作判別器時(shí),常常使用判別與每個(gè) 維度無(wú)關(guān)的提取的特征量的閾值的弱假設(shè)的類型。然而,問(wèn)題在于,許多弱假設(shè)對(duì)于產(chǎn)生良 好性能而言是必要的。而且,用戶發(fā)現(xiàn)難以獲得學(xué)習(xí)之后的弱假設(shè)的配置,并且因此學(xué)習(xí)結(jié) 果的可讀性不足。而且,用于判別的弱假設(shè)的數(shù)目會(huì)影響在確定時(shí)的計(jì)算量,并且這樣一來(lái) 就難以通過(guò)具有不足計(jì)算能力的硬件來(lái)實(shí)現(xiàn)判別器。而且,作為另一個(gè)例子,已提議了一種總體學(xué)習(xí)設(shè)備,其使用弱判別器作為濾波 器,該濾波器使用非常簡(jiǎn)單的特征量(像素之間的差別特征)、亦即兩個(gè)參考像素的亮度值 之間的差別來(lái)判別對(duì)象(例如參見(jiàn)日本待審專利申請(qǐng)公布第2005-157679號(hào))。通過(guò)該設(shè) 備,可以在犧牲識(shí)別性能的同時(shí)加速對(duì)象的檢測(cè)處理。然而,如果對(duì)象難以通過(guò)差別來(lái)線性 判別,則對(duì)象無(wú)法通過(guò)弱假設(shè)來(lái)分類。
發(fā)明內(nèi)容
希望提供一種極好的判別設(shè)備、判別方法和計(jì)算機(jī)程序,其優(yōu)選地使用基于對(duì)象 的特征量來(lái)單獨(dú)地判別對(duì)象的多個(gè)弱假設(shè)通過(guò)助推來(lái)進(jìn)行判別,并且允許優(yōu)選地通過(guò)助推 來(lái)學(xué)習(xí)單獨(dú)的弱假設(shè)。還希望提供一種極好的判別設(shè)備、判別方法和計(jì)算機(jī)程序,其可以提高判別性能, 同時(shí)減少將要使用的弱假設(shè)的數(shù)目。進(jìn)一步希望提供一種極好的判別設(shè)備、判別方法和計(jì)算機(jī)程序,其可以縮短學(xué)習(xí) 時(shí)間,減少判別時(shí)的計(jì)算量,并且通過(guò)減少將要使用的弱假設(shè)的數(shù)目而實(shí)現(xiàn)學(xué)習(xí)結(jié)果可讀 性方面的改善。根據(jù)本發(fā)明的實(shí)施例,提供了一種判別設(shè)備,其包括特征量提取部,其從判別對(duì)象中提取特征量;以及判別器,所述判別器包括被表達(dá)為貝葉斯(Bayesian)網(wǎng)絡(luò)的多個(gè) 弱判別器,所述貝葉斯網(wǎng)絡(luò)具有節(jié)點(diǎn),向每個(gè)節(jié)點(diǎn)分配從所述特征量提取部輸入的兩個(gè)或 更多所述特征量中的對(duì)應(yīng)一個(gè)特征量;以及組合器,其組合通過(guò)所述多個(gè)弱判別器獲得的 所述判別對(duì)象的各個(gè)判別結(jié)果。在上述實(shí)施例中,判別器可以使用具有弱假設(shè)的貝葉斯網(wǎng)絡(luò)的判別目標(biāo)節(jié)點(diǎn)的推 斷概率作為弱假設(shè)的輸出。在上述實(shí)施例中,BOW (Bag of Words,詞袋)或其它高維特征量向量可以用于判別 對(duì)象,并且弱判別器可以包括從特征量提取部所提取的高維特征量向量當(dāng)中使預(yù)定的維度 數(shù)目或以下的特征量作為每個(gè)節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)。在上述實(shí)施例中,文本可以包括在判別對(duì)象中,并且判別器可以對(duì)意見(jiàn)語(yǔ)句或其 它種類的文本執(zhí)行二元判別。在上述實(shí)施例中,基于弱假設(shè)貝葉斯網(wǎng)絡(luò)的判別目標(biāo)節(jié)點(diǎn)的推斷概率是否大于預(yù) 定值,判別器可以確定弱假設(shè)的正誤。根據(jù)上述實(shí)施例的判別設(shè)備可以進(jìn)一步包括學(xué)習(xí)部,該學(xué)習(xí)部學(xué)習(xí)將要由多個(gè)弱 判別器分別使用的弱假設(shè)以及使用助推通過(guò)以前的學(xué)習(xí)而獲得的各個(gè)弱假設(shè)的權(quán)重信息。在上述實(shí)施例中,學(xué)習(xí)部通過(guò)限制由一個(gè)弱假設(shè)使用的特征量維度的數(shù)目,可以 減少弱假設(shè)候選的數(shù)目。在上述實(shí)施例中,學(xué)習(xí)部在用于一個(gè)弱假設(shè)的特征量維度的數(shù)目為1的假定之下 可以計(jì)算每個(gè)維度的一維弱假設(shè)的估計(jì)值,并且可以通過(guò)以維度的估計(jì)值的降序方式組合 用于弱假設(shè)的必要數(shù)目的特征量維度來(lái)創(chuàng)建弱假設(shè)候選。而且,根據(jù)本發(fā)明的另一個(gè)實(shí)施例,提供了一種判別方法,其包括以下步驟從判 別對(duì)象中提取特征量;以及通過(guò)被表達(dá)為貝葉斯網(wǎng)絡(luò)的多個(gè)弱假設(shè)來(lái)判別所述判別對(duì)象, 所述貝葉斯網(wǎng)絡(luò)具有節(jié)點(diǎn),向每個(gè)節(jié)點(diǎn)分配通過(guò)提取特征量的步驟而獲得的兩個(gè)或更多所 述特征量中的對(duì)應(yīng)一個(gè)特征量,并且組合通過(guò)所述多個(gè)弱假設(shè)獲得的所述判別對(duì)象的各個(gè) 判別結(jié)果。而且,根據(jù)本發(fā)明的另一個(gè)實(shí)施例,提供了一種計(jì)算機(jī)程序,其使計(jì)算機(jī)起到判 別設(shè)備的作用,所述判別設(shè)備包括特征量提取部,其從判別對(duì)象中提取特征量;以及判別 器,所述判別器包括被表達(dá)為貝葉斯網(wǎng)絡(luò)的多個(gè)弱判別器,所述貝葉斯網(wǎng)絡(luò)具有節(jié)點(diǎn),向 每個(gè)節(jié)點(diǎn)分配從所述特征量提取部輸入的兩個(gè)或更多所述特征量中的對(duì)應(yīng)一個(gè)特征量;以 及組合器,其組合通過(guò)所述多個(gè)弱判別器獲得的所述判別對(duì)象的各個(gè)判別結(jié)果。上述計(jì)算機(jī)程序是以計(jì)算機(jī)可讀格式描述的計(jì)算機(jī)程序,以便在計(jì)算機(jī)上實(shí)現(xiàn)預(yù) 定處理。換言之,通過(guò)在計(jì)算機(jī)中安裝上述計(jì)算機(jī)程序,基于協(xié)調(diào)的操作可以獲得與上述判 別設(shè)備相同的優(yōu)點(diǎn)。通過(guò)本發(fā)明,可以提供一種極好的判別設(shè)備、判別方法和計(jì)算機(jī)程序,其優(yōu)選地使 用基于對(duì)象的特征量來(lái)單獨(dú)地判別對(duì)象的多個(gè)弱假設(shè)通過(guò)助推來(lái)進(jìn)行判別,并且允許優(yōu)選 地通過(guò)助推來(lái)學(xué)習(xí)單獨(dú)的弱假設(shè)。而且,通過(guò)本發(fā)明,可以提供一種極好的判別設(shè)備、判別方法和計(jì)算機(jī)程序,其可 以提高判別性能,同時(shí)減少將要使用的弱假設(shè)的數(shù)目。而且,通過(guò)本發(fā)明,可以提供一種極好的判別設(shè)備、判別方法和計(jì)算機(jī)程序,其可以縮短學(xué)習(xí)時(shí)間,減少判別時(shí)的計(jì)算量,并且通過(guò)減少將要使用的弱假設(shè)的數(shù)目而實(shí)現(xiàn)學(xué) 習(xí)結(jié)果可讀性方面的改善。在一般的弱假設(shè)中,特征量的各個(gè)維度獨(dú)立地經(jīng)歷閾值判別,并且難以實(shí)現(xiàn)良好 的性能,除非使用許多弱假設(shè)。而且,在使用許多弱假設(shè)的情況下,用戶變得難以掌握學(xué)習(xí) 之后的弱假設(shè)的配置。與此形成對(duì)照,通過(guò)本發(fā)明的上述實(shí)施例,貝葉斯網(wǎng)絡(luò)(BN)用作弱 假設(shè),并且通過(guò)輸入學(xué)習(xí)樣本使用BN弱假設(shè)來(lái)進(jìn)行推斷。因此,將判別對(duì)象的特征量與分 別對(duì)應(yīng)于特征量的各個(gè)維度的多個(gè)判別表面相比較,以便可以獲得高性能。而且,通過(guò)本發(fā) 明,可以產(chǎn)生下述良好結(jié)果使用BN弱假設(shè)在助推中減少弱假設(shè)的數(shù)目,并且改善學(xué)習(xí)結(jié) 果的可讀性。通過(guò)本發(fā)明的實(shí)施例,弱假設(shè)貝葉斯網(wǎng)絡(luò)的判別目標(biāo)節(jié)點(diǎn)的推斷概率用作弱假設(shè) 的輸出,并且通過(guò)多個(gè)弱判別器獲得的判別對(duì)象的各個(gè)判別結(jié)果被組合,以便可以提高判 別性能,同時(shí)減少將要使用的弱假設(shè)的數(shù)目。通過(guò)本發(fā)明的實(shí)施例,弱假設(shè)貝葉斯網(wǎng)絡(luò)的特征量節(jié)點(diǎn)的維度的數(shù)目受到限制, 以便可以減少學(xué)習(xí)時(shí)間,可以減少判別時(shí)的計(jì)算量,并且可以實(shí)現(xiàn)學(xué)習(xí)結(jié)果可讀性方面的改善。通過(guò)本發(fā)明的實(shí)施例,文本可以包括在判別對(duì)象中,并且可以執(zhí)行對(duì)意見(jiàn)語(yǔ)句或 其它種類的文本的二元判別。通過(guò)本發(fā)明的實(shí)施例,基于弱假設(shè)貝葉斯網(wǎng)絡(luò)的判別目標(biāo)節(jié)點(diǎn)的推斷概率是否大 于預(yù)定值,判別器可以確定弱假設(shè)的正誤。通過(guò)本發(fā)明的實(shí)施例,學(xué)習(xí)部可以縮短學(xué)習(xí)時(shí)間,并且可以通過(guò)減少將要使用的 弱假設(shè)的數(shù)目而改善學(xué)習(xí)結(jié)果的可讀性。通過(guò)本發(fā)明的實(shí)施例,由一個(gè)弱假設(shè)使用的特征量維度的數(shù)目受到限制,并且這 樣一來(lái)就可以減少將要估計(jì)的弱假設(shè)候選的數(shù)目。因此,可以縮短學(xué)習(xí)時(shí)間。通過(guò)本發(fā)明的實(shí)施例,在用于一個(gè)弱假設(shè)的特征量維度的數(shù)目為1的假定之下計(jì) 算每個(gè)維度的一維弱假設(shè)的估計(jì)值,并且通過(guò)以維度的估計(jì)值的降序方式組合用于弱假設(shè) 的必要數(shù)目的特征量維度來(lái)創(chuàng)建弱假設(shè)候選。因此,可以減少將要估計(jì)的弱假設(shè)候選的數(shù) 目,并且可以縮短學(xué)習(xí)時(shí)間。通過(guò)本發(fā)明的下述實(shí)施例以及參考附圖進(jìn)行的詳細(xì)描述,本發(fā)明的將要解決的上 述和其它問(wèn)題以及特征和優(yōu)點(diǎn)將會(huì)變得明顯。
圖1是圖示文本判別設(shè)備10的配置的示意圖;圖2是圖示判別器13的內(nèi)部配置的示意圖;圖3是圖示表達(dá)用于判別意見(jiàn)語(yǔ)句的弱假設(shè)的貝葉斯網(wǎng)絡(luò)的配置的例子的示圖;圖4是圖示用于使用助推、使用貝葉斯網(wǎng)絡(luò)作為弱假設(shè)來(lái)學(xué)習(xí)弱判別器的處理過(guò) 程的流程圖;圖5A是圖示作為弱假設(shè)的貝葉斯網(wǎng)絡(luò)的例子的示圖;圖5B是圖示作為弱假設(shè)的貝葉斯網(wǎng)絡(luò)的例子的示圖;圖6是圖示用于使用作為弱假設(shè)的貝葉斯網(wǎng)絡(luò)、使用助推來(lái)判別意見(jiàn)語(yǔ)句的處理過(guò)程的流程圖;圖7是圖示在將本發(fā)明應(yīng)用于文本判別的情況下弱假設(shè)的數(shù)目與性能(具有貝葉 斯網(wǎng)絡(luò)的助推的性能,所述貝葉斯網(wǎng)絡(luò)包括兩個(gè)特征量節(jié)點(diǎn)和一個(gè)特征量節(jié)點(diǎn),換言之總 共包括三個(gè)節(jié)點(diǎn))之間的關(guān)系的示圖;圖8是圖示用于在不顯著減少BN弱假設(shè)候選當(dāng)中具有最佳估計(jì)的BN弱假設(shè)候選 的估計(jì)值的情況下減少BN弱假設(shè)的數(shù)目的處理過(guò)程的流程圖;圖9A是圖示用于在不顯著減少BN弱假設(shè)候選當(dāng)中具有最佳估計(jì)的BN弱假設(shè)候 選的估計(jì)值的情況下減少BN弱假設(shè)的數(shù)目的處理過(guò)程的示圖;圖9B是圖示用于在不顯著減少BN弱假設(shè)候選當(dāng)中具有最佳估計(jì)的BN弱假設(shè)候 選的估計(jì)值的情況下減少BN弱假設(shè)的數(shù)目的處理過(guò)程的示圖;圖10A是用于說(shuō)明通過(guò)具有一維特征量的弱假設(shè)進(jìn)行的判別方法的性能的示圖;圖10B是用于說(shuō)明使用作為弱假設(shè)的貝葉斯網(wǎng)絡(luò)的判別方法的性能的示圖;圖10C是用于說(shuō)明使用作為弱假設(shè)的特征量差別的判別方法的性能的示圖;圖11是圖示對(duì)其應(yīng)用意見(jiàn)語(yǔ)句判別的系統(tǒng)的配置的例子的示意圖;以及圖12是圖示信息設(shè)備的配置的例子的示圖。
具體實(shí)施例方式在下文中,將參考附圖對(duì)其中將本發(fā)明應(yīng)用于文本判別的實(shí)施例給予詳細(xì)的描 述。作為文本判別的例子,可以給出“意見(jiàn)語(yǔ)句判別”,其判別輸入的語(yǔ)句是否是意見(jiàn) 語(yǔ)句。意見(jiàn)語(yǔ)句是包括對(duì)一定事物持有的主意的語(yǔ)句。意見(jiàn)語(yǔ)句常常包括以“意見(jiàn)”形式 強(qiáng)調(diào)的個(gè)人偏好。例如,語(yǔ)句“我喜歡下棋”包括了個(gè)人意見(jiàn)“喜歡”,所以這個(gè)語(yǔ)句是“意見(jiàn) 語(yǔ)句”。另一方面,語(yǔ)句“音樂(lè)會(huì)將會(huì)在12月2日舉行”是僅陳述事實(shí)而沒(méi)有包括個(gè)人意見(jiàn) 的語(yǔ)句,所以是“非意見(jiàn)語(yǔ)句”。圖11示意性圖示了對(duì)其應(yīng)用意見(jiàn)語(yǔ)句判別的系統(tǒng)的配置的例子。附圖中示出的 系統(tǒng)包括偏好提取部,其從個(gè)人書(shū)寫(xiě)的語(yǔ)句中提取偏好信息;以及服務(wù)提供部,其基于個(gè) 人偏好信息提供諸如偏好呈現(xiàn)之類的服務(wù)。在偏好提取部1101中,意見(jiàn)語(yǔ)句判別部1101A—個(gè)接一個(gè)地從個(gè)人文件數(shù)據(jù)庫(kù) 1101B中取出個(gè)人書(shū)寫(xiě)的語(yǔ)句,判別是否是意見(jiàn)語(yǔ)句,并且僅提取包括強(qiáng)烈意見(jiàn)性的語(yǔ)句。 而且個(gè)人偏好估計(jì)部1101C估計(jì)并提取對(duì)象,并且一個(gè)接一個(gè)地將偏好存儲(chǔ)在個(gè)人偏好信 息數(shù)據(jù)庫(kù)1101D中作為個(gè)人偏好信息。另一方面,服務(wù)提供部1102呈現(xiàn)個(gè)人偏好作為例子。個(gè)人偏好判別部1102A判 別存儲(chǔ)在個(gè)人偏好信息數(shù)據(jù)庫(kù)1101D中的每個(gè)條目,并且確定是正還是負(fù)。而且個(gè)人偏好 呈現(xiàn)部1102B根據(jù)偏好條目的數(shù)目顯示標(biāo)記,例如作為來(lái)自個(gè)人博客的主觀語(yǔ)句提取的結(jié)
果 o可以說(shuō),隨著預(yù)處理從個(gè)人書(shū)寫(xiě)的許多語(yǔ)句如日記、博客等中提取個(gè)人偏好,判別 意見(jiàn)語(yǔ)句是有效的。而且,從個(gè)人書(shū)寫(xiě)的語(yǔ)句中提取的偏好信息不僅用于起到對(duì)個(gè)人偏好 進(jìn)行分類和呈現(xiàn)(反饋)的作用,以及起到對(duì)購(gòu)買(mǎi)內(nèi)容、商品等等進(jìn)行推薦的作用,而且還 用于擴(kuò)展到不同種類的業(yè)務(wù)。明顯地,如果將要用于預(yù)處理的意見(jiàn)語(yǔ)句的判別性能提高,則可以獲得正確的偏好呈現(xiàn)和準(zhǔn)確的內(nèi)容推薦。意見(jiàn)語(yǔ)句判別部1101A包括判別器B,該判別器B輸出輸入語(yǔ)句s的意見(jiàn)語(yǔ)句判別 結(jié)果t。判別器B可以通過(guò)以下表達(dá)式(1)來(lái)表達(dá)。注意,如果輸入語(yǔ)句是意見(jiàn)語(yǔ)句,則輸 出t為“1”。反之,如果輸入語(yǔ)句是非意見(jiàn)語(yǔ)句,則輸出t為“_1”。t = B(s)... (1)圖1示意性地圖示了作為判別器B來(lái)操作的文本判別設(shè)備10的配置。文本判別 設(shè)備10包括輸入部11,其接收將要成為用于每個(gè)語(yǔ)句的判別對(duì)象的文本輸入;特征量提 取部12,其提取輸入語(yǔ)句的特征量;判別器13,其基于輸入語(yǔ)句所持有的特征量來(lái)確定輸 入語(yǔ)句是否是意見(jiàn)語(yǔ)句;以及學(xué)習(xí)部14,其執(zhí)行判別器13的在先學(xué)習(xí)。輸入部11在學(xué)習(xí)時(shí)從學(xué)習(xí)樣本中捕捉輸入語(yǔ)句s,并且在用于每個(gè)語(yǔ)句的判別時(shí) 從判別對(duì)象如日記、博客等中捕捉輸入語(yǔ)句s。下一步,特征量提取部12從輸入語(yǔ)句s中 提取一個(gè)或多個(gè)特征量f,并且將特征量供應(yīng)給判別器13。特征量提取部12輸出特征量向 量,該特征量向量具有在用于單詞的每個(gè)(語(yǔ)音、語(yǔ)法或語(yǔ)義)特性或用于作為維度要素的 每個(gè)單詞的輸入語(yǔ)句中計(jì)數(shù)的出現(xiàn)頻率的信息。在本發(fā)明中,使用助推以便集成作為判別器13的弱假設(shè)的輸出。圖2示意性地圖
示了判別器13的內(nèi)部配置。如圖所示的判別器13包括多個(gè)弱判別器21-1、21-2.......以
及組合器22。在Adaboost的情況下,組合器包括加法器,該加法器通過(guò)將各個(gè)弱判別器的 輸出與各個(gè)權(quán)重相乘而獲得加權(quán)擇多判決。弱判別器21-1......中的每一個(gè)具有對(duì)應(yīng)一個(gè)弱假設(shè),該弱假設(shè)基于輸入語(yǔ)句s
所持有的d維特征量f⑴,f⑵,......,和f(d)(換言之即d維特征量向量)確定輸入語(yǔ)句s
是意見(jiàn)語(yǔ)句還是非意見(jiàn)語(yǔ)句。弱判別器21-1......中的每一個(gè)用自身弱假設(shè)中的每一個(gè)
檢查從特征量提取部12 (之前描述)供應(yīng)的特征量向量,并且輸出輸入語(yǔ)句s是否是意見(jiàn) 語(yǔ)句的估計(jì)值。并且加法器22計(jì)算這些弱判別結(jié)果的加權(quán)擇多判決B (s),并將其輸出作為 判別器13的判別結(jié)果t。通過(guò)使用助推的學(xué)習(xí)部14所執(zhí)行的在先學(xué)習(xí)來(lái)獲得用于意見(jiàn)語(yǔ)句判別的弱判別 器(或弱判別器所使用的弱假設(shè))21-1......和將要由各個(gè)弱判別器21-1......相乘的權(quán)重。在學(xué)習(xí)弱假設(shè)時(shí),多個(gè)語(yǔ)句用作經(jīng)歷了在兩個(gè)類別(亦即是意見(jiàn)語(yǔ)句還是非意見(jiàn) 語(yǔ)句)之間進(jìn)行判別(換言之,經(jīng)歷了作標(biāo)記)的學(xué)習(xí)樣本,并且特征量提取部12針對(duì)
每個(gè)學(xué)習(xí)樣本提取的特征量向量被輸入到各個(gè)弱判別器21-1......中。并且弱判別器
21-1......已預(yù)先學(xué)習(xí)了意見(jiàn)語(yǔ)句和非意見(jiàn)語(yǔ)句的各個(gè)特征量的弱假設(shè)。換言之,通過(guò)使
用學(xué)習(xí)樣本進(jìn)行學(xué)習(xí),已一個(gè)接一個(gè)地生成了弱假設(shè)。在這樣的學(xué)習(xí)過(guò)程中,根據(jù)各個(gè)弱假
設(shè)的可靠性的加權(quán)擇多判決的權(quán)重被學(xué)習(xí)。盡管弱判別器21-1......中的每一個(gè)不具有
高判別能力,但是作為對(duì)多個(gè)弱判別器21-1......進(jìn)行組合的結(jié)果,建立了整體上具有高
判別能力的判別器13。另一方面,在判別時(shí),各個(gè)弱判別器21-1......將輸入語(yǔ)句s所持有的特征量與
預(yù)先學(xué)習(xí)的弱假設(shè)相比較,并且確定地或隨機(jī)地輸出輸入語(yǔ)句是否是意見(jiàn)語(yǔ)句的估計(jì)值。
加法器22在隨后的階段中將從各個(gè)弱判別器21-1......輸出的估計(jì)值與分別對(duì)應(yīng)于各個(gè)
弱判別器21-1......的可靠性的權(quán)重al......相乘,并且輸出加權(quán)擇多判決值。
7
如上所述,使用了對(duì)多個(gè)弱假設(shè)的輸出進(jìn)行集成的助推。本發(fā)明具有的特征之一 在于,貝葉斯網(wǎng)絡(luò)(BN)用作弱假設(shè)。這里,貝葉斯網(wǎng)絡(luò)是一種形成為具有一組隨機(jī)變量作為節(jié)點(diǎn)的網(wǎng)絡(luò)(也被稱為概 率網(wǎng)絡(luò)或偶然網(wǎng)絡(luò))。貝葉斯網(wǎng)絡(luò)是一種圖形模型,它通過(guò)連接一對(duì)直接影響的節(jié)點(diǎn)(例如 指示X直接影響Y的從節(jié)點(diǎn)X至節(jié)點(diǎn)Y的箭頭),用概率來(lái)描述因果關(guān)系。然而,網(wǎng)絡(luò)是有 向非循環(huán)圖(DAG),它在箭頭方向上沒(méi)有循環(huán)。而且,每個(gè)節(jié)點(diǎn)具有條件概率分布,其中雙親 節(jié)點(diǎn)(箭頭的根部)對(duì)所關(guān)心節(jié)點(diǎn)的影響被量化。貝葉斯網(wǎng)絡(luò)是廣泛用于非確定環(huán)境下的 推斷問(wèn)題的表達(dá)形式(公知常識(shí))。當(dāng)對(duì)文本執(zhí)行意見(jiàn)語(yǔ)句判別時(shí),可以想到的是,從輸入語(yǔ)句s提取的一個(gè)或多于 一個(gè)的維度的特征量可以直接影響輸入語(yǔ)句s的意見(jiàn)語(yǔ)句判別結(jié)果,直接影響可以在具有 不同維度的特征量之間發(fā)生,意見(jiàn)語(yǔ)句判別結(jié)果可以直接影響具有特定維度的特征量。因 此,用于判別意見(jiàn)語(yǔ)句的弱假設(shè)可以通過(guò)貝葉斯網(wǎng)絡(luò)來(lái)表達(dá),該貝葉斯網(wǎng)絡(luò)使用具有預(yù)定 數(shù)目的維度的特征量和輸入語(yǔ)句s的意見(jiàn)語(yǔ)句判別結(jié)果作為輸入節(jié)點(diǎn),并且使用要被判別 的節(jié)點(diǎn)作為輸出節(jié)點(diǎn),而且用箭頭連接一對(duì)直接影響的節(jié)點(diǎn)。并且弱假設(shè)貝葉斯網(wǎng)絡(luò)的要 被判別的節(jié)點(diǎn)的推斷概率被確定為弱假設(shè)的輸出。而且,取決于弱假設(shè)貝葉斯網(wǎng)絡(luò)的要被 判別的節(jié)點(diǎn)的推斷概率是否大于某個(gè)值,可以判別弱假設(shè)的正誤。在下文中,對(duì)應(yīng)于特征量的節(jié)點(diǎn)被稱為“特征量節(jié)點(diǎn)”,并且對(duì)應(yīng)于意見(jiàn)語(yǔ)句判別 結(jié)果的節(jié)點(diǎn)被稱為“輸出節(jié)點(diǎn)”。通過(guò)特征量節(jié)點(diǎn)和輸出節(jié)點(diǎn)的有向非循環(huán)圖表達(dá)的弱假設(shè) 也被稱為“BN弱假設(shè)”。BN弱假設(shè)具有兩種參數(shù)對(duì)于當(dāng)值被輸入到全部特征量節(jié)點(diǎn)中時(shí)輸出節(jié)點(diǎn)的概 率估計(jì)而言必要的條件概率分布和各個(gè)特征量節(jié)點(diǎn)的閾值。這些參數(shù)對(duì)于計(jì)算BN弱假設(shè) 的估計(jì)值而言是必要的。圖3圖示了表達(dá)用于判別意見(jiàn)語(yǔ)句的弱假設(shè)的貝葉斯網(wǎng)絡(luò)的配置的例子。在如圖 所示的例子中,貝葉斯網(wǎng)絡(luò)包括三個(gè)節(jié)點(diǎn),亦即二維特征量節(jié)點(diǎn)(輸入1,輸入2)和判別結(jié) 果t的輸出節(jié)點(diǎn)(輸出)。各個(gè)特征量節(jié)點(diǎn)通過(guò)箭頭連接到作為BN弱假設(shè)判別結(jié)果的輸出 節(jié)點(diǎn),作為直接影響輸出節(jié)點(diǎn)的雙親節(jié)點(diǎn)。并且如圖所示的BN弱假設(shè)具有兩種參數(shù),亦即對(duì)于當(dāng)值被輸入到全部特征量節(jié) 點(diǎn)中時(shí)輸出節(jié)點(diǎn)的概率估計(jì)而言必要的條件概率分布和各個(gè)特征量節(jié)點(diǎn)的閾值。如果作為 輸入節(jié)點(diǎn)的各個(gè)特征量節(jié)點(diǎn)(輸入1,輸入2)是二元離散節(jié)點(diǎn),則可以如下面的表1那樣描 述各個(gè)特征量節(jié)點(diǎn)的閾值。而且,如果各個(gè)特征量節(jié)點(diǎn)是離散節(jié)點(diǎn),則對(duì)于輸出節(jié)點(diǎn)概率估 計(jì)而言必要的條件概率分布可以被描述為如下面的表2所示的條件概率表。表 1圖4作為流程示了用于使用助推、使用貝葉斯網(wǎng)絡(luò)作為弱假設(shè)來(lái)學(xué)習(xí)弱判別 器的處理過(guò)程。在下文中,參考附圖對(duì)于在學(xué)習(xí)部14中使用貝葉斯網(wǎng)絡(luò)作為弱假設(shè)的助推 中的學(xué)習(xí)方法給出詳細(xì)的描述。特征量提取部12輸出特征量向量,該特征量向量具有在用于單詞的每個(gè)(語(yǔ)音、 語(yǔ)法或語(yǔ)義)特性或用于作為維度要素的每個(gè)單詞的輸入語(yǔ)句中計(jì)數(shù)的出現(xiàn)頻率的信息。 在下文中,假定特征量提取部12從第k個(gè)輸入語(yǔ)句sk中提取d個(gè)特征量f,
(1)
fk(d),換言之即通過(guò)以下表達(dá)式⑵表達(dá)的d維特征量向量£ (sk) 特征量提取部12例如可以基于輸入語(yǔ)句的形態(tài)學(xué)分析結(jié)果來(lái)提取特征量。更 加具體地,特征量向量是已登記單詞的出現(xiàn)頻率、語(yǔ)音部分的出現(xiàn)頻率、其二元語(yǔ)法 (bi-gram)等。而且,特征量提取部12可以處理可以在自然語(yǔ)言處理中正常使用的任何其 它特征量,并且可以并行安排特征量以同時(shí)使用它們。在助推學(xué)習(xí)時(shí),特征量提取部12從全部學(xué)習(xí)樣本T中提取特征量向量。用于判別 兩種類別的判別標(biāo)記y附著到學(xué)習(xí)樣本T中的每-
-個(gè)(如果第k個(gè)語(yǔ)句學(xué)習(xí)樣本sk是意見(jiàn)
語(yǔ)句,則yk= 1,并且如果是非意見(jiàn)語(yǔ)句,則yk = -l)。假定學(xué)習(xí)樣本T的語(yǔ)句的總數(shù)為m, 特征量提取部12已提取特征量之后的學(xué)習(xí)樣本T可以通過(guò)以下表達(dá)式(3)來(lái)表達(dá)。
T 二而且,在判別意見(jiàn)語(yǔ)句時(shí)反映難度水平等的樣本權(quán)重wk被添加到學(xué)習(xí)樣本T中包 括的每個(gè)樣本sk。提取特征量之后的學(xué)習(xí)樣本,換言之即用于每個(gè)樣本sk的判別標(biāo)記yk和 特征向量fk,連同樣本權(quán)重—起被輸入(步驟S41)。下一步,創(chuàng)建多個(gè)BN弱假設(shè)候選(在下文中被稱為“BN弱假設(shè)候選”)(步驟S42),
9其將特征量的各個(gè)維度作為用于弱判別器21-1......的節(jié)點(diǎn)。如上所述,BN弱假設(shè)包括“特征量節(jié)點(diǎn)”,其將具有一個(gè)或多于一個(gè)的維度的特征 量的輸入作為輸入節(jié)點(diǎn),并且將意見(jiàn)語(yǔ)句判別結(jié)果作為“輸出節(jié)點(diǎn)”,而且通過(guò)用箭頭將一 對(duì)直接影響的節(jié)點(diǎn)連接起來(lái)的貝葉斯網(wǎng)絡(luò)來(lái)表達(dá)(參見(jiàn)圖3)。在步驟42中,具有全部所述 結(jié)構(gòu)的貝葉斯網(wǎng)絡(luò)可以簡(jiǎn)單地被創(chuàng)建為BN弱假設(shè)候選。然而,如圖5A所示,多種有向非循 環(huán)圖(DAG)被給出作為使用二維特征量的貝葉斯網(wǎng)絡(luò)??梢韵氲降氖?,根據(jù)將要成為用于 每個(gè)圖的雙親節(jié)點(diǎn)的特征量的組合,存在dC2個(gè)BN弱假設(shè)候選。以相同的方式,如圖5B所 示,多種有向非循環(huán)圖(DAG)被給出作為使用三維特征量的貝葉斯網(wǎng)絡(luò)。可以想到的是,根 據(jù)將要成為用于每個(gè)圖的雙親節(jié)點(diǎn)的特征量的組合,存在dC3個(gè)BN弱假設(shè)候選。簡(jiǎn)言之,具 有n個(gè)節(jié)點(diǎn)的BN弱假設(shè)候選的總數(shù)變成巨大的數(shù),如通過(guò)以下表達(dá)式⑷示出的那樣。因 此,在計(jì)算成本等方面,估計(jì)所有的作為BN弱假設(shè)候選的結(jié)構(gòu)是不現(xiàn)實(shí)的。
-(n-l)2-(n-l)2/ \22 nl.22 (4 J因此,在步驟S42中,不是所有的結(jié)構(gòu)都用作BN弱假設(shè)候選,而是BN弱假設(shè)的候 選的數(shù)目已被減少到L。作為減少候選數(shù)目的方法,例如有對(duì)將要在一個(gè)貝葉斯網(wǎng)絡(luò)中使用 的特征量的維度的數(shù)目(如圖5A所示,維度的數(shù)目為2,或者如圖5B所示,維度的數(shù)目為3) 進(jìn)行限制的方法,以及簡(jiǎn)單地僅創(chuàng)建L個(gè)貝葉斯網(wǎng)絡(luò)的方法。而且,可以通過(guò)以下減少BN 弱假設(shè)的候選的數(shù)目?jī)H提供L個(gè)網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)允許使用結(jié)構(gòu)化學(xué)習(xí)算法(公知常 識(shí))如K2、PC等更加正確地表達(dá)學(xué)習(xí)樣本。在下文中,為了方便起見(jiàn),將在下述假定之下給 出描述網(wǎng)絡(luò)結(jié)構(gòu)被限制到只有一種,其示出在圖5A中的頁(yè)面空間上的最左側(cè),并且使用L =dC2( = d(d-l)/2)個(gè)BN弱假設(shè)候選。粗略地說(shuō),學(xué)習(xí)BN弱假設(shè)的方法是執(zhí)行包括以下的處理循環(huán)學(xué)習(xí)(步驟S44)用 于每個(gè)BN弱假設(shè)候選的最優(yōu)參數(shù);使用學(xué)習(xí)樣本T計(jì)算(步驟S45)估計(jì)值;以及對(duì)樣本權(quán) 重計(jì)算(步驟S50)與必要的BN弱假設(shè)的數(shù)目相對(duì)應(yīng)的次數(shù)。在每次的處理循環(huán)中,基于 計(jì)算的估計(jì)值按順序選擇具有最佳性能的BN弱假設(shè)候選。在步驟S42中創(chuàng)建的L個(gè)BN弱假設(shè)候選中之一被提取(步驟S43),然后,首先對(duì) 提取的BN弱假設(shè)候選學(xué)習(xí)最優(yōu)參數(shù)(步驟S44)。如上所述,在BN弱假設(shè)的情況下,對(duì)于計(jì)算估計(jì)值而言必要的參數(shù)是兩種參數(shù), 亦即對(duì)于當(dāng)值被輸入到全部特征量節(jié)點(diǎn)中時(shí)的概率估計(jì)而言必要的條件概率分布和各個(gè) 特征量節(jié)點(diǎn)的閾值。以與一般助推相同的方式,這些參數(shù)被獲得,使得BN弱假設(shè)候選的估 計(jì)值變得最大。通過(guò)對(duì)全部特征量節(jié)點(diǎn)的組合執(zhí)行全面搜索以得到最優(yōu)組合,可以獲得各 個(gè)特征量節(jié)點(diǎn)的閾值。而且,使用一般的BN條件概率分布算法可以獲得條件概率分布。下一步,在學(xué)習(xí)參數(shù)之后,對(duì)于BN弱假設(shè)候選針對(duì)全部學(xué)習(xí)樣本計(jì)算估計(jì)值(步 驟 S45)。為了在助推中從如以下表達(dá)式(5)所示的!^個(gè)弱假設(shè)候選則卜、,...,、}中選 擇具有最佳性能的弱假設(shè)候選h*,有必要對(duì)于每個(gè)弱假設(shè)候選、計(jì)算如以下表達(dá)式(6)所 表達(dá)的估計(jì)值E(h)。注意,在以下表達(dá)式中,h指示第一弱假設(shè)候選,并且1是小于L的正整數(shù)。
在一般助推的情況下,如以下表達(dá)式(7)所示,所有的學(xué)習(xí)樣本T被輸入到弱假設(shè) 候選h中,并且其輸出t等于標(biāo)記yk的樣本sk的樣本權(quán)重wks的全體值等(換言之,已正 確判別了是否是意見(jiàn)語(yǔ)句)用于弱假設(shè)候選h的估計(jì)值EQO。
在一般的弱假設(shè)hlg中,僅使用d維特征量當(dāng)中的一維特征來(lái)計(jì)算輸出。如以下 表達(dá)式(8)所示,通過(guò)從作為輸入值的特征量fk與符號(hào)的乘積產(chǎn)生的值是否大于閾值 0/,來(lái)確定弱假設(shè)hlg的輸出。
注意,在上面的表達(dá)式(8)中使用的符號(hào)v*和閾值0 *是在計(jì)算估計(jì)值之前對(duì)于 每個(gè)弱假設(shè)候選hlg獨(dú)立地獲得的,使得一般弱假設(shè)候選hlg的估計(jì)值E (hlg)變得最大,如 以下表達(dá)式(9)所示。
_7] { 在一般的弱假設(shè)中,特征量的各個(gè)維度經(jīng)歷閾值判別,因此在不使用許多弱假設(shè) 的情況下難以產(chǎn)生良好性能。而且,在使用許多弱假設(shè)的情況下,用戶變得難以在學(xué)習(xí)之后 掌握弱假設(shè)的配置。而且,難以通過(guò)具有不足計(jì)算能力的硬件來(lái)實(shí)現(xiàn)判別器。與此形成對(duì)照,在本發(fā)明中,貝葉斯網(wǎng)絡(luò)(BN)用作弱假設(shè),并且在輸入學(xué)習(xí)樣本 的情況下通過(guò)使用BN弱假設(shè)來(lái)進(jìn)行推斷。具體地,如以下表達(dá)式(10)所示,第k個(gè)樣本 sk的特征量向量fk被輸入,并且具有分配給判別結(jié)果tk的節(jié)點(diǎn)(輸出)的最高推斷概率 Phl(tk|fk)的事件(意見(jiàn)語(yǔ)句或非意見(jiàn)語(yǔ)句)被確定為BN弱假設(shè)候選h 的輸出。在這樣 的情況下,以與上述一般算法相同的方式,可以使用上面的表達(dá)式(7)來(lái)計(jì)算每個(gè)BN弱假 設(shè)候選hr的估計(jì)值EGO。
…(10) 在這點(diǎn)上,作為除了上面的表達(dá)式(7)之外的計(jì)算BN弱假設(shè)候選的估計(jì)值的方法 (類型2),可以使用事件的概率值等于輸出節(jié)點(diǎn)(輸出)的標(biāo)記的所有學(xué)習(xí)樣本的加權(quán)總 值作為估計(jì)值。換言之,如以下表達(dá)式(11)所示,對(duì)于第k個(gè)樣本sk的特征量向量fk而言 等于貝葉斯網(wǎng)絡(luò)的輸出節(jié)點(diǎn)(輸出)的標(biāo)記的事件yk的概率值Phl(yk|fk)被計(jì)算。進(jìn)一步, 對(duì)于每個(gè)樣本乘以加權(quán)因子《ks,并且對(duì)于所有學(xué)習(xí)樣本T的加權(quán)概率值的總值被計(jì)算成為 BN弱假設(shè)候選h 的估計(jì)值EQ^ )。注意,在以下表達(dá)式(11)中,所有學(xué)習(xí)樣本T的樣本
11的總數(shù)被假定為m。
代替地,作為除了上面的表達(dá)式(7)之外的計(jì)算BN弱假設(shè)候選的估計(jì)值的方法 (類型3),如以下表達(dá)式(12)所示,可以使用信息量參考如BIC、AIC等來(lái)計(jì)算BN弱假設(shè)候 選h 的估計(jì)值EQ!,。由此可以使用一種指數(shù),該指數(shù)指示了弱假設(shè)候選h 的結(jié)構(gòu)如 何正確地估計(jì)了所有的學(xué)習(xí)樣本。 無(wú)論使用上述表達(dá)式(7)、(11)和(12)中的哪一個(gè),為了計(jì)算BN弱假設(shè)候選h 的估計(jì)值EG!,),都有必要具有兩種參數(shù),亦即對(duì)于當(dāng)值被輸入到全部特征量節(jié)點(diǎn)中時(shí)輸 出節(jié)點(diǎn)的概率估計(jì)而言必要的條件概率分布和各個(gè)特征量節(jié)點(diǎn)j的閾值e *。如果 各個(gè)特征量節(jié)點(diǎn)全都是離散節(jié)點(diǎn),則各個(gè)特征量節(jié)點(diǎn)的閾值0 以被描述為表1,并且 條件概率分布A *可以被描述為如表2所示的條件概率表(之前描述)。在步驟S45中使用上述表達(dá)式(7)、(11)和(12)中的任何一個(gè)計(jì)算估計(jì)值E (hf) 之前,有必要已在步驟S44中計(jì)算了兩種參數(shù),亦即條件概率分布和各個(gè)特征量節(jié)點(diǎn)j 的閾值、〃。以與一般助推相同的方式,例如可以根據(jù)以下表達(dá)式(13)計(jì)算上述值,以便 各個(gè)BN弱假設(shè)候選hf的估計(jì)值E (h^變得最大。 在上述表達(dá)式(13)中,通過(guò)組合所有的特征量節(jié)點(diǎn)并進(jìn)行全面搜索,可以獲得各 個(gè)特征量的閾值。而且,使用一般的BN條件概率分布算法可以獲得條件概率分布。對(duì)于在步驟S42中按順序創(chuàng)建的所有L個(gè)BN弱假設(shè)候選,執(zhí)行在步驟S44中進(jìn)行 的學(xué)習(xí)BN弱假設(shè)候選h 的參數(shù)以及在步驟S45中進(jìn)行的計(jì)算BN弱假設(shè)候選h 的估計(jì) 值 E (hD。并且當(dāng)對(duì)于所有BN弱假設(shè)候選h 進(jìn)行的計(jì)算估計(jì)值E (h^)完成(在步驟S46 中為是)時(shí),它們之中具有最高估計(jì)值的BN弱假設(shè)候選被選擇作為將要用于第n個(gè)弱判別 器21-n的BN弱假設(shè)(步驟S47)(注意,n是從1至L的整數(shù),并且對(duì)應(yīng)于處理循環(huán)中的重 復(fù)次數(shù))。下一步,以與一般助推相同的方式,基于所選擇的BN弱假設(shè)候選的估計(jì)值,設(shè)置 將要給予弱判別器21-t的BN弱假設(shè)權(quán)重a n(步驟S48)。假定被選擇作為第n個(gè)弱判別 器21-n的BN弱假設(shè)的估計(jì)值為en,例如,在AdaBoost的情況下,使用以下表達(dá)式(14)可 以計(jì)算BN弱假設(shè)權(quán)重an。an= l/21n(en/l-en)…(14)
在步驟S47中選擇的BN弱假設(shè)以及在步驟S48中計(jì)算的BN弱假設(shè)權(quán)重被一個(gè)接 一個(gè)地存儲(chǔ)作為助推學(xué)習(xí)結(jié)果。如上所述的選擇將要用作判別器21-n的BN弱假設(shè)以及弱假設(shè)權(quán)重計(jì)算處理S42 至S48被重復(fù)地執(zhí)行,直到所選擇的BN弱假設(shè)的總數(shù)n達(dá)到預(yù)定數(shù)目(步驟S49)。這里,為了選擇下一個(gè)BN弱假設(shè),當(dāng)再次返回到BN弱假設(shè)候選的創(chuàng)建處理(步驟 S42)時(shí)(在步驟S49中為否),基于在步驟S47中采用的BN弱假設(shè)來(lái)更新(步驟S50)包 括在學(xué)習(xí)樣本T中的每個(gè)樣本sk的樣本權(quán)重wk。例如,如以下表達(dá)式(15)所示,可以基于 針對(duì)每個(gè)樣本sk而言的判別標(biāo)記yk和特征向量fk以及對(duì)于各個(gè)樣本sk的判別結(jié)果ht (fk) 來(lái)計(jì)算樣本權(quán)重。 在這點(diǎn)上,在使用貝葉斯網(wǎng)絡(luò)作為弱假設(shè)的助推學(xué)習(xí)的上述描述中,假定所有的 特征量節(jié)點(diǎn)都具有離散值(二元值)。然而,本發(fā)明的要旨不一定限于此。例如,如果特征 量節(jié)點(diǎn)中的一部分或全部是多取值節(jié)點(diǎn)或連續(xù)節(jié)點(diǎn),只要可以估計(jì)輸出節(jié)點(diǎn)的概率,那么 也不會(huì)有問(wèn)題。而且,可以應(yīng)用于本發(fā)明的助推算法不限于AdaBoost(離散AdaBoost)。例如,如 以下表達(dá)式(16)所示,弱假設(shè)輸出連續(xù)的值,以便助推算法如Gentle Boost或Real Boost 等也可以應(yīng)用于本發(fā)明。 通過(guò)根據(jù)圖4所示的處理過(guò)程的助推學(xué)習(xí),可以獲得包括BN弱假設(shè)的弱判別器的 需求數(shù)目,并且可以使用各個(gè)弱判別器的BN弱假設(shè)權(quán)重來(lái)判別意見(jiàn)語(yǔ)句。圖6通過(guò)流程示了以貝葉斯網(wǎng)絡(luò)作為弱假設(shè)使用助推來(lái)判別意見(jiàn)語(yǔ)句的處
理過(guò)程。作為上述助推的學(xué)習(xí)結(jié)果,假定與弱判別器21-1......相同數(shù)目的BN弱假設(shè)及
其BN弱假設(shè)的權(quán)重被存儲(chǔ)。 首先,特征量提取部12從將要成為判別對(duì)象的輸入語(yǔ)句中提取特征量向量(步驟 S61)。下一步,判別器13用0來(lái)初始化判別值(步驟S62)。這里,提取通過(guò)助推學(xué)習(xí)獲得的BN弱假設(shè)中之一(步驟S63)。下一步,在步驟S61所獲得的特征量向量之中,被分配給表達(dá)BN弱假設(shè)的貝葉斯 網(wǎng)絡(luò)的各個(gè)特征量節(jié)點(diǎn)的特征量維度數(shù)目被輸入(步驟S64)。下一步,使用貝葉斯網(wǎng)絡(luò)推斷算法來(lái)估計(jì)輸出節(jié)點(diǎn)的概率(步驟S65)。并且通過(guò) 將估計(jì)的概率值與對(duì)應(yīng)于BN弱假設(shè)的權(quán)重相乘來(lái)計(jì)算BN弱假設(shè)的輸出(步驟S66)。并且 在步驟S66中計(jì)算的BN弱假設(shè)的輸出被添加到判別值(步驟S67)。如果在步驟S63中提取的第n個(gè)BN弱假設(shè)候選hnBN的特征量節(jié)點(diǎn)全都是離散的
13節(jié)點(diǎn),則在步驟S65的貝葉斯網(wǎng)絡(luò)推斷算法中,對(duì)于每個(gè)特征量節(jié)點(diǎn)j在輸入的特征量維度 值和相應(yīng)的閾值9 〃之間進(jìn)行比較。并且通過(guò)參考條件概率表D/,可以獲得對(duì)于每個(gè)特 征量節(jié)點(diǎn)j的比較結(jié)果的組合所指示的輸出標(biāo)記(輸入語(yǔ)句是意見(jiàn)語(yǔ)句的概率)。通過(guò)將 輸出標(biāo)記的值與BN弱假設(shè)hnBN所持有的BN弱假設(shè)的權(quán)重相乘來(lái)獲得BN弱假設(shè)的輸出,然 后將輸出值添加到判別值。對(duì)于通過(guò)助推學(xué)習(xí)獲得的所有BN弱假設(shè)都執(zhí)行這樣的BN弱假設(shè)的輸出計(jì)算以及 添加到判別值(步驟S68)。并且獲得的最終判別值的符號(hào)指示了輸入語(yǔ)句是意見(jiàn)語(yǔ)句還是 非意見(jiàn)語(yǔ)句。這個(gè)符號(hào)被輸出作為判別結(jié)果(步驟S69),并且這個(gè)處理程序結(jié)束。圖7通過(guò)實(shí)線示出了在將本發(fā)明應(yīng)用于文本判別的情況下弱假設(shè)的數(shù)目和性能 之間的關(guān)系。注意,這是在貝葉斯網(wǎng)絡(luò)包括兩個(gè)特征量節(jié)點(diǎn)和一個(gè)特征量節(jié)點(diǎn)、換言之即總 共三個(gè)節(jié)點(diǎn)的情況下的助推的性能。在附圖中,其中對(duì)于每個(gè)特征量維度而言獨(dú)立地執(zhí)行 閾值判別的一般弱假設(shè)中的性能和弱假設(shè)的數(shù)目之間的關(guān)系為了比較通過(guò)虛線也被示出。如圖所示,在一般的弱假設(shè)中,即使弱假設(shè)的數(shù)目變?yōu)?024,F(xiàn)值也沒(méi)有太大改 善。在這點(diǎn)上,本發(fā)明的發(fā)明人進(jìn)行了一般弱假設(shè)的數(shù)目一直到8192為止的實(shí)驗(yàn)。然而,F(xiàn) 值并沒(méi)有超過(guò)0.8592。與此形成對(duì)照,在使用貝葉斯網(wǎng)絡(luò)用于弱假設(shè)的情況下,僅用大約6 個(gè)弱假設(shè)就可以確保良好的文本判別性能。簡(jiǎn)言之,通過(guò)本發(fā)明,可以說(shuō),使用比現(xiàn)有技術(shù) 的算法更少數(shù)目的弱假設(shè)就可以獲得足夠高的性能。在這點(diǎn)上,即使如圖5A和圖5B所示對(duì)BN弱假設(shè)候選的網(wǎng)絡(luò)結(jié)構(gòu)加以限制,當(dāng)特 征量的維度的數(shù)目大時(shí),弱假設(shè)的候選的數(shù)目L( = dC2( = d(d-l)/2))也變大。圖8作為 流程示了用于在不減少BN弱假設(shè)候選當(dāng)中具有最佳估計(jì)的BN弱假設(shè)候選的估計(jì)值的 情況下減少BN弱假設(shè)的數(shù)目的處理過(guò)程。首先,以與一般助推算法相同的方式,假定為每一個(gè)特征量維度提供一個(gè)弱假設(shè), 計(jì)算用于每個(gè)維度的一維弱假設(shè)的估計(jì)值(步驟S81)。下一步,以一維弱假設(shè)的估計(jì)值的降序排列的方式按順序存儲(chǔ)弱假設(shè)候選,并且 創(chuàng)建具有良好估計(jì)值的弱假設(shè)候選的組合(步驟S82)。圖9A圖示了其中根據(jù)估計(jì)值對(duì)用 于每個(gè)維度的一維弱假設(shè)進(jìn)行分類的狀態(tài)。并且對(duì)于按一維弱假設(shè)估計(jì)值的降序排列的BN弱假設(shè)的必要特征量維度的數(shù) 目,僅有預(yù)定數(shù)目的組合被選擇作為弱假設(shè)候選(步驟S83)。圖9B圖示了其中當(dāng)特征量二 維BN弱假設(shè)候選被創(chuàng)建時(shí)使用高達(dá)6個(gè)組合的狀態(tài)。如圖10A所示,具有一維特征量的弱假設(shè)簡(jiǎn)單地確定具有特定維度(F1)的特征量 是否超過(guò)了閾值(換言之,判別對(duì)象的特征量在附圖中存在于空間中判別表面的哪一側(cè)), 因此判別能力通常較低。與此形成對(duì)照,例如如圖5A所示,如果貝葉斯網(wǎng)絡(luò)用作弱假設(shè),則 即使在包括三個(gè)節(jié)點(diǎn)、亦即包括對(duì)應(yīng)于二維特征量的特征量節(jié)點(diǎn)和對(duì)應(yīng)于判別結(jié)果的輸出 節(jié)點(diǎn)的相對(duì)簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)的情況下,如圖10B所示,判別對(duì)象的特征量與對(duì)應(yīng)于各個(gè)維 度的特征量的判別表面1和2相比較,從而弱假設(shè)水平方面的判別能力較高。因此,在類似 性能的情況下,使用如本發(fā)明的情況下那樣的BN弱假設(shè)可以減少助推弱假設(shè)的數(shù)目。另一方面,存在一種判別方法,其中特征量差別用作弱假設(shè),如上述日本待審專利 申請(qǐng)公布第2005-157679號(hào)中所述。然而,在該方法中,對(duì)兩個(gè)特征量F1和F2之間的差 F1-F2是否超過(guò)閾值簡(jiǎn)單地進(jìn)行確定,換言之,對(duì)特征量存在于如圖10C所示的判別空間中的判別表面的哪一側(cè)簡(jiǎn)單地進(jìn)行確定,因此判別能力通常較低。與此形成對(duì)照,在使用貝葉 斯網(wǎng)絡(luò)作為弱假設(shè)的判別方法中,即使在如圖5A所示的簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)中,也如圖10B所 示提供對(duì)應(yīng)于各個(gè)維度的特征量的判別表面1和2,因此弱假設(shè)水平方面的判別能力較高。 所以,與使用特征量差別作為弱假設(shè)的判別方法相比,在類似性能的情況下,可以說(shuō),使用 如本發(fā)明中的BN弱假設(shè)可以減少助推弱假設(shè)的數(shù)目。在這點(diǎn)上,例如通過(guò)在信息設(shè)備如個(gè)人計(jì)算機(jī)(PC)等上實(shí)施預(yù)定的應(yīng)用,可以實(shí) 現(xiàn)根據(jù)本發(fā)明的文本判別設(shè)備10。圖12圖示了信息設(shè)備的配置。在操作系統(tǒng)(OS)所提供的程序執(zhí)行環(huán)境之下,中央處理單元(CPU) 1201執(zhí)行存儲(chǔ) 在只讀存儲(chǔ)器(ROM) 1202或硬盤(pán)驅(qū)動(dòng)器(HDD) 1211中的程序。例如,通過(guò)CPU 1201執(zhí)行預(yù) 定程序,可以實(shí)現(xiàn)如上所述使用貝葉斯網(wǎng)絡(luò)作為弱假設(shè)的助推學(xué)習(xí)處理,并且可以實(shí)現(xiàn)使 用貝葉斯網(wǎng)絡(luò)作為弱假設(shè)的助推判別處理。ROM 1202持久存儲(chǔ)上電自檢(POST)、基本輸入輸出系統(tǒng)(BIOS)等的程序代碼。 隨機(jī)存取存儲(chǔ)器(RAM) 1203用于當(dāng)由CPU 1201執(zhí)行時(shí)加載存儲(chǔ)在ROM 1202和硬盤(pán)驅(qū)動(dòng)器 (HDD) 1211中的程序,并且用于臨時(shí)存儲(chǔ)正在執(zhí)行的程序的工作數(shù)據(jù)。這些通過(guò)局部總線 1204相互連接,該局部總線1204直接連接到CPU 1201。局部總線1204通過(guò)網(wǎng)橋1205連接到輸入/輸出總線1206如外圍部件互連(PCI)
總線等。鍵盤(pán)1208和指示裝置1209如鼠標(biāo)等是由用戶操作的輸入裝置。顯示器1210包 括液晶顯示器(LCD)或陰極射線管(CRT)等,并且通過(guò)文本和圖像顯示各種信息。HDD 1211是包含作為記錄介質(zhì)的硬盤(pán)的驅(qū)動(dòng)單元,并且驅(qū)動(dòng)硬盤(pán)。硬盤(pán)用于存儲(chǔ) CPU 1201所執(zhí)行的程序如操作系統(tǒng)、各種應(yīng)用程序等以及數(shù)據(jù)文件等。例如,應(yīng)用程序如通過(guò)使用貝葉斯網(wǎng)絡(luò)作為弱假設(shè)的助推進(jìn)行的學(xué)習(xí)處理和通過(guò) 使用貝葉斯網(wǎng)絡(luò)作為弱假設(shè)的助推進(jìn)行的判別處理可以安裝在HDD 1211中。而且,根據(jù)圖 4所示的處理過(guò)程學(xué)習(xí)的多個(gè)BN弱假設(shè)和各個(gè)BN弱假設(shè)的加權(quán)因子可以存儲(chǔ)在HDD 1211 中。而且,可以將針對(duì)助推的用于學(xué)習(xí)處理的學(xué)習(xí)樣本T存儲(chǔ)在HDD 1211中。通信部1212是有線或無(wú)線的通信接口,用于將信息設(shè)備互連到網(wǎng)絡(luò)如局域網(wǎng) (LAN)等。例如,可以通過(guò)通信部1212從外部服務(wù)器(附圖中未示出)向HDD 1211下載應(yīng) 用程序,該應(yīng)用程序執(zhí)行通過(guò)使用貝葉斯網(wǎng)絡(luò)作為弱假設(shè)的助推進(jìn)行的學(xué)習(xí)處理和通過(guò)使 用貝葉斯網(wǎng)絡(luò)作為弱假設(shè)的助推進(jìn)行的判別處理。而且,可以通過(guò)通信部1212從外部服務(wù) 器(附圖中未示出)向HDD 1211下載將要用于助推的判別處理的多個(gè)BN弱假設(shè)和各個(gè)BN 弱假設(shè)的加權(quán)因子。代替地,可以通過(guò)通信部1212向外部服務(wù)器(附圖中未示出)供應(yīng)已 允許從信息設(shè)備上的學(xué)習(xí)處理獲得的多個(gè)BN弱假設(shè)和各個(gè)BN弱假設(shè)的加權(quán)因子。本申請(qǐng)包含與2009年5月22日向日本專利局申請(qǐng)的日本優(yōu)先權(quán)專利申請(qǐng)JP 2009-124386中公開(kāi)的主題相關(guān)的主題,其整體內(nèi)容通過(guò)引用結(jié)合于此。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,取決于設(shè)計(jì)需要和其它因素,可能發(fā)生各種修改、組 合、再組合和變更,它們都在所附權(quán)利要求及其等價(jià)物的范圍之內(nèi)。
權(quán)利要求
一種判別設(shè)備,包括特征量提取部,其從判別對(duì)象中提取特征量;以及判別器,所述判別器包括被表達(dá)為貝葉斯網(wǎng)絡(luò)的多個(gè)弱判別器,所述貝葉斯網(wǎng)絡(luò)具有節(jié)點(diǎn),向每個(gè)節(jié)點(diǎn)分配從所述特征量提取部輸入的兩個(gè)或更多所述特征量中的對(duì)應(yīng)一個(gè)特征量;以及組合器,其組合通過(guò)所述多個(gè)弱判別器獲得的所述判別對(duì)象的各個(gè)判別結(jié)果。
2.根據(jù)權(quán)利要求1所述的判別設(shè)備,其中,所述判別器使用具有弱假設(shè)的所述貝葉斯 網(wǎng)絡(luò)的判別目標(biāo)節(jié)點(diǎn)的推斷概率作為所述弱假設(shè)的輸出。
3.根據(jù)權(quán)利要求1所述的判別設(shè)備,其中,詞袋(BOW)或其它高維特征量向量用于所述 判別對(duì)象,并且所述弱判別器包括從所述特征量提取部所提取的高維特征量向量當(dāng)中使預(yù)定的維度 數(shù)目或以下的特征量作為每個(gè)節(jié)點(diǎn)的貝葉斯網(wǎng)絡(luò)。
4.根據(jù)權(quán)利要求1所述的判別設(shè)備,其中,文本包括在所述判別對(duì)象中,并且所述判別 器對(duì)意見(jiàn)語(yǔ)句或其它種類的文本執(zhí)行二元判別。
5.根據(jù)權(quán)利要求1所述的判別設(shè)備,其中,基于弱假設(shè)貝葉斯網(wǎng)絡(luò)的判別目標(biāo)節(jié)點(diǎn)的 推斷概率是否大于預(yù)定值,所述判別器確定所述弱假設(shè)的正誤。
6.根據(jù)權(quán)利要求1所述的判別設(shè)備,進(jìn)一步包括學(xué)習(xí)部,所述學(xué)習(xí)部學(xué)習(xí)將要由所述 多個(gè)弱判別器分別使用的弱假設(shè)以及使用助推通過(guò)以前的學(xué)習(xí)而獲得的各個(gè)弱假設(shè)的權(quán) 重信息。
7.根據(jù)權(quán)利要求6所述的判別設(shè)備,其中,所述學(xué)習(xí)部通過(guò)限制由一個(gè)弱假設(shè)使用的 特征量維度的數(shù)目而減少弱假設(shè)候選的數(shù)目。
8.根據(jù)權(quán)利要求6所述的判別設(shè)備,其中,所述學(xué)習(xí)部在用于一個(gè)弱假設(shè)的特征量維 度的數(shù)目為1的假定之下計(jì)算每個(gè)維度的一維弱假設(shè)的估計(jì)值,并且通過(guò)以維度的估計(jì)值 的降序方式組合用于弱假設(shè)的必要數(shù)目的特征量維度來(lái)創(chuàng)建弱假設(shè)候選。
9.一種判別方法,包括以下步驟從判別對(duì)象中提取特征量;以及通過(guò)被表達(dá)為貝葉斯網(wǎng)絡(luò)的多個(gè)弱假設(shè)來(lái)判別所述判別對(duì)象,所述貝葉斯網(wǎng)絡(luò)具有節(jié) 點(diǎn),向每個(gè)節(jié)點(diǎn)分配通過(guò)提取特征量的步驟而獲得的兩個(gè)或更多所述特征量中的對(duì)應(yīng)一個(gè) 特征量,并且組合通過(guò)所述多個(gè)弱假設(shè)獲得的所述判別對(duì)象的各個(gè)判別結(jié)果。
10.一種計(jì)算機(jī)程序,其使計(jì)算機(jī)起到判別設(shè)備的作用,所述判別設(shè)備包括特征量提取部,其從判別對(duì)象中提取特征量;以及判別器,所述判別器包括被表達(dá)為貝葉斯網(wǎng)絡(luò)的多個(gè)弱判別器,所述貝葉斯網(wǎng)絡(luò)具有 節(jié)點(diǎn),向每個(gè)節(jié)點(diǎn)分配從所述特征量提取部輸入的兩個(gè)或更多所述特征量中的對(duì)應(yīng)一個(gè)特 征量;以及組合器,其組合通過(guò)所述多個(gè)弱判別器獲得的所述判別對(duì)象的各個(gè)判別結(jié)果。
全文摘要
本發(fā)明提供了一種判別設(shè)備、判別方法和計(jì)算機(jī)程序,所述判別設(shè)備包括特征量提取部,其從判別對(duì)象中提取特征量;以及判別器,所述判別器包括被表達(dá)為貝葉斯網(wǎng)絡(luò)的多個(gè)弱判別器,所述貝葉斯網(wǎng)絡(luò)具有節(jié)點(diǎn),向每個(gè)節(jié)點(diǎn)分配從所述特征量提取部輸入的兩個(gè)或更多所述特征量中的對(duì)應(yīng)一個(gè)特征量;以及組合器,其組合通過(guò)所述多個(gè)弱判別器獲得的所述判別對(duì)象的各個(gè)判別結(jié)果。
文檔編號(hào)G06N5/00GK101894297SQ201010180420
公開(kāi)日2010年11月24日 申請(qǐng)日期2010年5月14日 優(yōu)先權(quán)日2009年5月22日
發(fā)明者大谷伸彌 申請(qǐng)人:索尼公司