信息處理裝置和信息處理方法
【專利說明】
[0001] 對相關(guān)申請的交叉引用
[0002] 本申請基于2014年3月20日提交的日本專利申請?zhí)朜O. 2014-058246,并以該申 請為優(yōu)先權(quán)基礎(chǔ);該日本專利申請的全部內(nèi)容通過引用方式并入在此。
技術(shù)領(lǐng)域
[0003] 在此說明的實施例一般關(guān)于一種信息處理裝置和信息處理方法。
【背景技術(shù)】
[0004] 借助于計算機和互聯(lián)網(wǎng)環(huán)境的普及,大量文檔已經(jīng)被電子化并存儲。能夠通過使 用如此大量的電子化文檔來學(xué)習(xí)用在例如語音識別的技術(shù)中的語言模型。通過使用例如在 網(wǎng)絡(luò)上可得的大量文檔來學(xué)習(xí)一種用作一般用途的語言模型能夠改善該語言模型的性能。 相反,通過使用大量網(wǎng)絡(luò)上可得的文檔來學(xué)習(xí)一種用作特定用途的語言模型并不能大大改 善其性能,因為包含大量關(guān)于除特定用途之外的用途的文檔。
[0005] 為了改善用作特定用途的語言模型的性能,有必要通過僅使用關(guān)于特定用途的文 檔(目標(biāo)文檔)來學(xué)習(xí)語言模型。例如,當(dāng)特定用途是在呼叫中心的語音識別時,通過使用 由錄制呼叫中心的操作員的對話語音所得的文檔來學(xué)習(xí)語言模型能夠改善用作這一特定 用途的語言模型的性能。
[0006] 但是,使用這種方法,當(dāng)沒有足夠數(shù)量的目標(biāo)文檔來用于學(xué)習(xí)時,無法實現(xiàn)用于多 種表達的語言模型。然而,很難收集大量關(guān)于特定用途的文檔。例如,將語音錄制成文檔的 工作需要較大的經(jīng)濟和時間成本,因此難以獲得足夠數(shù)量的目標(biāo)文檔。
【發(fā)明內(nèi)容】
[0007] 實施例的一個目的是提供一種能夠從除目標(biāo)文檔之外還包括大量文檔的多個候 選文檔中適當(dāng)選擇要用于學(xué)習(xí)語言模型的文檔的信息處理裝置。
[0008] 根據(jù)實施例,信息處理裝置包括第一特征計算器,第二特征計算器,相似度計算器 以及選擇器。所述第一特征計算器被配置為計算主題特征,該主題特征代表至少一個主題 的文檔與目標(biāo)文檔的相關(guān)性強度,所述目標(biāo)文檔與語言模型所要用作的用途匹配。第二特 征計算器被配置為計算多個候選文檔中的每一個候選文檔的所述主題特征。相似度計算器 被配置為計算候選文檔的每一個所述主題特征與所述目標(biāo)文檔的主題特征的相似度。選擇 器被配置為選擇候選文檔作為要用于學(xué)習(xí)語言模型的文檔,該候選文檔的相似度大于來自 其他候選文檔之中的參考值。
[0009] 根據(jù)上述信息處理裝置,能夠從除目標(biāo)文檔之外還包含大量文檔的多個候選文檔 中適當(dāng)選擇要用于學(xué)習(xí)語言模型的文檔。
【附圖說明】
[0010] 圖1是示出根據(jù)第一實施例的信息處理裝置的配置的圖;
[0011] 圖2是示出主題數(shù)量為50的主題信息的例子的表格;
[0012] 圖3是示出根據(jù)第一實施例的信息處理裝置的處理流程的圖表;
[0013] 圖4是示出目標(biāo)文檔的第一個例子的圖;
[0014] 圖5是示出候選文檔的第一個例子的圖;
[0015] 圖6是示出候選文檔的第二個例子的圖;
[0016] 圖7是示出候選文檔的第三個例子的圖;
[0017] 圖8是示出主題特征計算流程的圖表;
[0018] 圖9是示出單詞一致度高的文檔的例子的圖;
[0019] 圖10是示出主題數(shù)量為10的主題信息的例子的表格;
[0020] 圖11是示出主題數(shù)量為200的主題信息的例子的表格;
[0021] 圖12是示出用于選擇主題信息的處理流程的圖表;
[0022] 圖13是示出根據(jù)第二變型例的主題信息的例子的表格;
[0023] 圖14是示出根據(jù)第二實施例的信息處理裝置的配置的圖;
[0024] 圖15是示出根據(jù)第二實施例的信息處理裝置的處理流程的圖表;
[0025] 圖16是示出目標(biāo)文檔的第二個例子的圖;
[0026] 圖17是示出相似用途文檔的例子的圖;
[0027] 圖18是示出關(guān)于第一詞性組的主題信息的例子的表格;
[0028] 圖19是示出關(guān)于第二詞性組的主題信息的例子的表格;以及
[0029] 圖20是示出信息處理裝置的硬件配置的圖。
【具體實施方式】
[0030] 第一實施例
[0031] 圖1是示出根據(jù)第一實施例的信息處理裝置10的配置的圖。圖2是示出主題數(shù) 量為50的主題信息的例子的表格。
[0032] 信息處理裝置10從網(wǎng)絡(luò)等上的多個候選文檔中選擇要用于學(xué)習(xí)語言模型的文 檔,并通過使用所選擇的候選文檔來學(xué)習(xí)語言模型。信息處理裝置10包括目標(biāo)文檔存儲器 21,候選語料庫存儲器22,主題信息獲取單元23,第一特征計算器24,第二特征計算器25, 相似度計算器26,選擇器27,以及學(xué)習(xí)單元28。
[0033] 目標(biāo)文檔存儲器21存儲與要學(xué)習(xí)的語言模型所要用作的用途相匹配的文檔(目 標(biāo)文檔)。目標(biāo)文檔例如由用戶手動選擇。例如,當(dāng)要學(xué)習(xí)的語言模型要被用作呼叫中心的 語音識別時,目標(biāo)文檔就是呼叫中心處的操作員的語音所錄制成的文本。
[0034] 候選語料庫存儲器22存儲多個文檔(候選文檔),所述多個文檔是要用于學(xué)習(xí)語 言模型的文檔的候選。候選文檔是例如從網(wǎng)絡(luò)上收集的大量文本。候選文檔包括用作例如 新聞網(wǎng)站中的文章和信息板上張貼的評論的各種用途的文檔,并且也包括用作除語言模型 所要用作的用途之外的用途的文檔。候選語料庫存儲器22可以設(shè)置在網(wǎng)絡(luò)上的服務(wù)器中 或者分布在多個服務(wù)器中,而不是被設(shè)置在信息處理裝置10中。
[0035] 主題信息獲取單元23獲取主題信息。如圖2所示,針對每個主題,主題信息包含 詞語和分?jǐn)?shù)對的集合。
[0036] 主題指文檔的中心對象(話題)以及該文檔的特征,例如講話方式。一個文檔可以 包含多個主題。例如,圖2中主題編號#1代表數(shù)字家電的主題。圖2中主題編號#2代表 關(guān)于食品的主題。主題信息可以進一步包括代表禮貌語方式的主題和代表書面語方式(用 于書寫的方式)的主題。
[0037] 屬于主題信息中的每個主題的詞語是關(guān)于該主題的詞語,并且可以被包含在關(guān)于 該主題的文檔中。包含在主題信息中的每個詞語都與分?jǐn)?shù)結(jié)對。分?jǐn)?shù)代表與該詞語所屬于 的主題的相關(guān)性的強度。在本實施例中,隨著與所關(guān)聯(lián)主題的相關(guān)性越強,分?jǐn)?shù)越高。
[0038] 在主題信息中,一個詞語可以屬于多個主題。此外,在主題信息中可以包含任意數(shù) 量的主題。
[0039] 例如,通過由用戶設(shè)置多個主題并由用戶收集關(guān)于各個主題的詞語來生成主題信 息。又例如,通過由用戶設(shè)置多個主題,由用戶提供關(guān)于每個主題的文檔,并且例如由計算 機計算在所提供的文檔中的詞語的頻次來生成主題信息。
[0040] 作為替代方案,主題信息獲取單元23可以通過使用如在下面引用文獻中所記載 的無監(jiān)督(unsupervised)主題分析技術(shù)來自動生成主題信息:
[0041] Blei, David M. , Andrew Y. Ng, and Michael I. Jordan. ^Latent dirichlet allocation. 〃the Journal of machine Learning research 3(2003):P. 993-1022.
[0042] 在該方法中,用戶首先設(shè)置主題數(shù)量N。然后主題信息獲取單元23分析大量多種 文檔來生成分類為N個主題的主題信息。根據(jù)該方法,主題信息獲取單元23能夠在不使用 該主題的先驗知識的情況下生成該主題信息。
[0043] 第一特征計算器24基于主題信息針對存儲在目標(biāo)文檔存儲器21中的目標(biāo)文檔計 算主題特征。主題特征代表文檔與各個主題的相關(guān)性強度。在本實施例中,主題特征由如 下式⑴的矢量(數(shù)組)表示。
[0045] 由矢量表示的主題特征包含元素(例如1\,T2, . . .,T49, T5(l),元素數(shù)量對應(yīng)于包含 在主題信息中的主題數(shù)量。包含在主題特征中的每個元素與包含在主題信息中的主題-- 關(guān)聯(lián)。每個元素代表文檔與所關(guān)聯(lián)主題的相關(guān)性強度。例如,式(1)中的元素1\代表文檔 與圖2所示的主題信息中主題編號#1的主題的相關(guān)性強度。
[0046] 這樣的主題特征代表文檔與各個主題的相關(guān)性強度的分布。稍后將參考圖8說明 用于計算主題特征的更詳細的方法。
[0047] 第二特征計算器25基于主題信息針對存儲在候選語料庫存儲器22中的每個候選 文檔計算主題特征。針對候選文檔的主題特征與目標(biāo)文檔的主題特征形式相同,并通過相 同的計算方法計算得到。
[0048] 相似度計算器26計算針對多個候選文檔的每個主題特征與針對目標(biāo)文檔的主題 特征之間的相似度。具體來說,相似度計算器26計算每個候選文檔中的各個主題的相關(guān)性 強度的分布與目標(biāo)文檔中的各個主題的相