文本挖掘系統(tǒng)、文本挖掘方法和程序的制作方法
【專利摘要】本發(fā)明涉及一種文本挖掘系統(tǒng),包括:同義詞聚類獲取部,配置為從待分析的文本數(shù)據(jù)中的文本中獲取同義詞聚類,所述同義詞聚類每個都是同義的文本的集合;隱含關(guān)系獲取部,配置為獲取所述同義詞聚類之中的隱含關(guān)系;以及隱含圖生成部,配置為根據(jù)所述同義詞聚類之中的隱含關(guān)系而生成隱含圖,所述隱含圖包括同義詞聚類的頂點(diǎn)和有向邊,每個有向邊指示從被隱含的同義詞聚類到隱含同義詞聚類的方向。
【專利說明】文本挖掘系統(tǒng)、文本挖掘方法和程序
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及用于從文本信息獲得對其內(nèi)容中趨勢和有用知識的分析的文本挖掘系統(tǒng)。
【背景技術(shù)】
[0002]文本挖掘是一種數(shù)據(jù)分析技術(shù),用于從以自然語言書寫的文本數(shù)據(jù)輸入中,諸如從問卷中自由評論字段中的文本,抓取其內(nèi)容的整體趨勢以及找出有用知識。例如,在呼叫中心,這使得有可能從回答記錄中抓取詢問的內(nèi)容,或者從有關(guān)產(chǎn)品的問卷中找到產(chǎn)品的問題或改進(jìn)。
[0003]例如,PTL I用于提取兩個或更多詞之間的句法從屬關(guān)系,合計(jì)句法從屬性的出現(xiàn)頻率,將詞安排到預(yù)定義的目錄中,之后,顯示詞的句法從屬關(guān)系的網(wǎng)絡(luò)(PTL I中的圖8、10和12)。例如,目錄可以包括詞的部分語音或句中的功能,諸如主語和賓語。而且,在顯示前述網(wǎng)絡(luò)時,有關(guān)目錄、詞和句法從屬關(guān)系的顯示條件可以調(diào)整為自行決定從句法從屬關(guān)系的寬范圍概況到精確細(xì)節(jié)獲取分析。
[0004]引用列表
[0005]專利文獻(xiàn)
[0006]PTL I:JP P2007-293685A
【發(fā)明內(nèi)容】
[0007]技術(shù)問題
[0008]但是,存在這樣的問題:這樣的基于句法從屬性的詞間網(wǎng)絡(luò)不允許通過直接理解文本內(nèi)容的分析。其原因在于:文本的內(nèi)容不能準(zhǔn)確地從句法從屬關(guān)系中讀取。例如,假設(shè)有兩個句子:“當(dāng)許多應(yīng)用程序啟動時,個人電腦B操作慢”(句子I)和“個人電腦B啟動慢”(句子2),共同包括句法從屬關(guān)系“個人電腦B-慢”和“啟動-慢”。但是,句子I中的“個人電腦B操作慢”的條件是“當(dāng)許多應(yīng)用程序啟動時”,因此,被“啟動”的是什么,這在句子I和2中是不同的;因此,信息是從所述句法從屬關(guān)系中被部分讀取出的,其中這些句子基于所述句法從屬關(guān)系而相互相關(guān)。因此,為了理解文本的具體內(nèi)容,人們應(yīng)該讀取文本中的句子,包括其句法從屬性,并且對其重新安排。
[0009]本發(fā)明就是考慮到這樣的問題而做出的,并且其目的在于提供一種文本挖掘系統(tǒng)、文本挖掘方法和程序,能夠通過直接理解的文本內(nèi)容進(jìn)行分析。
[0010]發(fā)明的公開內(nèi)容
[0011]本發(fā)明涉及一種文本挖掘系統(tǒng),其特征在于包括:同義詞聚類獲取部,配置為從待分析的文本數(shù)據(jù)中的文本中獲取同義詞聚類,所述同義詞聚類每個都是同義的文本的集合;隱含關(guān)系獲取部,配置為獲取所述同義詞聚類之中的隱含關(guān)系;以及隱含圖生成部,配置為根據(jù)所述同義詞聚類之中的隱含關(guān)系而生成隱含圖,所述隱含圖包括同義詞聚類的頂點(diǎn)和有向邊,每個有向邊指示從被隱含的同義詞聚類到隱含同義詞聚類的方向。
[0012]本發(fā)明涉及一種文本挖掘方法,其特征在于包括:從待分析的文本數(shù)據(jù)中的文本中獲取同義詞聚類,所述同義詞聚類每個都是同義的文本的集合;獲取所述同義詞聚類之中的隱含關(guān)系;以及根據(jù)所述同義詞聚類之中的隱含關(guān)系而生成隱含圖,所述隱含圖包括同義詞聚類的頂點(diǎn)和有向邊,每個有向邊指示從被隱含的同義詞聚類到隱含同義詞聚類的方向。
[0013]本發(fā)明涉及一種程序,其特征在于使得計(jì)算機(jī)執(zhí)行:同義詞聚類獲取處理,從待分析的文本數(shù)據(jù)中的文本中獲取同義詞聚類,所述同義詞聚類每個都是同義的文本的集合;隱含關(guān)系獲取處理,獲取所述同義詞聚類之中的隱含關(guān)系;以及隱含圖生成處理,根據(jù)所述同義詞聚類之中的隱含關(guān)系而生成隱含圖,所述隱含圖包括同義詞聚類的頂點(diǎn)和有向邊,每個有向邊指示從被隱含的同義詞聚類到隱含同義詞聚類的方向。
[0014]根據(jù)本發(fā)明,文本是以不更改的形式被處置的,由此,同義詞聚類獲取部獲取聚類,每個聚類包括具有不同表示但相同內(nèi)容的文本(其將被稱為同義詞聚類)。文本隱含關(guān)系獲取部獲取所有生成的同義詞聚類之中的隱含關(guān)系。如這里所使用的,隱含關(guān)系被定義為,使得在第二文本的內(nèi)容能夠從第一文本的內(nèi)容中讀取的情況下,第一文本隱含第二文本。根據(jù)本發(fā)明的配置,由于同義文本已經(jīng)由同義詞聚類獲取部集合在一起并且重新安排,隱含側(cè)包括與被隱含側(cè)相區(qū)別的內(nèi)容。隱含圖生成部生成隱含圖,隱含圖具有同義詞聚類的頂點(diǎn)和有向邊,每個有向邊從被隱含側(cè)向隱含側(cè)繪制。隱含圖中的頂點(diǎn)是保持未更改的原始文本。而且,通過在有向邊的方向上追溯隱含圖,也就是,從被隱含側(cè)(開始點(diǎn))到隱含側(cè)(結(jié)束點(diǎn)),可以獲取關(guān)于有多少文本包括開始點(diǎn)處文本的內(nèi)容以及它們具有的具體文本是什么的分析。
[0015]發(fā)明的有益效果
[0016]根據(jù)本發(fā)明,可以通過直接理解的文本內(nèi)容而獲取分析。
【專利附圖】
【附圖說明】
[0017][圖1]圖1是示出本發(fā)明的第一實(shí)施例的配置的框圖。
[0018][圖2]圖2是示出本發(fā)明的第一實(shí)施例的操作的流程圖。
[0019][圖3]圖3是示出存儲在文本數(shù)據(jù)存儲部中的數(shù)據(jù)示例的圖。
[0020][圖4]圖4是示出從同義詞聚類獲取部輸出的結(jié)果的示例的圖。
[0021][圖5]圖5是示出從隱含圖生成部輸出的結(jié)果的示例的圖。
[0022][圖6]圖6是示出從隱含圖生成部輸出的結(jié)果的示例的圖。
[0023][圖7]圖7是示出在顯示設(shè)備上顯示的從隱含圖生成部得出的結(jié)果的示例的圖。
[0024][圖8]圖8是示出本發(fā)明的第二實(shí)施例的配置的框圖。
[0025][圖9]圖9是示出本發(fā)明的第二實(shí)施例的操作的流程圖。
[0026][圖10]圖10是示出在顯示設(shè)備上顯示的從頻率合計(jì)部得出的結(jié)果的示例的圖。
【具體實(shí)施方式】
[0027]現(xiàn)在將結(jié)合附圖來描述本發(fā)明的實(shí)施例。
[0028](第一實(shí)施例)
[0029]將結(jié)合附圖來詳細(xì)描述本發(fā)明的第一實(shí)施例。圖1是示出本發(fā)明的第一實(shí)施例的配置的框圖。參看圖1,本發(fā)明的實(shí)施例包括文本數(shù)據(jù)存儲部1、文本挖掘裝置2和顯示設(shè)備3。
[0030]文本數(shù)據(jù)存儲部I在其中存儲要分析的文本數(shù)據(jù)。要分析的文本是人們可以理解其內(nèi)容的單元,特別地,希望是包含一個或多個句子的文本。
[0031]文本挖掘裝置2包括同義詞聚類獲取部20、文本隱含關(guān)系獲取部21和隱含圖生成部22。
[0032]同義詞聚類獲取部20從文本數(shù)據(jù)存儲部I中檢索要分析的文本數(shù)據(jù),獲取每個都包括具有相同內(nèi)容的文本的同義詞聚類。同義詞聚類獲取部20可以利用確定在文本之間的同義性的任何方法。
[0033]文本隱含關(guān)系獲取部21獲取同義詞聚類獲取部20所生成的同義詞聚類之中的隱含關(guān)系。文本隱含關(guān)系獲取部21可以利用任何現(xiàn)有的隱含確定方法。
[0034]隱含圖生成部22根據(jù)文本隱含關(guān)系獲取部21所作出的隱含確定的結(jié)果,生成包括同義詞聚類的頂點(diǎn)和有向邊的隱含圖,其中每個有向邊都反映了同義詞聚類之間所確定的隱含的方向。
[0035]顯示設(shè)備3顯示文本挖掘裝置2所生成的隱含圖。
[0036]接下來,將特別結(jié)合圖1和圖2中的流程圖來描述本實(shí)施例的操作。
[0037]首先,同義詞聚類獲取部20從文本數(shù)據(jù)存儲部I中讀取文本數(shù)據(jù),對所讀取文本數(shù)據(jù)進(jìn)行獲取包括同義詞文本的聚類的處理(步驟SI)。圖3示出了存儲在文本數(shù)據(jù)存儲部I中的文本數(shù)據(jù)的示例。如圖3中所示,文本的數(shù)據(jù)包括文本和表示其標(biāo)識符的ID?!癤”表示具體產(chǎn)品名稱。步驟SI可以利用任何現(xiàn)有的聚類同義文本的方法。在本描述中,同義詞聚類獲取部20進(jìn)行聚類,使得在包括內(nèi)容詞的矢量之間的余弦相似性等于或大于0.8的情況下文本被認(rèn)為是同義的,而同義詞被認(rèn)為也是同義的。例如,具有ID I的文本和具有ID 2的文本導(dǎo)致矢量“X,好”,它們被認(rèn)為是同義的,因?yàn)樗鼈兊南嗨菩詾?.0。在找到與具有ID 2的文本的相似性等于或大于0.8的另一文本的情況下,其被認(rèn)為是與具有ID I的文本同義的,即使其與具有ID I的文本的相似性小于0.8。
[0038]圖4示出同義詞聚類所獲得的同義詞聚類的示例。同義詞聚類包括:ID,其是同義詞聚類的標(biāo)識符;屬于同義詞聚類的文本的ID列表;和針對同義詞聚類的ID的標(biāo)簽。標(biāo)簽可以是通過從同義詞聚類提取任何文本而創(chuàng)建的。
[0039]接下來,文本隱含關(guān)系獲取部21進(jìn)行獲取由同義詞聚類獲取部20獲得的同義詞聚類之中的隱含關(guān)系的處理(步驟S2)。文本隱含關(guān)系獲取部21可以利用任何現(xiàn)有的文本隱含確定方法。在本描述中,文本隱含關(guān)系獲取部21確定在第一文本中出現(xiàn)的內(nèi)容詞涵蓋第二文本的80%或更多的情況下,第一文本隱含著第二文本。作為文本,利用同義詞聚類的標(biāo)簽。在步驟S2,成對的同義詞聚類從所有同義詞聚類中列出,每對同義詞聚類之間的隱含關(guān)系是一個成員被確定為第一文本而另一個被確定為第二文本。
[0040]例如,當(dāng)?shù)谝晃谋驹诰哂蠭D I的同義詞聚類中,且第二文本在具有ID 2的同義詞聚類中時,第一文本的內(nèi)容詞是“(X,好)”而第二文本的內(nèi)容詞是“(X,設(shè)計(jì),好)”,由此內(nèi)容詞覆蓋率為66% ( = 2/3),這不構(gòu)成隱含關(guān)系。另一方面,當(dāng)?shù)谝晃谋竞偷诙谋窘粨Q位置,第一文本的內(nèi)容詞是“(X,設(shè)計(jì),好)”而第二文本的內(nèi)容詞是“(X,好)”,導(dǎo)致覆蓋率為100% ( = 2/2),這被確定為構(gòu)成隱含關(guān)系。這個處理應(yīng)用于所有成對的同義詞聚類。當(dāng)對于同義詞聚類的標(biāo)簽之間的隱含的確定的結(jié)果在此被定義為對于同義詞聚類之間的隱含的確定的結(jié)果時,對于屬于兩個同義詞聚類的成對的文本之間的隱含的確定的結(jié)果可以組合以做出在同義詞聚類之間的隱含確定,因?yàn)橥x詞聚類具有多個文本。這導(dǎo)致了當(dāng)對于同義詞聚類的標(biāo)簽的文本之間的隱含的確定的結(jié)果將不正確時,對于隱含做出正確確定的改進(jìn)的可能性。
[0041]最后,隱含圖生成部22進(jìn)行從由文本隱含關(guān)系獲取部21獲得的對于同義詞聚類之間的隱含的確定的結(jié)果來創(chuàng)建包括從被隱含的同義詞聚類到隱含同義詞聚類的同義詞聚類的頂點(diǎn)和有向邊的隱含圖的處理(步驟S3)。
[0042]圖5示出了創(chuàng)建的隱含圖的示例。在圖5中所示的示例中,有向邊從被隱含側(cè)到隱含側(cè)繪制。圖5中的隱含圖具有兩個隱含圖,包括隱含“X好”的文本的集合和隱含“X不好”的文本的集合。換句換說,這意味著不存在由“X好”隱含的文本也不存在由“X不好”隱含的文本。例如,從這個隱含圖中可以看出,大體存在“X好”和“X不好”的觀點(diǎn),包含(隱含)“X好”的意思的其他觀點(diǎn),按追溯箭頭包括“X的液晶好”、“X重量輕且好”、“X的設(shè)計(jì)好”等。
[0043]由于隱含關(guān)系保持傳遞原則,隱含圖可能有時變得冗余。例如,當(dāng)有可能從“X好”經(jīng)由“X的液晶好”追溯到“X的液晶清晰”時,也有可能直接從“X好”追溯到“X的液晶清晰”。在此情況下,由于為了對文本進(jìn)行概觀,希望根據(jù)語義層級結(jié)構(gòu)的重新安排,更希望安排隱含圖使得可以識別之間還有文本“X的液晶好”的情況,而不是直接從“X好”追溯到“X的液晶清晰”。因此,在任意對的頂點(diǎn)之間找到多個路徑的情況下,隱含圖生成部22可以構(gòu)成這樣的隱含圖,其中只有最長的路徑被保留。路徑的長度可以使用例如該路徑中所包括的邊的數(shù)目來計(jì)算。此時,圖5左邊的隱含圖被生成在圖6中。例如,從“X好”追溯到“X的液晶清晰”的路徑包括直接追溯邊的路徑和沿著經(jīng)由“X的液晶好”路由的兩個邊追溯的路徑。在此情況下,通過選擇最長路徑,直接追溯邊的路徑被消除。這個處理可以應(yīng)用于所有的頂點(diǎn)對以構(gòu)成隱含圖以便具有盡可能深的層級,如圖6中。
[0044]此外,隱含圖生成部22可以計(jì)算對于每對同義詞聚類之間的隱含關(guān)系的隱含的可能性的分?jǐn)?shù),并且對隱含關(guān)系給出分?jǐn)?shù)。通過使用分?jǐn)?shù),有可能實(shí)現(xiàn)進(jìn)行分析的處理,其中僅具有更高可能性(分?jǐn)?shù)比預(yù)定值高)的隱含的邊被保留。在此情況下,可能預(yù)期路徑的長度被定義為該路徑中包括的邊的分?jǐn)?shù)的合計(jì)。
[0045]顯示設(shè)備3顯示由隱含圖生成部22因此創(chuàng)建的隱含圖。由于整個隱含圖是擴(kuò)展性的,希望顯示的方法包含顯示不能從作為開始點(diǎn)的任何頂點(diǎn)并且通過點(diǎn)擊同義詞聚類追溯的同義詞聚類,發(fā)展近似同義詞聚類。圖7示出了顯示圖6中所示的隱含圖的方法的示例。圖6具有不能從任何同義詞聚類追溯的兩個頂點(diǎn):“X好”和“X不好”。一旦“X好”被點(diǎn)擊,顯示處理被進(jìn)行,包括發(fā)展“X的液晶好”、“X重量輕且好”和“X的設(shè)計(jì)好”,其可以從“X好”沿著一個邊追溯。另外的顯示方法可以在此應(yīng)用,包括發(fā)展近似的方法,可以由特定數(shù)目的邊而非一個邊追溯,或者顯示處理包括定義限制使得數(shù)目小于同義詞聚類的規(guī)定值被顯示,以及發(fā)展該限制內(nèi)的近似。這樣的顯示控制處理可以由文本挖掘裝置中的隱含圖生成部22或者由顯示設(shè)備3加以獲取。
[0046]根據(jù)第一實(shí)施例中的發(fā)明,分析可以是通過直接理解的文本的內(nèi)容而獲取的。其原因在于,文本是以不更改的形式處置的,且生成具有同義詞聚類的頂點(diǎn)和有向邊的隱含圖,每個有向邊表示隱含關(guān)系,由此,頂點(diǎn)表示文本原本的信息,以及基本上包括文本的內(nèi)容的其他文本可以根據(jù)隱含圖而被追溯。
[0047](第二實(shí)施例)
[0048]接下來,將結(jié)合圖8來描述本發(fā)明的第二實(shí)施例。參看圖8,除了第一實(shí)施例的發(fā)明中的文本挖掘裝置之外,本發(fā)明的第二實(shí)施例進(jìn)一步包括頻率合計(jì)部40。
[0049]頻率合計(jì)部40使用由第一實(shí)施例的發(fā)明所生成的隱含圖,進(jìn)行對每個同義詞聚類所表示的信息的頻率合計(jì)的處理,此外使用可以根據(jù)隱含圖從同義詞聚類追溯的同義詞聚類中的信息的頻率。
[0050]將結(jié)合圖8和圖9中的流程圖來特別描述本實(shí)施例的操作。
[0051]圖8中的步驟SI到S3與示出第一實(shí)施例的圖2中的流程圖類似。頻率合計(jì)部40對隱含圖中每個頂點(diǎn)的同義詞聚類中的信息的頻率進(jìn)行合計(jì),作為包括在該頂點(diǎn)的同義詞聚類中的文本加上包括在可以從該頂點(diǎn)移動的頂點(diǎn)的同義詞聚類中的文本的文本ID的數(shù)目(步驟S4)。這是通過例如以深度優(yōu)先方式從每個頂點(diǎn)搜索隱含圖以列出可以到達(dá)的頂點(diǎn)的集合,對頂點(diǎn)的同義詞聚類中的文本ID的數(shù)目進(jìn)行求和,而獲取的。除此之外,還可以利用能夠列出可以從某個頂點(diǎn)到達(dá)的頂點(diǎn)的集合的任何算法。
[0052]顯示設(shè)備3顯示由頻率合計(jì)部40進(jìn)行的頻率合計(jì)的結(jié)果。基本上,可以預(yù)期的方法包括顯示圖7中每個同義詞聚類節(jié)點(diǎn)上的頻率合計(jì)的結(jié)果。另一也可以預(yù)期的方法包括以表格的格式顯示結(jié)果。圖10示出了以表格的格式顯示的根據(jù)圖7中的隱含圖的頻率合計(jì)的結(jié)果的示例。首先,顯示了兩個同義詞聚類:“X好”和“X不好”,顯示同義詞聚類的各自頻率。一旦“X好”被點(diǎn)擊,開始在表格中顯示能夠從此沿著一個邊追溯的同義詞聚類及其頻率的處理。這樣的顯示控制處理可以通過文本挖掘裝置2中的隱含圖生成部22或者頻率合計(jì)部40獲取,或者通過顯示設(shè)備3獲取。
[0053]根據(jù)上述的第二實(shí)施例中的發(fā)明,有可能合計(jì)頻率,包括其中基本上包含每個文本的意思的文本。其原因在于,第一實(shí)施例中的發(fā)明能夠根據(jù)隱含關(guān)系生成隱含圖,以及基本上包含,即隱含,每個頂點(diǎn)處文本中信息的同義詞聚類可以結(jié)合隱含圖而被列出。
[0054]根據(jù)上述本發(fā)明的實(shí)施例的文本挖掘裝置可以由加載和執(zhí)行存儲在存儲部分中的操作程序等的CPU(中央處理單元)實(shí)現(xiàn),或者可替換地,它們可以用硬件來配置。上述實(shí)施例僅部分功能可以由計(jì)算機(jī)程序來實(shí)現(xiàn)。
[0055]部分或所有前面實(shí)施例可以被描述在下面的附錄中,盡管并非對其限定。
[0056](補(bǔ)充注釋I)
[0057]一種文本挖掘系統(tǒng),其特征在于包括:
[0058]同義詞聚類獲取部,用于從待分析的文本數(shù)據(jù)中的文本中獲取同義詞聚類,所述同義詞聚類每個都是同義的文本的集合;
[0059]隱含關(guān)系獲取部,用于獲取所述同義詞聚類之中的隱含關(guān)系;以及
[0060]隱含圖生成部,用于根據(jù)所述同義詞聚類之中的隱含關(guān)系而生成隱含圖,所述隱含圖包括同義詞聚類的頂點(diǎn)和有向邊,每個有向邊指示從被隱含的同義詞聚類到隱含同義詞聚類的方向。
[0061](補(bǔ)充注釋2)
[0062]補(bǔ)充注釋I中所述的文本挖掘系統(tǒng),其特征在于:
[0063]在兩個所述同義詞聚類之間找到多個路徑的情況下,所述隱含圖生成部創(chuàng)建其中只保留構(gòu)成最長路徑的邊的隱含圖。
[0064](補(bǔ)充注釋3)
[0065]補(bǔ)充注釋I或2中所述的文本挖掘系統(tǒng),其特征在于進(jìn)一步包括:
[0066]頻率合計(jì)部,用于附加地使用能夠從所述隱含圖中的所述同義詞聚類追溯的同義詞聚類中的信息的頻率來合計(jì)每個所述同義詞聚類所表示的信息的頻率。
[0067](補(bǔ)充注釋4)
[0068]補(bǔ)充注釋I到3中任意一項(xiàng)所述的文本挖掘系統(tǒng),其特征在于進(jìn)一步包括:
[0069]顯示設(shè)備,用于在使用所述隱含圖分析每個同義詞聚類時,在所述隱含圖中顯示近似同義詞聚類。
[0070](補(bǔ)充注釋5)
[0071]一種文本挖掘方法,其特征在于包括:
[0072]從待分析的文本數(shù)據(jù)中的文本中獲取同義詞聚類,所述同義詞聚類每個都是同義的文本的集合;
[0073]獲取所述同義詞聚類之中的隱含關(guān)系;以及
[0074]根據(jù)所述同義詞聚類之中的隱含關(guān)系而生成隱含圖,所述隱含圖包括同義詞聚類的頂點(diǎn)和有向邊,每個有向邊指示從被隱含的同義詞聚類到隱含同義詞聚類的方向。
[0075](補(bǔ)充注釋6)
[0076]補(bǔ)充注釋5中所述的文本挖掘方法,其特征在于:
[0077]在兩個所述同義詞聚類之間找到多個路徑的情況下,創(chuàng)建其中只保留構(gòu)成最長路徑的邊的隱含圖。
[0078](補(bǔ)充注釋7)
[0079]補(bǔ)充注釋5或6中所述的文本挖掘方法,其特征在于:
[0080]附加地使用能夠從所述隱含圖中的所述同義詞聚類追溯的同義詞聚類中的信息的頻率來合計(jì)每個所述同義詞聚類所表示的信息的頻率。
[0081](補(bǔ)充注釋8)
[0082]補(bǔ)充注釋5到7中任意一項(xiàng)所述的文本挖掘方法,其特征在于:
[0083]在使用所述隱含圖分析每個同義詞聚類時,在所述隱含圖中顯示近似同義詞聚類。
[0084](補(bǔ)充注釋9)
[0085]一種程序,其特征在于使得計(jì)算機(jī)執(zhí)行:
[0086]同義詞聚類獲取處理,從待分析的文本數(shù)據(jù)中的文本中獲取同義詞聚類,所述同義詞聚類每個都是同義的文本的集合;
[0087]隱含關(guān)系獲取處理,獲取所述同義詞聚類之中的隱含關(guān)系;以及
[0088]隱含圖生成處理,根據(jù)所述同義詞聚類之中的隱含關(guān)系而生成隱含圖,所述隱含圖包括同義詞聚類的頂點(diǎn)和有向邊,每個有向邊指示從被隱含的同義詞聚類到隱含同義詞聚類的方向。
[0089](補(bǔ)充注釋10)
[0090]補(bǔ)充注釋9中所述的程序,其特征在于:
[0091]在兩個所述同義詞聚類之間找到多個路徑的情況下,所述隱含圖生成處理創(chuàng)建其中只保留構(gòu)成最長路徑的邊的隱含圖。
[0092](補(bǔ)充注釋11)
[0093]補(bǔ)充注釋9或10中所述的程序,其特征在于使得所述計(jì)算機(jī)進(jìn)一步執(zhí)行:
[0094]頻率合計(jì)處理,附加地使用能夠從所述隱含圖中的所述同義詞聚類追溯的同義詞聚類中的信息的頻率來合計(jì)每個所述同義詞聚類所表示的信息的頻率。
[0095](補(bǔ)充注釋12)
[0096]補(bǔ)充注釋9到11中任意一項(xiàng)所述的程序,其特征在于使得所述計(jì)算機(jī)進(jìn)一步執(zhí)行:
[0097]顯示處理,在使用所述隱含圖分析每個同義詞聚類時,在所述隱含圖中顯示近似同義詞聚類。
[0098]盡管已經(jīng)結(jié)合優(yōu)選實(shí)施例描述了本發(fā)明,不必限制于上面描述的實(shí)施例,并且可以通過在其技術(shù)思想的范圍內(nèi)的若干修改而實(shí)踐。
[0099]本申請要求基于2012年4月26日提交的日本專利申請2012-101017的優(yōu)先權(quán),其公開內(nèi)容在此整體并入本文。
[0100]附圖標(biāo)記列表
[0101]I 文本數(shù)據(jù)存儲部
[0102]2 文本挖掘裝置
[0103]20同義詞聚類獲取部
[0104]21文本隱含關(guān)系獲取部
[0105]22隱含圖生成部
[0106]3 顯示設(shè)備
[0107]4 文本挖掘裝置
[0108]40頻率合計(jì)部
【權(quán)利要求】
1.一種文本挖掘系統(tǒng),包括: 同義詞聚類獲取部,其被配置為從待分析的文本數(shù)據(jù)中的文本來獲取同義詞聚類,所述同義詞聚類每個都是同義的文本的集合; 隱含關(guān)系獲取部,其被配置為獲取所述同義詞聚類之中的隱含關(guān)系;以及 隱含圖生成部,其被配置為從所述同義詞聚類之中的隱含關(guān)系來生成隱含圖,所述隱含圖包括同義詞聚類的頂點(diǎn)和有向邊,每個有向邊指示從被隱含的同義詞聚類到隱含同義詞聚類的方向。
2.根據(jù)權(quán)利要求1所述的文本挖掘系統(tǒng),其中: 在兩個所述同義詞聚類之間找到多個路徑的情況下,所述隱含圖生成部創(chuàng)建其中只保留構(gòu)成最長路徑的邊的隱含圖。
3.根據(jù)權(quán)利要求1或2所述的文本挖掘系統(tǒng),進(jìn)一步包括: 頻率合計(jì)部,其被配置為附加地使用能夠從所述隱含圖中的所述同義詞聚類追溯的同義詞聚類中的信息的頻率,來合計(jì)每個所述同義詞聚類所表示的信息的頻率。
4.根據(jù)權(quán)利要求1到3中的任意一項(xiàng)所述的文本挖掘系統(tǒng),進(jìn)一步包括: 顯示設(shè)備,其被配置為在使用所述隱含圖來分析每個同義詞聚類時,在所述隱含圖中顯示近似同義詞聚類。
5.一種文本挖掘方法,包括: 從待分析的文本數(shù)據(jù)中的文本來獲取同義詞聚類,所述同義詞聚類每個都是同義的文本的集合; 獲取所述同義詞聚類之中的隱含關(guān)系;以及 從所述同義詞聚類之中的隱含關(guān)系來生成隱含圖,所述隱含圖包括同義詞聚類的頂點(diǎn)和有向邊,每個有向邊指示從被隱含的同義詞聚類到隱含同義詞聚類的方向。
6.—種程序,其特征在于使得計(jì)算機(jī)執(zhí)行: 同義詞聚類獲取處理,從待分析的文本數(shù)據(jù)中的文本來獲取同義詞聚類,所述同義詞聚類每個都是同義的文本的集合; 隱含關(guān)系獲取處理,獲取所述同義詞聚類之中的隱含關(guān)系;以及 隱含圖生成處理,從所述同義詞聚類之中的隱含關(guān)系來生成隱含圖,所述隱含圖包括同義詞聚類的頂點(diǎn)和有向邊,每個有向邊指示從被隱含的同義詞聚類到隱含同義詞聚類的方向。
【文檔編號】G06F17/30GK104246775SQ201380021769
【公開日】2014年12月24日 申請日期:2013年4月24日 優(yōu)先權(quán)日:2012年4月26日
【發(fā)明者】土田正明, 石川開, 大西貴士, 達(dá)尼埃爾·安德拉德 申請人:日本電氣株式會社