文件檢索裝置、文件檢索方法
【專利摘要】本發(fā)明提供一種文件檢索裝置、文件檢索方法。在類似文件檢索中,以低干擾、高精度地提取出與使用者所選擇的特征詞對(duì)應(yīng)的同義詞。本發(fā)明的文件檢索裝置指定類似文件檢索中所使用的特征詞中任意一個(gè),接受指示檢索其同義詞的命令輸入,從類似文件檢索的檢索結(jié)果所包含的文件集合中提取同義詞。
【專利說(shuō)明】文件檢索裝置、文件檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種從文件集合中檢索所希望的文件的技術(shù)。
【背景技術(shù)】
[0002]作為從大量的文件中檢索所希望的文件的方法之一,普及一種類似文件檢索,即將任意的文章或文件作為輸入,從文件集合中檢索與其記載內(nèi)容相類似或相關(guān)聯(lián)的文件,從類似程度或關(guān)聯(lián)程度高的文件按順序進(jìn)行輸出。
[0003]在類似文件檢索中,從構(gòu)成文件集合的各個(gè)檢索對(duì)象文件中提取將記載內(nèi)容進(jìn)行特征標(biāo)注的關(guān)鍵詞(以下稱為特征詞),對(duì)各個(gè)特征詞進(jìn)行計(jì)算/賦予與其重要度對(duì)應(yīng)的權(quán)重,生成由具有I個(gè)單詞以上的權(quán)重的特征詞所構(gòu)成的特征詞矢量,預(yù)先存儲(chǔ)在檢索索引中。接著,用同樣的方法從由使用者進(jìn)行輸入指定的文章或指定的文件(以下,總稱為“輸入文件”)中提取具有權(quán)重的特征詞并生成特征詞矢量。然后,通過(guò)核對(duì)由輸入文件生成的特征矢量和各檢索對(duì)象文件的特征矢量,計(jì)算出兩者的類似度。在類似度的計(jì)算中,屢次使用特征矢量間的內(nèi)積、特征矢量所成的角的余弦值。最后將對(duì)類似度進(jìn)行降序排序而得到的上位的文件作為與輸入文件類似的文件進(jìn)行輸出。
[0004]作為降低類似文件檢索的精度的重要原因之一,有特征詞的表記擺動(dòng)(同義詞)。例如,從輸入文件提取的特征詞(文件“papers”)和從檢索對(duì)象文件提取出的特征詞(文檔“documents”)的表記不同,所以不進(jìn)行核對(duì)。其結(jié)果,使得輸入文件和該檢索對(duì)象文件之間的類似度比原來(lái)更低,只有該部分檢索結(jié)果的輸出順序下降。
[0005]類似文件檢索中,通過(guò)核對(duì)將大多數(shù)的具有權(quán)重的特征詞作為要素的特征詞矢量來(lái)判定輸入文件和檢索對(duì)象文件之間的類似性。因此,即使由于表記擺動(dòng)(同義詞)而多少有些無(wú)法核對(duì)輸入文件的特征詞和檢索對(duì)象文件的特征詞,只要可以充分核對(duì)其他特征詞,也可以將該文件輸出給類似文件檢索結(jié)果的上位。但是,即使是類似文件檢索,如果可以吸收特征詞的表記擺動(dòng),則認(rèn)為可以僅將該部分的所希望的類似文件輸出給上位。
[0006]因此,將類似文件檢索中所使用的與輸入文件的各個(gè)特征詞相對(duì)應(yīng)的同義詞提示給使用者,認(rèn)為使用者可以根據(jù)需要將該同義詞追加為類似文件檢索的特征詞,由此可以提高類似文件檢索的精度,輸出使用者認(rèn)可的檢索結(jié)果。
[0007]一般情況下,為了使用者在文件檢索中可以靈活使用同義詞,有必要以某種形式來(lái)收集/管理同義詞數(shù)據(jù)。作為用于收集同義詞的現(xiàn)有方法,大致列舉以下2種。
[0008](現(xiàn)有方法I)購(gòu)買市場(chǎng)銷售的同義詞詞典、或者手工生成同義詞詞典
[0009](現(xiàn)有方法2)分析大量的文件集合,自動(dòng)或者半自動(dòng)地提取同義詞。
[0010]關(guān)于(現(xiàn)有方法1),同義詞的質(zhì)量高,但是數(shù)據(jù)的初始生成和更新需要花費(fèi)大量的成本,因此在檢索像專利文獻(xiàn)和網(wǎng)頁(yè)這樣包含大量詞匯的文件的情況下,不太現(xiàn)實(shí)。
[0011]關(guān)于(現(xiàn)有方法2),提出以下所例示的一種著眼于記載形式來(lái)提取同義詞的方法。
[0012](a) “A是B”等特定的句法
[0013](b)括號(hào)緊前面的詞和該括號(hào)內(nèi)的詞[0014](c)復(fù)合語(yǔ)和其結(jié)構(gòu)語(yǔ)之間的包含關(guān)系
[0015](d)檢索履歷的靈活使用
[0016]但是,上述方法由于記載形式出現(xiàn)的頻率都少,所以存在得到的同義詞的量少,難以網(wǎng)羅收集同義詞(一般性欠缺)的問題。
[0017]另外,一般從大量的文件集合中自動(dòng)提取同義詞的情況下,如果隨機(jī)地分析大量的文件集合,則大多會(huì)輸出大量與使用者的意圖不符的偽同義詞。因此,最好在根據(jù)使用者的檢索意圖的基礎(chǔ)上,通過(guò)縮小成為提取同義詞的對(duì)象的文件集合,特殊化為這些文件并提取同義詞,來(lái)抑制偽同義詞的輸出。
[0018]作為與解決上述2個(gè)問題即“網(wǎng)羅地收集同義詞(一般性的確保)”和“通過(guò)隨機(jī)地分析大量的文件集合來(lái)抑制偽同義詞”相關(guān)的現(xiàn)有技術(shù),有下述的專利文獻(xiàn)I。專利文獻(xiàn)I中,通過(guò)以下方法提取同義詞(同文獻(xiàn)中記載為“類似詞”)。
[0019](步驟I)使用者輸入指定成為類似詞提取的對(duì)象的對(duì)象詞X。
[0020](步驟2)對(duì)與對(duì)象詞X相關(guān)的文件進(jìn)行排行榜檢索。這里,各文件內(nèi)的對(duì)象詞X的出現(xiàn)頻率高的文件,并且文件的文章長(zhǎng)度越短的文件越被排到上位。
[0021](步驟3)從檢索結(jié)果上位的文件群提取T個(gè)對(duì)象詞的關(guān)聯(lián)詞。在關(guān)聯(lián)詞提取中,將檢索對(duì)象文件整體中的出現(xiàn)文件數(shù)量低(固有度高)并且檢索結(jié)果上位的文件群內(nèi)的出現(xiàn)文件數(shù)量(文件共現(xiàn)頻率)高的詞作為關(guān)聯(lián)詞(但是對(duì)象詞X排除在關(guān)聯(lián)詞之外)。
[0022](步驟4)將T個(gè)關(guān)聯(lián)詞群作為輸入再次進(jìn)行排行榜檢索。
[0023](步驟5)從檢索結(jié)果上位的文件群(但是只將不包含對(duì)象詞X的文件作為檢索對(duì)象)再次提取關(guān)聯(lián)詞。
[0024](步驟6)將提取出的S個(gè)關(guān)聯(lián)詞作為對(duì)象詞X的類似詞輸出給使用者。
[0025]專利文獻(xiàn)I所記載的技術(shù)中,可以使用以下步驟,Ca)通過(guò)2個(gè)階段的檢索來(lái)縮小與對(duì)象詞關(guān)聯(lián)的文件群,只從這些文件群中提取類似詞;(b)在關(guān)聯(lián)詞提取中,將檢索對(duì)象文件整體中的出現(xiàn)文件數(shù)量低且檢索結(jié)果上位的文件群中的出現(xiàn)文件數(shù)量(文件共現(xiàn)頻率)高的詞作為關(guān)聯(lián)詞來(lái)提取。
[0026]在專利文獻(xiàn)I所記載的關(guān)聯(lián)詞提取中,使用出現(xiàn)文件數(shù)量(文件共現(xiàn)頻率)這樣的文件級(jí)別的宏觀統(tǒng)計(jì)信息來(lái)判定是否是類似詞。因此,即使能夠提取與對(duì)象詞x“關(guān)聯(lián)的詞語(yǔ)”,也很難確定并輸出與對(duì)象詞X “處于同義關(guān)系的詞”。其結(jié)果,在提取結(jié)果中混雜有很多不是同義詞的干擾詞。
[0027]專利文獻(xiàn)I作為一個(gè)實(shí)施例,記載一種方法,即根據(jù)文件中的單詞Y的前后單詞中包括幾個(gè)關(guān)聯(lián)詞來(lái)判定單詞Y是否是對(duì)象詞X的類似詞。但是,僅通過(guò)單詞Y和關(guān)聯(lián)詞群的共現(xiàn)傾向來(lái)判定單詞Y是否處于與對(duì)象X為同義關(guān)系是不夠充分的。
[0028]另外,在專利文獻(xiàn)I的第2次的關(guān)聯(lián)詞提取中,包含對(duì)象詞X的文件被排除在提取對(duì)象文件之外。一般當(dāng)人們從文件集合中提取同義詞時(shí),與對(duì)象詞X在文章中以什么樣的上下文而被使用(和對(duì)象詞X的前后的語(yǔ)言表現(xiàn)之間的詞匯的、句法的、意思的、上下文的關(guān)系是什么樣的)相關(guān)的語(yǔ)言信息成為確定同義詞的重要線索。但是專利文獻(xiàn)I沒有在同義詞的提取處理中使用該線索信息。
[0029]專利文獻(xiàn)1:日本特開2004-054882號(hào)公報(bào)
【發(fā)明內(nèi)容】
[0030]鑒于上述課題而提出本發(fā)明,其目的在于:在類似文件檢索中,低干擾、高精度地提取出與使用者所選擇的特征詞對(duì)應(yīng)的同義詞。
[0031]本發(fā)明的文件檢索裝置指定類似文件檢索中所使用的特征詞中任意一個(gè),接受指示檢索其同義詞的命令輸入,從類似文件檢索的檢索結(jié)果所包含的文件集合中提取同義
ο
[0032]本發(fā)明的文件檢索裝置將與使用者的檢索意圖接近的類似文件檢索結(jié)果的上位文件集合作為用于同義詞提取的文件集合。由此,可以低干擾、高精度地提取出類似文件檢索所使用的與輸入文件的特征詞對(duì)應(yīng)的同義詞。其結(jié)果,使用者可以高效地確定符合自己的檢索意圖的同義詞。
[0033]通過(guò)以下的實(shí)施方式的說(shuō)明來(lái)明確上述以外的課題、結(jié)構(gòu)以及效果。
【專利附圖】
【附圖說(shuō)明】
[0034]圖1是實(shí)施方式I的文件檢索裝置100的功能框圖。
[0035]圖2是表示使用者指定輸入文件的畫面例的圖。
[0036]圖3是表示顯示類似文件的檢索結(jié)果的畫面例的圖。
[0037]圖4是表示選擇成為同義詞提取的對(duì)象的特征詞(相當(dāng)于對(duì)象詞13)的畫面例的圖。
[0038]圖5是表示顯示提取出與對(duì)象詞501對(duì)應(yīng)的同義詞的結(jié)果的畫面例的圖。
[0039]圖6是表示追加了同義詞之后的檢索結(jié)果顯示畫面400的圖。
[0040]圖7是說(shuō)明分析對(duì)象文件收集部14的處理流程的圖。
[0041]圖8是表示記載形式表18的結(jié)構(gòu)例的圖。
[0042]圖9是說(shuō)明記載形式提取部17的處理流程的圖。
[0043]圖10是說(shuō)明同義詞提取部19的處理流程的圖。
[0044]圖11是表示文件檢索裝置100的硬件的結(jié)構(gòu)例的圖。
[0045]符號(hào)的說(shuō)明
[0046]1:文件數(shù)據(jù)庫(kù);2:特征詞提取部;3:單詞詞典;4:檢索索引生成部;5:檢索索引;6:輸入文章;7:輸入文件編號(hào);8:特征詞收集部;9:特征詞表;10:類似文件檢索部;11:檢索結(jié)果表;12:檢索結(jié)果輸出部;13:對(duì)象詞;14:分析對(duì)象文件收集部;15:有對(duì)象詞的文件;16:無(wú)對(duì)象詞的文件;17:記載形式提取部;18:記載形式表;19:同義詞提取部;20:同義詞表;30:輸入裝置;40:輸出裝置。
【具體實(shí)施方式】
[0047](實(shí)施方式1:裝置結(jié)構(gòu))
[0048]在以下說(shuō)明的本發(fā)明的實(shí)施方式I中,專利文獻(xiàn)作為輸入,將檢索與其
【發(fā)明內(nèi)容】
類似的過(guò)去的專利文獻(xiàn)的文件檢索裝置作為例子來(lái)進(jìn)行說(shuō)明。具體地說(shuō),從過(guò)去的專利文獻(xiàn)集合中檢索申請(qǐng)專利的公知例時(shí),將任意的文章或?qū)@墨I(xiàn)作為輸入,設(shè)想檢索與該
【發(fā)明內(nèi)容】
類似的專利文獻(xiàn)的新聞案件。但是,本發(fā)明不僅限于該新聞案件。另外,在本實(shí)施例1中,雖然將專利文獻(xiàn)作為了檢索對(duì)象,但是也可以將論文、新聞?dòng)浭?、設(shè)計(jì)文件、電子郵件、網(wǎng)頁(yè)等作為對(duì)象。
[0049]圖1是本實(shí)施方式I的文件檢索裝置100的功能框圖。文件檢索裝置100是從存儲(chǔ)在文件數(shù)據(jù)庫(kù)I內(nèi)的文件群中檢索與使用者經(jīng)由輸入裝置30而輸入的任意文章或者指定的文件相類似的文件。而且文件檢索裝置100將類似檢索中所使用的特征詞的同義詞提供給使用者,可以使用該同義詞來(lái)擴(kuò)張類似檢索。以下說(shuō)明文件檢索裝置100的詳細(xì)結(jié)構(gòu)。
[0050]成為檢索對(duì)象的文件數(shù)據(jù)經(jīng)由輸入裝置30被預(yù)先存儲(chǔ)在文件數(shù)據(jù)庫(kù)I中。
[0051]特征詞提取部2從文件數(shù)據(jù)庫(kù)I所存儲(chǔ)的各個(gè)文件中提取特征詞,計(jì)算表示其重要度的權(quán)重。本實(shí)施方式I中,通過(guò)參照單詞詞典3來(lái)實(shí)施詞素分析,從而將文章分割為單詞,提取作為名詞或動(dòng)詞的單詞作為特征詞。通過(guò)以下的方法來(lái)計(jì)算文章d的特征詞T的權(quán)重W。首先,求出文章d的特征詞w的出現(xiàn)頻率TF的對(duì)數(shù)(logTF)。接著,通過(guò)用文件數(shù)據(jù)庫(kù)I所存儲(chǔ)的文件數(shù)N除以包含該特征詞w的文件數(shù)η而得出的值的對(duì)數(shù)來(lái)求出該特征詞w的固有度IDF (IDF=1g (Ν/η))。最后,通過(guò)計(jì)算(1+logTF) X log (N/n)來(lái)計(jì)算出權(quán)重W。但是,當(dāng)TF=O時(shí),w的值為O。該方法作為TF-1DF法而被廣泛熟知,所以對(duì)此不再多提。
[0052]檢索索引生成部4為了能夠高效地實(shí)施類似文件檢索,而將特征詞提取部2所取得的每個(gè)文件的特征詞以及與權(quán)重有關(guān)的數(shù)值數(shù)據(jù)進(jìn)行匯總后,存儲(chǔ)在檢索索引5中。由于市面銷售的多個(gè)類似文件檢索系統(tǒng)中已經(jīng)實(shí)現(xiàn)了由特征詞提取部2以及檢索索引生成部4所實(shí)施的處理,所以在本實(shí)施方式I中不再多提。
[0053]特征詞收集部8從使用者經(jīng)由輸入裝置30而指定的輸入文件編號(hào)7所對(duì)應(yīng)的文件、或者使用者任意輸入的輸入文章6中提取特征詞。本實(shí)施方式I中,通過(guò)檢索索引生成部4的處理已經(jīng)將與輸入文件編號(hào)7對(duì)應(yīng)的特征詞存儲(chǔ)在檢索索引5內(nèi)。因此,當(dāng)提取與輸入文件編號(hào)7對(duì)應(yīng)的特征詞時(shí),可以通過(guò)從檢索索引5中挑選出與文件編號(hào)7對(duì)應(yīng)的特征詞及其權(quán)重而容易地進(jìn)行收集。使用者輸入任意的輸入文章6時(shí),檢索索引5內(nèi)沒有存儲(chǔ)特征詞,所以可執(zhí)行以下處理,即將輸入文章6交給特征詞提取部2,提取特征詞并賦予權(quán)重。
[0054]特征詞表9是存儲(chǔ)特征詞收集部8所收集的特征詞數(shù)據(jù)的數(shù)據(jù)表,記錄特征詞的標(biāo)題和權(quán)重的組對(duì)。
[0055]類似文件檢索部10參照檢索索引5檢索與存儲(chǔ)在特征詞表9中的具有權(quán)重的特征詞集合類似的文件并分別計(jì)算出類似度,將檢索結(jié)果上位的N件存儲(chǔ)在檢索結(jié)果表11中。本實(shí)施方式I中,將文件間的類似度作為使具有由權(quán)重的特征詞所構(gòu)成的特征詞矢量所成的角的余弦進(jìn)行100倍處理后的值來(lái)計(jì)算。因此,類似度取從O到100之間的值,類似度越接近100類似的準(zhǔn)確度越高。將特征詞的集合作為矢量來(lái)捕捉,通過(guò)矢量形成的角或者內(nèi)積來(lái)求出兩者的類似性的方法作為矢量空間模型被廣泛熟知,所以不再多提。
[0056]檢索結(jié)果表11是存儲(chǔ)類似文件檢索部10的檢索結(jié)果的數(shù)據(jù)表,保存檢索順序、類似度、檢索結(jié)果文件編號(hào)。類似文件檢索部10將類似文件的檢索結(jié)果輸出到檢索結(jié)果表11中時(shí),將賦予輸入文件的日期時(shí)間和賦予作為檢索結(jié)果而得到的文件中的日期時(shí)間進(jìn)行比較,可以附加只檢索比輸入文件更靠前的文件時(shí)的選項(xiàng)。例如將專利文獻(xiàn)作為檢索對(duì)象時(shí),可以比較申請(qǐng)日或者
【公開日】,只將在輸入文件之前公開的專利文獻(xiàn)作為檢索對(duì)象。
[0057]檢索結(jié)果輸出部12將存儲(chǔ)在特征詞表9中的特征詞數(shù)據(jù)、存儲(chǔ)在檢索結(jié)果表11中的檢索結(jié)果數(shù)據(jù)經(jīng)由輸出裝置40提供給使用者。另外也將后述的與同義詞有關(guān)的提取結(jié)果經(jīng)由輸出裝置40提示給使用者。
[0058]分析對(duì)象文件收集部14從與類似文件的檢索結(jié)果一起輸出的特征詞集合中提取針對(duì)使用者所指定的對(duì)象詞13的同義詞,因此收集成為其分析對(duì)象的文件集合。關(guān)于使用者指定對(duì)象詞13的畫面將在以后描述。本實(shí)施方式I中,對(duì)象詞13是從輸入文章中提取出的特征詞的任意一個(gè),與輸入文件類似的文件的檢索結(jié)果存儲(chǔ)在檢索結(jié)果表11中。因此,將存儲(chǔ)在檢索結(jié)果表11中的N件類似文件的上位R件作為用于同義詞提取的分析對(duì)象。由此,認(rèn)為可以高效地檢索使用者所指定的對(duì)象詞13的同義詞。其理由在以下進(jìn)行說(shuō)明。
[0059]上述R件的文件是被認(rèn)為和輸入文件內(nèi)容類似的文件。因此,存在雖然與對(duì)象詞13的意思相同,但表述不同的同義詞的概率高。另一方面,一般一個(gè)文件幾乎是由I個(gè)執(zhí)筆人進(jìn)行執(zhí)筆,雖然意思相同但表述不同的同義詞在I個(gè)執(zhí)筆人書寫的一個(gè)文件中并用的情況不多。因此,比起包含對(duì)象詞13的類似文件,沒有包含對(duì)象詞13的類似文件中存在同義詞的概率要高。但是通過(guò)分析包含對(duì)象詞13的類似文件,可以確定對(duì)象詞在什么樣的上下文中使用,具體地說(shuō)是關(guān)于對(duì)象詞的前后使用什么樣的詞匯/句法的語(yǔ)言記載形式。即,在沒有包含對(duì)象詞13的類似文件內(nèi),通過(guò)檢索由包含對(duì)象詞13的類似文件確定了的語(yǔ)言的記載形式,可以高效且高精度地檢索同義詞。
[0060]根據(jù)所述考察,分析對(duì)象文件收集部14將收集到的文件分類為包含對(duì)象詞13的有對(duì)象詞文件15和不包含對(duì)象詞13的無(wú)對(duì)象詞文件16。記載形式提取部17從有對(duì)象詞文件15提取特征詞前后的語(yǔ)言記載形式,存儲(chǔ)到記載形式表18中。同義詞提取部19通過(guò)從無(wú)對(duì)象詞文件16檢索記載形式表18所存儲(chǔ)的語(yǔ)言的記載形式,從無(wú)對(duì)象詞文件16提取對(duì)象詞13的同義詞,存儲(chǔ)在同義詞表20中。
[0061]圖2是表示使用者指定輸入文件的畫面的結(jié)構(gòu)例的圖。在輸入文件指定畫面300中,使用者首先將要檢索文件的標(biāo)識(shí)符的文件編號(hào)輸入到編號(hào)輸入?yún)^(qū)域301中,或者將任意的文章輸入到文章輸入?yún)^(qū)域302中。當(dāng)使用者按下檢索按鈕304后,類似文件檢索部10執(zhí)行類似文件檢索,將檢索結(jié)果輸出到后述的圖3所示的畫面中。當(dāng)使用者按下清除按鈕303后,編號(hào)輸入?yún)^(qū)域301以及文章輸入?yún)^(qū)域302的內(nèi)容被消除。
[0062]圖3是表示顯示類似文件的檢索結(jié)果的畫面例的圖。檢索結(jié)果顯示畫面400被分為顯示類似文件的檢索結(jié)果的部分(畫面右側(cè))和顯示類似文件檢索中使用的輸入文件中的特征詞的一覽的部分(畫面左側(cè))。
[0063]顯示檢索結(jié)果的部分,從與輸入文件之間類似度高的文件按順序地顯示作為類似文件而被檢索的文件。這時(shí),按照檢索到的每個(gè)文件來(lái)顯示表示檢索順序的順序407、類似度408、文件ID409 (如果是專利文獻(xiàn)則為申請(qǐng)?zhí)?、發(fā)明名稱410 (相當(dāng)于文件標(biāo)題)、 申請(qǐng)人:411 (相當(dāng)于完成者)。也可以顯示文件分類和摘要文章等上述以外的目錄信息和文本信息。畫面上部具備顯示由選擇復(fù)選框406選擇的文件的抄錄數(shù)據(jù)的“抄錄”按鈕401、顯示正文數(shù)據(jù)的“正文”按鈕402。如果按下返回按鈕403,則返回輸入文件指定畫面300。接著如果按下按鈕405,則顯示接下來(lái)的10件檢索結(jié)果文件,如果按下前按鈕404,則顯示之前的10件檢索結(jié)果文件。
[0064]顯示特征詞的一覽的部分按照特征詞的權(quán)重從高到低的順序來(lái)顯示特征詞的一覽。這時(shí),按照每個(gè)特征詞來(lái)顯示特征詞的權(quán)重順序422、特征詞的標(biāo)題423、特征詞的權(quán)重424、表示特征詞被包括在檢索結(jié)果的上位N件的百分之幾的HIT (點(diǎn)擊)率425。類似“檢索”等這種HIT率425高的特征詞是多數(shù)文件所使用的標(biāo)準(zhǔn)詞,所以不太需要補(bǔ)充同義詞。另一方面,關(guān)于類似“文本(text)”這樣的作為特征詞是重要的詞,但是關(guān)于HIT率425低的特征詞,以相同的意思存在另外的表記的同義詞(例如“文(sentence)”等)的可能性大。因此使用者考慮進(jìn)行檢查,看除了“文本”以外經(jīng)常使用什么樣的同義詞,如果需要,通過(guò)將該同義詞追加為特征詞并進(jìn)行再檢索,可以提高類似文件檢索的精度。
[0065]圖3中,如果取消對(duì)選擇是否用作特征詞的復(fù)選框421的勾選,則從類似檢索中所使用的特征詞集合刪除該特征詞。當(dāng)按下再檢索按鈕426后,類似文件檢索部10使用帶有復(fù)選框421的勾選的特征詞而再次執(zhí)行類似文件檢索,顯示檢索結(jié)果。按下重置按鈕427后,特征詞一覽重置到初始狀態(tài)。
[0066]圖4是表示選擇成為同義詞提取的對(duì)象的特征詞(相當(dāng)于對(duì)象詞13)的畫面例的圖。從畫面左側(cè)所顯示的特征詞一覽中選擇I個(gè)對(duì)象詞501后,將所選擇的對(duì)象詞501進(jìn)行突出顯示。這時(shí),顯示對(duì)提取并顯示同義詞進(jìn)行指示的同義詞顯示彈出菜單502。按下該菜單后,文件檢索裝置100提取與對(duì)象詞501對(duì)應(yīng)的同義詞,將其結(jié)果顯示在如后面圖5所示的畫面中。
[0067]圖5是表示顯示提取了與對(duì)象詞501對(duì)應(yīng)的結(jié)果的畫面例的圖。同義詞顯示畫面600按照表示提取出的同義詞的概率的準(zhǔn)確度604從高到低的順序來(lái)顯示同義詞。這時(shí),按照每個(gè)同義詞顯示準(zhǔn)確度高低的順序602、同義詞的標(biāo)題603、將提取出的同義詞的妥當(dāng)性進(jìn)行數(shù)值化后的準(zhǔn)確度604。如果有作為類似后檢索所使用的特征詞而要進(jìn)行追加的同義詞,則使用者根據(jù)復(fù)選框601來(lái)選中該同義詞。如果按下追加按鈕605,則如后述的圖6所示那樣將選中的同義詞追加為特征詞。當(dāng)按下取消按鈕606之后,不追加所選中的同義詞而關(guān)閉該畫面。
[0068]圖6是表示追加了同義詞之后的檢索結(jié)果顯示畫面400的圖。圖5中所追加的同義詞“文”被追加顯示為特征詞“文本”的同義詞。在該狀態(tài)下按下再檢索按鈕425之后,類似文件檢索部10在將“文”追加為權(quán)重=79的特征詞的基礎(chǔ)上,執(zhí)行類似文件檢索。
[0069]<實(shí)施方式1:分析對(duì)象文件收集部14的詳細(xì)動(dòng)作>
[0070]圖7是說(shuō)明分析對(duì)象文件收集部14的處理流程的圖。分析對(duì)象文件收集部14根據(jù)圖7所示的流程,將檢索結(jié)果表11中存儲(chǔ)的上位R件的類似文件分類為有對(duì)象詞文件15和無(wú)對(duì)象詞文件16。以下說(shuō)明圖7的各個(gè)步驟。
[0071](圖7:步驟 S701 ?S702)
[0072]分析對(duì)象文件收集部14將有對(duì)象詞文件15和無(wú)對(duì)象詞文件16重置為空(NULL)(S701)。分析對(duì)象文件收集部14將對(duì)文件進(jìn)行計(jì)數(shù)的計(jì)數(shù)器1、對(duì)有對(duì)象詞文件15中以及無(wú)對(duì)象詞文件16中的文件件數(shù)進(jìn)行計(jì)數(shù)的計(jì)數(shù)器SI和S2分別設(shè)為O (S702)。使用者可以經(jīng)由輸入裝置30對(duì)S1、S2、R進(jìn)行指定。
[0073](圖7:步驟 S703)
[0074]分析對(duì)象文件收集部14判定計(jì)數(shù)器i是否在閾值R(類似檢索結(jié)果內(nèi)的上位R件)以下。當(dāng)計(jì)數(shù)器i大于R時(shí)結(jié)束本流程,當(dāng)在R以下時(shí)進(jìn)入步驟S704。
[0075](圖7:步驟 S704)
[0076]分析對(duì)象文件收集部14從文件數(shù)據(jù)庫(kù)I提取第i個(gè)的類似文件的文章后,存儲(chǔ)在工作區(qū)。
[0077](圖7:步驟 S705)
[0078]分析對(duì)象文件收集部14在步驟S704對(duì)存儲(chǔ)在工作區(qū)中的文章進(jìn)行掃描,判別是否包含對(duì)象詞。如果包含則進(jìn)入步驟S706,如果沒有包含則進(jìn)入步驟S709。
[0079](圖7:步驟 S706)
[0080]分析對(duì)象文件收集部14判定存儲(chǔ)在有對(duì)象詞文件15中的文件件數(shù)的計(jì)數(shù)器SI是否比預(yù)先決定的閾值SlMAX小。當(dāng)計(jì)數(shù)器SI沒有達(dá)到SlMAX時(shí),進(jìn)入步驟S707,當(dāng)計(jì)數(shù)器SI達(dá)到SlMAX時(shí),跳到步驟S712。
[0081](圖7:步驟 S707 ~S708)
[0082]分析對(duì)象文件收集部14將第i個(gè)的類似文件的文件編號(hào)追加存儲(chǔ)到有對(duì)象詞文件15中(S707),在計(jì)數(shù)器SI上加I (S708)。
[0083](圖7:步驟 S709)
[0084]分析對(duì)象文件收集部14判定存儲(chǔ)在無(wú)對(duì)象詞文件16中的文件件數(shù)的計(jì)數(shù)器S2是否比預(yù)先決定的閾值S2MAX小。當(dāng)計(jì)數(shù)器S2沒有達(dá)到S2MAX時(shí),進(jìn)入步驟S710,當(dāng)計(jì)數(shù)器S2達(dá)到S2MAX時(shí),跳到步驟S712。
[0085](圖7 :步驟 S710 ~S711)
[0086]分析對(duì)象文件收集部14將第i個(gè)的類似文件的文件編號(hào)追加存儲(chǔ)到無(wú)對(duì)象詞文件16中(S710),在計(jì)數(shù)器S2上加I (S711)。
[0087](圖7:步驟 S712)
[0088]分析對(duì)象文件收集部14在計(jì)數(shù)器i上加1,返回步驟S703。
[0089]<實(shí)施方式1:記載形式提取部17的詳細(xì)動(dòng)作>
[0090]記載形式提取部17分析有對(duì)象詞文件15中存儲(chǔ)的類似文件,提取對(duì)象詞13前后上下文的語(yǔ)言信息(記載形式),存儲(chǔ)在記載形式表18中。本實(shí)施方式I中,作為構(gòu)成記載形式的要素提取出以下4種語(yǔ)言信息,但不僅限于此。
[0091](形式I):對(duì)象詞13緊前面的單詞標(biāo)題(Wbl)
[0092](形式2):(形式I)為附屬詞(助詞/助動(dòng)詞等)時(shí),在位于該附屬詞之前的最近的獨(dú)立詞(名詞或動(dòng)詞)(Wb2 )
[0093](形式3):對(duì)象詞13緊后面的單詞標(biāo)題(Wal)
[0094](形式4):(形式3)為附屬詞(助詞/助動(dòng)詞等)時(shí),在位于該附屬詞之后的最近的獨(dú)立詞(名詞或動(dòng)詞)(Wb2 )
[0095]例如,對(duì)象詞13為、卜”,在包含對(duì)象詞13的文件中記載有“類似+石亍3f 7卜全検索L.、検索結(jié)果全表不t石(ruiji suru tekisuto wo kensaku shi,kensakukekka wo hyouji suru)”的情況下,對(duì)象詞“ f ^ 卜(tekisuto)”緊前面的詞 Wbl為“類似t -? (ruiji suru)”。這時(shí)候Wbl是動(dòng)詞,因此Wb2不適用?!?f^卜(tekisuto)”緊后面的詞語(yǔ)Wal為“倉(cāng)(wo)Mal為附屬詞(助詞),因此位于其后的最初的動(dòng)詞“検索(kensaku shi)”成為 Wa2。
[0096]記載形式提取部17針對(duì)有對(duì)象詞文件15中存儲(chǔ)的所有文件中的所有對(duì)象詞13提取上述4種記載形式要素,將提取結(jié)果存儲(chǔ)在記載形式表18中。當(dāng)記載形式的內(nèi)容重復(fù)時(shí),將該記載形式匯總為I個(gè)并存儲(chǔ)出現(xiàn)次數(shù)。[0097]圖8是表示記載形式表18的結(jié)構(gòu)例的圖。這里,特征詞“文件”表示作為對(duì)象詞13而被選擇時(shí)的提取結(jié)果。為了記載的方便,只表記一部分的記錄,省略其他的記錄。
[0098]記載形式表18將記錄ID181、記載形式的形式類別182、表示形式名稱的形式ID183、表示該形式作為同義詞提取的線索有多么重要的程度的權(quán)重184、與該記載形式一致而提取出的單詞的標(biāo)題185、該記載形式的總出現(xiàn)頻率186、該記載形式的出現(xiàn)文件數(shù)187作為I個(gè)記錄進(jìn)行存儲(chǔ)。
[0099]記載形式表18分開存儲(chǔ)構(gòu)成記載形式的4種要素單獨(dú)一致的情形和多個(gè)要素同時(shí)一致的情形。圖8所示的數(shù)據(jù)例中,記錄IDlSl=I?4的記錄相當(dāng)于構(gòu)成記載形式的4種要素單獨(dú)一致時(shí)的數(shù)據(jù)。記錄ID181=5?15的記錄相當(dāng)于多個(gè)要素同時(shí)一致時(shí)的數(shù)據(jù)。
[0100]更多的要素進(jìn)行組合時(shí)的總出現(xiàn)頻率186和出現(xiàn)文件數(shù)187與單獨(dú)時(shí)的情況相t匕,值變小。但是,如果多個(gè)要素一致,則可以嚴(yán)格限定上下文,所以作為提取同義詞的線索的可靠性(準(zhǔn)確度)變高。權(quán)重184是將該信任度進(jìn)行了量化而得的值。權(quán)重184的值用于在后述的同義詞提取部19中確定同義詞的情況。
[0101]圖9是說(shuō)明記載形式提取部17的處理流程的圖。記載形式提取部17分析有對(duì)象詞文件15所包含的各個(gè)文件,提取與記載形式表18的標(biāo)題185對(duì)應(yīng)的數(shù)據(jù),對(duì)與總出現(xiàn)頻率186以及出現(xiàn)文件數(shù)187對(duì)應(yīng)的值進(jìn)行計(jì)數(shù)。以下說(shuō)明圖9的各個(gè)步驟。
[0102](圖9:步驟 S9Ol)
[0103]記載形式提取部17將記載形式表18的內(nèi)容初始化。
[0104](圖9:步驟 S9O2)
[0105]記載形式提取部17判定有對(duì)象詞文件15中是否殘留還沒有分析/提取記載形式的文件。如果沒有殘留則結(jié)束本流程,如果有殘留則進(jìn)入步驟S903。
[0106](圖9:步驟 S9O3)
[0107]記載形式提取部17從文件數(shù)據(jù)庫(kù)I取出分析對(duì)象文件的文章。另外,分析對(duì)象文件收集部14已經(jīng)從文件數(shù)據(jù)庫(kù)I提取該文件的文章并存儲(chǔ)在工作區(qū)中,所以也可以從該工作區(qū)中取出文章。記載形式提取部17接著將取出的文章進(jìn)行詞素分析,將標(biāo)題和詞性作為各個(gè)單詞(詞素)的單詞數(shù)據(jù),按照單詞的出現(xiàn)順序存儲(chǔ)在工作區(qū)中。
[0108](圖9:步驟 S9(M)
[0109]記載形式提取部17將工作區(qū)中存儲(chǔ)的單詞數(shù)據(jù)按照出現(xiàn)順序進(jìn)行檢查,判定在該文章中是否有還沒有對(duì)記載形式進(jìn)行分析/提取的對(duì)象詞13。如果沒有則返回步驟S902,如果有則進(jìn)入步驟S905。
[0110](圖9:步驟 S905)
[0111]記載形式提取部17將在步驟S904找到的對(duì)象詞13緊前面的單詞作為Wbl進(jìn)行提取,將之后的單詞作為Wal進(jìn)行提取。
[0112](圖9:步驟 S906 ?S907)
[0113]記載形式提取部17判定Wbl的詞性是否是附屬詞(助詞或助動(dòng)詞)(S906)。如果不是附屬詞則進(jìn)入步驟S908。如果是附屬詞則將位于Wbl之前的最近的名詞或動(dòng)詞作為Wb2進(jìn)行提取(S907)。
[0114](圖9:步驟 S908 ?S909)
[0115]記載形式提取部17判定Wal的詞性是否是附屬詞(助詞或助動(dòng)詞)(S908)。如果不是附屬詞則進(jìn)入步驟S910。如果是附屬詞則將位于Wal之后的最近的名詞或動(dòng)詞作為Wa2進(jìn)行提取(S909)。
[0116](圖9:步驟 S910)
[0117]記載形式提取部17判定記載形式表18中是否已經(jīng)存儲(chǔ)了將作為對(duì)象詞13所對(duì)應(yīng)的記載形式而提取出的Wbl、Wb2、Wal、Wa2進(jìn)行單獨(dú)或2種以上組合的記載形式。如果有存儲(chǔ)則跳到步驟S912,如果沒有存儲(chǔ)則進(jìn)入步驟S911。
[0118](圖9:步驟 S911)
[0119]記載形式提取部17將在步驟S910發(fā)現(xiàn)的記載形式追加存儲(chǔ)為記載形式表18的
新記錄。
[0120](圖9:步驟 S912)
[0121]記載形式提取部17在與步驟S910所發(fā)現(xiàn)的記載形式對(duì)應(yīng)的既存記錄的總出現(xiàn)頻率186的值上加I。
[0122](圖9:步驟 S913 ~S914) [0123]記載形式提取部17通過(guò)使每個(gè)記錄具有標(biāo)志等方法來(lái)判定符合該記錄的記載形式是否在該文章中已經(jīng)先出現(xiàn)了的形式(S913)。如果是在該文章中還沒有出現(xiàn)的新形式,則在該記錄的出現(xiàn)文件數(shù)187的值上加I后,返回步驟S904(S914)。如果是該文章中已經(jīng)出現(xiàn)的形式的話,返回步驟S904。
[0124]<實(shí)施方式1:同義詞提取部19的詳細(xì)動(dòng)作>
[0125]同義詞提取部19對(duì)無(wú)對(duì)象詞文件16中存儲(chǔ)的各個(gè)文件進(jìn)行分析,提取同義詞。本實(shí)施方式I中,確定無(wú)對(duì)象詞文件16中存儲(chǔ)的各個(gè)文件所包含的語(yǔ)句中的與存儲(chǔ)在記載形式表18中的記載形式一致的語(yǔ)句,計(jì)算表示該詞語(yǔ)是對(duì)象詞13的同義詞的概率的定量值(準(zhǔn)確度)。
[0126]例如,無(wú)對(duì)象詞文件16中的文件記載有“類似文章&検索I" 3 (ruiji bunnsyouuwo kensaku suru)” 時(shí),如果著眼于“文章(bunnsyou)”,則 Wbl 為“類似(ruiji)”,Wal 為“全(wo)”,Wa2為“検索(kennsaku)”。這些與圖8所例示的記載形式中的記錄ID=1、18、27、56的記載形式一致。
[0127]無(wú)對(duì)象詞文件16中的文件記載有“〒一夕一 T' ^ h文章f見.ο汁3 (databasekara bunsyou wo mitsukeru),,時(shí),則 Wbl 為“七、h (kara),,,Wb2 為“〒一夕《一 ^ ”, Wal為“奩(wo)”,Wa2為“辦。It石(mitsukeru),,。這與圖8所例示的記載形式中的記錄ID=18的記載形式一致。在該例的情況下,“文章(bunsyou)”也成為同義詞候補(bǔ),但是與第I個(gè)例子的“文章(bunsyou)”相比,與記載形式一致的程度低,所以視為同義詞的準(zhǔn)確度低。
[0128]同義詞提取部19將無(wú)對(duì)象詞文件16中包含的所有文件中的所有名詞或動(dòng)詞(由于是同義詞提取,所以只將名詞、動(dòng)詞作為分析對(duì)象)的記載形式與記載形式表18進(jìn)行核對(duì),對(duì)每個(gè)單詞匯總核對(duì)結(jié)果。即,根據(jù)所核對(duì)的記錄中的權(quán)重184、總出現(xiàn)頻率186、出現(xiàn)文件數(shù)187,計(jì)算表示作為該單詞的記載地點(diǎn)的同義詞的概率的得分。并且,將該單詞的所有記載地點(diǎn)的得分集合按照降序進(jìn)行排序,將得分高的上位M個(gè)得分集合的平均值作為對(duì)于該單詞的對(duì)象詞13的同義詞的準(zhǔn)確度。
[0129]圖10是說(shuō)明同義詞提取部19的處理流程的圖。關(guān)于和圖9同樣的處理省略一部分說(shuō)明。以下對(duì)圖10的各個(gè)步驟進(jìn)行說(shuō)明。[0130](圖10:步驟 SlOOl)
[0131]同義詞提取部19將同義詞20初始化。
[0132](圖10:步驟 S1002)
[0133]同義詞提取部19判定無(wú)對(duì)象詞文件16中是否殘留還沒有分析/提取記載形式的未分析文件D。如果沒有殘留則進(jìn)入步驟S1013,如果有殘留則進(jìn)入步驟S1003。
[0134](圖10:步驟 S1003)
[0135]同義詞提取部19從文件數(shù)據(jù)庫(kù)I取出未分析對(duì)象文件D的文章。同義詞提取部19接著將取出的文章進(jìn)行詞素分析,將標(biāo)題和詞性按照出現(xiàn)順序存儲(chǔ)在工作區(qū)中。
[0136](圖10:步驟 S1004)
[0137]同義詞提取部19將工作區(qū)中存儲(chǔ)的詞素分析結(jié)果按照出現(xiàn)順序進(jìn)行檢查,判定是否有記載形式是未分析的語(yǔ)句A (這里為名詞或動(dòng)詞)。如果有則進(jìn)入步驟S1005,如果沒有則進(jìn)入步驟S1012。
[0138](圖10:步驟 S1005)
[0139]同義詞提取部19將在步驟S1004找到的語(yǔ)句A緊前面的單詞作為Wbl進(jìn)行提取,將緊后面的單詞 作為Wal進(jìn)行提取。
[0140](圖10:步驟 S1006 ~S1010)
[0141]同義詞提取部19實(shí)施與記載形式提取部17所實(shí)施的步驟S906~S910同樣的處理。當(dāng)在步驟S1010判定記載形式表18內(nèi)存在與既存的記載形式一致的記載形式時(shí),進(jìn)入步驟SlOlI,當(dāng)判定沒有存在時(shí)返回步驟S1004。
[0142](圖10:步驟 S1011)
[0143]同義詞提取部19針對(duì)在步驟S1010與既存的記載形式一致的各個(gè)記錄計(jì)算根據(jù)下式I計(jì)算的值,將其最大值作為該記載地點(diǎn)的語(yǔ)句A的得分??偝霈F(xiàn)頻率186和出現(xiàn)文件數(shù)187成為大的數(shù)值,因此為了不會(huì)通過(guò)這些單獨(dú)的值來(lái)左右得分,而使用對(duì)數(shù)值。
[0144]得分=[權(quán)重184] X [log (總出現(xiàn)頻率186)]*[log (出現(xiàn)文件數(shù)187)]…(式I)
[0145](圖10:步驟 S1012)
[0146]同義詞提取部19將該文件D的各個(gè)詞的得分最大值作為該文件D的該語(yǔ)句的得分。
[0147](圖10:步驟 S1013)
[0148]同義詞提取部19將各個(gè)文件的各個(gè)語(yǔ)句的得分按照降序進(jìn)行排序,求出得分高的上位Y個(gè)的平均值,作為對(duì)于該語(yǔ)句的對(duì)象詞13的同義詞的準(zhǔn)確度。同義詞提取部19接著降序排序各個(gè)語(yǔ)句的準(zhǔn)確度,將準(zhǔn)確度高的詞作為對(duì)于對(duì)象詞13的同義詞,按照得分從高到低的順序?qū)?biāo)題和得分存儲(chǔ)在同義詞表20中。
[0149]〈實(shí)施方式1:匯總〉
[0150]以上,在使用者指定類似文件中使用的輸入文件的特征詞中任意一個(gè)的基礎(chǔ)上,本實(shí)施方式I的文件檢索裝置100從類似檢索結(jié)果的上位文件中檢索其同義詞。這樣,使用者可以高精度地提取所希望的同義詞。
[0151]另外,本實(shí)施方式I的文件檢索裝置100使用從包含使用者指定的對(duì)象詞13的文件集合中提取出的記載形式,從不包含對(duì)象詞13的文件集合來(lái)檢索對(duì)象詞13的同義詞。這樣,可以使用通過(guò)對(duì)象詞13前后的記載形式而確定的上下文來(lái)高精度地提取同義詞。[0152]另外,本實(shí)施方式I的文件檢索裝置100將使用者根據(jù)需要而追加的同義詞用作特征詞,再次執(zhí)行類似檢索。這樣,可以輸出檢索精度更高,使用者認(rèn)可的類似文件檢索結(jié)果O
[0153]〈實(shí)施方式2>
[0154]在實(shí)施方式I中,與使用者指定的輸入文件6或者輸入文件編號(hào)7對(duì)應(yīng)的文件沒有被存儲(chǔ)在檢索結(jié)果表11中,所以有對(duì)象詞文件15中也沒有存儲(chǔ)這些文章或文件。但是,假設(shè)使用者指定的這些文章或文件可以更好地反映使用者所希望的同義詞的記載形式。因此,本發(fā)明的實(shí)施方式2的文件檢索裝置100將與使用者所提示的輸入文章6或輸入文件編號(hào)7對(duì)應(yīng)的文件追加到有對(duì)象詞文件15中。其他的結(jié)構(gòu)與實(shí)施方式I相同。
[0155]類似文件檢索的輸入文件是最極端地表示使用者的意圖的文章,所以考慮其中的對(duì)象詞13的記載形式成為提取同義詞的重要線索。本實(shí)施方式2通過(guò)利用這一點(diǎn)達(dá)到提高記載形式的提取精度的目的。
[0156]另外,在記載形式提取部17提取記載形式時(shí),設(shè)置用于使從輸入文件提取出的記載形式的重要度高于其他的第2權(quán)重,也可以將該第2權(quán)重存儲(chǔ)在記載形式表18中。這樣,可以提高記載形式的提取精度。
[0157]〈實(shí)施方式3>
[0158]在實(shí)施方式I?2中,說(shuō)明了將類似文件的檢索結(jié)果的上位文件R件用作同義詞的提取對(duì)象的情況。但是,也考慮到對(duì)于輸入文件的類似度在等級(jí)I位的文件和等級(jí)R位的文件中十分不同的情況。因此,本發(fā)明的實(shí)施方式3的文件檢索裝置100設(shè)置用于使從類似度高的文件提取出的記載形式的重要度高于其他的第3權(quán)重,存儲(chǔ)在記載形勢(shì)表18中。其他的結(jié)構(gòu)和實(shí)施方式I相同。
[0159]具體地說(shuō),將類似度的絕對(duì)值、或者對(duì)于等級(jí)I位的文件的類似度的相對(duì)值用作第3權(quán)重。這樣,認(rèn)為可以提高記載形式的提取精度。
[0160]〈實(shí)施方式4>
[0161]圖11是表示文件檢索裝置100的硬件的結(jié)構(gòu)例的圖。文件檢索裝置100的各個(gè)功能部可以使用實(shí)現(xiàn)該功能的電路器件等的硬件來(lái)構(gòu)成,也可以通過(guò)由CPU (中央處理單元)等的處理裝置來(lái)執(zhí)行安裝了同樣功能的軟件來(lái)構(gòu)成。圖11是表示后者的結(jié)構(gòu)例的圖。
[0162]本實(shí)施方式4的文件檢索裝置100具備執(zhí)行計(jì)算處理的處理裝置50、用于由使用者輸入操作內(nèi)容或者數(shù)據(jù)的輸入裝置30、用于將計(jì)算處理結(jié)果輸出給使用者的輸出裝置40、存儲(chǔ)實(shí)施處理裝置50的處理的程序以及數(shù)據(jù)的存儲(chǔ)裝置60。
[0163]輸入裝置30由鍵盤51以及鼠標(biāo)52構(gòu)成。輸出裝置40由輸出監(jiān)視器53構(gòu)成。在與其他的計(jì)算機(jī)進(jìn)行輸入輸出數(shù)據(jù)交換的情況下,經(jīng)由網(wǎng)絡(luò)54來(lái)收發(fā)輸入輸出數(shù)據(jù)。
[0164]存儲(chǔ)裝置60具有暫時(shí)存儲(chǔ)處理裝置50所使用的處理數(shù)據(jù)的工作區(qū)61、存儲(chǔ)數(shù)據(jù)的文件數(shù)據(jù)庫(kù)存儲(chǔ)區(qū)62、單詞詞典存儲(chǔ)區(qū)63、檢索索引存儲(chǔ)區(qū)64、輸入文章存儲(chǔ)區(qū)65、輸入文件編號(hào)存儲(chǔ)區(qū)66、特征詞表存儲(chǔ)區(qū)67、檢索結(jié)果表存儲(chǔ)區(qū)68、對(duì)象詞存儲(chǔ)區(qū)69、有對(duì)象詞文件存儲(chǔ)區(qū)70、無(wú)對(duì)象詞文件存儲(chǔ)區(qū)71、記載形式表存儲(chǔ)區(qū)72、存儲(chǔ)程序的特征詞提取部存儲(chǔ)區(qū)73、檢索索引生成部存儲(chǔ)區(qū)74、特征詞收集部存儲(chǔ)區(qū)75、類似文件檢索部存儲(chǔ)區(qū)76、檢索結(jié)果輸出部存儲(chǔ)區(qū)77、分析對(duì)象文件收集部存儲(chǔ)區(qū)78、記載形式提取部存儲(chǔ)區(qū)79、同義詞提取部存儲(chǔ)區(qū)80。各個(gè)功能部被存儲(chǔ)在具有同樣名稱的存儲(chǔ)領(lǐng)域中。[0165]處理裝置50從存儲(chǔ)裝置60加載所需的程序以及數(shù)據(jù),通過(guò)重復(fù)地將執(zhí)行的結(jié)果存儲(chǔ)在存儲(chǔ)裝置60中,執(zhí)行實(shí)施方式I?3所說(shuō)明的處理。
[0166]本發(fā)明不限定上述實(shí)施方式,而包括各種的變形例。上述實(shí)施方式是為了清楚地說(shuō)明本發(fā)明而進(jìn)行了詳細(xì)說(shuō)明的實(shí)施方式,不需要限定為具備所說(shuō)明的所有結(jié)構(gòu)的方式。另外,可以將某個(gè)實(shí)施方式的結(jié)構(gòu)的一部分置換為其他的實(shí)施方式的結(jié)構(gòu)。另外,可以在某個(gè)實(shí)施方式的結(jié)構(gòu)加上其他實(shí)施方式的結(jié)構(gòu)。另外,可以對(duì)各個(gè)實(shí)施方式的結(jié)構(gòu)的一部分追加/刪除/置換其他的結(jié)構(gòu)。
[0167]可以通過(guò)例如在集成電路進(jìn)行設(shè)計(jì)等用硬件來(lái)實(shí)現(xiàn)上述各個(gè)結(jié)構(gòu)、功能、處理部、處理單元等其中的一部分和全部。另外,也可以通過(guò)由處理器對(duì)實(shí)現(xiàn)各功能的程序進(jìn)行解釋和執(zhí)行而用軟件來(lái)實(shí)現(xiàn)上述的各個(gè)結(jié)構(gòu)、功能等。實(shí)現(xiàn)各個(gè)功能的程序、表、文件等的信息可以存儲(chǔ)在存儲(chǔ)器、硬盤、SSD (固態(tài)驅(qū)動(dòng)器)等記錄裝置、IC卡、SD卡、DVD等記錄介質(zhì)中。
【權(quán)利要求】
1.一種檢索文件的文件檢索裝置,其特征在于,具備: 輸入部,其接受命令輸入; 特征詞提取部,其分析文件數(shù)據(jù)庫(kù)所存儲(chǔ)的文件并提取特征詞; 類似文件檢索部,其使用所述特征詞提取部所提取出的特征詞,從所述文件數(shù)據(jù)庫(kù)所存儲(chǔ)的文件中檢索與經(jīng)由所述輸入部指定的輸入文章或者輸入文件類似的文件; 檢索結(jié)果輸出部,其輸出所述類似文件檢索部的檢索結(jié)果以及所述類似文件檢索部實(shí)施所述檢索時(shí)所使用的所述特征詞; 同義詞處理部,其根據(jù)指示指定所述檢索結(jié)果輸出部所輸出的所述特征詞中的任意一個(gè)來(lái)檢索其同義詞的命令輸入,從所述檢索結(jié)果所包含的文件集合提取所述同義詞;以及同義詞輸出部,其輸出所述同義詞處理部所提取出的所述同義詞。
2.根據(jù)權(quán)利要求1所述的文件檢索裝置,其特征在于, 所述同義詞處理部具備: 分析對(duì)象文件收集部,其將所述檢索結(jié)果中包含的文件集合分為第I文件集合和第2文件集合,所述第I文件集合包含所述特征詞中的成為提取所述同義詞的對(duì)象的對(duì)象詞,所述第2文件集合不包含所述對(duì)象詞; 記載形式提取部,其分析所述第I文件集合內(nèi)的各個(gè)文件,提取所述第I文件集合中包含的所述對(duì)象詞的記載地點(diǎn)前后的第I語(yǔ)言記載形式;以及 同義詞提取部,其分析所述第2文件集合內(nèi)的各個(gè)文件,提取所述第2文件集合中包含的語(yǔ)句的記載地點(diǎn)前后的第2語(yǔ)言記載形式,通過(guò)核對(duì)所述第2語(yǔ)言記載形式和所述第I語(yǔ)言記載形式,在提取與所述對(duì)象詞對(duì)應(yīng)的同義詞的候補(bǔ)的同時(shí)計(jì)算所述候補(bǔ)的準(zhǔn)確度。
3.根據(jù)權(quán)利要求2所述的文件檢索裝置,其特征在于, 所述記載形式提取部將與所述對(duì)象詞語(yǔ)法關(guān)聯(lián)的語(yǔ)句作為所述第I語(yǔ)言記載形式進(jìn)行提取, 所述同義詞提取部將與所述第2文件集合所包含的語(yǔ)句語(yǔ)法關(guān)聯(lián)的語(yǔ)句作為所述第2語(yǔ)言記載形式進(jìn)行提取。
4.根據(jù)權(quán)利要求3所述的文件檢索裝置,其特征在于, 所述記載形式提取部將所述對(duì)象詞的記載地點(diǎn)前后的語(yǔ)句的詞性或者獨(dú)立詞/附屬詞的區(qū)別的至少任意一個(gè)作為標(biāo)準(zhǔn),將語(yǔ)法關(guān)聯(lián)的所述語(yǔ)句作為所述第I語(yǔ)言記載形式進(jìn)行提取, 所述同義詞提取部將所述第2文件集合中包含的語(yǔ)句的記載地點(diǎn)前后的語(yǔ)句的詞性或者獨(dú)立詞/附屬詞的區(qū)別的至少任意一個(gè)作為標(biāo)準(zhǔn),將語(yǔ)法關(guān)聯(lián)的所述語(yǔ)句作為所述第2語(yǔ)言記載形式進(jìn)行提取。
5.根據(jù)權(quán)利要求4所述的文件檢索裝置,其特征在于, 所述記載形式提取部,作為所述第I語(yǔ)言記載形式,提取使用了下述4種形式中的至少任意一種的記載形式: (形式I):所述提取對(duì)象詞緊前面的單詞標(biāo)題 (形式2):當(dāng)(形式I)為附屬詞時(shí),位于該附屬詞之前的最近的獨(dú)立詞 (形式3):所述提取對(duì)象詞緊后面的單詞標(biāo)題 (形式4):當(dāng)(形式3)為附屬詞時(shí),位于該附屬詞之后的最近的獨(dú)立詞。
6.根據(jù)權(quán)利要求2所述的文件檢索裝置,其特征在于, 所述同義詞提取部, 根據(jù)作為所述第I語(yǔ)言記載形式而提取出的記載形式的類別將權(quán)重賦予各個(gè)所述第I語(yǔ)言記載形式, 關(guān)于與多個(gè)所述類別一致的所述第I語(yǔ)言記載形式,合計(jì)賦予給各個(gè)所述類別的所述權(quán)重, 使用所述賦予的所述第I語(yǔ)言記載形式的權(quán)重來(lái)計(jì)算所述同義詞的候補(bǔ)的得分, 所述同義詞輸出部, 將所述同義詞提取部計(jì)算出的所述同義詞的候補(bǔ)的得分與所述同義詞的候補(bǔ)一起輸出。
7.根據(jù)權(quán)利要求6所述的文件檢索裝置,其特征在于, 所述同義詞提取部,針對(duì)每個(gè)所述同義詞的候補(bǔ),通過(guò)將所述權(quán)重的合計(jì)、各個(gè)所述第I語(yǔ)言記載形式相對(duì)于全部文件集合的出現(xiàn)頻率的對(duì)數(shù)值、各個(gè)所述第I語(yǔ)言記載形式出現(xiàn)的文件數(shù)的對(duì)數(shù)值進(jìn)行相乘,計(jì)算所述同義詞的候補(bǔ)的得分。
8.根據(jù)權(quán)利要求2所述的文件檢索裝置,其特征在于, 所述分析對(duì)象文件收集部在所述第I文件集合中包含所述輸入文章或者所述輸入文件。
9.根據(jù)權(quán)利要求8所述的文件檢索裝置,其特征在于, 所述同義詞提取部對(duì)于從所述第I文件集合中包含的所述輸入文章或者所述輸入文件提取出的所述記載形式,使用比其他的所述記載形式大的所述權(quán)重。
10.根據(jù)權(quán)利要求2所述的文件檢索裝置,其特征在于, 所述同義詞提取部,對(duì)于越是從所述類似文件檢索部的檢索結(jié)果中類似度高的文件提取出的所述第I語(yǔ)言記載形式,越是增大所述權(quán)重。
11.根據(jù)權(quán)利要求1所述的文件檢索裝置,其特征在于, 所述輸入部接受指定作為所述檢索結(jié)果中包含的文件集合而進(jìn)行收集的文件數(shù)、作為所述第I文件集合而進(jìn)行收集的文件的最大數(shù)、以及作為所述第2文件集合進(jìn)行收集的文件的最大數(shù)的指示輸入, 所述同義詞處理部根據(jù)所述指示輸入所指定的各個(gè)文件數(shù)來(lái)收集文件。
12.—種檢索文件的文件檢索方法,其特征在于,具有: 輸入步驟,接受命令輸入; 特征詞提取步驟,分析文件數(shù)據(jù)庫(kù)所存儲(chǔ)的文件并提取特征詞; 類似文件檢索步驟,使用所述特征詞提取步驟中提取出的特征詞,從所述文件數(shù)據(jù)庫(kù)所存儲(chǔ)的文件中檢索與所述輸入步驟中指定的輸入文章或者輸入文件類似的文件; 檢索結(jié)果輸出步驟,輸出所述類似文件檢索步驟的檢索結(jié)果以及在所述類似文件檢索步驟實(shí)施所述檢索時(shí)所使用的所述特征詞; 同義詞處理步驟,根據(jù)指示指定所述檢索結(jié)果輸出步驟所輸出的所述特征詞中的任意一個(gè)來(lái)檢索其同義詞的命令輸入,從所述檢索結(jié)果所包含的文件集合提取所述同義詞;以及 同義詞輸出步驟,輸出在所述同義詞處理步驟提取出的所述同義詞。
【文檔編號(hào)】G06F17/30GK103838816SQ201310615625
【公開日】2014年6月4日 申請(qǐng)日期:2013年11月26日 優(yōu)先權(quán)日:2012年11月27日
【發(fā)明者】間瀨久雄, 佐藤佑介 申請(qǐng)人:株式會(huì)社日立制作所