專(zhuān)利名稱(chēng):信息存儲(chǔ)和檢索的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息存儲(chǔ)和檢索。
技術(shù)背景有許多已建立的系統(tǒng)feffl于通過(guò)按照關(guān)鍵字進(jìn)行搜索來(lái)定位信息(比如文 件、圖像、電子郵件、專(zhuān)利、因特網(wǎng)內(nèi)容或者象音激視頻內(nèi)容這樣的媒體內(nèi)容)。 實(shí)例包括例如由"Google" tm或者"Yahoo" tm等這樣的公司提供的因特網(wǎng)搜 索"引擎",其中通過(guò)關(guān)鍵字執(zhí)行的搜索導(dǎo)致- 個(gè)結(jié)果列表,該結(jié)果列表被搜 索弓摩按照所察覺(jué)的關(guān)晚性而進(jìn)行排序。然而,在經(jīng)常被稱(chēng)作大量?jī)?nèi)容收集的、包括大量?jī)?nèi)容的系統(tǒng)中,可能很難 帝啶有效的檢索查詢(xún)來(lái)給出相對(duì)短的搜索"命中"列表。例如,在準(zhǔn)備當(dāng)前申 請(qǐng)時(shí),關(guān)于關(guān)鍵字"大量文件收集(massive document collection)"的Google 搜索就提取了 243000傾中。如果以后再重復(fù)這個(gè)搜索,貝滪期此命中的數(shù) £將增長(zhǎng),因?yàn)橥ㄟ^(guò)因特網(wǎng)所存儲(chǔ)的內(nèi)容的數(shù)Sil常會(huì)隨著時(shí)間而增加。檢 查這樣的命中列表需要耗費(fèi)高得驚人的時(shí)間??偟膩?lái)說(shuō),大量?jī)?nèi)容M沒(méi)有被很好禾擁的—些原因是 用戶(hù)不知道存在相關(guān)內(nèi)容 用戶(hù)知道相關(guān)內(nèi)##在但不知道它可能位于哪里 用戶(hù)知道該內(nèi) 在但不知道它是相關(guān)的 用戶(hù)知道相關(guān)內(nèi)容存在并知道如何找到它,但找到該內(nèi)容花費(fèi)很長(zhǎng)時(shí)間在2000年5月有關(guān)神經(jīng)網(wǎng)絡(luò)的正EE對(duì)艮的第11巻第3期的574—585頁(yè), Kohonen等人寫(xiě)的論文'Self Organisation of a Massive Document Collection"("大量文件收集的自組織")公開(kāi)了一種利用所謂的"自組織映射"(SOM)的技 術(shù)。這些利用了所謂的無(wú)人管理的自學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法,其中表示每個(gè)文件的 屬性的"特征向量"被日顛寸到SOM的節(jié)點(diǎn)上。在Kohonen等人的論文中,第一步是預(yù)處理文件文本,然后每個(gè)被預(yù)處理的文件中得到特征向量。在一種格式中,這可以是 大字典的每個(gè)字的發(fā)生頻率的直方圖。si:方圖中的^hw值他就魏應(yīng)字典字的發(fā)生頻率)變成一個(gè)n值向量中的值,其中n是在字典中候選字的總數(shù)量(在這個(gè)文章所 述的例子中是43222)?;蛟S可以將加TO用到該n個(gè)向量值,以強(qiáng)調(diào)鵬字的 增加的相關(guān)性或者改進(jìn)的分化。然后該n值向量鵬寸到更小維數(shù)的向量上(也就是具有實(shí)際上小于n的m 個(gè)值(在文章的實(shí)例中是500)的向量)。這可以ilii使該向量乘以一個(gè)由隨機(jī) 數(shù)的數(shù)組所組成的(nXm)"投z徵巨陣"來(lái)實(shí)現(xiàn)。這個(gè)技術(shù)已經(jīng)表明可生, 小維數(shù)的向量,其中任意兩個(gè)縮小維數(shù)的向量具有與兩個(gè)對(duì)應(yīng)的輸入向量幾乎 相同的向量點(diǎn)積。在1998年UCNN會(huì)刊第413—418頁(yè)中Kaski所寫(xiě)的論文 "Dimensionality Reduction by Random Mapping: Fast Similarity Computation for Clustering"("通過(guò)隨機(jī)鵬縮小維數(shù)用于麟的快速相似性計(jì)算")中描述 了這個(gè)向量鵬t過(guò)程。然后該縮小維數(shù)的向Ml用"模型"(另一個(gè)向量)乘以齡向量的過(guò)程 而被映射到SOM上的節(jié)點(diǎn)上(^t被稱(chēng)為神經(jīng)元)。該漠型由學(xué)習(xí)過(guò)程生成, 該學(xué)習(xí)過(guò)程按照相互的相似性將該模型自動(dòng)排序到SOM上,該SOM通常被 表示為節(jié)點(diǎn)的二維網(wǎng)格。這并不是一個(gè)平凡的過(guò)程,為了一個(gè)只有不到七百萬(wàn) 個(gè)文件的文件m^庫(kù),它使Kohonen等人在具有800MB內(nèi)存的六處理器i慣 機(jī)上花費(fèi)了六個(gè)星期。最終顯示了一個(gè)由SOM組成的節(jié)點(diǎn)的網(wǎng)格,用戶(hù)旨辦 移近映J寸圖的區(qū)域并選擇一個(gè)節(jié)點(diǎn),這使得用戶(hù)界面提供一個(gè)到因特網(wǎng)頁(yè)面的 M,該頁(yè)面包含了被鏈接至娜個(gè)節(jié)點(diǎn)的文件。發(fā)明內(nèi)容本發(fā)明提供了一種信息檢索系統(tǒng),其中一組不同的信息項(xiàng)ffiil該信息項(xiàng)的 相互的相似性而映射到一個(gè)節(jié)點(diǎn)陣列中的對(duì)應(yīng)節(jié)點(diǎn),使^^似的信息項(xiàng)^f到 該節(jié)點(diǎn)陣歹忡在類(lèi)似ffl處的節(jié)點(diǎn);該系統(tǒng)包括用于在用戶(hù)顯示器上的顯示區(qū)中,把至少一些節(jié)點(diǎn)的表示顯示為顯示點(diǎn)的 二維顯示排列的圖形用戶(hù)界面;用于定義i述示區(qū)的二維區(qū)域的用戶(hù)控帝螺; 用于檢測(cè)位于鄉(xiāng)示區(qū)的二維區(qū)域中的那些顯示點(diǎn)的檢測(cè)器; 該圖形用戶(hù)界面還顯示代表信息項(xiàng)的數(shù)據(jù)的列表,那些信息項(xiàng)柳劃寸到和該顯示區(qū)的二維區(qū)域中所顯示的顯示點(diǎn)相對(duì)應(yīng)的節(jié)點(diǎn)上。那些本領(lǐng)域技術(shù)人員將會(huì)明白在詞"列表"的正常使用中,"代表信息項(xiàng) 的數(shù)據(jù)"可以是該項(xiàng)自身,如果它具有適于全部顯示的大小和屬性的話,棘 它可以是指示該項(xiàng)的鵬。本發(fā)明還提供了信息存儲(chǔ)系統(tǒng),在其中處理一組不同的信息項(xiàng)以便于M3! 該信息項(xiàng)的相互相似 映射到節(jié)點(diǎn)陣列中的對(duì)應(yīng)節(jié)點(diǎn),使得相似的信息項(xiàng)映 射到該節(jié)點(diǎn)陣列中相似位置處的節(jié)點(diǎn);該系統(tǒng)包括用于生成從每個(gè)信息項(xiàng)所得出的特征向量的裝置,該用于信息項(xiàng)的特征向 量表示婦卩個(gè)信息項(xiàng)中一組信息特征中每個(gè)信息特征的一組出現(xiàn)頻率;和用于將每個(gè)特征向量鵬錢(qián)lj該節(jié)點(diǎn)陣列中的節(jié)點(diǎn)的裝置,在信息項(xiàng)和陣列中的節(jié)點(diǎn)之間的鵬t包括一個(gè)抖動(dòng)部分,以使得基本上相同的信息項(xiàng)傾向于映 射到陣列中非常靠近但卻不同的節(jié)點(diǎn)。通過(guò)^^用戶(hù)界面以允許用戶(hù)方便地將 屏幕上的顯示點(diǎn)與信息項(xiàng)列表中的信息項(xiàng)聯(lián)系在鬼,并且同時(shí)允許用戶(hù)方便 地區(qū)分相似的信息項(xiàng),由此而在Kohonen等人論文中所述的過(guò)程上^1本發(fā) 明。本發(fā)明另夕卜的於方面禾囀征在隨后的權(quán)利要求中定義。
現(xiàn)在只是作為實(shí)例而參考附圖來(lái)描述
具體實(shí)施例方式
圖1示意性地圖解說(shuō)明了信息#1諸和檢索系統(tǒng); 圖2是顯示自組織B,圖(SOM)的生J^的示意性流程圖; 圖3a和3b示意性地圖解說(shuō)明術(shù)語(yǔ)頻率直方圖; 圖4a示意性地圖解說(shuō)明未加工的特征向量;圖4b示意性地圖解說(shuō)明減少的特征向量; 圖5示意性地圖解說(shuō)明SOM; 圖6示意性地圖解說(shuō)明抖動(dòng)過(guò)程;圖7到9示意性地圖解說(shuō)明Jif共用戶(hù)界面來(lái)訪問(wèn)由SOM J9f^的信息的 顯示屏幕;圖10示意性地圖解說(shuō)明作為視頻捕獲和/或處理設(shè)備實(shí)例的攝像機(jī);和 圖11示意性地圖解說(shuō)明作為便攜式,處理設(shè)備實(shí)例的個(gè)人數(shù)字助手。 具體實(shí)施誠(chéng)圖i是基于通用計(jì)^m 10的信息存儲(chǔ)和紀(jì)案'系統(tǒng)的示意圖,通用計(jì) 110 具有一個(gè)處理器單元20,后者包括了用于f酵和數(shù)據(jù)的磁盤(pán)存儲(chǔ)器30、連接 到例如以太網(wǎng)或者因特網(wǎng)這樣的網(wǎng)絡(luò)50上的網(wǎng)絡(luò)接口卡40,通用iff抓還具 有例如陰極射線管設(shè)備這樣的顯示設(shè)備60、鍵盤(pán)70禾,如鼠^ 的用戶(hù)輸入設(shè)備80。該系統(tǒng)在sm空制下操作,^m皮存儲(chǔ)在纖存儲(chǔ)器30上并腿過(guò)例如網(wǎng)絡(luò)50、可移動(dòng)磁盤(pán)(未顯示)或:tf頁(yè)先安裝在M:存儲(chǔ)器30上來(lái)提 供。該存儲(chǔ)系統(tǒng)運(yùn)行在兩個(gè)普通的操作模式中。在第一個(gè)模式中, 一系列信息 項(xiàng)(例如文本信息項(xiàng))!碟合在磁盤(pán)存儲(chǔ)器30上離IS^合fflil網(wǎng)絡(luò)50連 接的網(wǎng)絡(luò)磁盤(pán)驅(qū)動(dòng)器上,并且被分類(lèi)和索引,準(zhǔn)備用于搜索操作。操作的第二 個(gè)模式是針對(duì)己被索弓l和分類(lèi)的數(shù)據(jù)的實(shí)際搜索。該實(shí)施例可應(yīng)用于許多類(lèi)型的信息項(xiàng)。合適的信息類(lèi)型的非窮盡列表包括 專(zhuān)利、視頻材料、電子郵件、報(bào)告、因特網(wǎng)內(nèi)容、廣播內(nèi)容、商業(yè)報(bào)告、音頻 桐料、圖形和圖片(cHpart)、照片等等,或者是這些類(lèi)型的任意的組合或者混 合。在本說(shuō)明書(shū)中,將文本信息項(xiàng)或者至少具有文本內(nèi)容或關(guān)聯(lián)的信息項(xiàng)作為 參考。因此,例如,像音頻和/或視頻材料這樣的一條廣播內(nèi)容可能具有以文本 項(xiàng)定義那個(gè)材料的關(guān)聯(lián)的"元數(shù)據(jù)"。信息項(xiàng)以傳統(tǒng)的方式被裝載到磁盤(pán)存儲(chǔ)器30上。t^i也,它們可以被存儲(chǔ) 作為允許更容易地進(jìn)行項(xiàng)的檢索和索弓I的數(shù)據(jù)庫(kù)結(jié)構(gòu)的一部分,但這不是必需 的。一旦已經(jīng)如此存儲(chǔ)了信息禾頓,貝贓圖2中示意性表示l細(xì)于排列它們以 便進(jìn)行贖的過(guò)程。將會(huì)理解,被索弓1的信息 不必被存儲(chǔ)在本地磁盤(pán)驅(qū)動(dòng)器30上。 可 存儲(chǔ)在經(jīng)因特網(wǎng)50與系統(tǒng)10相連的遠(yuǎn)端驅(qū)動(dòng)器上??商娲?,可以以分布的 方式存儲(chǔ)信息,例如存儲(chǔ)在因特網(wǎng)的各種位置上。如果信息被存儲(chǔ)在不同的因 特網(wǎng)或者網(wǎng)謝立置處,貝幅息存儲(chǔ)器的第二級(jí)別將被用來(lái)在本地存fi^條到該 遠(yuǎn)程信息的"鏈接"(例如,URL),或許具有相關(guān)的概要、摘要或者與這條 接相關(guān)聯(lián)的元數(shù)據(jù)。因此,遠(yuǎn)程持有的信息將不被訪問(wèn),除非用戶(hù)選擇了相關(guān) 鏈接(例如從將在下面描述的結(jié)果歹撥260中選擇),盡管為了隨后的技術(shù)描 述的目的,該遠(yuǎn)程持有的信息或者該摘要/概要/元i^或:t^&妾/URL可以被認(rèn) 為是"信息項(xiàng)"。換句話說(shuō),"信息項(xiàng)"的正式定義題中可以獲得特征向量并且被鵬(見(jiàn)下面)以便衝共到SOM的日劃f的項(xiàng)。在結(jié)果列表260.(見(jiàn)下面)中 的數(shù) 據(jù)可以是信息項(xiàng)自身(如果被保持在本地并皿于方便的顯示足夠短),或者 是表示和/赫指向信息項(xiàng)的 ,例如一個(gè)體多個(gè)元M、 URL、摘要、一 組關(guān)鍵詞、表示性的關(guān)鍵標(biāo)己的圖象等。在操作"歹據(jù)"中這是固有的,操作 "列表"雖然不總對(duì)旦卻經(jīng)常包括列出表示一組項(xiàng)的l^i。在另一個(gè)實(shí)例中,肖g夠跨越例如一個(gè)研究組或者合法公司這樣的連網(wǎng)的工 作組來(lái)存儲(chǔ)信息項(xiàng)。 一種混合方案可以包括一些本地存儲(chǔ)的信息項(xiàng)和/或者一些 通過(guò)局域網(wǎng)而被存儲(chǔ)的信息項(xiàng)和/或者一些通過(guò)廣域網(wǎng)而被存儲(chǔ)的信息項(xiàng)。
樣的情況下,該系統(tǒng)對(duì)于例如在大型多國(guó)研究與開(kāi)發(fā)組織中定位由其它Aift行 的相似工作非常有用,相似的研究工作將傾向于被映射到SOM中的相似輸出 節(jié)點(diǎn)上(見(jiàn)下文)?;蛘呷绻谟?jì)劃一個(gè)新的電視節(jié)目,貝體技術(shù)能夠被用 于通過(guò)檢測(cè)以前具有相似內(nèi)容的節(jié)目來(lái)檢查其原創(chuàng)性。還應(yīng)該;鵬,圖l的系統(tǒng)10僅僅只是微對(duì)頓被索引的信息項(xiàng)的可能系統(tǒng)的—個(gè)實(shí)例。盡管可以想象,可以通過(guò)相當(dāng) 駄的計(jì)tm,很可能JH3i非便攜式計(jì)算機(jī),來(lái)執(zhí)行初期(編制索引)階段,但是訪問(wèn)信息的后期階段可以在 例如"個(gè)人數(shù)字助理"(用于具有顯示器和用戶(hù)輸入設(shè)備的數(shù)字處理設(shè)備的術(shù) 語(yǔ),通常適合放在一只手中)這樣的便攜式t幾器、例如膝上型電腦這樣的便攜 式計(jì)算機(jī)或者甚至例如移動(dòng)電話、視頻編輯設(shè)備或者攝像機(jī)這樣的設(shè)備上執(zhí) 行。通常地,具有顯示器的ftf可設(shè)備實(shí)際上都能夠用于操作的信息訪問(wèn)階段。 該過(guò)程不受信息項(xiàng)的具體數(shù)目的限制?,F(xiàn)在將參考圖2到6來(lái)描述^^及信息項(xiàng)的自組織鵬才(SOM)表示的過(guò)程。 圖2是圖解說(shuō)明后隨SOM鵬寸過(guò)程的、被稱(chēng)作"特征提取"過(guò)程的示意性流 程圖。特征提取是將未加工的數(shù)據(jù)轉(zhuǎn)換成抽象表示的過(guò)程。這些抽 示然后能 iOT于例如模式分類(lèi)、聚集和識(shí)別這樣的過(guò)程。在這Wf呈中,生^ffi胃的"特 征向量",它是在文件中所用的檢索詞的頻率的抽,示。通過(guò)創(chuàng)建特征向量?jī)鲂纬娠@現(xiàn)的過(guò)程包括 生,索詞的"文件 庫(kù)字典" 根據(jù)"文件數(shù)據(jù)庫(kù)字典"為旨對(duì)蟲(chóng)的文件生成"檢索詞頻率直方圖" 禾擁隨機(jī)鵬寸來(lái)^> "檢索詞頻率直方圖"的維數(shù) 創(chuàng)建信息空間的2維顯現(xiàn)。更詳細(xì)±也考慮這些步驟,依次打Jf^文件(信息項(xiàng))100。鄉(xiāng)驟110處, 從文件中去除全部的"無(wú)用詞(stop word)"。無(wú)用詞是在予艦準(zhǔn)備的列褒上.的 那些非常普通的詞,例如"一個(gè)"、"這"、"然而"、"關(guān)于"、"和"以及"該" 等。因?yàn)檫@些詞非常普通,所以它們平均起來(lái)可能艦夠長(zhǎng)度的全部文件中表 現(xiàn)出相似的頻率。因?yàn)檫@個(gè)原因,它們?cè)趪L試表征特定文件的內(nèi)容時(shí)幾乎不起 作用,因此應(yīng)該Mi滁。在刪除湖詞以后,在步驟120艦剩余詞提取詞干(stem),這包括找到 詞的變體的共同詞干。例如詞"投擲器"(thrower)、"投擲"(thraws)和"投 擲運(yùn)動(dòng)"(throwing)具有共同的詞干"投擲"(throw)。維護(hù)由出現(xiàn)在文件(除去無(wú)用詞)中的作為詞干的詞纟M;的"字典"。當(dāng)重新遇到一個(gè)詞的時(shí)候,它被增加到該字典中,并且還記錄這個(gè)詞已經(jīng)在齡文 件收集(信息項(xiàng)組)中出現(xiàn)的次數(shù)的游動(dòng)(running)計(jì)數(shù)。所得的結(jié)果是在文件組中用于全部文件的檢索詞列表,以朋陛檢索詞出 現(xiàn)的頻率。出現(xiàn)頻率太高或者太低的詞被忽視,也就是說(shuō)從字典中除去它們并 且它們不參與隨后的分析。具有太低頻率的詞可能是拼錯(cuò)的、虛構(gòu)的或者與文 件組所表示的領(lǐng)域不相關(guān)的。出現(xiàn)頻率太高的詞不適合在該組中區(qū)分文件。例 如,在與廣播有關(guān)的文件的測(cè)試文件組中大約全部文件的三分之一都使用了檢 索詞"新聞",而其中在測(cè)試文件組中只有大約2%的文州吏用了詞"足球"。 因此能夠設(shè)想湘"新聞"相比,"足球"翻于表征文件內(nèi)容的更好的檢索詞。 相反的,詞"fottbaU"("足球"(football)的錯(cuò)誤拼寫(xiě))只在旨文件組中出 現(xiàn)過(guò)一次,因此由于具有太低的出現(xiàn)機(jī)率而被刪除。此類(lèi)詞可以被定義為那些 具有比出現(xiàn)的平均頻率低兩個(gè)標(biāo)準(zhǔn)偏差或者比出現(xiàn)的平均頻率高兩個(gè)標(biāo)準(zhǔn)偏差 的出現(xiàn)頻率的詞。然后在步驟130中生^#征向量。為了這樣做,而為文件組中的每個(gè)文件生成一個(gè)檢索詞頻率直方圖。ma對(duì)存在于字典(與該文件組相關(guān))中的詞在單個(gè)文件中出現(xiàn)的次數(shù)計(jì)數(shù)來(lái)構(gòu)建 檢索詞頻率直方圖。在單個(gè)文件中,字典中的大部分檢索詞都不會(huì)出現(xiàn),因此這些檢索詞將具有零頻率。在圖3a和3b中,出用于兩個(gè)不同文件的檢索詞頻率直方圖的示意性實(shí)例。從這個(gè)實(shí)例中育,看出直方圖是如何表征文件內(nèi)容的。通am察實(shí)例,能夠看出文件1比文件2中出現(xiàn)更多的檢索詞"MPEG"和"視頻",而文件2 自身出現(xiàn)了更多的檢索詞"元數(shù)據(jù)"。在該直方圖中許多條目是零,因?yàn)橄鄳?yīng) 的詞沒(méi)有出現(xiàn)在文件中。在真實(shí)的例子中,實(shí)際的檢索詞頻率直方圖中具有比在實(shí)例中大得多的檢 索詞數(shù)目。典型地,直方圖可以繪制超過(guò)50000個(gè)不同檢索詞的頻率,定出維 50000的直方圖。如果姜豐細(xì)在SOM信息空間的粒中,貝喧方圖的 維數(shù)需要被相當(dāng)大的縮減。檢索詞頻率直方圖中的每個(gè)條目被用作為表示那個(gè)文件的特征向量中的對(duì) 應(yīng)值。這^Hi程的結(jié)果是一個(gè)(50000X1)向量,它包含對(duì)于文件收集中的每 個(gè)文件該字典所規(guī)定的全部檢索詞的頻率。該向量被稱(chēng)為稀疏向量,因?yàn)榈湫?地大多數(shù)值都是零,而其他大多數(shù)腿例如1這樣糊瞎低的數(shù)目。在步驟140處M^特征向量的大小,從而減少檢索詞頻率直方圖的維數(shù)。 建議了兩種方法用于^b直方圖的維數(shù)。0隨機(jī)映射一一種借助其而使隨機(jī)數(shù)矩陣乘以直方圖的技術(shù)。這是計(jì)算花 費(fèi)比較ftt的過(guò)程。ii)潛在語(yǔ)義索弓i 一aa尋找在文件中具有很高的同時(shí)出現(xiàn)概率的檢索詞的組來(lái)減少直方圖維數(shù)的技術(shù)。然后肖鏃艦些詞的組縮鵬單一的參數(shù)。這是 計(jì)算花費(fèi)較高的過(guò)程。在本實(shí)施例中被選擇用于減少檢索詞頻率直方圖的維數(shù)的方法是"隨機(jī)映 射",如在上面提及的Kaski論文中所詳細(xì)說(shuō)明的。隨機(jī)B劃寸皿用隨機(jī)數(shù)的 矩陣乘以直方圖而成功地M^直方圖的維數(shù)。組.t戶(hù)腿,"未加工的"特征向量(在圖4a中示意性所表示的)是典型的 稀疏向量,其大小在具有50000個(gè)值的區(qū)域中。它能夠被減少到大約200 (見(jiàn) 示意圖4b)并且 保持該特征向量的相關(guān)特性,艮P,例如與其他被類(lèi)似處理 的特征向量的相關(guān)角(向量點(diǎn)積)這樣的相互關(guān)系。這樣之所以行得通是因?yàn)?盡管限制了特嫩隹數(shù)的正交向量數(shù),但是接近正交的向量的數(shù)目非常大。實(shí)P示上隨著向量維數(shù)的增加,招可給定的隨機(jī)生成的向量組彼此幾乎正交。這個(gè)特性意味著與這個(gè)隨inji:矩陣相乘的向量的相關(guān)方向?qū)⒈槐3?。能夠通過(guò)査看它們的點(diǎn)積而示出在隨機(jī)映射之前和之后向量的相似性,由此證實(shí)這個(gè)性 質(zhì)。育嫩用逸驗(yàn)方式棘明將稀疏向*/人50000個(gè)值M^、到200個(gè)值還可保 持它們的相關(guān)的相似性。然而,這個(gè)B勉t并不完美,但JW于以簡(jiǎn)單緊湊的方式 征文件內(nèi)容的目的而言已經(jīng)足夠了。 一旦已經(jīng)對(duì)于文件收集生成了特征向量,且因而也定義了該收集的信息空間,在步驟150他就將它們糊寸到二維SOM來(lái)生成語(yǔ)義鵬。隨后的部分說(shuō) 明了通過(guò)利用Kohonen自組織日鄉(xiāng)*1¥集該特征向量而日勉寸到2維的過(guò)程。還 要參考圖5。Kohonen自組織映射被用于群集和組織那些已經(jīng)被生成用于每個(gè)文件的特 征向量。自組織鵬抽在節(jié)點(diǎn)的二維陣列或者網(wǎng)格(如二維平面185所圖解說(shuō)明的) 中的輸入節(jié)點(diǎn)170和輸出節(jié)點(diǎn)180纟賊。輸入節(jié)點(diǎn)的數(shù)目與,細(xì)于訓(xùn)練該日贈(zèng)寸 的特征向量中的值的數(shù)目一樣多。眇Jtt的每個(gè)輸出節(jié)點(diǎn)通過(guò)^ta權(quán)的連接190 (每個(gè)連接一個(gè)權(quán)重)連接到輸入節(jié)點(diǎn)。最初這些權(quán)重的每一個(gè)被設(shè)置成隨機(jī)值,然后,通艦代過(guò)程而"訓(xùn)練" 權(quán)重。M將每1it征向量呈現(xiàn)給0媽t的輸入節(jié)點(diǎn)來(lái)訓(xùn)練鵬t i!31計(jì)銷(xiāo)俞入 向量和每個(gè)輸出節(jié)點(diǎn)的權(quán)重之間的歐幾里德距離來(lái)計(jì)算最近的輸出節(jié)點(diǎn)。m^的節(jié)點(diǎn)被指定為"獲應(yīng)者"并且通過(guò)輕微改變l^值來(lái)訓(xùn)練這個(gè)節(jié)點(diǎn) 的權(quán)重以使g們移動(dòng)得更誕該輸入向量。除了獲應(yīng)節(jié)點(diǎn)以外,還訓(xùn)練該《鵬 節(jié)點(diǎn)鄰近的節(jié)點(diǎn),并且使,微移動(dòng)得更M該輸入向量。這個(gè)訓(xùn)練過(guò)程,不只是訓(xùn)練單個(gè)節(jié)點(diǎn)的權(quán)重,而是訓(xùn)練映射上的節(jié)點(diǎn)區(qū)域 的權(quán)重,這使得日,一旦被訓(xùn)練,就可以保存節(jié)點(diǎn)的2維映射中的輸入空間的 大部分拓?fù)浣Y(jié)構(gòu)。一旦映射被訓(xùn)練,每個(gè)文件就能夠被呈現(xiàn)在映射中以便觀察哪個(gè)輸出節(jié)點(diǎn) 最靠近該文件的輸入特征向量。權(quán)重與特征向量的等同是不大可能的,并且特 征向量和它在映射上皿的節(jié)點(diǎn)之間的歐幾里德距離被稱(chēng)為"量化誤差"。通過(guò)將用于每個(gè)文件的特征向量呈現(xiàn)在映射上以便觀察它位于哪里,產(chǎn)生 用于每個(gè)文件的x, y映射位置。當(dāng)這些x, y ^S隨同文件ID —起Mil入査 找表中的時(shí)候,這些x, y位置齢說(shuō)ra于顯Ut件之間的關(guān)系。最后,在歩驟160處增加抖動(dòng)部分,將在下面參考圖6來(lái)描述它。上述過(guò)程的潛在問(wèn)題是兩個(gè)相同或者基本上相同的信息項(xiàng)可以被映射到SOM的節(jié)點(diǎn)陣列中的相同節(jié)點(diǎn)上。這不會(huì)帶來(lái)數(shù)據(jù)的操縱處理的困難,但是 不利于在顯示屏上數(shù)據(jù)的顯現(xiàn)(將在下面描述)。尤其是,當(dāng)在顯示屏上顯現(xiàn) 數(shù)據(jù)的時(shí)候,已經(jīng)認(rèn)i煙U:多個(gè)非常棚以的項(xiàng)在特定節(jié)點(diǎn)處的單個(gè)項(xiàng)上是可識(shí)別的將會(huì)非常有用。因此,在每個(gè)信息項(xiàng)鵬倒的節(jié)點(diǎn)體處增加一個(gè)"抖動(dòng)"部分。謝4動(dòng)部分歸大可以到節(jié)點(diǎn)分隔的士l/2的隨機(jī)加法。因此,參考圖6, 卩勉寸過(guò)程為:t^糊出節(jié)點(diǎn)200的信息項(xiàng)具有被增加的科動(dòng)部分,以便于實(shí)際 上它可以被鵬倒在圖6中由虛線所限制的區(qū)域210中的ftf可節(jié)點(diǎn)位置上。因此,信息項(xiàng)可以被認(rèn)為是在不同于SOM過(guò)程的"輸出節(jié)點(diǎn)"的節(jié)點(diǎn)位 置處^l寸到圖6的平面上的位置??商娲姆椒梢允亲?匕述的SOM IM過(guò)程中使用更高密度的"輸出節(jié) 點(diǎn)"。這將不能在絕對(duì)相同的信息項(xiàng)之間提供任何區(qū)別,但是可以允許差不多 相同、但不是完全相同的信息項(xiàng)映射到不同的但是十分接近地分開(kāi)的輸出節(jié)點(diǎn) 上。圖7示意性圖解說(shuō)明了顯示屏60上的顯示,其中用圖表來(lái)說(shuō)明被分MtA SOM的 以便在搜索操作中使用。顯示器示出了搜索查洵250、結(jié)果列表260 和SOM顯示區(qū)域270。在操作中,用戶(hù)將關(guān)鍵字搜索查詢(xún)輸入到查詢(xún)區(qū)域250中。然后用戶(hù)開(kāi)始 搜索,例如通過(guò)按下體70上的回車(chē)或者鵬4頓鼠標(biāo)80選擇屏幕"鄉(xiāng)" 來(lái)開(kāi)始搜索。然后,禾傭標(biāo)準(zhǔn)的關(guān)鍵對(duì)叟索技術(shù)來(lái)比較,體查詢(xún)框250中的關(guān) 鍵字和 庫(kù)中的信息項(xiàng)。這樣生成結(jié)果列表,在列表窗口 260將每一個(gè)結(jié)果 都作為相應(yīng)條目280顯示。同樣地,每個(gè)結(jié)果在節(jié)點(diǎn)顯示區(qū)域270上都具有對(duì) 應(yīng)的顯示點(diǎn)。因?yàn)橛糜谏蒘OM表示的分,程傾向于在SOM中將互相類(lèi)似的信息項(xiàng) 集合到一起,所以搜索查詢(xún)的結(jié)果一般傾向于落入像君操290這樣的群集中。 這里,注意到區(qū)域270上的每個(gè)點(diǎn)對(duì)應(yīng)于SOM中與結(jié)果列表260中的一^ 果相關(guān)的對(duì)應(yīng)條目;并且在區(qū)域270中顯就點(diǎn)的&fi對(duì)應(yīng)于在節(jié)點(diǎn)陣列中那 些節(jié)點(diǎn)的陣列^S。圖8示意性圖解說(shuō)明用于減少"命中"(結(jié)果列表中的結(jié)果)數(shù)目的技術(shù)。用戶(hù)利用鼠標(biāo)80圍繞著對(duì)應(yīng)于感興趣的節(jié)點(diǎn)的一組顯示點(diǎn)畫(huà)出方框300。在結(jié) 果列表區(qū)域260中,只顯示與方框300中的點(diǎn)相對(duì)應(yīng)的那些結(jié)果。如果對(duì)這些 結(jié)果不再感興趣,貝U用戶(hù)可以圍繞著不同組的顯示點(diǎn)畫(huà)出另一個(gè)方框。注意到,對(duì)于在方框300中為之顯示了顯示點(diǎn)并且滿(mǎn)足字搜索區(qū)域250中 的搜索標(biāo)準(zhǔn)的那些結(jié)果,結(jié)果區(qū)域260為它們顯7,撥條目。方框300可以包 含與位于該節(jié)點(diǎn)陣列中的節(jié)點(diǎn)相對(duì)應(yīng)的其他顯示位置,但是如果這些結(jié)果不滿(mǎn) 足搜索標(biāo)準(zhǔn),則它們將^MM示并且不會(huì)形皿方框260中顯示的結(jié)果的m 的一部分。圖9示意性圖解說(shuō)明用于在列表窗口 260中撿測(cè)條目的節(jié)點(diǎn)位置的技術(shù)。 在使用圖形用戶(hù)界面領(lǐng)域中的標(biāo)準(zhǔn)技術(shù),尤其在利用所謂的"Windows" IM 操作系統(tǒng)的計(jì)算機(jī)中,用戶(hù)可以在結(jié)果列表窗口中選擇一個(gè)或者多個(gè)條目。在 所示的實(shí)例中,通過(guò)用鼠標(biāo)點(diǎn)擊與相關(guān)結(jié)果相對(duì)應(yīng)的"檢查框"310來(lái)完成。 然而,這同樣可以通過(guò)點(diǎn)擊以高亮顯示整個(gè)結(jié)果,或者M(jìn)M擊相關(guān)結(jié)果等來(lái) 完成。因?yàn)檫x擇了一個(gè)結(jié)果,所以那些表示節(jié)點(diǎn)陣列中的對(duì)應(yīng)節(jié)點(diǎn)的相應(yīng)顯示 點(diǎn)被用不同的方式顯示。^ilW應(yīng)于在結(jié)果區(qū)域260中戶(hù),結(jié)果330的兩個(gè) 顯示點(diǎn)320來(lái)示意性地示出。夕卜觀的改變可能是以更大尺寸顯示該點(diǎn),或者是以相同顯示顏色的更強(qiáng)烈 的版本顯示該點(diǎn),或者是以不同的顯示顏色顯示該點(diǎn),或者是以這,化屬性 的組合來(lái)顯示該點(diǎn)。在任何時(shí)候,3ta^盾上述的步驟(也就是步驟110到140),獸辦將新的 信息項(xiàng)增加到SOM,然后將產(chǎn)生的^!>的特征向量應(yīng)用到"預(yù)訓(xùn)練"SOM模 型,即由日勉;t的自組織準(zhǔn)備所產(chǎn)生的一組SOM模型。因此,對(duì)于新增加的信 息項(xiàng),通常不"重新訓(xùn)練"該日劃才;而^X寸沒(méi)有修改的全部SOM t!M使用步 驟150到160。每次增加新的信息項(xiàng)的時(shí)候來(lái)重新訓(xùn)練SOM需要昂貴的計(jì)算 代價(jià),并且有時(shí)候?qū)τ脩?hù)還有一些不友善,用戶(hù)可能要逐漸習(xí)慣于該鵬忡通 常被訪問(wèn)的信息項(xiàng)的相對(duì)位置。然而,可能會(huì)有一種情況,其中適合重新訓(xùn)練過(guò)程。例如,如果自首次生 成SOM以來(lái)己經(jīng)將新的檢索詞(可能是新的新聞項(xiàng)或者新的技術(shù)領(lǐng)域)輸入 到字典中,則它們可能不會(huì)非常好地映射到現(xiàn)有的輸出節(jié)點(diǎn)組。在新接收的信 息項(xiàng)被日劃寸到現(xiàn)有的SOM期間,這玎以被檢測(cè)為在檢觀倒的所謂"量化體"中的增長(zhǎng)。在本實(shí)施例中,該量化誤差與閾值誤差量相比較。如果它比該閾值量大,貝蜮者(a)禾擁所有的原始信息項(xiàng)和自其生成以后被添加的任荷項(xiàng)來(lái)自動(dòng)重新訓(xùn)練SQM;或者(b)用戶(hù)被^^便的時(shí)間啟動(dòng)重新川練過(guò)程。 重新訓(xùn)練過(guò)程使用全部相關(guān)信息項(xiàng)的特征向量并且完全重新應(yīng)用步驟150和 160。圖10示意性圖解說(shuō)明作為視頻捕獲和/或處理設(shè)備實(shí)例的衝斜幾500,攝像 機(jī)包括具有相鄉(xiāng)竟520的圖象捕獲設(shè)備510;數(shù)字/信號(hào)鵬器530;磁帶存 儲(chǔ)器540;磁盤(pán)赫其他隨機(jī)存取存儲(chǔ)器550;用戶(hù)控制器560和具有目鏡580 的顯示設(shè)備570。對(duì)于那些本領(lǐng)域技術(shù)人員來(lái)說(shuō)傳纟,像機(jī)的其他特征或者其 他備選實(shí)施方式(例如不同的存儲(chǔ)介質(zhì)或者不同的顯示屏幕設(shè)備)將是寸艮顯而 易見(jiàn)的。在使用中,與捕獲的視頻桐料相關(guān)的元im可以被存儲(chǔ)在存儲(chǔ)器550, 在顯示設(shè)備570上觀察與被存儲(chǔ)數(shù)據(jù)相關(guān)的SOM,并且如上戶(hù)尸戰(zhàn)利用用戶(hù)控 制器560來(lái)控制它。圖11示意性圖解說(shuō)明個(gè)人數(shù)字助理(PDA) 600,作為便攜式數(shù)據(jù)處理設(shè) 備的一個(gè)實(shí)例,它具有包括顯示區(qū)域620和掛共用戶(hù)控律啲觸敏區(qū)域630的顯 示屏幕610;以及翻處理和存儲(chǔ)(沒(méi)有顯示)。再次地,本領(lǐng)域的技術(shù)人員將 很清楚替換的實(shí)施方式。該P(yáng)DA可以如上所述地結(jié)合圖1的系統(tǒng)來(lái)使用。
權(quán)利要求
1.一種信息存儲(chǔ)系統(tǒng),其中處理一組不同的信息項(xiàng)以便于通過(guò)該信息項(xiàng)的相互相似性來(lái)映射到節(jié)點(diǎn)陣列中的對(duì)應(yīng)節(jié)點(diǎn),以使得相似的信息項(xiàng)映射到在該節(jié)點(diǎn)陣列中相似位置處的節(jié)點(diǎn);系統(tǒng)包括用于生成從每個(gè)信息項(xiàng)中所得出的特征向量的裝置,該用于信息項(xiàng)的特征向量表示在該信息項(xiàng)中一組信息特征中的每個(gè)信息特征的一組出現(xiàn)頻率;以及用于將每個(gè)特征向量映射到該節(jié)點(diǎn)陣列中的節(jié)點(diǎn)的裝置,在信息項(xiàng)和該陣列中的節(jié)點(diǎn)之間的映射包括抖動(dòng)部分,以使得基本上相同的信息項(xiàng)易于映射到在該陣列中的距離靠近但卻不同的節(jié)點(diǎn)上。
2. 依據(jù)權(quán)利要求l的系統(tǒng),包括用于將新接收的信息項(xiàng)鵬到該節(jié)點(diǎn)陣列中的節(jié)點(diǎn)的裝置; 用于在該新接收的信息項(xiàng)被如此艦時(shí)檢測(cè)鵬誤差的裝置;禾口 響應(yīng)于該鵬寸誤差^31閾值誤差量的檢測(cè)而啟動(dòng)該組信息項(xiàng)和該新接收的 信息項(xiàng)的重新映射過(guò)程的裝置。
3. —種便攜式 處理設(shè)備,包括一個(gè)依據(jù)權(quán)利要求1或2的系統(tǒng)。
4. 一種視頻廉集和/或處理設(shè)備,包括一個(gè)依據(jù)權(quán)利要求1或2的系統(tǒng)。
5. —種信息存儲(chǔ)方法,其中處理一組不同的信息項(xiàng)以便于M:該信息項(xiàng)的相互相似性來(lái)映射至U節(jié)點(diǎn)陣列中的對(duì)應(yīng)節(jié)點(diǎn),以使得相似的信息項(xiàng)映射到該節(jié) 點(diǎn)陣列中相似位置處的節(jié)點(diǎn);該方法包括步驟生成從每^S言息中所得出的特征向量,該用于信息項(xiàng)的特征向量表示在該 信息項(xiàng)中一組信息特征中的每個(gè)信息特征的一組出現(xiàn)頻率;禾口將每個(gè)特征向量鵬寸到該節(jié)點(diǎn)陣列中的節(jié)點(diǎn),在信息項(xiàng)和該陣列中的節(jié)點(diǎn) 之間的映射包括抖動(dòng)部分,以使得基本上相同的信息項(xiàng)易于映射到在該陣列中 的距離靠近但卻不同的節(jié)點(diǎn)上。
全文摘要
一種信息檢索系統(tǒng),其中一組不同的信息項(xiàng)通過(guò)該信息項(xiàng)的相互相似性而映射到節(jié)點(diǎn)陣列中的對(duì)應(yīng)節(jié)點(diǎn),使得相似的信息項(xiàng)映射到該節(jié)點(diǎn)陣列中相似位置處的節(jié)點(diǎn);該系統(tǒng)包括用于在用戶(hù)顯示器上的顯示區(qū)中,把至少一些節(jié)點(diǎn)的表示顯示為顯示點(diǎn)的二維顯示陣列的圖形用戶(hù)界面;用于定義該顯示區(qū)的二維區(qū)域的用戶(hù)控制器;和用于檢測(cè)位于該顯示區(qū)的二維區(qū)域中的那些顯示點(diǎn)的檢測(cè)器;該圖形用戶(hù)界面還顯示表示信息項(xiàng)的數(shù)據(jù)列表,那些信息項(xiàng)被映射到與該顯示區(qū)的二維區(qū)域中所顯示的顯示點(diǎn)相對(duì)應(yīng)的節(jié)點(diǎn)。
文檔編號(hào)G06F12/00GK101251857SQ20081008176
公開(kāi)日2008年8月27日 申請(qǐng)日期2003年9月19日 優(yōu)先權(quán)日2002年9月19日
發(fā)明者D·W·特雷佩斯, J·R·托爾佩 申請(qǐng)人:索尼英國(guó)有限公司