專利名稱:內(nèi)容檢索設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種內(nèi)容檢索設(shè)備和內(nèi)容檢索方法,用來基于任意 輸入的搜索關(guān)鍵詞,從存儲海量內(nèi)容的數(shù)據(jù)庫中檢索到諸如圖像文件 或音樂數(shù)據(jù)文件之類的期望的內(nèi)容。
背景技術(shù):
近年來,通過互聯(lián)網(wǎng)之類的通信網(wǎng)絡(luò),公開了存儲諸如文本數(shù) 據(jù)、圖像數(shù)據(jù)、和音樂數(shù)據(jù)之類的各種內(nèi)容的數(shù)據(jù)庫,因此,用戶可 以通過操作連接到通信網(wǎng)絡(luò)的個人計算機或移動終端在數(shù)據(jù)庫上登 記一些內(nèi)容,或者在數(shù)據(jù)庫上搜索喜歡的內(nèi)容并下載這些內(nèi)容。
作為從數(shù)據(jù)庫檢索期望內(nèi)容的方法,常用的是"基于關(guān)鍵詞搜 索"。這是一種輸入與期望的內(nèi)容有一定相關(guān)性的一個或多個關(guān)鍵詞 來査找包含或涉及所輸入的一個或多個關(guān)鍵詞的那些內(nèi)容的方法。由 于不必對數(shù)據(jù)庫中的內(nèi)容進(jìn)行分類,基于關(guān)鍵詞的搜索簡化了數(shù)據(jù)庫 的管理,改善了從數(shù)據(jù)庫獲得大量內(nèi)容的有效性。
在大量內(nèi)容存儲在數(shù)據(jù)庫中的情況下,當(dāng)采用某個關(guān)鍵詞時經(jīng) 常出現(xiàn)該關(guān)鍵詞命中的內(nèi)容數(shù)量過于龐大以至于用戶不能容易地找 到他們想要的內(nèi)容的情況。所謂的減小搜索范圍是已知的一種用來解 決這個問題的方案,其中,通過輸入另一個關(guān)鍵詞來精選第一個關(guān)鍵 詞所命中的內(nèi)容,并通過輸入其他的關(guān)鍵詞一步步地進(jìn)行精選。
由于要求用戶考慮輸入的關(guān)鍵詞來減小搜素范圍,如果輸入的 關(guān)鍵詞不相關(guān),則不能充分地精選出內(nèi)容,或者,可能錯誤地刪除掉 一些相關(guān)的內(nèi)容。為了解決這個問題,例如在日本專利申請
2003-108594中提出了支持用戶搜索的現(xiàn)有技術(shù)。在這項現(xiàn)有技術(shù) 中,記錄了用以前的關(guān)鍵詞減小搜索范圍的歷史,以便從以前的關(guān)鍵 詞中檢索出與新輸入的關(guān)鍵詞具有相關(guān)性的那些關(guān)鍵詞,并提供給用
5戶。
不過,根據(jù)通常的搜索技術(shù),搜索結(jié)果會根據(jù)所有用戶的搜索 歷史以及當(dāng)前用戶的搜索歷史而變化,因此,當(dāng)進(jìn)行搜索時,搜索結(jié) 果受到時間趨勢、周期或季節(jié)的影響。這意味著,會非常頻繁地命中 這些明確地反映時間趨勢的內(nèi)容。例如,對于一個基于關(guān)鍵詞"富士 山"的搜索,如果在夏天執(zhí)行搜索,搜索結(jié)果會包括大量的還涉及"爬 山"的那些內(nèi)容。相反,如果在冬天用關(guān)鍵詞"富士山"進(jìn)行搜索, 就很少會檢索到與"爬山"也相關(guān)的那些內(nèi)容。
如果用戶希望得到與時間一致的或反映時間趨勢的那些內(nèi)容, 得到這些搜索結(jié)果是沒有問題的。不過,如果用戶希望得到與所輸入 關(guān)鍵詞的基本信息相關(guān)的那些內(nèi)容,由于時間趨勢對搜索結(jié)果的影 響,在通常的搜索方法中很難檢索到期望的內(nèi)容。
發(fā)明內(nèi)容
考慮到上述問題,本發(fā)明的基本目的是提供一種內(nèi)容檢索設(shè)備 和一種內(nèi)容檢索方法,其允許用戶從搜索結(jié)果中消除時間趨勢的影 響,而當(dāng)考慮時間趨勢的影響時也可以檢索到合適的內(nèi)容。
在一種基于輸入的搜索關(guān)鍵詞從數(shù)據(jù)庫中檢索某些內(nèi)容的內(nèi)容 檢索設(shè)備中,所述數(shù)據(jù)庫存儲了多種內(nèi)容,這些內(nèi)容具有附接到其上 的各自的關(guān)鍵詞,本發(fā)明包括關(guān)鍵詞際相關(guān)性計算器、基本相關(guān)性計 算器、內(nèi)容提取裝置、判定裝置和輸出裝置,其中,所述關(guān)鍵詞際相 關(guān)性計算器以固定的時間間隔對附接到存儲在數(shù)據(jù)庫中的內(nèi)容上的 每個關(guān)鍵詞對之間的關(guān)鍵詞際相關(guān)性進(jìn)行計算,用來產(chǎn)生關(guān)于每個關(guān) 鍵詞對的關(guān)鍵詞際相關(guān)性的時間序列數(shù)據(jù);所述基本相關(guān)性計算器通 過對關(guān)于搜索關(guān)鍵詞和特定關(guān)鍵詞之間的關(guān)鍵詞際相關(guān)性的時間序 列數(shù)據(jù)進(jìn)行平滑處理,來計算特定關(guān)鍵詞對搜索關(guān)鍵詞的基本相關(guān) 性;所述內(nèi)容提取裝置基于搜索關(guān)鍵詞從所述數(shù)據(jù)庫中提取至少一個 內(nèi)容;所述判定裝置基于搜索關(guān)鍵詞和附接到所提取的內(nèi)容上的關(guān)鍵 詞之間的基本相關(guān)性,對所提取的內(nèi)容是否應(yīng)當(dāng)包括在搜索結(jié)果中進(jìn) 行判定;所述輸出裝置用來輸出搜索結(jié)果。優(yōu)選地,基本相關(guān)性計算器通過移動平均對關(guān)于關(guān)鍵詞際相關(guān) 性的時間序列數(shù)據(jù)進(jìn)行平滑處理。
基于附接到同一內(nèi)容的那些關(guān)鍵詞彼此之間具有一定相關(guān)性的 假設(shè),關(guān)鍵詞際相關(guān)性計算器計算每一對關(guān)鍵詞之間的相關(guān)性。
優(yōu)選地,內(nèi)容檢索設(shè)備還包括總相關(guān)性計算器,所述總相關(guān)性 計算器用來計算當(dāng)多個關(guān)鍵詞附接到內(nèi)容時內(nèi)容對搜索關(guān)鍵詞的總 相關(guān)性,所述總相關(guān)性計算器通過對搜索關(guān)鍵詞和附接到內(nèi)容的各個 關(guān)鍵詞之間的基本相關(guān)性進(jìn)行平均來計算總相關(guān)性。
優(yōu)選地,所述結(jié)果判定裝置判定總相關(guān)性大于預(yù)定值的那些內(nèi) 容被包括在搜索結(jié)果中。
內(nèi)容提取裝置優(yōu)選地從數(shù)據(jù)庫中提取附接有搜索關(guān)鍵詞的那些 內(nèi)容,基本相關(guān)性計算器計算相對于所提取的內(nèi)容的基本相關(guān)性。
一種基于輸入的搜索關(guān)鍵詞從數(shù)據(jù)庫檢索某些內(nèi)容的內(nèi)容檢索 方法,其中,數(shù)據(jù)庫存儲了多種內(nèi)容,這些內(nèi)容附接有各自的關(guān)鍵詞, 所述內(nèi)容檢索方法包括下列步驟
以固定的時間間隔對附接到存儲在數(shù)據(jù)庫中的內(nèi)容上的每個關(guān) 鍵詞對之間的關(guān)鍵詞際相關(guān)性進(jìn)行計算,來產(chǎn)生關(guān)于每個關(guān)鍵詞對的 關(guān)鍵詞際相關(guān)性的時間序列數(shù)據(jù);通過對關(guān)于搜索關(guān)鍵詞和特定關(guān)鍵 詞之間的關(guān)鍵詞際相關(guān)性的時間序列數(shù)據(jù)進(jìn)行平滑處理,來計算特定 關(guān)鍵詞對搜索關(guān)鍵詞的基本相關(guān)性;基于搜索關(guān)鍵詞從數(shù)據(jù)庫提取至 少一個內(nèi)容;基于搜索關(guān)鍵詞和附接所提取的內(nèi)容上的關(guān)鍵詞之間的 基本相關(guān)性,對所提取的內(nèi)容是否應(yīng)該被包含在搜索結(jié)果中進(jìn)行判 定;以及輸出搜索結(jié)果。
由于基于基本相關(guān)性確定了每個內(nèi)容對搜索關(guān)鍵詞的相關(guān)性,
基本相關(guān)性是通過對時間序列數(shù)據(jù)進(jìn)行平滑而計算得到的,從而很少 受到時間趨勢的影響,本發(fā)明的內(nèi)容檢索設(shè)備和方法允許用戶從檢索 結(jié)果中消除時間趨勢的影響,而在考慮時間趨勢影響時能夠檢索到合 適的內(nèi)容。
7當(dāng)結(jié)合附圖來理解下文對優(yōu)選實施例的詳細(xì)說明時,本發(fā)明的 上述和其他目的和優(yōu)勢將變得更加明顯,其中,相同的參考標(biāo)號表示 這些視圖中的相同或?qū)?yīng)的部件,其中
圖1是圖示了一種用于從服務(wù)器檢索圖像數(shù)據(jù)的網(wǎng)絡(luò)系統(tǒng)的示
意圖2是圖示了所述網(wǎng)絡(luò)系統(tǒng)的客戶端終端的內(nèi)部架構(gòu)的功能框
圖3是圖示了所述服務(wù)器的內(nèi)部架構(gòu)的功能框圖4是將圖像文件和它們各自的關(guān)鍵詞關(guān)聯(lián)起來的數(shù)據(jù)表;
圖5是圖示了附接有關(guān)鍵詞的圖像的示例示意圖6是圖示了關(guān)于關(guān)鍵詞際相關(guān)性的時間序列數(shù)據(jù)和平滑處理
后的時間序列數(shù)據(jù)的圖7是示出了搜索關(guān)鍵詞和附接到圖5的圖像的其他關(guān)鍵詞之
間的基本相關(guān)性和臨時相關(guān)性的示例的表;
圖8是圖示了所述客戶端終端中的處理序列的流程圖; 圖9是圖示了服務(wù)器中的處理序列的流程圖io是圖示了顯示在客戶端終端的監(jiān)視器上的搜索命令屏的示
例的示意圖ll是圖示了顯示在客戶端終端的監(jiān)視器上的搜索結(jié)果顯示屏 的示例的示意圖12是圖示了顯示在客戶端終端的監(jiān)視器上的搜索命令屏的變
化的示意圖13是圖示了顯示在客戶端終端的監(jiān)視器上的搜索結(jié)果顯示屏 的變化的示意圖;以及
圖14是示出了另一個示例的表,其中,向附接到一個圖像的各 個關(guān)鍵詞分配了加權(quán)系數(shù)。
具體實施例方式
在圖1中,通過安裝一個記錄在記錄介質(zhì)中的程序,在服務(wù)器 11中合并了作為本發(fā)明實施例的內(nèi)容檢索設(shè)備。下文的說明是基于檢索出圖像數(shù)據(jù)作為內(nèi)容的例子。下文中,將圖像數(shù)據(jù)簡稱為圖像。
服務(wù)器11通過通信網(wǎng)絡(luò)12連接至客戶端終端13,組成了網(wǎng)絡(luò) 系統(tǒng)14。每個客戶端終端13由公知的個人計算機組成,個人計算機 上設(shè)有用來顯示各種操作屏幕的監(jiān)視器15以及包括鼠標(biāo)16和鍵盤 17的操作裝置18。通過鍵盤17輸入用于圖像檢索的搜索關(guān)鍵詞。
客戶端終端13獲取通過數(shù)碼相機19捕捉的圖像或記錄在諸如 存儲卡或CD-R之類的記錄介質(zhì)20上的圖像。這些圖像具有各自的附 接為標(biāo)簽的關(guān)鍵詞。當(dāng)這些圖像被輸入客戶端終端13時,通過操作 操作裝置18將標(biāo)簽附接到每個圖像上。
數(shù)碼相機19通過USB (universal serial bus,通用串行總線)電纜 之類的通信電纜或無線LAN之類的無線連接連接至客戶端終端13, 于是數(shù)碼相機19可以與客戶端終端13互換數(shù)據(jù)。
參照示出了客戶端終端13的功能框圖的圖2, CPU 21根據(jù)通過 操作設(shè)備18輸入的操作信號等控制客戶端終端13的所有操作。數(shù)據(jù) 總線22將CPU 21連接至RAM 23、硬盤驅(qū)動器(hard disc drive, HDD) 24和通信接口 (I/F) 25以及監(jiān)視器15和操作設(shè)備18。
RAM 23是CPU 21執(zhí)行各種處理的工作存儲器。HDD 24存儲用 于客戶端終端13的工作的各種程序和數(shù)據(jù)以及從數(shù)碼相機19和記錄 介質(zhì)20獲取的圖像。CPU 21從HDD 24讀出程序,并在RAM 23中展 開(develop)以基于該程序執(zhí)行處理。
通信接口 25控制適用于通信網(wǎng)絡(luò)12的通信協(xié)議,并通過通信 網(wǎng)絡(luò)12居中進(jìn)行數(shù)據(jù)交換。通信接口 25還在客戶端終端13與諸如 數(shù)碼相機19和記錄介質(zhì)20之類的外部裝置之間居中進(jìn)行數(shù)據(jù)交換。
參照示出了服務(wù)器11的功能框圖的圖3, CPU 26根據(jù)通過通信 網(wǎng)絡(luò)12用客戶端終端13輸入的操作信號來控制服務(wù)器11的所有操 作。CPU 26通過數(shù)據(jù)總線27連接至RAM 28、 HDD 29、通信接口 (I/F) 30、定時器31和相關(guān)性計算器35,該相關(guān)性計算器35由關(guān)鍵詞際 相關(guān)性計算器32、基本相關(guān)性計算器33和總相關(guān)性計算器34組成。
RAM 28是CPU 26執(zhí)行各種處理的工作存儲器。HDD 29存儲用 于服務(wù)器11的工作的各種程序和數(shù)據(jù)。CPU 26從HDD 29中讀出程序,并在RAM 28中展開(develop)以基于該程序執(zhí)行處理。注意, 相關(guān)性計算器35是由存儲在RAM 28中的程序組成的功能塊。
通信接口 30控制適用于通信網(wǎng)絡(luò)12的通信協(xié)議,并通過通信 網(wǎng)絡(luò)12居中進(jìn)行數(shù)據(jù)交換。通過通信接口 30獲取的數(shù)據(jù)臨時存儲在 RAM 28中。如果獲取了圖像數(shù)據(jù),則將它存儲在HDD 29中。
在HDD 29中合并了圖像數(shù)據(jù)庫(DB) 36和關(guān)鍵詞信息管理器 37。圖像數(shù)據(jù)庫36存儲通過通信網(wǎng)絡(luò)12獲取的圖像和彼此關(guān)聯(lián)地附 接到圖像的那些關(guān)鍵詞。如圖4所示,以數(shù)據(jù)表的形式將這些圖像和 關(guān)鍵詞彼此關(guān)聯(lián)。注意,可以將添加的關(guān)鍵詞附接到存儲在圖像DB36 中的任何圖像上,或者可以從存儲在圖像DB36中的任何圖像上刪除 附接的關(guān)鍵詞。
圖5示出了存儲在圖像DB 36中的圖像P1以及附接到這個圖像 Pl的關(guān)鍵詞的示例。圖像P1是富士山的照片,因此,四個關(guān)鍵詞KA1 "富士山"、KA2 "爬山、KA3 "火山"和KA4 "山中湖"與這個圖像 Pl關(guān)聯(lián)。
關(guān)鍵詞信息管理器37存儲如下信息的時間序列數(shù)據(jù),這些信息 示出了附接到登記在圖像DB36中的同一圖像的兩個關(guān)鍵詞之間的相 關(guān)程度。由關(guān)鍵詞際相關(guān)性計算器32獲取關(guān)鍵詞之間的相關(guān)程度。 基于附接到同一圖像的關(guān)鍵詞彼此之間具有一些關(guān)系的假設(shè),關(guān)鍵詞 際相關(guān)性計算器32查詢附接到每個圖像的關(guān)鍵詞,并計算附接到同 一圖像的每對關(guān)鍵詞之間的相關(guān)程度。這意味著,隨著圖像數(shù)據(jù)庫 36中附接了這兩個關(guān)鍵詞的圖像的數(shù)量的增大,兩個關(guān)鍵詞之間的 關(guān)鍵詞際相關(guān)性Rt變大。然后,關(guān)鍵詞際相關(guān)性計算器32將計算出 的關(guān)鍵詞際相關(guān)性組織起來,在關(guān)鍵詞信息管理器37中建立詞典。
如圖6所示,基于定時器31計算的時間,CPU26周期性地(例 如一天一次)激活關(guān)鍵詞際相關(guān)性計算器32,來周期性地修改或重 構(gòu)詞典,并獲取每個關(guān)鍵詞對之間的相關(guān)性的時間序列數(shù)據(jù)Dl。時 間序列數(shù)據(jù)Dl以時間序列方式示出了時間"t"處的關(guān)鍵詞際相關(guān)性 Rt。關(guān)鍵詞際相關(guān)性Rt示出了關(guān)鍵詞對之間(例如,"富士山"和 "爬山")在特定時刻的相關(guān)程度。如果兩個關(guān)鍵詞之間的關(guān)鍵詞際相關(guān)性Rt在執(zhí)行搜索時很高,這意味著在這個時刻,大量的附接有
這兩個關(guān)鍵詞的圖像被存儲在圖像數(shù)據(jù)庫36中。
當(dāng)CPU 26從客戶端終端13接收到搜索命令時,CPU 26在圖像 服務(wù)器36中搜索那些與在客戶端終端13上輸入的關(guān)鍵詞(下文稱為 搜索關(guān)鍵詞)相關(guān)的圖像。然后,CPU26激活數(shù)據(jù)總線22和RAM 23, 來執(zhí)行范圍縮小的搜索,精選出提取的圖像。因此,CPU 26起內(nèi)容 提取裝置的作用?;鞠嚓P(guān)性計算器33對時間序列數(shù)據(jù)Dl進(jìn)行濾波 處理或平滑處理,以計算單個關(guān)鍵詞與搜索關(guān)鍵詞的基本相關(guān)性,其 中時間序列數(shù)據(jù)Dl與輸入的搜索關(guān)鍵詞與附接到所提取圖像的其他 任何關(guān)鍵詞之間的相關(guān)性Rt有關(guān)?;鞠嚓P(guān)性Mt被表示為如圖6 所示的平滑處理后的時間序列數(shù)據(jù)D2,表示關(guān)鍵詞對之間的相關(guān)性 的基本程度,這種基本程度很少受到時間趨勢的影響。
具體來講,利用一種叫做移動平均的方法,計算正好在特定時 間"t"之前的一段時期T (例如,三十天)中所獲得的關(guān)鍵詞際相 關(guān)性Rt的平均值,來獲取特定時間"t"的基本相關(guān)性Mt。假定"N" 和"ERt"分別表示在時期T內(nèi)獲得的關(guān)鍵詞相關(guān)性Rt的個數(shù)和總 和,則可以將基本相關(guān)性Mt表示為公式Mt=ERt/N。由于濾波之前 的相關(guān)性Rt取決于時間,對照基本相關(guān)性Mt,將Rt值稱為"臨時 相關(guān)性"。
總相關(guān)性計算器34計算每個提取出的圖像對搜索關(guān)鍵詞的總相 關(guān)性St?;谒阉麝P(guān)鍵詞和附接到所提取圖像的其他關(guān)鍵詞之間的 基本相關(guān)性Mt或臨時相關(guān)性Rt,總相關(guān)性計算器34計算總相關(guān)性 St。在開始搜索時可以在客戶端終端13上指定是使用基本相關(guān)性Mt 還是使用臨時相關(guān)性Rt來計算總相關(guān)性St。
根據(jù)本實施例,總相關(guān)性計算器34將每個圖像的總相關(guān)性St 計算為基本相關(guān)性Mt的平均值A(chǔ)Mt或臨時相關(guān)性Rt的平均值A(chǔ)Rt。 具體來講,在輸入"富士山"作為搜索關(guān)鍵詞以及提取了上述圖像 Pl的情況下,搜索關(guān)鍵詞"富士山"KA1和其他關(guān)鍵詞KA2 KA4之 間的基本相關(guān)性Mt或臨時相關(guān)性Rt可以如圖7所示。在這種情況下, AMt= (15+5+10) /3=10,而ARt= (80+5+5) /3=30。也就是說,由于對搜索關(guān)鍵詞"富士山"的相關(guān)性隨時間變化非常大的關(guān)鍵詞"爬山" 的影響,在這種情況下,這個圖像P1對搜索關(guān)鍵詞"富士山"的總 相關(guān)性St在它基于瞬時相關(guān)性時要大于它基于基本相關(guān)性時。
CPU 26對每個提取出的圖像的總相關(guān)性St與預(yù)定值進(jìn)行比較, 并通過通信網(wǎng)絡(luò)12將那些總相關(guān)性St大于預(yù)定值的圖像的信息發(fā)送 到客戶端終端13。在客戶端終端13的監(jiān)視器15上顯示這些圖像的 信息作為搜索結(jié)果,這些信息包括它們的圖像數(shù)據(jù)和文件名稱。
現(xiàn)在將說明具有上述結(jié)構(gòu)的網(wǎng)絡(luò)系統(tǒng)14的操作。圖8示出了客 戶端終端13的處理序列。在第一個步驟S10中,將數(shù)碼相機19或記 錄介質(zhì)20連接至客戶端終端13,客戶端終端13檢査存儲在外部裝 置19或20中的圖像是否已經(jīng)被輸入客戶端終端13。當(dāng)完成獲得這 些圖像時,在下一個步驟S11中,客戶端終端13檢査是否通過操作 裝置18向這些圖像附接了任何關(guān)鍵詞。當(dāng)己經(jīng)有一些關(guān)鍵詞被附接 到了該圖像或這些圖像,在步驟S12中通過通信網(wǎng)絡(luò)12將這些具有 關(guān)鍵詞的圖像發(fā)送到服務(wù)器11。還可以在等待用戶發(fā)送這些圖像的 命令之后,響應(yīng)于這個命令發(fā)送這些圖像。服務(wù)器ll接收到的圖像 被存儲在HDD 29中的圖像數(shù)據(jù)庫36中。
當(dāng)在步驟S12中己經(jīng)從客戶端終端13將圖像發(fā)送到了服務(wù)器11 時,序列回到步驟SIO。如果判定在步驟S10中沒有輸入任何圖像, 客戶端終端13檢查是否己經(jīng)進(jìn)行了用于從服務(wù)器11的圖像DB 36 中檢索一些圖像的搜索操作。如圖10所示,在看到顯示在監(jiān)視器15 上的搜索命令屏40時,通過操作裝置18可以進(jìn)行搜索操作。在搜索 命令屏40上顯示了用于輸入搜索關(guān)鍵詞的關(guān)鍵詞輸入框41、用于在 基于基本相關(guān)性的搜索和基于臨時相關(guān)性的搜索之間進(jìn)行擇一選擇 的單選按鈕42、以及執(zhí)行搜索處理的開始搜索按鈕43。下文將要詳 細(xì)說明的是,基本相關(guān)性搜索是基于較少受到時間趨勢影響的基本相 關(guān)性Mt,而臨時相關(guān)性搜索是基于受時間趨勢影響的臨時相關(guān)性Rt。
當(dāng)在步驟S13中給出了搜索命令時,在步驟S14中,客戶端終 端13向服務(wù)器11發(fā)送搜索命令數(shù)據(jù),搜索命令數(shù)據(jù)包括搜索關(guān)鍵詞 和關(guān)于在基本相關(guān)性搜索和臨時相關(guān)性搜索之間選擇的信息。響應(yīng)于搜索命令數(shù)據(jù),服務(wù)器11執(zhí)行下文中說明的圖像檢索處理。在接下 來的步驟S15中,客戶端終端13檢查它是否從服務(wù)器11接收了作為 搜索結(jié)果的諸如被檢索到的圖像的圖像數(shù)據(jù)和文件名稱之類的任何
圖像信息。當(dāng)接收到圖像信息時,在步驟S16中,客戶端終端13根 據(jù)圖像信息在監(jiān)視器15上顯示搜索結(jié)果。在結(jié)束了步驟S16之后, 序列返回步驟SIO。
圖9示出了服務(wù)器11中的處理序列。在第一個步驟S20中,關(guān) 鍵詞際相關(guān)性計算器32查詢附接到存儲在圖像DB 36中的各個圖像 的各個關(guān)鍵詞,計算附接到同一圖像的每對關(guān)鍵詞之間的臨時相關(guān)性 Rt。以圖5中的圖像P1為例,關(guān)鍵詞際相關(guān)性計算器32為諸如"富 士山"和"爬山"、"爬山"和"火山"等等之類的每對關(guān)鍵詞記"1"。 如果關(guān)鍵詞對"富士山"和"爬山"被附接到了存儲在圖像DB 36 中的圖像中的另一個圖像,關(guān)鍵詞際相關(guān)性計算器32就為這個關(guān)鍵 詞對計數(shù)加一,因此,"富士山"和"爬山"之間的臨時相關(guān)性Rt 變?yōu)?2"。以相同的方式,為在搜索時間"t"時存儲在圖像DB36 中的圖像的所有關(guān)鍵詞的每個關(guān)鍵詞對計算臨時相關(guān)性Rt。
在步驟S20之后,服務(wù)器11檢查它是否接收到了客戶端終端13 在步驟S14發(fā)送的搜索命令數(shù)據(jù)。在步驟S22中判定已經(jīng)過去了一個 預(yù)定時間(例如,24小時)之前,會一直重復(fù)進(jìn)行步驟S21。當(dāng)在步 驟S22中判定已經(jīng)過去了預(yù)定的時間,服務(wù)器11回到步驟S20來計 算關(guān)鍵詞之間的相關(guān)性。這樣,以預(yù)定的時間間隔重復(fù)步驟S20,如 圖6所示,從而提供了以時間序列方式示出關(guān)鍵詞際相關(guān)性的時間序 列數(shù)據(jù)Dl。
當(dāng)在步驟S21中判定客戶端終端13從服務(wù)器11接收了搜索命 令信息時,序列進(jìn)行到下一個步驟S23,其中,CPU26從存儲在圖像 DB 36中的圖像中提取那些附接了搜索關(guān)鍵詞的圖像,這些搜索關(guān)鍵 詞是作為搜索命令信息而被接收的。例如,當(dāng)搜索關(guān)鍵詞是"富士山" 時,提取如圖6所示的那些圖像。
當(dāng)步驟S23完成時,在步驟S24中根據(jù)搜索命令信息判定選擇 了基本相關(guān)性搜索或臨時相關(guān)性搜索中的哪一個。當(dāng)選擇了基本相關(guān)性時,序列進(jìn)行到步驟S25,其中,基本相關(guān)性計算器33計算搜索 關(guān)鍵詞和附接到在步驟S23中所提取的圖像的其他關(guān)鍵詞之間的基 本相關(guān)性Mt。也就是說,對表示其他關(guān)鍵詞相對于搜索關(guān)鍵詞的臨 時相關(guān)性Rt的時間序列數(shù)據(jù)Dl進(jìn)行濾波處理或平滑處理,以得到它 們之間的基本相關(guān)性Mt。如圖6所示的例子,通過時間序列數(shù)據(jù)D1 的移動平均,獲得作為平滑處理后的時間序列數(shù)據(jù)D2的基本相關(guān)性 Mt。在圖像P1的情況下,如圖7所示,計算在搜索時間"t"時對搜 索關(guān)鍵詞的基本相關(guān)性Mt。如果選擇了基于臨時相關(guān)性的搜索,跳 過步驟S25,序列從步驟S24進(jìn)入步驟S26。
在步驟S26,總相關(guān)性計算器34根據(jù)基本相關(guān)性Mt或臨時相關(guān) 性Rt,計算所提取的圖像對搜索關(guān)鍵詞的總相關(guān)性St。也就是說, 當(dāng)選擇了基于基本相關(guān)性的搜索時,總相關(guān)性計算器34將每個圖像 的總相關(guān)性St計算為搜索關(guān)鍵詞和附接到該圖像的其他關(guān)鍵詞之間 的基本相關(guān)性Mt的平均值A(chǔ)Mt。而當(dāng)選擇了基于臨時相關(guān)性的搜索 時,總相關(guān)性計算器34將總相關(guān)性St計算為搜索關(guān)鍵詞和附接到該 圖像的其他關(guān)鍵詞之間的臨時相關(guān)性Rt的平均值A(chǔ)Rt。如圖7所示 的例子,基本相關(guān)性搜索的總相關(guān)性St=AMt= (15+5 + 10) /3=10,臨 時相關(guān)性搜索的總相關(guān)性St=ARt: (80+5+5) /3二30。
在接下來的步驟S27中,CPU 26將每個圖像的總相關(guān)性St和預(yù) 定的閾值進(jìn)行比較,并只整理出總相關(guān)性St大于閾值的那些圖像。 然后,向客戶端終端13發(fā)送關(guān)于整理出的圖像的信息,因此,客戶 端終端13將接收到的關(guān)于檢索到的圖像的信息作為搜索結(jié)果顯示在 監(jiān)視器15上(步驟S16)。
對于圖像P1,由于它的另一個關(guān)鍵詞"爬山",它對搜索關(guān)鍵 詞"富士山"的相關(guān)程度在夏季變得很高,因此,當(dāng)對圖像搜索選擇 了基于臨時相關(guān)性的搜索時,在夏天命中這個圖像Pl的可能性更高。 相反,通過基于基本相關(guān)性的檢索,在夏天命中這個圖像Pl的可能 性就相對較低。這意味著,如果希望從搜索結(jié)果中減少時間的影響, 用戶應(yīng)當(dāng)選擇基本相關(guān)性搜索。那么,當(dāng)去除了那種必定受到時間趨 勢影響的圖像時,用戶更可能獲得期望的圖像。
14在上述實施例中,在預(yù)定的時間周期內(nèi),通過對關(guān)鍵詞際相關(guān)
性計算器32所計算的相關(guān)性Rt進(jìn)行移動平均的平滑處理來計算基本 相關(guān)性Mt。移動平均的周期還可以由用戶在客戶端終端13上指定。 從而,用戶可以調(diào)整平滑處理的程度,即,從搜索結(jié)果中減小時間影 響的程度。
移動平均之外的其他類型的平滑處理也可以用于計算基本相關(guān) 性Mt。例如,諸如傅立葉變換之類的頻率分析也是有用的。還可以 使用低通濾波來獲得相關(guān)性Rt的最經(jīng)常出現(xiàn)的值,作為基本相關(guān)性 (恒定值)Mt。當(dāng)然,還可以允許用戶在客戶端終端13上輸入計算
周期作為可替換的方法。
雖然在上述實施例中將關(guān)鍵詞際相關(guān)性計算器32計算出的值直 接用作臨時相關(guān)性Rt,但也可以通過對時間序列數(shù)據(jù)Dl進(jìn)行比應(yīng)用 于基本相關(guān)性Mt的周期較短的周期的平滑處理來計算臨時相關(guān)性 Rt。還可以從關(guān)鍵詞際相關(guān)性計算器32計算出的值中減去基本相關(guān) 性Mt,來計算出臨時相關(guān)性Rt。
雖然上述實施例根據(jù)基本相關(guān)性Mt或臨時相關(guān)性Rt計算總相 關(guān)性St,也可以基于基本相關(guān)性Mt和臨時相關(guān)性Rt,采用系數(shù)a (0 《a《1) : St=aMt+ (l-a) Rt來計算總相關(guān)性St。例如,對于基于 基本相關(guān)性的檢索,a=0.9,而對于基于臨時相關(guān)性的檢索,a=0.1。 系數(shù)a可以由用戶在客戶端終端13上指定。
在上述實施例中,總相關(guān)性St大于閾值的那些圖像的信息作為 搜索結(jié)果被發(fā)送到客戶端終端13。不過,可以發(fā)送預(yù)定數(shù)量的圖像 的信息,這些圖像對搜索關(guān)鍵詞的總相關(guān)性St位于頂部。用戶在客 戶端終端13上指定總相關(guān)性的閾值或檢索到的圖像的數(shù)量作為檢索 標(biāo)準(zhǔn)也是可行的。
在上述實施例中,用戶在基于基本相關(guān)性的搜索和基于臨時相 關(guān)性的搜索之間進(jìn)行二擇一的選擇。除此之外,本發(fā)明還可以構(gòu)造為 用戶同時執(zhí)行基于基本相關(guān)性的搜索和基于臨時相關(guān)性的搜索。在這 種情況下,在客戶端終端13上彼此區(qū)別地顯示這兩種類型的搜索的 各自結(jié)果。例如,如圖11所示,搜索結(jié)果顯示屏50被分成顯示區(qū)域52和顯示區(qū)域54,顯示區(qū)域52用于通過基于基本相關(guān)性搜索所檢索 到的圖像51,顯示區(qū)域54用于通過基于臨時相關(guān)性搜索所檢索到的 圖像53。在各個顯示區(qū)域52和54中,優(yōu)選地以總相關(guān)性從高到低 的序列放置這些圖像。但是,如果基于基本相關(guān)性搜索的結(jié)果與基于 臨時相關(guān)性搜索的結(jié)果中包含相同的圖像,考慮到它的總相關(guān)性St, 只在顯示區(qū)域52或54中的一個顯示區(qū)域中顯示該圖像。
在上述實施例中,從圖像DB 36中提取附接了用戶所輸入的搜 索關(guān)鍵詞的那些圖像,然后,基于提取出的圖像的其他關(guān)鍵詞相對于 輸入的搜索關(guān)鍵詞的相關(guān)性,進(jìn)行范圍縮小的搜索。此外,在基于嵌 入在關(guān)鍵詞信息管理器37中的詞典,計算搜索關(guān)鍵詞和每個圖像的 單個關(guān)鍵詞或代表性關(guān)鍵詞之間的相關(guān)性時,可以對圖像DB 36中 的每個圖像計算其對輸入的搜索關(guān)鍵詞的相關(guān)性(總相關(guān)性St), 以便檢索與搜索關(guān)鍵詞高度相關(guān)的那些圖像。由于這種采用詞典的搜 索處理將那些沒有附接輸入的搜索關(guān)鍵詞的圖像覆蓋為搜索目標(biāo),可 以獲得所謂的模糊搜索。
雖然上述實施例只是輸入了一個詞作為關(guān)鍵詞,還可以采用多 個關(guān)鍵詞作為搜索關(guān)鍵詞來進(jìn)行搜索處理。在這種情況下,從圖像 DB36中提取附接了那些搜索關(guān)鍵詞的圖像,基于提取出的圖像的其 他關(guān)鍵詞對各個搜索關(guān)鍵詞的相關(guān)性,進(jìn)行范圍縮小的搜索。為了進(jìn) 行上述的采用了詞典的模糊搜索,基于各個搜索關(guān)鍵詞和圖像DB 36 中的圖像的單個關(guān)鍵詞或代表性關(guān)鍵詞之間的相關(guān)性進(jìn)行搜索處理。
在搜索處理采用了多個關(guān)鍵詞的情況下,計算每個圖像的所有關(guān)鍵詞 相對各個搜索關(guān)鍵詞的相關(guān)性(基本相關(guān)性Mt和臨時相關(guān)性Rt)的 平均值,以計算每個圖像的總相關(guān)性St。
在上述實施例中,通過鍵盤17輸入文本搜索關(guān)鍵詞。除此之外, 可以在列表上顯示多個關(guān)鍵詞,以便用戶通過從這些顯示的關(guān)鍵詞中 選擇一個關(guān)鍵詞來指定搜索關(guān)鍵詞。
還可以通過指定多個備選圖像中的一個來輸入搜索關(guān)鍵詞,其 中,每個備選圖像都附接有一個或多個關(guān)鍵詞。如圖12所示,雖然 沒有設(shè)置用來在基于基本相關(guān)性的搜索和基于臨時相關(guān)性的搜索之間進(jìn)行選擇的任何單選按鈕,搜索命令屏60設(shè)置有圖像顯示區(qū)域62, 用來顯示備選圖像61和開始搜索按鈕63。用戶通過鼠標(biāo)指針64選 擇一個顯示的圖像61,并點擊開始搜索按鈕63,從而輸入了一個搜 索命令。在這種情況下,附接到被選圖像61的一個或多個關(guān)鍵詞被 用作用來從圖像DB 36中檢索圖像的一個或多個搜索關(guān)鍵詞。在這 個實施例中,搜索命令屏60和操作裝置18起搜索命令輸入裝置的作 用。
圖13示出了在本實施例中采用圖像作為搜索關(guān)鍵字的搜索結(jié)果 顯示屏的示例。搜索結(jié)果顯示屏幕70具有圖像顯示區(qū)域71,圖像顯 示區(qū)域71顯示在搜索命令屏60上被指定為搜索關(guān)鍵字圖像61、作 為搜索結(jié)果的圖像72、 73、 74和75。在圖像顯示區(qū)域71的中間顯 示圖像61,在圖像61的上邊沿顯示對圖像61具有很高的基本相關(guān) 性Mt的那些圖像72和73,而在圖像61的下邊沿顯示對圖像61具 有很高的臨時相關(guān)性Rt的那些圖像74和75。為了使圖像74和75 與圖像72和73區(qū)分,對圖像74和75加了實線框。為了一組一組地 區(qū)分搜索結(jié)果,可以采用對顯示區(qū)域分區(qū)、使圖像框的顏色和大小不 同、添加索引或標(biāo)號或任何其他合適的方法。
在上述實施例中,通過分別對特定圖像的單個關(guān)鍵詞的基本相 關(guān)性Mt和臨時相關(guān)性Rt求平均,計算特定圖像對搜索關(guān)鍵詞的基 本相關(guān)性AMt和臨時相關(guān)性ARt。如果對附接到特定圖像的關(guān)鍵詞 進(jìn)行彼此不同的加權(quán),優(yōu)選通過對應(yīng)加權(quán)平均的方法來計算這些ARt 和AMt值。例如,如果用圖14所示的方法,用不同的加權(quán)系數(shù)W 對圖7所示的各個關(guān)鍵詞進(jìn)行加權(quán),則可以用下式計算AMt和ARt 值
AMt= ( 15X70+5X20+10X 10) /100=12.5 ARt= (80x70+5x20+5x10) /100=57.5
雖然上述實施例涉及了作為內(nèi)容或搜索目標(biāo)的圖像,但這些內(nèi) 容不限于圖像還可以是電影數(shù)據(jù)、音樂數(shù)據(jù)、文本數(shù)據(jù)、計算機軟件、 網(wǎng)頁和這些內(nèi)容的復(fù)雜混合。附接到各個內(nèi)容上的關(guān)鍵詞不限于字母 或字符,還可以由代碼、數(shù)字等表示。雖然,因為附接到同一內(nèi)容的那些關(guān)鍵詞是彼此相關(guān)的,上述 實施例計算了關(guān)鍵詞際相關(guān)性,如果同時輸入多個關(guān)鍵詞作為搜索關(guān) 鍵詞,由于同時輸入的這些關(guān)鍵詞是彼此相關(guān)的,也可以計算關(guān)鍵詞 際相關(guān)性。
因此,本發(fā)明不限于上述實施例,相反在不脫離所附的權(quán)利要 求的范圍的情況下可以做出各種修改。
權(quán)利要求
1. 一種內(nèi)容檢索設(shè)備,其基于輸入的搜索關(guān)鍵詞從數(shù)據(jù)庫中檢索某些內(nèi)容,其中,所述數(shù)據(jù)庫存儲了多種內(nèi)容,這些內(nèi)容附接有它們各自的關(guān)鍵詞,所述內(nèi)容檢索設(shè)備包括關(guān)鍵詞際相關(guān)性計算器,其以固定的時間間隔對附接于存儲在所述數(shù)據(jù)庫中的內(nèi)容上的每個關(guān)鍵詞對之間的關(guān)鍵詞際相關(guān)性進(jìn)行計算,用來產(chǎn)生關(guān)于每個關(guān)鍵詞對的關(guān)鍵詞際相關(guān)性的時間序列數(shù)據(jù);基本相關(guān)性計算器,其通過對關(guān)于搜索關(guān)鍵詞和所述特定關(guān)鍵詞之間的關(guān)鍵詞際相關(guān)性的時間序列數(shù)據(jù)進(jìn)行平滑處理,來計算特定關(guān)鍵詞對所述搜索關(guān)鍵詞的基本相關(guān)性;內(nèi)容提取裝置,其用來基于所述搜索關(guān)鍵詞從所述數(shù)據(jù)庫中提取至少一個內(nèi)容;判定裝置,其用來對關(guān)于所提取的內(nèi)容是否應(yīng)當(dāng)包括在搜索結(jié)果中進(jìn)行判定,所述判定裝置基于所述搜索關(guān)鍵詞和附接于所提取的內(nèi)容上的關(guān)鍵詞之間的基本相關(guān)性進(jìn)行判斷;以及輸出裝置,其用來輸出所述搜索結(jié)果。
2. 根據(jù)權(quán)利要求1所述的內(nèi)容檢索設(shè)備,其中,所述關(guān)鍵詞際 相關(guān)性計算器基于附接于同一內(nèi)容的關(guān)鍵詞彼此具有一定相關(guān)性的 假設(shè)來計算每個關(guān)鍵詞對之間的相關(guān)性。
3. 根據(jù)權(quán)利要求1所述的內(nèi)容檢索設(shè)備,其中,所述基本相關(guān) 性計算器通過移動平均對關(guān)于所述關(guān)鍵詞際相關(guān)性的時間序列數(shù)據(jù)進(jìn)行平滑處理。
4. 根據(jù)權(quán)利要求l所述的內(nèi)容檢索設(shè)備,其還包括總相關(guān)性計 算器,所述總相關(guān)性計算器用來在多個關(guān)鍵詞附接于內(nèi)容時計算內(nèi)容 對所述搜索關(guān)鍵詞的總相關(guān)性,所述總相關(guān)性計算器通過對搜索關(guān)鍵詞和各個附接于所述內(nèi)容的關(guān)鍵詞之間的基本相關(guān)性進(jìn)行平均來計 算總相關(guān)性,其中,所述結(jié)果判定裝置根據(jù)所提取的內(nèi)容的總相關(guān)性 對所提取的內(nèi)容進(jìn)行判定。
5. 根據(jù)權(quán)利要求4所述的內(nèi)容檢索設(shè)備,其中,所述結(jié)果判定裝置判定總相關(guān)性大于預(yù)定值的內(nèi)容被包括在搜索結(jié)果中。
6. 根據(jù)權(quán)利要求l所述的內(nèi)容檢索設(shè)備,其中,所述內(nèi)容提取 裝置從所述數(shù)據(jù)庫中提取那些附接有所述搜索關(guān)鍵詞的內(nèi)容,所述基 本相關(guān)性計算器計算關(guān)于所提取的內(nèi)容的基本相關(guān)性。
7. 根據(jù)權(quán)利要求1所述的內(nèi)容檢索設(shè)備,其還包括搜索命令輸 入裝置,其允許在多個內(nèi)容中指定一個內(nèi)容,并輸入附接于所指定內(nèi) 容的關(guān)鍵詞作為搜索關(guān)鍵詞。
8. 根據(jù)權(quán)利要求1所述的內(nèi)容檢索設(shè)備,其中,所述內(nèi)容是圖像。
9. 一種基于輸入的搜索關(guān)鍵詞從數(shù)據(jù)庫檢索某些內(nèi)容的內(nèi)容檢 索方法,其中,所述數(shù)據(jù)庫存儲了多種內(nèi)容,這些內(nèi)容附接有它們各 自的關(guān)鍵詞,所述內(nèi)容檢索方法包括下列步驟以固定的時間間隔對附接于存儲在所述數(shù)據(jù)庫中的內(nèi)容上的每 個關(guān)鍵詞對之間的關(guān)鍵詞際相關(guān)性進(jìn)行計算,來產(chǎn)生關(guān)于每個關(guān)鍵詞 對的關(guān)鍵詞際相關(guān)性的時間序列數(shù)據(jù);通過對關(guān)于搜索關(guān)鍵詞和特定關(guān)鍵詞之間的關(guān)鍵詞際相關(guān)性的 時間序列數(shù)據(jù)進(jìn)行平滑處理,來計算特定關(guān)鍵詞對搜索關(guān)鍵詞的基本 相關(guān)性;基于搜索關(guān)鍵詞從數(shù)據(jù)庫提取至少一個內(nèi)容; 基于搜索關(guān)鍵詞和附接于所提取的內(nèi)容上的關(guān)鍵詞之間的基本 相關(guān)性,對提取出的內(nèi)容是否應(yīng)該被包含在搜索結(jié)果中進(jìn)行判定;以及輸出搜索結(jié)果。
10. 根據(jù)權(quán)利要求9所述的內(nèi)容檢索方法,還包括下列步驟 當(dāng)多個關(guān)鍵詞附接于所述提取的內(nèi)容時,計算所提取的內(nèi)容對搜索關(guān)鍵詞的總相關(guān)性;通過對所述搜索關(guān)鍵詞和附接于所提取的內(nèi)容的各個關(guān)鍵詞之 間的基本相關(guān)性進(jìn)行平均來計算總相關(guān)性,其中,在所述判定步驟中, 根據(jù)所提取的內(nèi)容的總相關(guān)性對所述提取出的內(nèi)容進(jìn)行判定。
11. 根據(jù)權(quán)利要求io所述的內(nèi)容檢索方法,其中,通過對附接于所提取的內(nèi)容上的關(guān)鍵詞的基本相關(guān)性進(jìn)行加權(quán)平均來計算總相 關(guān)性。
全文摘要
圖像數(shù)據(jù)庫存儲多種圖像數(shù)據(jù)作為內(nèi)容,對每個圖像附接了至少一個關(guān)鍵詞。以固定時間間隔計算存儲在圖像數(shù)據(jù)庫中的圖像的每個關(guān)鍵詞對之間的相關(guān)程度,來產(chǎn)生每對的關(guān)鍵詞際相關(guān)性的時間序列數(shù)據(jù)。當(dāng)輸入了搜索關(guān)鍵詞時,通過對搜索關(guān)鍵詞和附接到基于搜索關(guān)鍵詞而提取出的圖像上的關(guān)鍵詞之間的關(guān)鍵詞際相關(guān)性的時間序列數(shù)據(jù)進(jìn)行平滑處理來計算基本相關(guān)性。如果所提取的圖像被附接了其他的關(guān)鍵詞,通過對所提取的圖像的各個關(guān)鍵詞對搜索關(guān)鍵詞的基本相關(guān)性進(jìn)行平均,計算所提取的圖像的總相關(guān)性。在很多所提取的圖像中,輸出對搜索關(guān)鍵詞具有較高相關(guān)性的那些圖像作為搜索結(jié)果。
文檔編號G06F17/30GK101464883SQ20081018610
公開日2009年6月24日 申請日期2008年12月17日 優(yōu)先權(quán)日2007年12月17日
發(fā)明者宮本健太郎, 松井優(yōu)子 申請人:富士膠片株式會社