專利名稱:基于可視程度的Web對象檢索方法
技術領域:
本發(fā)明涉及一種Web對象檢索方法,尤其是涉及一種基于可視程度的Web對象檢索方法。
背景技術:
在空間數(shù)據(jù)庫領域,常見的索引方法包括網(wǎng)格(Grid)、四叉樹(Quad-Tree )和R樹 (R-Tree)等,這些空間索引通常以層次型的結構組織空間對象,從而支持高效的空間查詢。 以被廣泛采用的R樹為例,空間上位置相近的數(shù)據(jù)點被聚類到最小包圍盒里,這些最小包圍盒又根據(jù)空間局部性遞歸的進行聚類,直到到達根節(jié)點。基于上述索引結構,多種考慮空間對象可視信息的查詢機制被提出比如以可視作為布爾篩選條件,學者們在傳統(tǒng)近鄰查詢與反向近鄰查詢的基礎上加入了可視與否的判斷,提出了可視近鄰查詢與可視反向近鄰查詢;或者以最短可視距離(MINVIDIST)為可視程度衡量標準,依據(jù)較遠處的對象不會影響較近對象的可視性這一事實,學者們提出了遞增式可視最近鄰查詢,在最近鄰查詢過程中漸增式地獲取最短可視距離較小的空間對象。在信息檢索領域,常見全文搜索引擎通常采用倒排文件(Inverted File)對Web 對象進行索引,倒排文件以文檔關鍵詞作為索引,文檔作為索引對象建立關鍵詞-文檔映射結構。當用戶輸入關鍵詞進行檢索時,搜索引擎可以利用倒排文件高效地獲得包含此關鍵詞的文檔集合以及關鍵詞在各個文檔中出現(xiàn)的次數(shù),從而便捷計算網(wǎng)頁文檔與用戶查詢之間的匹配程度,并按一定的排列順序返回查詢結果??臻g索引和文本索引只能片面地處理空間查詢或語義查詢,為了處理基于位置的關鍵詞搜索(LWS),必須綜合利用空間索引與文本索引,一種方法是先通過空間索引得到滿足空間查詢條件的候選對象,然后通過文本索引過濾不滿足關鍵詞查詢條件的對象,最后得到同時滿足空間和文本條件的結果集。另一種方法則與之相反,即先通過關鍵詞的篩選, 再利用空間信息進一步提煉,以得到最終結果。但是,無論是先空間再文本,還是先文本再空間的過濾方式,在中間過程中都會產(chǎn)生大量的候選對象,這是影響查詢性能的主要瓶頸。 針對此缺陷,近年來研究者們提出了若干種混合索引機制,其中IR樹是一種得到廣泛認可的代表性混合索引,IR樹將R樹和倒排文件相結合,在各個節(jié)點中加入指向倒排索引文件的指針,從而在計算空間距離的同時,可以利用當前節(jié)點所對應的倒排文件方便估算節(jié)點文本與查詢關鍵詞的相關度?;旌纤饕奶岢鲚^好地解決了空間屬性與文本屬性的融合問題,但是研究者們所提出的查詢處理方法只是簡單地以絕對歐式距離作為空間匹配程度的標準,將對象按照離查詢點距離和搜索關鍵詞相關度的線性組合來進行排序。而隨著移動設備的流行與信息物理系統(tǒng)的興起,用戶感興趣的通常只是其視野范圍內的對象,相對于歐氏距離,可視程度將是一種更合適的空間匹配性度量,如何處理基于可視程度的Web對象檢索是一個新的課題。
發(fā)明內容
本發(fā)明的目的在于提供一種基于可視程度的Web對象檢索方法。本發(fā)明解決其技術問題采用的技術方案是
1. 一種基于可視程度的Web對象檢索方法采用以下步驟實現(xiàn)
1)對具有空間屬性的海量Web對象建立IR樹索引;
2)提出一種積分式可視性度量方法,該可視性度量方法符合人體視覺感知特征;
3)基于步驟2)所提出的可視性度量方法,設計環(huán)繞遮擋圖結構作為Web對象及IR樹節(jié)點對象的可視性計算引擎;
4)基于步驟2)中的可視性度量方法,針對用戶可視Web檢索需求設計查詢匹配度度量函數(shù),融合Web對象相對于用戶位置的可視性與相對于查詢關鍵詞的語義相關性;
5)利用IR樹索引,結合步驟3)所提出的環(huán)繞遮擋圖結構以及步驟4)所提出的查詢匹配度度量函數(shù),采用增量式的方法獲得K個與用戶查詢匹配度最高的Web對象。2.步驟1)中所述的建立IR樹索引,需要先對Web對象的空間屬性和語義屬性建立理論模型,用最小包圍矩形表示W(wǎng)eb對象的空間位置與幾何形狀,用文本表示W(wǎng)eb對象的語義內容,依據(jù)理論模型對海量Web對象建立IR樹索引,這種樹索引結構無縫融合Web對象的空間信息與語義信息,并且對于后期Web對象的插入、刪除、更新操作IR樹索引都提供了處理機制。3.步驟2)中所述的積分式可視性度量方法,空間線段對象看做由無窮多個點對象組成,每一點的可視性都與該點到查詢點的距離成反比,那么線段對象的可視性就是無窮多個點對象的可視度疊加,用定積分式表達,而對于空間屬性被建模為平面矩形的Web 對象,平面矩形相對于查詢點最多具有一條或兩條能見邊,即不考慮查詢點落于矩形內部的特殊情況,從而Web對象的可視性即為平面矩形能見邊的可視性之和。4.步驟3)中所述的環(huán)繞遮擋圖結構的性質與構建方法如下
4. 1)環(huán)繞遮擋圖通過考慮Web對象的相互遮擋,并結合用戶查詢位置與步驟2)所提出的可視度衡量標準而構建,其成員全部來自于原始Web對象集;
4. 2)環(huán)I 當圖中鏈纖了苗鈿^BM圍0,刨的張角范圍,且在以鶴點為坐標原點,與X軸正方向成任意角度白妨向上,環(huán)猶當圖所對應的則豫將是勧向上針刪豫集合中的廠可爾象;
4. 3)環(huán)繞遮擋圖之外的Web對象可視性為零,即對于任一不屬于環(huán)繞遮擋圖的Web對象,必定被環(huán)繞遮擋圖的一個成員完全遮擋或多個成員聯(lián)合完全遮擋;
4. 4)環(huán)繞遮擋圖通過最好優(yōu)先(Best First)方法構建,距離查詢點比較近的Web對象被優(yōu)先獲取作為初始遮擋體,后續(xù)獲取得到的Web對象與當前環(huán)繞遮擋圖的成員作比較,如果它們具有共同角度區(qū)間,則在共同角度區(qū)間中選取距離查詢點更近的Web對象作為新的環(huán)繞遮擋圖成員并計算可視性,重復這一過程直至環(huán)繞遮擋圖完全覆蓋查詢點周圍 [C.:.-]的角度區(qū)間。5.步驟4)中所述的匹配度度量函數(shù)用以衡量Web對象與用戶查詢之間的匹配程度,以線性加權方式融合Web對象的可視性和語義相關性,其中可視性采用步驟2)所述的積分式可視性度量方法,語義相關性采用信息挖掘領域的TF-IDF模型與向量余弦距離度量,加權函數(shù)中的權重系數(shù)根據(jù)實際應用場景與用戶需求方便設定。
6.步驟5)中所述的K個Web對象的增量式獲取具體實施方法如下
6. 1)維護一個存放IR樹索引節(jié)點的優(yōu)先隊列以及一個結果列表,其中優(yōu)先隊列以步驟4)所述的線性加權匹配度為鍵值,按照鍵值遞減的順序組織IR樹各個節(jié)點;
6. 2)將IR樹索引的根節(jié)點放入優(yōu)先隊列,循環(huán)訪問優(yōu)先隊列中位于隊首,即匹配度最高的元素;
6. 3)若優(yōu)先隊列隊首元素為IR樹索引中間節(jié)點,則利用環(huán)繞遮擋圖與該節(jié)點所指向的倒排文件索引為其子節(jié)點分別計算可視性與語義相關度,并進行線性加權后作為各個子節(jié)點的查詢匹配度與子節(jié)點一起壓入優(yōu)先隊列;
6. 4)若優(yōu)先隊列隊首元素為Web對象,則說明當前Web對象的匹配度比優(yōu)先隊列中任意其它Web對象或IR樹索引節(jié)點的匹配度都要高,于是將此對象加入到查詢結果集中;
6.5)當查詢結果集的大小達到K或者優(yōu)先隊列已為空時,獲取過程結束,返回最終的查詢結果集。本發(fā)明具有的有益效果是
本發(fā)明充分利用IR樹索引結構海量Web對象的空間屬性與文本屬性,并支持高效的插入、刪除、更新操作。相對于基于歐氏距離的Web對象檢索,提出了一種積分式可視性度量方法作為空間屬性匹配度,并在此基礎上設計環(huán)繞遮擋圖結構作為Web對象的可視性計算引擎。融合Web對象可視性與語義相關性,供用戶增量式獲取與查詢密切匹配的可視Web 對象。
圖1是本發(fā)明實施步驟流程圖。圖2是Web對象的可視性度量示意圖。圖3是環(huán)繞遮擋圖結構示意圖。
具體實施例方式現(xiàn)結合具體實施和示例對本發(fā)明的技術方案作進一步說明。如圖1所示,基于可視程度的Web對象檢索具體實施步驟如下
1)對具有空間屬性的海量Web對象建立IR樹索引;
2)提出一種積分式可視性度量方法,該可視性度量方法符合人體視覺感知特征;
3)基于步驟2)所提出的可視性度量方法,設計環(huán)繞遮擋圖結構作為Web對象及IR樹節(jié)點對象的可視性計算引擎;
4)基于步驟2)中的可視性度量方法,針對用戶可視Web檢索需求設計查詢匹配度度量函數(shù),融合Web對象相對于用戶位置的可視性與相對于查詢關鍵詞的語義相關性;
5)利用IR樹索引,結合步驟3)所提出的環(huán)繞遮擋圖結構以及步驟4)所提出的查詢匹配度度量函數(shù),采用增量式的方法獲得K個與用戶查詢匹配度最高的Web對象。步驟1)中所述的建立IR樹索引,需要先對Web對象的空間屬性和語義屬性建立理論模型,用最小包圍矩形表示W(wǎng)eb對象的空間位置與幾何形狀,用文本表示W(wǎng)eb對象的語義內容,依據(jù)理論模型對海量Web對象建立IR樹索引,這種樹索引結構無縫融合Web對象的空間信息與語義信息,并且對于后期Web對象的插入、刪除、更新操作IR樹索引都提供了處理機制。步驟2)中所述的積分式可視性度量方法,空間線段對象看做由無窮多個點對象組成,每一點的可視性都與該點到查詢點的距離成反比,那么線段對象的可視性就是無窮多個點對象的可視度疊加,用定積分式表達,而對于空間屬性被建模為平面矩形的Web對象, 平面矩形相對于查詢點最多具有一條或兩條能見邊,即不考慮查詢點落于矩形內部的特殊情況,從而Web對象的可視性即為平面矩形能見邊的可視性之和。以圖2所示的矩形AB⑶為例來說明,對于查詢點Q,矩形的可視邊為AB與AD,于是矩形AB⑶所對應的Web對象的可視性為邊AB與AD的可視性之和。而每一條邊的可視性可由積分式得出,以AB邊為例,AB邊可以看做有無窮多個構成,每點的可視性與該點到Q 的距離成反比。步驟3)中所述的環(huán)繞遮擋圖通過最好優(yōu)先方法構建,距離查詢點比較近的Web 對象被優(yōu)先獲取作為初始遮擋體,后續(xù)獲取得到的Web對象與當前環(huán)繞遮擋圖的成員作比較,如果它們具有共同角度區(qū)間,則在共同角度區(qū)間中選取距離查詢點更近的Web對象作為新的環(huán)繞遮擋圖成員并計算可視性,重復這一過程直至環(huán)繞遮擋圖完全覆蓋查詢點周圍 「:.:..-]的角度區(qū)間。以圖3所示實例對環(huán)繞遮擋圖進行說明,圖中查詢位置Q周圍的環(huán)繞遮擋圖由對象1、2、3、4、5、6構成,這些對象包圍了 Q,并且是以Q為原點,
的張角范圍,且在以查詢點為坐標原點,與X軸正方向成任意角度的方向上,環(huán)繞遮擋圖所對應的Web對象將是該方向上整個Web對象集合中的最近可視對象;4.3)環(huán)繞遮擋圖之外的Web對象可視性為零,即對于任一不屬于環(huán)繞遮擋圖的Web對象,必定被環(huán)繞遮擋圖的一個成員完全遮擋或多個成員聯(lián)合完全遮擋;4.4)環(huán)繞遮擋圖通過最好優(yōu)先方法構建,距離查詢點比較近的Web對象被優(yōu)先獲取作為初始遮擋體,后續(xù)獲取得到的Web對象與當前環(huán)繞遮擋圖的成員作比較,如果它們具有共同角度區(qū)間,則在共同角度區(qū)間中選取距離查詢點更近的Web對象作為新的環(huán)繞遮擋圖成員并計算可視性,重復這一過程直至環(huán)繞遮擋圖完全覆蓋查詢點周圍[0.211〗的角度區(qū)間。
5.根據(jù)權利要求1所述的一種基于可視程度的Web對象檢索方法,其特征在于步驟4)中所述的匹配度度量函數(shù)用以衡量Web對象與用戶查詢之間的匹配程度,以線性加權方式融合Web對象的可視性和語義相關性,其中可視性采用步驟2)所述的積分式可視性度量方法,語義相關性采用信息挖掘領域的TF-IDF模型與向量余弦距離度量,加權函數(shù)中的權重系數(shù)根據(jù)實際應用場景與用戶需求方便設定。
6.根據(jù)權利要求1所述的一種基于可視程度的Web對象檢索方法,其特征在于步驟 5)中所述的K個Web對象的增量式獲取具體實施方法如下6. 1)維護一個存放IR樹索引節(jié)點的優(yōu)先隊列以及一個結果列表,其中優(yōu)先隊列以步驟4)所述的線性加權匹配度為鍵值,按照鍵值遞減的順序組織IR樹各個節(jié)點;6. 2)將IR樹索引的根節(jié)點放入優(yōu)先隊列,循環(huán)訪問優(yōu)先隊列中位于隊首,即匹配度最高的元素;6. 3)若優(yōu)先隊列隊首元素為IR樹索引中間節(jié)點,則利用環(huán)繞遮擋圖與該節(jié)點所指向的倒排文件索引為其子節(jié)點分別計算可視性與語義相關度,并進行線性加權后作為各個子節(jié)點的查詢匹配度與子節(jié)點一起壓入優(yōu)先隊列;6. 4)若優(yōu)先隊列隊首元素為Web對象,則說明當前Web對象的匹配度比優(yōu)先隊列中任意其它Web對象或IR樹索引節(jié)點的匹配度都要高,于是將此對象加入到查詢結果集中;6.5)當查詢結果集的大小達到K或者優(yōu)先隊列已為空時,獲取過程結束,返回最終的查詢結果集。
全文摘要
本發(fā)明公開了一種基于可視程度的Web對象檢索方法。對具有空間屬性的海量Web對象建立IR樹索引;用積分式可視性度量方法符合人體視覺感知特征;設計環(huán)繞遮擋圖結構作為Web對象及IR樹節(jié)點對象的可視性計算引擎;針對用戶可視Web檢索需求設計查詢匹配度度量函數(shù),融合Web對象相對于用戶位置的可視性與相對于查詢關鍵詞的語義相關性;利用IR樹索引,對提出的環(huán)繞遮擋圖結構以及查詢匹配度度量函數(shù),采用增量式的方法獲得K個與用戶查詢匹配度最高的Web對象。本發(fā)明充分利用了IR樹索引結構,無縫融合Web對象的空間屬性與文本屬性,基于積分式可視性度量的環(huán)繞遮擋圖結構保證了查詢的高效性。
文檔編號G06F17/30GK102156754SQ20111011386
公開日2011年8月17日 申請日期2011年5月4日 優(yōu)先權日2011年5月4日
發(fā)明者壽黎但, 張超, 胡天磊, 陳剛, 陳珂 申請人:浙江大學