專利名稱:基于用戶點擊行為的數(shù)字圖書搜索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字圖書館、信息檢索和Web使用挖掘領(lǐng)域,尤其涉及一種基 于用戶點擊行為的數(shù)字圖書搜索方法。
背景技術(shù):
21世紀是數(shù)字化的時代,隨著計算機技術(shù)、海量存儲技術(shù)和網(wǎng)絡(luò)技術(shù)的飛 速發(fā)展,信息載體的數(shù)字化和信息傳播的網(wǎng)絡(luò)化得到了空前的深化,圖書館的 數(shù)字化成為一個必然趨勢。數(shù)字圖書館在世界很多國家受到了高度關(guān)注,并取 得了迅猛發(fā)展,已經(jīng)成為人們獲取信息與知識的重要途徑。
數(shù)字圖書館中通常擁有海量的數(shù)字圖書資源,如何有效的利用這些豐富而 寶貴的資源,讓數(shù)字圖書館讀者能夠更充分的利用他們就顯得非常重要。數(shù)字 圖書搜索是數(shù)字圖書館必須提供的支撐性服務(wù)本,它是數(shù)字圖書館中最為重要 的一個功能模塊,它使得讀者能夠很好地找到需要的圖書資源,是數(shù)字圖書館 服務(wù)平臺的"第一線"。
傳統(tǒng)的圖書資源搜索系統(tǒng)是基于關(guān)系數(shù)據(jù)庫的簡單匹配査找,只能過濾出 與讀者所輸入的關(guān)鍵字相匹配的相關(guān)圖書條目,并沒有使用有效的圖書排序機 制以提高讀者檢索的滿意度,而且性能和用戶體驗不佳。
發(fā)明內(nèi)容
本發(fā)明為克服數(shù)字圖書館中傳統(tǒng)圖書搜索系統(tǒng)質(zhì)量差的缺點,提供了一種 高質(zhì)量的圖書搜索結(jié)果排序方法。
基于用戶點擊行為的數(shù)字圖書搜索方法包括以下步驟
(1) 提取日志中的圖書閱讀記錄構(gòu)建圖書之間的關(guān)聯(lián)圖,使用關(guān)聯(lián)圖計算 圖書的相關(guān)性排序得分;
(2) 提取日志中的檢索閱讀記錄,利用讀者對檢索結(jié)果的隱式反饋對查詢 詞進行聚類;
(3) 抓取互聯(lián)網(wǎng)上的圖書評分數(shù)據(jù),整合形成圖書評分排序得分;
(4) 在查詢詞聚類的基礎(chǔ)之上,針對每類查詢詞,利用讀者對檢索結(jié)果的 隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書相關(guān)性排序、互聯(lián)網(wǎng)上的圖書評分以及文 本相似度這三種排序信息源,形成最終的圖書搜索結(jié)果排序。
所述的提取日志中的圖書閱讀記錄構(gòu)建圖書之間的關(guān)聯(lián)圖,使用關(guān)聯(lián)圖計 算圖書的相關(guān)性排序得分步驟分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提取Web使用日志數(shù)據(jù)中的讀者圖書閱讀記錄,構(gòu)建共同閱讀過圖書i和圖書j的讀 者的數(shù)量矩陣^,用[/ = {",:0^'<; }表示讀者的集合,5 = {~:0"'<"}表示圖書 的集合,然后對6"進行歸一化處理
W乂
得到圖書關(guān)聯(lián)矩陣C",使用向量朋=[ &,..., |—/表示圖書的相關(guān)性排序 得分,向量"[《,《,《,…,+卜/表示圖書的已知質(zhì)量信息,最后使用下面的迭代 方法來計算最終的圖書相關(guān)性排序得分-
朋(o卜jifVi 。
朋("+1) = aC朋(")+ (1 - +
所述的提取日志中的檢索閱讀記錄,利用讀者對檢索結(jié)果的隱式反饋對查 詢詞進行聚類步驟分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提取Web使用日志 數(shù)據(jù)中的圖書檢索閱讀記錄,得到與每個查詢詞相關(guān)的數(shù)字圖書,使用 0 = {&:0^<^表示査詢詞的集合,集合5,GB表示與査詢詞&相關(guān)的圖書,集合 G,v定義為
G ,nB, ifi-j 構(gòu)建表示與査詢詞A和力都相關(guān)的圖書的數(shù)量的矩陣,定義為
s..=
、■/
歸一化后即得到査詢詞相似性矩陣:
S,,^其中w;=
然后使用類似上述的圖書相關(guān)性排序的迭代計算方式來對査詢詞進行聚類。
所述的抓取互聯(lián)網(wǎng)上的圖書評分數(shù)據(jù),整合形成圖書評分排序得分步驟 設(shè)計爬蟲程序抓取互聯(lián)網(wǎng)上著名圖書網(wǎng)站上的圖書評分頁面,分析提取圖書的 元數(shù)據(jù)和圖書評分,如果提取出來的圖書在數(shù)字圖書館中存在,則整合不同網(wǎng) 站上的相同圖書的評分數(shù)據(jù),設(shè)整合的站點為S,其中0&、W,圖書&在站點S,上 的歸一化后的評分數(shù)據(jù)為 ,評分人數(shù)為&,若該圖書該站點上不存在或存在 但是沒有評分記錄,那么 或/^為零,使用如下公式來整合圖書評分+ 。
所述的在查詢詞聚類的基礎(chǔ)之上,針對每類査詢詞,利用讀者對檢索結(jié)果 的隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書相關(guān)性排序、互聯(lián)網(wǎng)上的圖書評分以及
文本相似度這三種排序信息源,形成最終的圖書搜索結(jié)果排序步驟將基于數(shù) 字圖書訪問關(guān)聯(lián)圖的圖書排序值表示為/ = [^^,^..,^_/,將從互聯(lián)網(wǎng)上整合得 到的圖書排序值表示為5 = [^^1^2,..., |_/ ,將基于元數(shù)據(jù)文本相似度的檢索得
分表示為r^^^,…,d:r,其中B為圖書的集合,三個排序值都是介于o到i 之間的浮點值,得分最高的圖書的分值為i,對于一次圖書搜索,使用基于文本
相似度的元數(shù)據(jù)檢索獲得匹配的圖書列表^ = [6。,61,62,...,6 —J, 、0《""為圖書 的編號,圖書列表文本相似度得分為r-[f。,",...,1/, n為匹配當(dāng)前搜索關(guān)鍵
詞的圖書數(shù)目,然后使用如下公式來計算最終的圖書得分-
其中",A^按照如下方式確定從讀者的圖書檢索閱讀的序列數(shù)據(jù)中提取出一系 列的有序?qū)Α匆?^W〉,進而將有序?qū)D(zhuǎn)化為仏w,ww〉, score表示讀者對圖書的 評分,得到的一系列有序?qū)Α?t^,^^〉,按照查詢詞的聚類結(jié)果來將前面得到的 有序?qū)Ψ譃閙個組,第i組中的所有有序?qū)M足fej^e,,對于第i組中的每一個 有序?qū),計算出以它的key值作為査詢詞的檢索結(jié)果中它對應(yīng)的圖書的三個排 序分值,以有序?qū)的score分子作為最終的圖書得分f,這樣第i組中的所有有 序?qū)?gòu)成一個多元線性回歸分析模型
使用每一組中的所有有序?qū)磉M行最小二乘估計可以得到針對每一個查詢詞類 的",,/U。
本發(fā)明所述的基于用戶點擊行為的數(shù)字圖書搜索方法具有如下特點
(1) 充分挖掘和使用了數(shù)字圖書館Web使用日志中的用戶點擊行為數(shù)據(jù), 可以獲得客觀的圖書相關(guān)性排序和很好的査詢詞聚類效果;
(2) 將互聯(lián)網(wǎng)上豐富的圖書評分數(shù)據(jù)融入到相對封閉和靜態(tài)的數(shù)字圖書館 中,有效提高圖書搜索質(zhì)量;
(3) 綜合考慮了三種排序信息源,并使用讀者的隱式反饋來進行集成,可 以得到高質(zhì)量的排序結(jié)果。
圖1是整合圖書評分數(shù)據(jù)基本框架圖;
具體實施例方式
基于用戶點擊行為的數(shù)字圖書搜索方法包括如下步驟
1.提取日志中的圖書閱讀記錄構(gòu)建圖書之間的關(guān)聯(lián)圖,使用關(guān)聯(lián)圖計算圖 書的相關(guān)性排序得分
設(shè)讀者的集合為[/ = { ,:0^<附},其中m為讀者的數(shù)量;圖書的集合為 5 = ^:0sy<4,其中n為圖書的數(shù)量。讀者與圖書的閱讀關(guān)系表示為 r"^.:",et/A、e5,0^〈w,0S其中L為一個bool值,如果讀者",.閱讀 了圖書^的20%以上的頁數(shù),則視為一次有效的閱讀行為,^等于True,否則 視為沒有發(fā)生過該閱讀行為,、,等于False:
圖書與圖書之間存在著關(guān)聯(lián)關(guān)系,本發(fā)明通過同時閱讀過兩本圖書的讀者 把這兩本書關(guān)聯(lián)起來。定義t/,,,sC7,為U的一個子集,表示同時閱讀過圖書&,.和 圖書6」的讀者的集合
這樣就可以構(gòu)建一個|5|*間的矩陣£",表示每一對圖書之間共同閱讀過它 們的讀者的數(shù)量
這里H表示一個集合的勢。很明顯V!',= 0而且£是一個對稱矩陣。
對矩陣G做規(guī)格化處理:
稱C為圖書關(guān)聯(lián)矩陣,矩陣中的每一項代表了圖書對的關(guān)聯(lián)系數(shù),圖書關(guān) 聯(lián)矩陣也可以被看作是一個圖書關(guān)聯(lián)圖Ge的加權(quán)關(guān)聯(lián)矩陣。Ge中的節(jié)點表示集 合B中圖書,圖書6i和圖書6j之間有邊鏈接當(dāng)且僅當(dāng)C。X), C".為邊的權(quán)重。
有一點需要注意,雖然e;是一個對稱矩陣,但是C并不是一個對稱矩陣,所以
邊^(qū)A)和邊(^A)的權(quán)重并不是一致的,Ge是一個有向加權(quán)圖。
圖書相關(guān)性排序算法最基本的思想就是通過從用戶使用日志中提取出來的
8圖書關(guān)聯(lián)圖來傳播圖書的質(zhì)量信息,進而估算出圖書的相關(guān)性排序。使用向量 朋-[^,^,^,…, 卜/表示圖書的相關(guān)性排序得分,向量d-W^,4,…, J表示 圖書的已知質(zhì)量信息,最后使用下面的迭代方法來計算最終的圖書相關(guān)性排序 得分
間
朋("+1) = orC順")+ (1 - or) d
收斂后得到的BR即為圖書rank值,在最終排序檢索結(jié)果中它是一個 的組成部分。最后對得到的結(jié)果進行處理使得其中rank值最高的項值為1:
^ = ~~max(朋)為BR中值最高的項。
2.提取日志中的檢索閱讀記錄,利用讀者對檢索結(jié)果的隱式反饋對查詢詞進 行聚類
分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提取其中的圖書檢索閱讀記錄,得 到與每個査詢詞相關(guān)的數(shù)字圖書,使用2 = ^,:0^<附}表示查詢詞的集合,集合 5^B表示與査詢詞《相關(guān)的圖書,集合fi^S表示與查詢詞《,相關(guān)的圖書,集合
(^定義為
「5,.nB, ifi-j
《,;
wl0 ifi=j
構(gòu)建表示與查詢詞&和g,都相關(guān)的圖書的數(shù)量的矩陣,定義為
歸一化后即得到査詢詞相似性矩陣:
然后使用類似上述的圖書相關(guān)性排序的迭代計算方式來對查詢詞進行聚類。 3.抓取互聯(lián)網(wǎng)上的圖書評分數(shù)據(jù),整合形成圖書評分排序得分 設(shè)計爬蟲程序抓取互聯(lián)網(wǎng)上著名圖書網(wǎng)站上的圖書評分頁面,分析提取圖 書的元數(shù)據(jù)和圖書評分,如果提取出來的圖書在數(shù)字圖書館中存在,則整合不 同網(wǎng)站上的相同圖書的評分數(shù)據(jù),設(shè)整合的站點為S,其中0&、AS圖書&在站 點S,上的歸一化后的評分數(shù)據(jù)為^,評分人數(shù)為&,若該圖書該站點上不存在或存在但是沒有評分記錄,那么^或A為零,使用如下公式來整合圖書評分
<formula>formula see original document page 10</formula>
4.在査詢詞聚類的基礎(chǔ)之上,針對每類查詢詞,利用讀者對檢索結(jié)果的隱式 反饋,綜合從關(guān)聯(lián)圖得出的圖書相關(guān)性排序、互聯(lián)網(wǎng)上的圖書評分以及文本相 似度這三種排序信息源,形成最終的圖書搜索結(jié)果排序
將基于數(shù)字圖書訪問關(guān)聯(lián)圖的圖書排序值表示為i^[r。,A1, ...,^]、將從互
聯(lián)網(wǎng)上整合得到的圖書排序值表示為r[^^A,…,^J,將基于元數(shù)據(jù)文本相
似度的檢索得分表示為7^[f。,w,…U、其中B為圖書的集合,三個排序值都 是介于0到1之間的浮點值,得分最高的圖書的分值為l,對于一次圖書搜索,
使用基于文本相似度的元數(shù)據(jù)檢索獲得匹配的圖書列表^^6。AA,…A-,;r, ~,0"<"為圖書的編號,圖書列表文本相似度得分為r^。,w,…,^f , n為匹
配當(dāng)前搜索關(guān)鍵詞的圖書數(shù)目,然后使用如下公式來計算最終的圖書得分 其中",Ay按照如下方式確定從讀者的圖書檢索閱讀的序列數(shù)據(jù)中提取出一系
列的有序?qū)Α匆?gt;"〉,進而將有序?qū)D(zhuǎn)化為〈^v,"ow〉, score表示讀者對圖書的 評分,得到的一系列有序?qū)Α匆唬琟w^,按照查詢詞的聚類結(jié)果來將前面得到的 有序?qū)Ψ譃閙個組,第i組中的所有有序?qū)M足fe;^2,,對于第i組中的每一個 有序?qū),計算出以它的key值作為査詢詞的檢索結(jié)果中它對應(yīng)的圖書的三個排 序分值,以有序?qū)的score分子作為最終的圖書得分f,這樣第i組中的所有有 序?qū)?gòu)成一個多元線性回歸分析模型
使用每一組中的所有有序?qū)磉M行最小二乘估計可以得到針對每一個査詢 詞類的"',"^。
權(quán)利要求
1、一種基于用戶點擊行為的數(shù)字圖書搜索方法,其特征在于包括以下步驟(1)提取日志中的圖書閱讀記錄構(gòu)建圖書之間的關(guān)聯(lián)圖,使用關(guān)聯(lián)圖計算圖書的相關(guān)性排序得分;(2)提取日志中的檢索閱讀記錄,利用讀者對檢索結(jié)果的隱式反饋對查詢詞進行聚類;(3)抓取互聯(lián)網(wǎng)上的圖書評分數(shù)據(jù),整合形成圖書評分排序得分;(4)在查詢詞聚類的基礎(chǔ)之上,針對每類查詢詞,利用讀者對檢索結(jié)果的隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書相關(guān)性排序、互聯(lián)網(wǎng)上的圖書評分以及文本相似度這三種排序信息源,形成最終的圖書搜索結(jié)果排序。
2、 根據(jù)權(quán)利要求l所述的一種基于用戶點擊行為的數(shù)字圖書搜索方法,其 特征在于所述的提取日志中的圖書閱讀記錄構(gòu)建圖書之間的關(guān)聯(lián)圖,使用關(guān)聯(lián) 圖計算圖書的相關(guān)性排序得分步驟分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提 取Web使用日志數(shù)據(jù)中的讀者圖書閱讀記錄,構(gòu)建共同閱讀過圖書i和圖書j 的讀者的數(shù)量矩陣e^.,用"=^:0^'<朋}表示讀者的集合,萬=化0^<"}表示 圖書的集合,然后對《」進行歸一化處理c'々其中,i:^.得到圖書關(guān)聯(lián)矩陣C^.,使用向量朋-[K》r一2,…, ^表示圖書的相關(guān)性排序 得分,向量^ = [^"1,《,..., _/表示圖書的已知質(zhì)量信息,最后使用下面的迭代 方法來計算最終的圖書相關(guān)性排序得分,(0)=由1間 。朋(w +1) = "C朋(")+ (1 - +
3、 根據(jù)權(quán)利要求l所述的一種基于用戶點擊行為的數(shù)字圖書搜索方法,其 特征在于所述的提取日志中的檢索閱讀記錄,利用讀者對檢索結(jié)果的隱式反饋 對查詢詞進行聚類步驟分析數(shù)字圖書館的Web使用日志數(shù)據(jù),提取Web使用 日志數(shù)據(jù)中的圖書檢索閱讀記錄,得到與每個査詢詞相關(guān)的數(shù)字圖書,使用 2 = ^:0《/<附}表示查詢詞的集合,集合B,;S表示與查詢詞9,相關(guān)的圖書,集合 G"定義為<formula>formula see original document page 3</formula>構(gòu)建表示與查詢詞&和力都相關(guān)的圖書的數(shù)量的矩陣,定義為:<formula>formula see original document page 3</formula>歸一化后即得到查詢詞相似性矩陣:<formula>formula see original document page 3</formula>其中<formula>formula see original document page 3</formula>然后使用類似上述的圖書相關(guān)性排序的迭代計算方式來對查詢詞進行聚類。
4、根據(jù)權(quán)利要求l所述的一種基于用戶點擊行為的數(shù)字圖書搜索方法,其特征在于所述的抓取互聯(lián)網(wǎng)上的圖書評分數(shù)據(jù),整合形成圖書評分排序得分步驟設(shè)計爬蟲程序抓取互聯(lián)網(wǎng)上著名圖書網(wǎng)站上的圖書評分頁面,分析提取圖 書的元數(shù)據(jù)和圖書評分,如果提取出來的圖書在數(shù)字圖書館中存在,則整合不 同網(wǎng)站上的相同圖書的評分數(shù)據(jù),設(shè)整合的站點為S其中(^"7V,圖書^在站 點S上的歸一化后的評分數(shù)據(jù)為 ,評分人數(shù)為&,若該圖書該站點上不存在 或存在但是沒有評分記錄,那么 或^為零,使用如下公式來整合圖書評分<formula>formula see original document page 3</formula>.
5、根據(jù)權(quán)利要求l所述的一種基于用戶點擊行為的數(shù)字圖書搜索方法,其 特征在于所述的在查詢詞聚類的基礎(chǔ)之上,針對每類查詢詞,利用讀者對檢索 結(jié)果的隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書相關(guān)性排序、互聯(lián)網(wǎng)上的圖書評分 以及文本相似度這三種排序信息源,形成最終的圖書搜索結(jié)果排序步驟將基 于數(shù)字圖書訪問關(guān)聯(lián)圖的圖書排序值表示為及=[^。 2,..將從互聯(lián)網(wǎng)上整 合得到的圖書排序值表示為5 = ^^^2,...,^一/ ,將基于元數(shù)據(jù)文本相似度的檢 索得分表示為r^f。,^,…U、其中B為圖書的集合,三個排序值都是介于0 到l之間的浮點值,得分最高的圖書的分值為1,對于一次圖書搜索,使用基于 文本相似度的元數(shù)據(jù)檢索獲得匹配的圖書列表S^6。AA,…,U, &0^<"為 圖書的編號,圖書列表文本相似度得分為『=[/。,^2,...,^]、 n為匹配當(dāng)前搜索 關(guān)鍵詞的圖書數(shù)目,然后使用如下公式來計算最終的圖書得分其中cr,A/按照如下方式確定從讀者的圖書檢索閱讀的序列數(shù)據(jù)中提取出一系列的有序?qū)Α匆?6。W〉,進而將有序?qū)D(zhuǎn)化為〈fe;^cw^, score表示讀者對圖書的 評分,得到的一系列有序?qū)Α?fe^,"ow〉,按照查詢詞的聚類結(jié)果來將前面得到的 有序?qū)Ψ譃閙個組,第i組中的所有有序?qū)M足/t^e2,,對于第i組中的每一個 有序?qū),計算出以它的key值作為查詢詞的檢索結(jié)果中它對應(yīng)的圖書的三個排 序分值,以有序?qū)的score分子作為最終的圖書得分f,這樣第i組中的所有有 序?qū)?gòu)成一個多元線性回歸分析模型使用每一組中的所有有序?qū)磉M行最小二乘估計可以得到針對每一個查詢詞類 的",,A,r,。
全文摘要
本發(fā)明公開了一種基于用戶點擊行為的數(shù)字圖書搜索的方法。首先,提取Web日志中的圖書閱讀記錄構(gòu)建圖書之間的關(guān)聯(lián)圖,使用該關(guān)聯(lián)圖來計算圖書的相關(guān)性排序;其次,提取日志中的檢索閱讀記錄,利用其中讀者對檢索結(jié)果的隱式反饋對查詢詞進行聚類;最后,在查詢詞聚類的基礎(chǔ)之上,針對每類查詢詞,利用讀者對檢索結(jié)果的隱式反饋,綜合從關(guān)聯(lián)圖得出的圖書相關(guān)性排序、互聯(lián)網(wǎng)上的圖書評分以及文本相似度這三種信息源,形成最終的圖書搜索結(jié)果排序。本發(fā)明可以獲得客觀的圖書相關(guān)性排序和很好的查詢詞聚類效果;將互聯(lián)網(wǎng)上豐富的圖書評分數(shù)據(jù)融入到相對封閉和靜態(tài)的數(shù)字圖書館中,有效提高圖書搜索質(zhì)量。
文檔編號G06F17/30GK101320375SQ200810063010
公開日2008年12月10日 申請日期2008年7月4日 優(yōu)先權(quán)日2008年7月4日
發(fā)明者吳江琴, 莊越挺, 寅 張, 川 袁 申請人:浙江大學(xué)