基于圖模型的半結(jié)構(gòu)化數(shù)據(jù)檢索方法
【專利摘要】本發(fā)明屬于信息檢索【技術(shù)領(lǐng)域】,具體為一種基于圖模型的半結(jié)構(gòu)化數(shù)據(jù)檢索方法。該方法主要包括三個部分:分詞詞條權(quán)重動態(tài)設(shè)置、屬性匹配概率以及字符串相似度計算。本發(fā)明基于語言模型的搜索框架Indri,該搜索框架基于狄利克雷平滑,對于處理復(fù)雜查詢有良好的性能,且具有良好的可擴展性。在應(yīng)用越來越廣泛的導(dǎo)航系統(tǒng)或者LBS(Location?Based?Service基于地址服務(wù))應(yīng)用的普及下,該方法參考用戶的查詢意圖,能夠改善地圖信息檢索性能,為用戶提供更加精確且高效的體驗。本發(fā)明方案完全公開,通過本發(fā)明的描述,結(jié)合現(xiàn)有領(lǐng)域內(nèi)的技術(shù)和資源,本領(lǐng)域技術(shù)人員可以實施本技術(shù)發(fā)明方案,達到本發(fā)明技術(shù)的效果。
【專利說明】基于圖模型的半結(jié)構(gòu)化數(shù)據(jù)檢索方法 【技術(shù)領(lǐng)域】
[〇〇〇1] 本發(fā)明屬于信息檢索【技術(shù)領(lǐng)域】,具體涉及一種半結(jié)構(gòu)化數(shù)據(jù)檢索模型。 【背景技術(shù)】
[0002] 傳統(tǒng)的半結(jié)構(gòu)化數(shù)據(jù)檢索的工作大致可分為兩個方向:關(guān)鍵詞檢索和用戶意圖分 析。一方面,從用戶所輸入的自由文本中發(fā)掘關(guān)鍵詞的準確性有限,且用戶輸入大量的關(guān)鍵 詞也會致使核心關(guān)鍵詞模糊;另一方面,大量的研究工作采用無監(jiān)督、半監(jiān)督或者監(jiān)督式的 方法來對用戶查詢進行語義分析。而受限于語義分析工作本身的準確性,如果直接語義分 析結(jié)果作為查詢,效果可能會因此受到很大影響。綜上,隨著互聯(lián)網(wǎng)的發(fā)展,需要改善半結(jié) 構(gòu)化數(shù)據(jù)檢索的性能,從而提升用戶體驗。
【發(fā)明內(nèi)容】
[0003] 為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種基于圖模型的檢索方法。 該方法參考用戶的查詢意圖,能夠改善地圖信息檢索性能,為用戶提供更加精確且高效的 體驗。
[0004] 本發(fā)明提供一種半結(jié)構(gòu)化地圖信息數(shù)據(jù)的檢索方法,其基于詞條權(quán)重設(shè)置、屬性 匹配概率以及字符串相似度三個因素進行檢索,具體步驟如下:
[0005] (1)針對不同詞條進行權(quán)重動態(tài)分配
[0006] 將經(jīng)過分詞的詞條,根據(jù)不同的詞條特征,采用加權(quán)線性組合的方式進行權(quán)重動 態(tài)賦值,得到不同詞條的權(quán)重;所述不同特征包括引入谷歌的NGram詞頻統(tǒng)計信息、用戶查 詢?nèi)罩拘畔?、?shù)據(jù)庫信息以及命名實體信息特征;即如果該詞條在谷歌的NGram記錄中出 現(xiàn)的概率越多、或者在用戶查詢?nèi)罩局谐霈F(xiàn)的次數(shù)越多、或者在數(shù)據(jù)庫中出現(xiàn)的越多、或者 是該詞條是一個命名實體,那么該詞條的權(quán)重就相應(yīng)越高;例如查詢"上海復(fù)旦大學(xué)",詞條 "上海"的權(quán)重就應(yīng)該遠高于"海復(fù)";
[0007] (2)基于屬性匹配概率進行動態(tài)屬性權(quán)值匹配
[0008] 統(tǒng)計詞條在半結(jié)構(gòu)化數(shù)據(jù)中不同屬性中出現(xiàn)的概率信息,使用基于樸素貝葉斯的 方法為詞條賦予不同的屬性權(quán)值。然后將不同詞條本身的權(quán)重以及屬性權(quán)重相乘,便得到 了該詞條對應(yīng)于各個屬性的權(quán)重,再使用基于語言模型的檢索框架Indri來進行檢索;
[0009] (3)基于字符串相似度匹配進行全局因子干預(yù)
[0010] 通過基于語言模型的檢索框架Indri得到初始返回結(jié)果后,使用初始用戶查詢與 數(shù)據(jù)庫中各屬性的值計算其字符串編輯距離,并用字符串編輯距離信息對初始排序結(jié)果 進行重排序,得到最終的排序結(jié)果;最終將結(jié)果返回。
[〇〇11] 本發(fā)明的有益效果在于:本方法可以非常高效的完成檢索任務(wù),并且檢索性能得 到了提升。 【專利附圖】
【附圖說明】
[0012] 圖1是本發(fā)明方法的基本流程圖。
[0013] 圖2是圖模型因子圖。 【具體實施方式】
[0014] 本發(fā)明中,基于圖模型進行半結(jié)構(gòu)化地圖信息數(shù)據(jù)檢索的基本流程圖如圖1所 示。其先將詞條進行分詞,接著,將分詞后詞條進行權(quán)重設(shè)置和屬性匹配得到初步查詢詞 條,再將初步查詢詞條根據(jù)字符串相似度進行重排序,然后返回最終結(jié)果。
[0015] 本發(fā)明中基于圖模型進行半結(jié)構(gòu)化地圖信息數(shù)據(jù)檢索,該模型結(jié)合了詞條權(quán)重設(shè) 置、屬性匹配概率以及字符串相似度三個因素來得到最終的檢索結(jié)果,如圖2所示。給定一 個查詢q,通過分詞后生成η個詞條{tl,t2,…tn},半結(jié)構(gòu)化檢索是從數(shù)據(jù)庫中找出與查詢 最相關(guān)的信息。半結(jié)構(gòu)化數(shù)據(jù)庫包括不同的屬性,例如一個求職信息數(shù)據(jù)庫,其中的屬性包 括職位、招聘企業(yè)、公司行業(yè)、招聘人數(shù)、年齡要求、雇傭形式(全職或者兼職)、薪資待遇、 工作地點等信息。這里我們用{attl,att2,一,attm}代表半結(jié)構(gòu)化數(shù)據(jù)集中的屬性。
[0016] -、詞條權(quán)重設(shè)置
[0017] 我們使用權(quán)重特征集合來為一個詞條賦權(quán)重,例如"上海復(fù)旦大學(xué)",可以明顯得 知"海復(fù)"的權(quán)重應(yīng)該比"復(fù)旦"的權(quán)重小,因此我們采用權(quán)重特征線性加權(quán)方法來為每個 詞條生成特定權(quán)重ω (t),公式如下所示:
【權(quán)利要求】
1. 一種基于圖模型的半結(jié)構(gòu)化數(shù)據(jù)檢索方法,其特征在于,其基于詞條權(quán)重設(shè)置、屬性 匹配概率以及字符串相似度三個因素進行檢索,具體步驟如下: (1) 針對不同詞條進行權(quán)重動態(tài)分配 將經(jīng)過分詞的詞條,根據(jù)不同的詞條特征,采用加權(quán)線性組合的方式進行權(quán)重動態(tài)賦 值,得到不同詞條的權(quán)重;所述不同特征包括引入谷歌的NGram詞頻統(tǒng)計信息、用戶查詢?nèi)?志信息、數(shù)據(jù)庫信息以及命名實體信息特征; (2) 基于屬性匹配概率進行動態(tài)屬性權(quán)值匹配 統(tǒng)計經(jīng)過分詞的詞條在半結(jié)構(gòu)化數(shù)據(jù)中不同屬性中出現(xiàn)的概率信息,使用基于樸素貝 葉斯的方法為詞條賦予不同的屬性權(quán)值;然后將步驟(1)中得到的不同詞條的權(quán)重和該詞 條不同的屬性權(quán)重相乘,得到該詞條對應(yīng)于各個屬性的權(quán)重,在使用基于語言模型的檢索 框架Indri來進行檢索; (3) 基于字符串相似度匹配進行全局因子干預(yù) 通過基于語言模型的檢索框架Indri得到初始返回結(jié)果后,使用初始用戶查詢與數(shù)據(jù) 庫中各屬性的值計算其字符串編輯距離,并用字符串編輯距離信息對初始排序結(jié)果進行重 排序,得到最終的排序結(jié)果;將最終結(jié)果返回。
其中:q是用戶輸入的原始查詢,EditDistWOTd代表字符串的相似度字符串編輯距離,λ 代表字符串相似度的權(quán)重,TAR代表基于步驟1和步驟2查詢獲得的結(jié)果得到的影響分數(shù), (te(q,TAR)為檢索結(jié)果重排序時的權(quán)重因子。
5.根據(jù)權(quán)利要求1所述的檢索方法,其特征在于:基于圖模型進行檢索時,其采用下式 進行判斷:
其中:t表示待查詢詞條,ω (t)為該詞條的權(quán)重,π為特征集合,P(atti |t)為該詞條 與屬性i的匹配概率,而f (t,attj則是基于語言模型得到的詞條t與屬性at、的檢索相 似度得分。
【文檔編號】G06F17/30GK104090966SQ201410338837
【公開日】2014年10月8日 申請日期:2014年7月16日 優(yōu)先權(quán)日:2014年7月16日
【發(fā)明者】康積華, 張奇, 黃萱菁 申請人:復(fù)旦大學(xué)