專利名稱:基于三元模型的信息檢索加工的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息檢索加工的方法,尤其涉及一種基于三元模型的信息檢索加工的方法。
背景技術(shù):
數(shù)據(jù)信息和文檔的有效檢索和加工,是數(shù)據(jù)庫應(yīng)用領(lǐng)域中的核心和重要內(nèi)容,廣泛存在于各種電子數(shù)據(jù)、文獻(xiàn)、商業(yè)數(shù)據(jù)庫資源和互聯(lián)網(wǎng)內(nèi)容搜索的應(yīng)用當(dāng)中。
目前這一領(lǐng)域中的數(shù)據(jù)信息檢索技術(shù),一般是基于關(guān)鍵詞的統(tǒng)計(jì)方法,用關(guān)鍵詞的布爾表達(dá)式作為查詢語句。對(duì)于文件數(shù)據(jù)庫,使用關(guān)鍵詞加關(guān)鍵詞出現(xiàn)在文件中位置的字典,通過比較查詢語句的關(guān)鍵詞與文件數(shù)據(jù)庫字典中的關(guān)鍵詞,找到相應(yīng)文件。另外,有些改進(jìn)采用了模糊邏輯模型、向量空間模型和概率檢索模型等。
在知識(shí)處理環(huán)節(jié),目前操作都是通過主題詞標(biāo)引、個(gè)別關(guān)鍵詞標(biāo)注、文檔摘要方式對(duì)整篇文檔進(jìn)行屬性標(biāo)識(shí),并作為檢索過程中的檢索關(guān)鍵詞,這種方式不能完全反映整篇文檔中的全部知識(shí)信息,比如雖然有事實(shí)關(guān)系,但關(guān)鍵詞沒有表示,就無法檢索出來,最終結(jié)果表現(xiàn)為檢索結(jié)果中的文檔缺失。
發(fā)明內(nèi)容
為了解決上述存在的問題,本發(fā)明提供一種基于三元模型的信息檢索加工的方法,該方法能夠解決諸如“隱含指代”等較為復(fù)雜的搜索請(qǐng)求。
本發(fā)明通過以下方案實(shí)現(xiàn)一種基于三元模型的信息檢索加工的方法,其步驟為(1)錄入原始文件信息,制作關(guān)鍵詞加關(guān)鍵詞出現(xiàn)在文件中位置的字典;(2)建立三元關(guān)系模型,采用三元組Ka、Kr、Kb形式,其中Ka代表關(guān)鍵詞a,Kb代表關(guān)鍵詞b,Kr代表關(guān)鍵詞a和關(guān)鍵詞b之間的關(guān)系;該三元組形式表示和實(shí)現(xiàn)關(guān)鍵詞之間的三種類型的關(guān)聯(lián)關(guān)系;Krr代表關(guān)系關(guān)鍵詞之間的關(guān)系,如逆關(guān)系、二次傳遞、相同主詞、對(duì)稱等,Kr′代表Kr根據(jù)Krr推導(dǎo)出的關(guān)系,由此Ka′關(guān)鍵詞和Kb′關(guān)鍵詞具有了新的關(guān)系Kr′;(3)將上述三元關(guān)系模型中Kr、Krr、Kr′錄入到檢索數(shù)據(jù)庫中;(4)根據(jù)步驟(1)中的關(guān)鍵詞和步驟(3)中的關(guān)系自動(dòng)導(dǎo)出關(guān)鍵詞之間的新關(guān)系,即Ka′關(guān)鍵詞和Kb′關(guān)鍵詞的新關(guān)系Kr′,并將關(guān)鍵詞和關(guān)系記錄到字典中。
上述三元關(guān)系包括成員隸屬關(guān)系、等價(jià)別名關(guān)系以及背景參考關(guān)系。
上述三元關(guān)系模型方法可以多次、組合應(yīng)用,能產(chǎn)生出更多的邏輯結(jié)果。
在檢索過程中,輸入檢索關(guān)鍵詞后,不但可以搜索到根據(jù)傳統(tǒng)方法使用關(guān)鍵詞詞典查找到的內(nèi)容,還可以根據(jù)上述三元關(guān)系搜索到原始文件記錄沒有,但實(shí)際存在,即“隱含指代”的內(nèi)容。
和目前已有檢索系統(tǒng)相比,上述方法具有以下特點(diǎn)
1、基礎(chǔ)數(shù)據(jù)量大幅度減少目前已有檢索系統(tǒng)為了滿足不同的檢索要求,需要完備的基礎(chǔ)數(shù)據(jù),所有推演的結(jié)論都需要作為基礎(chǔ)數(shù)據(jù)進(jìn)入系統(tǒng),而本方法基礎(chǔ)數(shù)據(jù)可以很少,而能夠推演出大量數(shù)據(jù)結(jié)果以供檢索。
2、可檢索數(shù)據(jù)的大幅度增加用戶可以檢索的數(shù)據(jù),不再是僅僅依賴于基礎(chǔ)數(shù)據(jù)量,同時(shí)也和關(guān)系三元組的數(shù)量相關(guān)。由于關(guān)系三元組具有很強(qiáng)的通用性,因此,當(dāng)增加一個(gè)關(guān)系三元組,帶來的可檢索數(shù)據(jù)的增加將會(huì)是成倍甚至是幾何級(jí)數(shù)的。
3、數(shù)據(jù)關(guān)系一致性更強(qiáng)由于大量結(jié)論是系統(tǒng)經(jīng)過邏輯推演得到的,因此具有嚴(yán)密的邏輯性。而目前已有檢索系統(tǒng)由于基礎(chǔ)數(shù)據(jù)都是獨(dú)立進(jìn)入數(shù)據(jù)庫的,數(shù)據(jù)一致性得不到保障。
4、關(guān)系的擴(kuò)展性只要是符合邏輯的關(guān)系三元組就可以在系統(tǒng)中進(jìn)行定義,從這個(gè)意義上說,一方面根據(jù)生活經(jīng)驗(yàn)以及現(xiàn)有的科技發(fā)展?fàn)顩r總結(jié)出來的關(guān)系可以通過這個(gè)系統(tǒng)實(shí)現(xiàn),同時(shí)隨著社會(huì)、科技的不斷進(jìn)步,新的關(guān)系將不斷出現(xiàn),而這些新的關(guān)系同樣也可以在系統(tǒng)中實(shí)現(xiàn);并且對(duì)于了新定義的關(guān)系三元組,所有以前的數(shù)據(jù)將馬上得到相應(yīng)的組織以備查詢。
圖1是本發(fā)明的三元關(guān)系模型的示意圖;圖2是本發(fā)明的實(shí)施例中人物索引關(guān)鍵詞之間的關(guān)系;圖3是本發(fā)明的實(shí)施例中關(guān)系關(guān)鍵詞之間的關(guān)系;圖4是本發(fā)明的實(shí)施例中“逆關(guān)系”的推演路徑;
圖5是本發(fā)明的實(shí)施例中“二次傳遞”的推演路徑;圖6是本發(fā)明的實(shí)施例中“相同主詞”的推演路徑;圖7是本發(fā)明的實(shí)施例中“對(duì)稱”的推演路徑。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行更詳細(xì)的描述。
在本發(fā)明中,為構(gòu)建高度靈活智能索引機(jī)制,建立了一種自包含、自組織的三元關(guān)系模型。各種常見語言都具有主要語法結(jié)構(gòu)(主語、謂語、賓語),本發(fā)明對(duì)這種三元關(guān)系進(jìn)行了模擬,實(shí)現(xiàn)了基于三元關(guān)系模型的數(shù)據(jù)表達(dá)、存儲(chǔ)和檢索。
如圖1所示,本發(fā)明的三元關(guān)系模型采用三元組Ka、Kr、Kb形式,其中Ka代表關(guān)鍵詞a,Kb代表關(guān)鍵詞b,Kr代表關(guān)鍵詞a和關(guān)鍵詞b之間的關(guān)系。該三元組形式表示和實(shí)現(xiàn)關(guān)鍵詞之間的三種類型的關(guān)聯(lián)關(guān)系,包括成員隸屬關(guān)系、等價(jià)別名關(guān)系以及背景參考關(guān)系。
每種類型中可以不斷細(xì)分,同時(shí)各種關(guān)系之間仍能實(shí)現(xiàn)三種類型的關(guān)聯(lián)。在這種三元關(guān)系模型的基礎(chǔ)上進(jìn)行演算,可以進(jìn)行包含邏輯含義的檢索,有別于單純進(jìn)行關(guān)鍵詞組合的查詢方式。
Krr代表關(guān)系關(guān)鍵詞之間的關(guān)系,如逆關(guān)系、二次傳遞、相同主詞、對(duì)稱等,Kr′代表Kr根據(jù)Krr推導(dǎo)出的關(guān)系,由此Ka′關(guān)鍵詞和Kb′關(guān)鍵詞具有了新的關(guān)系Kr′。
圖2為人物索引關(guān)鍵詞之間的關(guān)系的一個(gè)例子如果系統(tǒng)中的人物關(guān)鍵詞包含了以下三個(gè)三元組(張老三,兒子,張三);(張三,兒子,張小三);(張三,兒子,張小四)。
同時(shí),如圖3所示,系統(tǒng)中定義了以下針對(duì)關(guān)系關(guān)鍵詞的三元組(兒子,逆關(guān)系,父親);(兒子,二次傳遞,孫子);(兒子,相同主詞,兄弟);(兄弟,對(duì)稱,兄弟)。
那么系統(tǒng)可以在不增加其它信息的情況下,自動(dòng)推演出以下結(jié)論如圖4所示,根據(jù)“逆關(guān)系”可以推演出(張三,父親,張老三)(張小三,父親,張三)(張小四,父親,張三)。
如圖5所示,根據(jù)“二次傳遞”關(guān)系可以推演出(張老三,孫子,張小三)(張老三,孫子,張小四)。
如圖6、圖7所示,根據(jù)“相同主詞”關(guān)系可以推演出(張小三,兄弟,張小四)并在此基礎(chǔ)上根據(jù)“對(duì)稱”關(guān)系推演出(張小四,兄弟,張小三)。
注意推演的先后次序根據(jù)實(shí)際情況可能不同。
以上結(jié)果只是應(yīng)用一次關(guān)系關(guān)鍵詞三元組的結(jié)論,如果多次、組合應(yīng)用,可以產(chǎn)生出更多的邏輯結(jié)果。
本發(fā)明采用了標(biāo)引方法,類似關(guān)鍵詞的三元模型,標(biāo)引采用(C,R,K)組和(Ca、R、Cb)三元組進(jìn)行表示和實(shí)現(xiàn),其中C表示文件的內(nèi)容,K表示關(guān)鍵詞,R代表文件和關(guān)鍵詞之間的關(guān)系;Ca代表文件a的內(nèi)容,Cb代表文件b的內(nèi)容,R代表文件a和文件b之間的關(guān)系。該方法記錄文件中關(guān)鍵詞的位置、長度、相關(guān)度等以及文件之間的相互引用等關(guān)聯(lián)知識(shí)。通過這種標(biāo)引,一方面文件能夠以結(jié)構(gòu)化的方式呈現(xiàn),滿足用戶對(duì)關(guān)聯(lián)信息的需要,同時(shí)另一方面,也可以按照知識(shí)來源的最初模式進(jìn)行呈現(xiàn)。
另外,通過(C、R、K)三元組,標(biāo)引方法很好的解決了文件中的“指代”關(guān)系,例如,對(duì)于一個(gè)文件中出現(xiàn)的代詞“他”,通過在三元組中確定實(shí)際的指代目標(biāo),系統(tǒng)就可以向用戶提供針對(duì)指代目標(biāo)的檢索,而不僅限于文字上的相同或近似。
本發(fā)明的特定實(shí)施例已對(duì)發(fā)明內(nèi)容做了詳盡說明。對(duì)本領(lǐng)域一般技術(shù)人員而言,在不背離本發(fā)明原理的前提下對(duì)它所做的任何顯而易見的改動(dòng),都不會(huì)超出本申請(qǐng)所附權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1.一種基于三元模型的信息檢索加工的方法,其步驟為(1)錄入原始文件信息,制作關(guān)鍵詞加關(guān)鍵詞出現(xiàn)在文件中位置的字典;(2)建立三元關(guān)系模型,采用三元組Ka、Kr、Kb形式,其中Ka代表關(guān)鍵詞a,Kb代表關(guān)鍵詞b,Kr代表關(guān)鍵詞a和關(guān)鍵詞b之間的關(guān)系;該三元組形式表示和實(shí)現(xiàn)關(guān)鍵詞之間的三種類型的關(guān)聯(lián)關(guān)系;Krr代表關(guān)系關(guān)鍵詞之間的關(guān)系,Kr′代表Kr根據(jù)Krr推導(dǎo)出的關(guān)系,由此Ka′關(guān)鍵詞和Kb′關(guān)鍵詞具有了新的關(guān)系Kr′;(3)將上述三元關(guān)系模型中Kr、Krr、Kr′錄入到檢索數(shù)據(jù)庫中;(4)根據(jù)步驟(1)中的關(guān)鍵詞和步驟(3)中的關(guān)系自動(dòng)導(dǎo)出關(guān)鍵詞之間的新關(guān)系,即Ka′關(guān)鍵詞和Kb′關(guān)鍵詞的新關(guān)系Kr′,并將關(guān)鍵詞和關(guān)系記錄到字典中。
2.根據(jù)權(quán)利要求1所述的基于三元模型的信息檢索加工的方法,其特征在于上述三元關(guān)系包括成員隸屬關(guān)系、等價(jià)別名關(guān)系、背景參考關(guān)系。
3.根據(jù)權(quán)利要求1或2所述的基于三元模型的信息檢索加工的方法,其特征在于上述三元關(guān)系模型方法多次、組合應(yīng)用。
4.根據(jù)權(quán)利要求1或2所述的基于三元模型的信息檢索加工的方法,其特征在于采用(C、R、K)組和(Ca、R、Cb)三元組進(jìn)行表示和實(shí)現(xiàn)的標(biāo)引方法,其中C表示文件的內(nèi)容,K表示關(guān)鍵詞,R代表文件和關(guān)鍵詞之間的關(guān)系;Ca代表文件a的內(nèi)容,Cb代表文件b的內(nèi)容,R代表文件a和文件b之間的關(guān)系;該方法記錄文件中關(guān)鍵詞的位置、長度、相關(guān)度以及文件之間的相互引用的關(guān)聯(lián)知識(shí)。
全文摘要
本發(fā)明公開了一種基于三元模型的信息檢索加工的方法,其步驟為錄入原始文件信息,制作關(guān)鍵詞加關(guān)鍵詞出現(xiàn)在文件中位置的字典;建立三元關(guān)系模型;將上述三元關(guān)系模型中關(guān)系錄入到檢索數(shù)據(jù)庫中;根據(jù)關(guān)鍵詞和關(guān)系自動(dòng)導(dǎo)出關(guān)鍵詞之間的新關(guān)系,并將關(guān)鍵詞和關(guān)系記錄到字典中。在檢索過程中,輸入檢索關(guān)鍵詞后,不但可以搜索到根據(jù)傳統(tǒng)方法使用關(guān)鍵詞詞典查找到的內(nèi)容,還可以根據(jù)上述三元關(guān)系搜索到原始文件記錄沒有,但實(shí)際存在,即“隱含指代”的內(nèi)容。
文檔編號(hào)G06F17/30GK1845105SQ200610081368
公開日2006年10月11日 申請(qǐng)日期2006年5月22日 優(yōu)先權(quán)日2006年5月22日
發(fā)明者趙開灝, 文小凡 申請(qǐng)人:趙開灝, 文小凡