一種基于特征權重分析技術的文件檢索方法
【專利摘要】本發(fā)明涉及一種基于特征權重分析技術的文件檢索方法,與現(xiàn)有技術相比解決了無法在特定領域進行有效檢索的缺陷。本發(fā)明包括以下步驟:裁判文書的組織,將裁判文書按照案由分層分類組織;構造案件特征樹,對于指定案由,篩選其公有特征和私有特征,并按特征間邏輯關系組織成樹形結構;對案件特征樹進行權重訓練,采用決策樹方法針對不同目標進行訓練,計算出案件特征的綜合權重;檢索信息的獲取,輸入檢索信息的過濾條件和查詢條件,輸入方式為條件選擇、包含條件的文字或整篇裁判文書;計算案件相似矩陣;輸出檢索結果。本發(fā)明以行業(yè)特性為指導來精心構造的案件特征樹為基礎,通過語義分析和知識推理,大幅提高檢索準確率和覆蓋率。
【專利說明】一種基于特征權重分析技術的文件檢索方法
[0001]
技術領域
[0002]本發(fā)明涉及數(shù)據(jù)檢索技術領域,具體來說是一種基于特征權重分析技術的文件檢索方法。
[0003]
【背景技術】
[0004]文件檢索技術已經(jīng)廣泛應用于日常生活中,給日常的信息量獲取提供了很大的便利。特別是在特殊領域如司法案件的研討中,在某些疑難案件的研究過程中,專業(yè)人員除依靠自身業(yè)務知識和經(jīng)驗以外,經(jīng)常需要通過檢索已有相似案件,來把握相關情節(jié)的處理。而現(xiàn)有常用檢索技術(途徑)包括通用搜索引擎、行業(yè)網(wǎng)站、指導性案例;其均存在以下問題:
(1)通用搜索引擎:如百度、雅虎等;完全沒有針對司法領域定制,檢索準確率和覆蓋率很低;
(2)行業(yè)網(wǎng)站:如裁判文書網(wǎng)、無訟網(wǎng)等;與通用搜索引擎相比,檢索準確率和覆蓋率有較大提升,并允許多重過濾;但是檢索主要基于關鍵字匹配,浮于表面,準確率依然較低;過濾條件為預設,不夠靈活;
(3)指導性案例:由最高院發(fā)布,具有權威性、針對性;但是案件數(shù)量很少,滯后嚴重,并且彼此孤立,檢索覆蓋率很低;這種自上至下的指導模式,地區(qū)適應性也有待考量。
[0005]另外,上述檢索技術均不支持語義檢索,無法自由組合過濾、查詢條件,不能基于結果連續(xù)檢索,沒有實現(xiàn)對檢索結果的統(tǒng)計和直觀展示。因此如何設計出一種檢索更專業(yè)的檢索方法已經(jīng)成為急需解決的技術問題。
[0006]
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的是為了解決現(xiàn)有技術中無法在特定領域進行有效檢索的缺陷,提供一種基于特征權重分析技術的文件檢索方法來解決上述問題。
[0008]為了實現(xiàn)上述目的,本發(fā)明的技術方案如下:
一種基于特征權重分析技術的文件檢索方法,包括以下步驟:
裁判文書的組織,將裁判文書按照案由分層分類組織;
構造案件特征樹,對于指定案由,篩選其公有特征和私有特征,并按特征間邏輯關系組織成樹形結構;
對案件特征樹進行權重訓練,采用決策樹方法針對不同目標進行訓練,計算出案件特征的綜合權重;
檢索信息的獲取,輸入檢索信息的過濾條件和查詢條件,輸入方式為條件選擇、包含條件的文字或整篇裁判文書;
計算案件相似矩陣,根據(jù)檢索信息的過濾條件從特征樹集合中篩選有效特征樹;根據(jù)檢索信息的查詢條件,利用權重樹,采用加權曼哈頓距離方法計算有效特征樹集合中兩兩相似度,組成相似矩陣,并對結果進行歸一化處理;
輸出檢索結果,從案件相似矩陣中獲取相似案件,找到與查詢條件最相似的η個案件或相似度大于s的案件,對此信息進行統(tǒng)計,并進行可視化展示。
[0009 ]所述的構造案件特征樹包括以下步驟:
定義公有特征,公有特征為案件一般屬性特征;
定義私有特征,私有特征為案件的特殊屬性;
根據(jù)特征之間的邏輯關系,將公有特征和私有特征組織成樹形結構,形成案件特征樹。
[0010]所述的計算案件相似矩陣包括以下步驟:
由案件特征樹、特征權重樹、查詢條件計算生成兩兩案件相似度的矩陣;
由過濾條件獲得有效案件,根據(jù)查詢條件獲得相應特征取值及權重,計算查詢條件與案件、案件與案件的相似度。
[0011]
有益效果
本發(fā)明的一種基于特征權重分析技術的文件檢索方法,與現(xiàn)有技術相比以行業(yè)特性為指導來精心構造的案件特征樹為基礎,通過語義分析和知識推理,大幅提高檢索準確率和覆蓋率。通過以檢索信息為綱領,能夠自由組合過濾和查詢條件;通過構造案件相似矩陣,實現(xiàn)基于案件的連續(xù)檢索;對檢索結果進行統(tǒng)計分析,直觀展示相關信息。
[0012]
【附圖說明】
圖1為本發(fā)明的方法流程圖。
[0013]
【具體實施方式】
[0014]為使對本發(fā)明的結構特征及所達成的功效有更進一步的了解與認識,用以較佳的實施例及附圖配合詳細的說明,說明如下:
如圖1所示,本發(fā)明所述的一種基于特征權重分析技術的文件檢索方法,包括以下步驟:
第一步,裁判文書的組織,將裁判文書按照案由分層分類組織。由于本申請文件的特殊性在于提出了:針對不同領域、不同行業(yè)的行業(yè)特性,來進行特征樹的構造,因此針對于不同領域而言,其所擁有的行業(yè)特性也不相同,在此為方便技術方案的闡述,特以司法案件的特性來闡述技術上的分類和設計,因此針對裁判文書而言,則按照其案由進行分層分類組織。
[0015]第二步,構造案件特征樹。對于指定案由,篩選其公有特征和私有特征,并按特征間邏輯關系組織成樹形結構。在此構造案件特征樹與案由的一一對應,原因在于案由也具有層級結構(如民事/婚姻家庭/離婚糾紛),如果將特征樹掛載在對應案由層級結構上,那么全部特征樹可組織成龐大的樹形結構,便于維護與瀏覽。本技術方案中案件特征從結構數(shù)據(jù)庫和裁判文書文本中提取,涉及語義分析和知識推理,較現(xiàn)有技術的相似案件檢索系統(tǒng)而言,其準確率、覆蓋率均有本質(zhì)性大幅提升。其具體包括以下步驟:
(I)定義公有特征。公有特征為案件一般屬性特征,例如案件時間、地區(qū)、與案實體信息等,為不同案由案件所共有。通常,公有特征記錄在法院業(yè)務系統(tǒng)的結構化數(shù)據(jù)庫中,直接獲取即可。
[0016](2)定義私有特征。私有特征為案件的特殊屬性,例如離婚糾紛案中離婚原因、子女信息、共同財產(chǎn)等,為不同案由案件所特有。通常,私有特征記錄裁判文書文本中。一般的,案件私有特征囊括指導性案例審判要旨和其它爭議焦點,是案件相似性的比較點。
[0017](3)根據(jù)特征之間的邏輯關系,將公有特征和私有特征組織成樹形結構,形成案件特征樹。
[0018]第三步,對案件特征樹進行權重訓練。以行業(yè)知識為基礎,通過信息學原理計算案件特征權重值,采用決策樹方法針對不同目標進行訓練,計算出案件特征的綜合權重。
[0019]案件特征權重樹,是一種描述案件特征間相對權重的數(shù)據(jù)結構。與已有相似案件檢索系統(tǒng)不同,其檢索條件中的信息是有權重的,用于計算檢索條件與案件、案件與案件之間的相似度。引入信息權重能夠?qū)崿F(xiàn):
(1)當檢索條件無法全部滿足時,滿足權重較高的條件的案件排序靠前;
(2)當檢索條件可以全部滿足時,案件的排序可由其它特征加權排序。
[0020]而針對案件特征權重的確定可以有多種方法,例如基于行業(yè)知識、基于信息學原理等。由于本方案將案件特征組織成樹形結構,對應的特征權重也為樹形結構,并滿足一定約束,例如父節(jié)點權重等于子節(jié)點權重之和。
[0021]第四步,檢索信息的獲取。輸入檢索信息的過濾條件和查詢條件,輸入方式為條件選擇、包含條件的文字或整篇裁判文書。
[0022]其中,過濾條件為過濾器,用于限定案件時間、地區(qū)等,通常為案件公有特征,不參與案件相似度計算;查詢條件為查詢器,用于指定檢索維度,通常為案件私有特征,構成案件相似度計算維度。兩種條件的根本區(qū)別在于:過濾條件必須滿足,查詢條件非必須滿足。將用戶檢索條件區(qū)分為過濾和查詢,有助于提高檢索系統(tǒng)的可控性和靈活性。
[0023]第五步,計算案件相似矩陣。根據(jù)檢索信息的過濾條件從特征樹集合中篩選有效特征樹;根據(jù)檢索信息的查詢條件,利用權重樹,采用加權曼哈頓距離方法計算有效特征樹集合中兩兩相似度,組成相似矩陣,并對結果進行歸一化處理。其具體包括以下步驟:
(I)由案件特征樹、特征權重樹、查詢條件計算生成兩兩案件相似度的矩陣,即描述兩兩案件相似度的矩陣,由案件特征樹、特征權重樹、查詢條件計算生成,并隨查詢條件動態(tài)變化。
[0024](2)由過濾條件獲得有效案件,根據(jù)查詢條件獲得相應特征取值及權重,計算查詢條件與案件、案件與案件的相似度。當用戶輸入一組檢索信息后,由過濾條件獲得有效案件,然后根據(jù)查詢條件獲得相應特征取值及權重,計算查詢條件與案件、案件與案件的相似度。案件相似度的計算可以通過定義合適的距離,并結合權重信息。如果有效案件數(shù)量為N,那么案件相似矩陣維度為(N+l) X (N+1)。計算查詢條件下案件與案件的相似度,可以實現(xiàn)基于案件的級聯(lián)檢索。
[0025]第六步,輸出檢索結果。從案件相似矩陣中獲取相似案件,找到與查詢條件最相似的η個案件或相似度大于s的案件,對此信息進行統(tǒng)計,并進行可視化展示。此時,可以選擇結果中某個案件為條件,由相似矩陣獲得級聯(lián)檢索結果。
[0026]以上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術人員應該了解,本發(fā)明不受上述實施例的限制,上述實施例和說明書中描述的只是本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明的范圍內(nèi)。本發(fā)明要求的保護范圍由所附的權利要求書及其等同物界定。
【主權項】
1.一種基于特征權重分析技術的文件檢索方法,其特征在于,包括以下步驟: 11)裁判文書的組織,將裁判文書按照案由分層分類組織; 12)構造案件特征樹,對于指定案由,篩選其公有特征和私有特征,并按特征間邏輯關系組織成樹形結構; 13)對案件特征樹進行權重訓練,采用決策樹方法針對不同目標進行訓練,計算出案件特征的綜合權重; 14)檢索信息的獲取,輸入檢索信息的過濾條件和查詢條件,輸入方式為條件選擇、包含條件的文字或整篇裁判文書; 15)計算案件相似矩陣,根據(jù)檢索信息的過濾條件從特征樹集合中篩選有效特征樹;根據(jù)檢索信息的查詢條件,利用權重樹,采用加權曼哈頓距離方法計算有效特征樹集合中兩兩相似度,組成相似矩陣,并對結果進行歸一化處理; 16)輸出檢索結果,從案件相似矩陣中獲取相似案件,找到與查詢條件最相似的η個案件或相似度大于s的案件,對此信息進行統(tǒng)計,并進行可視化展示。2.根據(jù)權利要求1所述的一種基于特征權重分析技術的文件檢索方法,其特征在于,所述的構造案件特征樹包括以下步驟: 21)定義公有特征,公有特征為案件一般屬性特征; 22)定義私有特征,私有特征為案件的特殊屬性; 23)根據(jù)特征之間的邏輯關系,將公有特征和私有特征組織成樹形結構,形成案件特征樹。3.根據(jù)權利要求1所述的一種基于特征權重分析技術的文件檢索方法,其特征在于,所述的計算案件相似矩陣包括以下步驟: 31)由案件特征樹、特征權重樹、查詢條件計算生成兩兩案件相似度的矩陣; 32)由過濾條件獲得有效案件,根據(jù)查詢條件獲得相應特征取值及權重,計算查詢條件與案件、案件與案件的相似度。
【文檔編號】G06F17/30GK105930470SQ201610259097
【公開日】2016年9月7日
【申請日】2016年4月25日
【發(fā)明人】張靜川, 周宇, 賈真
【申請人】安徽富馳信息技術有限公司