本發(fā)明涉及偵查破案技術(shù)領(lǐng)域,具體涉及一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法及系統(tǒng)。
背景技術(shù):
對團(tuán)伙型、系列性犯罪案件的串并關(guān)聯(lián)分析是犯罪案件執(zhí)法部門偵查破案工作的重要環(huán)節(jié)。通過分析、提取多個(gè)案件之間的共同點(diǎn),連接關(guān)鍵信息,執(zhí)法部門可以拓寬偵查視野;將系列案件并案偵查,能夠顯著減少執(zhí)法成本,提高打擊犯罪的深度和廣度,增強(qiáng)整體工作效能。
伴隨整個(gè)社會(huì)的信息化發(fā)展,刑事犯罪執(zhí)法機(jī)構(gòu)建立了犯罪案件計(jì)算機(jī)管理系統(tǒng),積累了大量犯罪案件數(shù)據(jù)。從案件并案分析的角度,每個(gè)犯罪案件包含很多特征要素,具有不同程度的確定性(可能性),主要有兩類:
第一種數(shù)據(jù)的內(nèi)容具有明確、唯一性特征,例如身份證件號(hào)碼、公司名稱、稅務(wù)登記號(hào)、銀行賬號(hào)、電話號(hào)碼等。例如,假設(shè)一個(gè)犯罪嫌疑人的身份證件號(hào)碼在兩個(gè)犯罪案件中出現(xiàn),那么可以確定這兩個(gè)犯罪案件存在明確關(guān)聯(lián),進(jìn)而發(fā)起并案偵查。
第二種數(shù)據(jù)不具有唯一性特征,只能描述可能性(大小)。例如人的外在自然屬性,包括身高、年齡等。例如對于兩個(gè)犯罪案件,如果目擊者分別描述的犯罪嫌疑人身高接近或相同,僅憑這個(gè)因素并不能確定是否有聯(lián)系。但是,如果多個(gè)數(shù)據(jù)特征具有接近或者相同的內(nèi)容,說明這些犯罪案件具有較高的相似程度,可以初步判斷為系列犯罪案件,予以并案偵查。例如,多個(gè)街面搶劫案發(fā)生在鄰近的區(qū)域、相近的時(shí)間段,作案手法、工具類似,多個(gè)受害人報(bào)稱的犯罪嫌疑人身高、年齡接近,執(zhí)法人員可以初步判斷為系列街面搶劫案。
傳統(tǒng)上,刑事犯罪調(diào)查人員通過查詢、比對案件信息系統(tǒng)中案件的特征信息,判斷多個(gè)刑事犯罪件的相似程度,決定是否發(fā)起并案串并偵查。此類人工操作方式的效率、準(zhǔn)確率不高。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,為了解決現(xiàn)有技術(shù)中的上述問題,本發(fā)明提出一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法及系統(tǒng),融合案件的異構(gòu)數(shù)據(jù)類型,建立準(zhǔn)確的案件相似度模型,描述案件的關(guān)聯(lián)程度,通過高效、準(zhǔn)確的聚類算法,完成案件的關(guān)聯(lián)串并過程。
本發(fā)明通過以下技術(shù)手段解決上述問題:
一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法,包括如下步驟:
s1、獲取與案件關(guān)聯(lián)串并分析有關(guān)的高維度、異構(gòu)數(shù)據(jù)類型的案件數(shù)據(jù)變量;
s2、根據(jù)案件數(shù)據(jù)變量建立描述案件關(guān)聯(lián)程度的相似度模型,根據(jù)相似度模型計(jì)算相似度矩陣;
s3、利用圖分解技術(shù),將相似度矩陣轉(zhuǎn)換成的一個(gè)圖分解為若干連通子圖;
s4、對連通子圖使用聚類算法進(jìn)行圖切割計(jì)算,將所有案件準(zhǔn)確分組。
進(jìn)一步地,所述基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法還包括:
s5、提取每個(gè)案件群組的關(guān)鍵特征參數(shù),將關(guān)鍵特征參數(shù)根據(jù)優(yōu)先級(jí)高低推送給用戶。
進(jìn)一步地,步驟s1中,所述案件數(shù)據(jù)變量從刑事犯罪案件信息管理系統(tǒng)中抽?。话讣?shù)據(jù)變量的高維度包括嫌疑人身份證號(hào)碼、手機(jī)號(hào)碼、銀行賬號(hào)、作案手法、作案時(shí)間、作案天氣、作案地域、作案工具、嫌疑人身高、嫌疑人年齡;案件數(shù)據(jù)變量的異構(gòu)數(shù)據(jù)類型包括數(shù)值型、字符串型、樹形結(jié)構(gòu)的分層代碼型。
進(jìn)一步地,步驟s2中,建立相似度模型具體包括:
s21、將案件數(shù)據(jù)變量分為唯一性變量和可能性變量;
s22、定義唯一性變量的相似度模型:
唯一性變量為字符串類型,將一個(gè)案件m的所有字符串構(gòu)成一個(gè)集合cm,案件m,n的相似度表示為
wa(m,n)=|cm∩cn|(1)
s23、定義可能性變量的相似度模型:
案件m,n的相似度,是多個(gè)數(shù)據(jù)變量的綜合貢獻(xiàn),定義為
wb(m,n)=∑iwifi(m,n)(2)
其中,wi為歸一化權(quán)重,表示各數(shù)據(jù)變量對于整體相似度的貢獻(xiàn)比例,∑iwi=1;fi(m,n)表示案件m,n基于一個(gè)特定數(shù)據(jù)變量的相似度。
進(jìn)一步地,步驟s23具體包括:
將可能性變量分為數(shù)值型和樹形結(jié)構(gòu)的分層代碼型;
定義數(shù)值型可能性變量的相似度模型:
犯罪嫌疑人的身高范圍[ha,hb]、年齡范圍[aa,ab],對于犯罪嫌疑人的身高和年齡變量,取平均值,即
對案件m,n分別涉及的兩個(gè)犯罪嫌疑人pm,pn,相似度表達(dá)式為
其中,hm,hn為二人身高,am,an為年齡,σh,σa為控制參數(shù),取經(jīng)驗(yàn)值5cm,5歲;
與兩個(gè)發(fā)案時(shí)間tm,tn有關(guān)的相似度,即犯罪案件的時(shí)間相關(guān)性為
σt為控制參數(shù),根據(jù)案件類型選??;
發(fā)案地點(diǎn)表示為幾何坐標(biāo)
定義樹形結(jié)構(gòu)的分層代碼型可能性變量的相似度模型:
樹形結(jié)構(gòu)的分層代碼型表示為一個(gè)樹形結(jié)構(gòu),根節(jié)點(diǎn)表示代碼名稱,每下一層節(jié)點(diǎn)為對父節(jié)點(diǎn)的進(jìn)一步細(xì)分,在樹形結(jié)構(gòu)中,從根節(jié)點(diǎn)ro到任意一個(gè)節(jié)點(diǎn)nk有唯一的一條路徑,表示為
pk=roni1nj2…npq,npq=nk(7)
npq表示在第q層的某個(gè)節(jié)點(diǎn),這條路徑的長度為q,即節(jié)點(diǎn)nk的高度h(nk)=q,節(jié)點(diǎn)nk與路徑pk等效,表示分層代碼數(shù)據(jù)類型的一個(gè)唯一代碼值,對于兩個(gè)案件的兩個(gè)代碼值,對應(yīng)代碼樹的兩條路徑pi,pj,如果從根節(jié)點(diǎn)開始,直到第k層,二者具有相同的節(jié)點(diǎn),那么這兩條路徑,亦即兩個(gè)代碼的相似度定義為
f4(pi,pj)=k/max(h(i),h(j))(8)
所有的fi,i=1-4滿足歸一化條件0≤fi(a,b)≤1,值為1表示完全匹配,相似度最大;值為0表示最弱的關(guān)系,即完全無關(guān)。
進(jìn)一步地,步驟s2中,計(jì)算相似度矩陣具體包括:
對任意兩個(gè)案件,根據(jù)(1)或(2),計(jì)算相似度值,對所有案件,根據(jù)兩兩關(guān)系,生成n×n的相似度矩陣w,n是案件數(shù)量,w是一個(gè)對稱矩陣,其中對角線元素表示案件與自身的相似度,不需計(jì)算,只需計(jì)算w的上三角或者下三角矩陣。
進(jìn)一步地,步驟s3具體包括:
根據(jù)社會(huì)網(wǎng)絡(luò)分析理論和圖論,將w矩陣轉(zhuǎn)換成一個(gè)無向圖g,圖的每個(gè)節(jié)點(diǎn)表示一個(gè)案件,邊的權(quán)值表示案件之間的關(guān)聯(lián)程度;
對于圖g,設(shè)定一個(gè)接近于零的閾值t,若g的元素小于t,表示兩個(gè)案件不可能有實(shí)際聯(lián)系,直接置零,g由多個(gè)連通子圖構(gòu)成,圖分解將一個(gè)大圖分解為若干連通子圖:
g=∪igi,∩igi=φ(9)
使用寬度或者深度優(yōu)先算法完成圖分解過程。
進(jìn)一步地,步驟s4具體包括:
首先,定義以下變量:
圖g(v,w),v為節(jié)點(diǎn)集合,節(jié)點(diǎn)數(shù)n=|v|;w為邊集合,表示為n×n相似度矩陣w,w(i,j)=w(j,i),wii=0
任意節(jié)點(diǎn)i的度di=σjwij,i=1,2,…,n;
對角矩陣d,dii=di,dij=0,i≠j;
假設(shè)圖g切割為k個(gè)群組
群組內(nèi)部的內(nèi)聚度,對于群組a,na=|a|,m(a,a)=vol(a)=∑i,j∈awij/2,為群組a內(nèi)部的邊權(quán)值之和;
群組與外界的關(guān)聯(lián)程度,m(a,v)=∑i∈a,j∈vwij-m(a,a)=∑i∈adi-m(a,a),為a之外所有與a中節(jié)點(diǎn)連接的邊權(quán)值之和;
相互分離的兩個(gè)群組a,b的關(guān)聯(lián)程度m(a,b)=∑i∈a,j∈bwij;
對于連通子圖的一個(gè)特定分解,定義q值
使q值最大化的解為最優(yōu)圖切割,即
qmax=maxk(qk),kmax=argmaxk(qk)(11)
以下為基于聚類算法的圖切割方法:
對于n×n矩陣w,定義相應(yīng)的laplacian矩陣以及相應(yīng)的特征方程
lw=d-1.w(12)
lwx=λx(13)
對于lw,提取由高到低特征值對應(yīng)的特征向量,最大特征值λ1=1,對應(yīng)特征向量j,元素全部為1,如果特征值λ1的重復(fù)度為r,意味著g包括r個(gè)連通子圖,第一個(gè)特征值沒有對圖進(jìn)一步劃分切割的能力,實(shí)際上,從大到小,取從2到k的k-1個(gè)特征值對應(yīng)的特征向量,構(gòu)成n×(k-1)矩陣xk={x2,x3,…,xk},xi為第i個(gè)n維列向量;
對每一個(gè)xk,視為維度為k-1的n個(gè)元素組成的集合,對其進(jìn)行聚類分析,生成k個(gè)群組,計(jì)算相應(yīng)的q(k),k從2開始迭代到某個(gè)預(yù)設(shè)的最大值,使q(k)達(dá)到最大的分解kmax為最優(yōu)分解。
進(jìn)一步地,步驟s5中,關(guān)鍵特征參數(shù)表征該群組犯罪案件是否具有并案偵查的實(shí)際價(jià)值,對于一個(gè)犯罪案件群組g,用于并案串并主要的關(guān)鍵特征參數(shù)為歸一化的內(nèi)聚度,內(nèi)聚度表示為:
該數(shù)值越高,接近于1,表明所有的案件之間關(guān)聯(lián)度都很強(qiáng),具有很高的參考價(jià)值。
一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并系統(tǒng),包括:
數(shù)據(jù)變量獲取模塊,用于獲取與案件關(guān)聯(lián)串并分析有關(guān)的高維度、異構(gòu)數(shù)據(jù)類型的案件數(shù)據(jù)變量;
相似度矩陣計(jì)算模塊,用于根據(jù)案件數(shù)據(jù)變量建立描述案件關(guān)聯(lián)程度的相似度模型,根據(jù)相似度模型計(jì)算相似度矩陣;
圖分解模塊,用于利用圖分解技術(shù),將相似度矩陣轉(zhuǎn)換成的一個(gè)圖分解為若干連通子圖;
聚類分析模塊,用于對連通子圖使用聚類算法進(jìn)行圖切割計(jì)算,將所有案件準(zhǔn)確分組;
特征提取推送模塊,用于提取每個(gè)案件群組的關(guān)鍵特征參數(shù),將關(guān)鍵特征參數(shù)根據(jù)優(yōu)先級(jí)高低推送給用戶。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:
本發(fā)明不僅能處理源數(shù)據(jù)具有明確、唯一性特征的數(shù)據(jù),也能處理僅具有可能性特征的數(shù)據(jù),極大的提高了刑事犯罪案件關(guān)聯(lián)串并的效率,并且準(zhǔn)確性高。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法的流程框圖;
圖2是本發(fā)明基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法的分析流程圖;
圖3是本發(fā)明樹形結(jié)構(gòu)的分層代碼型數(shù)據(jù)相似度計(jì)算示意圖;
圖4是本發(fā)明基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面將結(jié)合附圖和具體的實(shí)施例對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明。需要指出的是,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例1
如圖1所示,本發(fā)明提供一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法,包括如下步驟:
s1、獲取與案件關(guān)聯(lián)串并分析有關(guān)的高維度、異構(gòu)數(shù)據(jù)類型的案件數(shù)據(jù)變量;
s2、根據(jù)案件數(shù)據(jù)變量建立描述案件關(guān)聯(lián)程度的相似度模型,根據(jù)相似度模型計(jì)算相似度矩陣;
s3、利用圖分解技術(shù),將相似度矩陣轉(zhuǎn)換成的一個(gè)圖分解為若干連通子圖;
s4、對連通子圖使用聚類算法進(jìn)行圖切割計(jì)算,將所有案件準(zhǔn)確分組;
s5、提取每個(gè)案件群組的關(guān)鍵特征參數(shù),將關(guān)鍵特征參數(shù)根據(jù)優(yōu)先級(jí)高低推送給用戶。
如圖2所示,本發(fā)明基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法的分析流程如下:
1、刑事犯罪案件特征描述
在刑事犯罪案件信息管理系統(tǒng)中,每個(gè)案件包含多個(gè)數(shù)據(jù)項(xiàng),描述案件各種特征或維度,包括嫌疑人身份證號(hào)碼、手機(jī)號(hào)碼、銀行賬號(hào)、作案手法、作案時(shí)間、作案天氣、作案地域、作案工具、嫌疑人身高、嫌疑人年齡等。準(zhǔn)確的案件關(guān)聯(lián)串并過程需要綜合利用這些數(shù)據(jù)分析案件特點(diǎn),判斷案件之間的相似程度。
這些數(shù)據(jù)項(xiàng)具有不同的數(shù)據(jù)類型。包括1)數(shù)值型,例如發(fā)案時(shí)間、嫌疑人身高(范圍),2)字符串型,例如身份證號(hào)碼、手機(jī)號(hào)碼,3)樹形結(jié)構(gòu)的代碼,例如作案手法(公安部標(biāo)準(zhǔn):刑事犯罪信息管理代碼第7部分作案手段分類和代碼ga240.7-2000)。這些數(shù)據(jù)體現(xiàn)不同的確定性(可能性)。例如電話號(hào)碼等具有唯一性;相反,身高或者作案手法僅能表示可能性。
2、案件相似度模型
根據(jù)案件特征變量的確定性程度,設(shè)計(jì)兩種相似度模型
1)由唯一性變量定義的相似度模型
一個(gè)案件包括身份證號(hào)碼、手機(jī)號(hào)碼、銀行賬號(hào)等,通常為字符串類型,每個(gè)值具有唯一性。一個(gè)案件m的所有這些值(字符串)構(gòu)成一個(gè)集合cm。案件m,n的相似度表示為
wa(m,n)=|cm∩cn|(1)
即兩個(gè)集合交集元素的數(shù)量(元素相等定義為字符串值相等)。
2)由可能性變量定義的相似度模型
一個(gè)案件包括作案手法、作案時(shí)間、作案工具、嫌疑人身高、嫌疑人年齡等特征變量,只能表示一定程度的可能性。數(shù)據(jù)類型包括數(shù)值型和樹形結(jié)構(gòu)的分層代碼型。案件m,n的相似度,是多個(gè)特征因素的綜合貢獻(xiàn),定義為
wb(m,n)=∑iwifi(m,n)(2)
其中,wi為歸一化權(quán)重,表示各數(shù)據(jù)變量對于整體相似度的貢獻(xiàn)比例,∑iwi=1;fi(m,n)表示案件m,n基于一個(gè)特定數(shù)據(jù)變量的相似度。
通常,受害人或者目擊者會(huì)提供犯罪嫌疑人的身高范圍[ha,hb]、年齡范圍[aa,ab]。對于犯罪嫌疑人的身高和年齡變量,取平均值,即
對案件m,n分別涉及的兩個(gè)犯罪嫌疑人pm,pn,身高、年齡差別越小,表示二人相似度越高。相似度表達(dá)式為
其中,hm,hn為二人身高,am,an為年齡,σh,σa為控制參數(shù),可取經(jīng)驗(yàn)值5(cm),5(歲)。
與兩個(gè)發(fā)案時(shí)間tm,tn有關(guān)的相似度,即犯罪案件的時(shí)間相關(guān)性為
σt為控制參數(shù),可根據(jù)案件類型選取。
如果發(fā)案地點(diǎn)可以表示為幾何坐標(biāo)
分層代碼型數(shù)據(jù)(圖3)可以表示為一個(gè)樹形結(jié)構(gòu),根節(jié)點(diǎn)表示代碼名稱,例如作案手法。每下一層節(jié)點(diǎn)為對父節(jié)點(diǎn)的進(jìn)一步細(xì)分。在樹形結(jié)構(gòu)中,從根節(jié)點(diǎn)ro到任意一個(gè)節(jié)點(diǎn)nk有唯一的一條路徑,表示為
pk=roni1nj2…npq,npq=nk(7)
npq表示在第q層的某個(gè)節(jié)點(diǎn)。這條路徑的長度為q,即節(jié)點(diǎn)nk的高度h(nk)=q。節(jié)點(diǎn)nk與路徑pk等效,表示分層代碼數(shù)據(jù)類型的一個(gè)唯一代碼值。對于兩個(gè)案件的兩個(gè)代碼值,對應(yīng)代碼樹的兩條路徑pi,pj,如果從根節(jié)點(diǎn)開始,直到第k層,二者具有相同的節(jié)點(diǎn),那么這兩條路徑,亦即兩個(gè)代碼的相似度定義為
f4(pi,pj)=k/max(h(i),h(j))(8)
所有的fi,i=1-4滿足歸一化條件0≤fi(a,b)≤1,值為1表示完全匹配,相似度最大(關(guān)聯(lián)最強(qiáng));值為0表示最弱的關(guān)系,即完全無關(guān)。式(8)可以用于每種樹形結(jié)構(gòu)代碼,例如作案手法、作案工具等。
計(jì)算相似度矩陣
對任意兩個(gè)案件,根據(jù)(1)或(2),計(jì)算相似度值。對所有案件,根據(jù)兩兩關(guān)系,生成n×n的相似度矩陣w,n是案件數(shù)量。w是一個(gè)對稱矩陣,其中對角線元素表示案件與自身的相似度,不需計(jì)算,因此,只需計(jì)算w的上三角或者下三角矩陣。
3、預(yù)處理:對w矩陣的圖分解
根據(jù)社會(huì)網(wǎng)絡(luò)分析理論和圖論,將w矩陣轉(zhuǎn)換為一個(gè)無向圖g。圖的每個(gè)節(jié)點(diǎn)表示一個(gè)案件,邊的權(quán)值表示案件之間的關(guān)聯(lián)程度(相似度)。案件關(guān)聯(lián)串并過程分解為對圖的分解和切割兩個(gè)步驟,每個(gè)最終切割計(jì)算生成的子圖作為一個(gè)案件群組,作為案件關(guān)聯(lián)串并的量化依據(jù)。
在隨后的聚類分析過程中,涉及稀疏矩陣特征方程求解,以及q值的迭代計(jì)算,計(jì)算量、存儲(chǔ)量較大。為了提高計(jì)算效率,需要進(jìn)行預(yù)處理-圖分解。
對于圖g,設(shè)定一個(gè)接近于零的閾值t,若g的元素小于t,表示兩個(gè)案件不可能有實(shí)際聯(lián)系,直接置零。g由多個(gè)連通子圖構(gòu)成,圖分解將一個(gè)“大”圖分解為若干連通子圖。
g=∪igi,∩igi=φ(9)
可以使用常見的寬度或者深度優(yōu)先算法完成圖分解過程。
4、對連通子圖的聚類分析
首先,定義以下變量
圖g(v,w),v為節(jié)點(diǎn)集合,節(jié)點(diǎn)數(shù)n=|v|;w為邊(權(quán)值)集合,表示為n×n相似度矩陣w,w(i,j)=w(j,i),wii=0;
任意節(jié)點(diǎn)i的度di=σjwij,i=1,2,…,n;
對角矩陣d,dii=di,djj=0,i≠j;
假設(shè)圖g切割為k個(gè)群組
群組內(nèi)部的內(nèi)聚度,對于群組(子圖)a,na=|a|,m(a,a)=vol(a)=∑i,j∈awij/2,為群組a內(nèi)部的邊權(quán)值之和。
群組與外界的關(guān)聯(lián)程度,m(a,v)=∑i∈a,j∈vwij-m(a,a)=∑i∈adi-m(a,a),為a之外所有與a中節(jié)點(diǎn)連接的邊權(quán)值之和。
相互分離的兩個(gè)群組a,b的關(guān)聯(lián)程度m(a,b)=σi∈a,j∈bwij;
對于連通子圖的一個(gè)特定分解,定義q值
使q值最大化的解為最優(yōu)圖切割,即
qmax=maxk(qk),kmax=argmaxk(qk)(11)
以下為基于聚類算法的圖切割方法。
對于n×n矩陣w,定義相應(yīng)的laplacian矩陣以及相應(yīng)的特征方程
lw=d-1.w(12)
lwx=λx(13)
對于lw,提取由高到低特征值對應(yīng)的特征向量。最大特征值λ1=1,對應(yīng)特征向量j,元素全部為1。如果特征值λ1的重復(fù)度為r,意味著g包括r個(gè)連通子圖。第一個(gè)特征值(特征向量)沒有對圖進(jìn)一步“劃分切割”的能力。實(shí)際上,從大到小,取從2到k的k-1個(gè)特征值對應(yīng)的特征向量,構(gòu)成n×(k-1)矩陣xk={x2,x3,…,xk},xi為第i個(gè)n維列向量。
對每一個(gè)xk,可以視為維度為k-1的n個(gè)元素組成的集合,對其進(jìn)行聚類分析,生成k個(gè)群組,計(jì)算相應(yīng)的q(k)。k從2開始迭代到某個(gè)預(yù)設(shè)的最大值,使q(k)達(dá)到最大的分解kmax為最優(yōu)分解?;玖鞒痰膫未a為
通過以上步驟,最終將所有刑事犯罪案件分為若干群組,群組之間聯(lián)系弱,群組內(nèi)部的案件關(guān)聯(lián)強(qiáng),每個(gè)群組初步視為系列性案件,提交人工審核。
5、案件群組關(guān)鍵特征提取及向用戶推送分析結(jié)果
完成聚類分析后,進(jìn)一步提取每個(gè)犯罪案件群組的關(guān)鍵特征參數(shù),這些參數(shù)表征該組犯罪案件是否具有并案偵查的實(shí)際價(jià)值,系統(tǒng)把特征參數(shù)按照優(yōu)先級(jí)高低推送給用戶。
對于一個(gè)犯罪案件群組g,用于并案串并主要參數(shù)為歸一化的內(nèi)聚度,該數(shù)值越高,接近于1,表明所有的案件之間關(guān)聯(lián)度都很強(qiáng),具有很高的參考價(jià)值。內(nèi)聚度表示為:
當(dāng)然其它參數(shù)也有一定參考意義,例如一個(gè)高關(guān)聯(lián)案件群組的破案率低、甚至為零,表明并案偵查時(shí)應(yīng)予以高度關(guān)注。
實(shí)施例2
如圖4所示,本發(fā)明還提供一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并系統(tǒng),包括:
數(shù)據(jù)變量獲取模塊,用于獲取與案件關(guān)聯(lián)串并分析有關(guān)的高維度、異構(gòu)數(shù)據(jù)類型的案件數(shù)據(jù)變量;
相似度矩陣計(jì)算模塊,用于根據(jù)案件數(shù)據(jù)變量建立描述案件關(guān)聯(lián)程度的相似度模型,根據(jù)相似度模型計(jì)算相似度矩陣;
圖分解模塊,用于利用圖分解技術(shù),將相似度矩陣轉(zhuǎn)換成的一個(gè)圖分解為若干連通子圖;
聚類分析模塊,用于對連通子圖使用聚類算法進(jìn)行圖切割計(jì)算,將所有案件準(zhǔn)確分組;
特征提取推送模塊,用于提取每個(gè)案件群組的關(guān)鍵特征參數(shù),將關(guān)鍵特征參數(shù)根據(jù)優(yōu)先級(jí)高低推送給用戶。
本發(fā)明不僅能處理源數(shù)據(jù)具有明確、唯一性特征的數(shù)據(jù),也能處理僅具有可能性特征的數(shù)據(jù),極大的提高了刑事犯罪案件關(guān)聯(lián)串并的效率,并且準(zhǔn)確性高。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。