国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法及系統(tǒng)與流程

      文檔序號(hào):11458924閱讀:411來源:國知局
      基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法及系統(tǒng)與流程

      本發(fā)明涉及偵查破案技術(shù)領(lǐng)域,具體涉及一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法及系統(tǒng)。



      背景技術(shù):

      對團(tuán)伙型、系列性犯罪案件的串并關(guān)聯(lián)分析是犯罪案件執(zhí)法部門偵查破案工作的重要環(huán)節(jié)。通過分析、提取多個(gè)案件之間的共同點(diǎn),連接關(guān)鍵信息,執(zhí)法部門可以拓寬偵查視野;將系列案件并案偵查,能夠顯著減少執(zhí)法成本,提高打擊犯罪的深度和廣度,增強(qiáng)整體工作效能。

      伴隨整個(gè)社會(huì)的信息化發(fā)展,刑事犯罪執(zhí)法機(jī)構(gòu)建立了犯罪案件計(jì)算機(jī)管理系統(tǒng),積累了大量犯罪案件數(shù)據(jù)。從案件并案分析的角度,每個(gè)犯罪案件包含很多特征要素,具有不同程度的確定性(可能性),主要有兩類:

      第一種數(shù)據(jù)的內(nèi)容具有明確、唯一性特征,例如身份證件號(hào)碼、公司名稱、稅務(wù)登記號(hào)、銀行賬號(hào)、電話號(hào)碼等。例如,假設(shè)一個(gè)犯罪嫌疑人的身份證件號(hào)碼在兩個(gè)犯罪案件中出現(xiàn),那么可以確定這兩個(gè)犯罪案件存在明確關(guān)聯(lián),進(jìn)而發(fā)起并案偵查。

      第二種數(shù)據(jù)不具有唯一性特征,只能描述可能性(大小)。例如人的外在自然屬性,包括身高、年齡等。例如對于兩個(gè)犯罪案件,如果目擊者分別描述的犯罪嫌疑人身高接近或相同,僅憑這個(gè)因素并不能確定是否有聯(lián)系。但是,如果多個(gè)數(shù)據(jù)特征具有接近或者相同的內(nèi)容,說明這些犯罪案件具有較高的相似程度,可以初步判斷為系列犯罪案件,予以并案偵查。例如,多個(gè)街面搶劫案發(fā)生在鄰近的區(qū)域、相近的時(shí)間段,作案手法、工具類似,多個(gè)受害人報(bào)稱的犯罪嫌疑人身高、年齡接近,執(zhí)法人員可以初步判斷為系列街面搶劫案。

      傳統(tǒng)上,刑事犯罪調(diào)查人員通過查詢、比對案件信息系統(tǒng)中案件的特征信息,判斷多個(gè)刑事犯罪件的相似程度,決定是否發(fā)起并案串并偵查。此類人工操作方式的效率、準(zhǔn)確率不高。



      技術(shù)實(shí)現(xiàn)要素:

      有鑒于此,為了解決現(xiàn)有技術(shù)中的上述問題,本發(fā)明提出一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法及系統(tǒng),融合案件的異構(gòu)數(shù)據(jù)類型,建立準(zhǔn)確的案件相似度模型,描述案件的關(guān)聯(lián)程度,通過高效、準(zhǔn)確的聚類算法,完成案件的關(guān)聯(lián)串并過程。

      本發(fā)明通過以下技術(shù)手段解決上述問題:

      一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法,包括如下步驟:

      s1、獲取與案件關(guān)聯(lián)串并分析有關(guān)的高維度、異構(gòu)數(shù)據(jù)類型的案件數(shù)據(jù)變量;

      s2、根據(jù)案件數(shù)據(jù)變量建立描述案件關(guān)聯(lián)程度的相似度模型,根據(jù)相似度模型計(jì)算相似度矩陣;

      s3、利用圖分解技術(shù),將相似度矩陣轉(zhuǎn)換成的一個(gè)圖分解為若干連通子圖;

      s4、對連通子圖使用聚類算法進(jìn)行圖切割計(jì)算,將所有案件準(zhǔn)確分組。

      進(jìn)一步地,所述基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法還包括:

      s5、提取每個(gè)案件群組的關(guān)鍵特征參數(shù),將關(guān)鍵特征參數(shù)根據(jù)優(yōu)先級(jí)高低推送給用戶。

      進(jìn)一步地,步驟s1中,所述案件數(shù)據(jù)變量從刑事犯罪案件信息管理系統(tǒng)中抽?。话讣?shù)據(jù)變量的高維度包括嫌疑人身份證號(hào)碼、手機(jī)號(hào)碼、銀行賬號(hào)、作案手法、作案時(shí)間、作案天氣、作案地域、作案工具、嫌疑人身高、嫌疑人年齡;案件數(shù)據(jù)變量的異構(gòu)數(shù)據(jù)類型包括數(shù)值型、字符串型、樹形結(jié)構(gòu)的分層代碼型。

      進(jìn)一步地,步驟s2中,建立相似度模型具體包括:

      s21、將案件數(shù)據(jù)變量分為唯一性變量和可能性變量;

      s22、定義唯一性變量的相似度模型:

      唯一性變量為字符串類型,將一個(gè)案件m的所有字符串構(gòu)成一個(gè)集合cm,案件m,n的相似度表示為

      wa(m,n)=|cm∩cn|(1)

      s23、定義可能性變量的相似度模型:

      案件m,n的相似度,是多個(gè)數(shù)據(jù)變量的綜合貢獻(xiàn),定義為

      wb(m,n)=∑iwifi(m,n)(2)

      其中,wi為歸一化權(quán)重,表示各數(shù)據(jù)變量對于整體相似度的貢獻(xiàn)比例,∑iwi=1;fi(m,n)表示案件m,n基于一個(gè)特定數(shù)據(jù)變量的相似度。

      進(jìn)一步地,步驟s23具體包括:

      將可能性變量分為數(shù)值型和樹形結(jié)構(gòu)的分層代碼型;

      定義數(shù)值型可能性變量的相似度模型:

      犯罪嫌疑人的身高范圍[ha,hb]、年齡范圍[aa,ab],對于犯罪嫌疑人的身高和年齡變量,取平均值,即

      對案件m,n分別涉及的兩個(gè)犯罪嫌疑人pm,pn,相似度表達(dá)式為

      其中,hm,hn為二人身高,am,an為年齡,σh,σa為控制參數(shù),取經(jīng)驗(yàn)值5cm,5歲;

      與兩個(gè)發(fā)案時(shí)間tm,tn有關(guān)的相似度,即犯罪案件的時(shí)間相關(guān)性為

      σt為控制參數(shù),根據(jù)案件類型選??;

      發(fā)案地點(diǎn)表示為幾何坐標(biāo)空間相關(guān)性表示為

      表示坐標(biāo)點(diǎn)的幾何距離,σd為控制參數(shù);

      定義樹形結(jié)構(gòu)的分層代碼型可能性變量的相似度模型:

      樹形結(jié)構(gòu)的分層代碼型表示為一個(gè)樹形結(jié)構(gòu),根節(jié)點(diǎn)表示代碼名稱,每下一層節(jié)點(diǎn)為對父節(jié)點(diǎn)的進(jìn)一步細(xì)分,在樹形結(jié)構(gòu)中,從根節(jié)點(diǎn)ro到任意一個(gè)節(jié)點(diǎn)nk有唯一的一條路徑,表示為

      pk=roni1nj2…npq,npq=nk(7)

      npq表示在第q層的某個(gè)節(jié)點(diǎn),這條路徑的長度為q,即節(jié)點(diǎn)nk的高度h(nk)=q,節(jié)點(diǎn)nk與路徑pk等效,表示分層代碼數(shù)據(jù)類型的一個(gè)唯一代碼值,對于兩個(gè)案件的兩個(gè)代碼值,對應(yīng)代碼樹的兩條路徑pi,pj,如果從根節(jié)點(diǎn)開始,直到第k層,二者具有相同的節(jié)點(diǎn),那么這兩條路徑,亦即兩個(gè)代碼的相似度定義為

      f4(pi,pj)=k/max(h(i),h(j))(8)

      所有的fi,i=1-4滿足歸一化條件0≤fi(a,b)≤1,值為1表示完全匹配,相似度最大;值為0表示最弱的關(guān)系,即完全無關(guān)。

      進(jìn)一步地,步驟s2中,計(jì)算相似度矩陣具體包括:

      對任意兩個(gè)案件,根據(jù)(1)或(2),計(jì)算相似度值,對所有案件,根據(jù)兩兩關(guān)系,生成n×n的相似度矩陣w,n是案件數(shù)量,w是一個(gè)對稱矩陣,其中對角線元素表示案件與自身的相似度,不需計(jì)算,只需計(jì)算w的上三角或者下三角矩陣。

      進(jìn)一步地,步驟s3具體包括:

      根據(jù)社會(huì)網(wǎng)絡(luò)分析理論和圖論,將w矩陣轉(zhuǎn)換成一個(gè)無向圖g,圖的每個(gè)節(jié)點(diǎn)表示一個(gè)案件,邊的權(quán)值表示案件之間的關(guān)聯(lián)程度;

      對于圖g,設(shè)定一個(gè)接近于零的閾值t,若g的元素小于t,表示兩個(gè)案件不可能有實(shí)際聯(lián)系,直接置零,g由多個(gè)連通子圖構(gòu)成,圖分解將一個(gè)大圖分解為若干連通子圖:

      g=∪igi,∩igi=φ(9)

      使用寬度或者深度優(yōu)先算法完成圖分解過程。

      進(jìn)一步地,步驟s4具體包括:

      首先,定義以下變量:

      圖g(v,w),v為節(jié)點(diǎn)集合,節(jié)點(diǎn)數(shù)n=|v|;w為邊集合,表示為n×n相似度矩陣w,w(i,j)=w(j,i),wii=0

      任意節(jié)點(diǎn)i的度di=σjwij,i=1,2,…,n;

      對角矩陣d,dii=di,dij=0,i≠j;

      假設(shè)圖g切割為k個(gè)群組每個(gè)群組ci為一個(gè)子圖,包括多個(gè)存在強(qiáng)關(guān)聯(lián)的案件,可作為系列型犯罪案件處理;

      群組內(nèi)部的內(nèi)聚度,對于群組a,na=|a|,m(a,a)=vol(a)=∑i,j∈awij/2,為群組a內(nèi)部的邊權(quán)值之和;

      群組與外界的關(guān)聯(lián)程度,m(a,v)=∑i∈a,j∈vwij-m(a,a)=∑i∈adi-m(a,a),為a之外所有與a中節(jié)點(diǎn)連接的邊權(quán)值之和;

      相互分離的兩個(gè)群組a,b的關(guān)聯(lián)程度m(a,b)=∑i∈a,j∈bwij;

      對于連通子圖的一個(gè)特定分解,定義q值

      使q值最大化的解為最優(yōu)圖切割,即

      qmax=maxk(qk),kmax=argmaxk(qk)(11)

      以下為基于聚類算法的圖切割方法:

      對于n×n矩陣w,定義相應(yīng)的laplacian矩陣以及相應(yīng)的特征方程

      lw=d-1.w(12)

      lwx=λx(13)

      對于lw,提取由高到低特征值對應(yīng)的特征向量,最大特征值λ1=1,對應(yīng)特征向量j,元素全部為1,如果特征值λ1的重復(fù)度為r,意味著g包括r個(gè)連通子圖,第一個(gè)特征值沒有對圖進(jìn)一步劃分切割的能力,實(shí)際上,從大到小,取從2到k的k-1個(gè)特征值對應(yīng)的特征向量,構(gòu)成n×(k-1)矩陣xk={x2,x3,…,xk},xi為第i個(gè)n維列向量;

      對每一個(gè)xk,視為維度為k-1的n個(gè)元素組成的集合,對其進(jìn)行聚類分析,生成k個(gè)群組,計(jì)算相應(yīng)的q(k),k從2開始迭代到某個(gè)預(yù)設(shè)的最大值,使q(k)達(dá)到最大的分解kmax為最優(yōu)分解。

      進(jìn)一步地,步驟s5中,關(guān)鍵特征參數(shù)表征該群組犯罪案件是否具有并案偵查的實(shí)際價(jià)值,對于一個(gè)犯罪案件群組g,用于并案串并主要的關(guān)鍵特征參數(shù)為歸一化的內(nèi)聚度,內(nèi)聚度表示為:

      該數(shù)值越高,接近于1,表明所有的案件之間關(guān)聯(lián)度都很強(qiáng),具有很高的參考價(jià)值。

      一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并系統(tǒng),包括:

      數(shù)據(jù)變量獲取模塊,用于獲取與案件關(guān)聯(lián)串并分析有關(guān)的高維度、異構(gòu)數(shù)據(jù)類型的案件數(shù)據(jù)變量;

      相似度矩陣計(jì)算模塊,用于根據(jù)案件數(shù)據(jù)變量建立描述案件關(guān)聯(lián)程度的相似度模型,根據(jù)相似度模型計(jì)算相似度矩陣;

      圖分解模塊,用于利用圖分解技術(shù),將相似度矩陣轉(zhuǎn)換成的一個(gè)圖分解為若干連通子圖;

      聚類分析模塊,用于對連通子圖使用聚類算法進(jìn)行圖切割計(jì)算,將所有案件準(zhǔn)確分組;

      特征提取推送模塊,用于提取每個(gè)案件群組的關(guān)鍵特征參數(shù),將關(guān)鍵特征參數(shù)根據(jù)優(yōu)先級(jí)高低推送給用戶。

      與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:

      本發(fā)明不僅能處理源數(shù)據(jù)具有明確、唯一性特征的數(shù)據(jù),也能處理僅具有可能性特征的數(shù)據(jù),極大的提高了刑事犯罪案件關(guān)聯(lián)串并的效率,并且準(zhǔn)確性高。

      附圖說明

      為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      圖1是本發(fā)明基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法的流程框圖;

      圖2是本發(fā)明基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法的分析流程圖;

      圖3是本發(fā)明樹形結(jié)構(gòu)的分層代碼型數(shù)據(jù)相似度計(jì)算示意圖;

      圖4是本發(fā)明基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并系統(tǒng)的結(jié)構(gòu)示意圖。

      具體實(shí)施方式

      為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面將結(jié)合附圖和具體的實(shí)施例對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明。需要指出的是,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

      實(shí)施例1

      如圖1所示,本發(fā)明提供一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法,包括如下步驟:

      s1、獲取與案件關(guān)聯(lián)串并分析有關(guān)的高維度、異構(gòu)數(shù)據(jù)類型的案件數(shù)據(jù)變量;

      s2、根據(jù)案件數(shù)據(jù)變量建立描述案件關(guān)聯(lián)程度的相似度模型,根據(jù)相似度模型計(jì)算相似度矩陣;

      s3、利用圖分解技術(shù),將相似度矩陣轉(zhuǎn)換成的一個(gè)圖分解為若干連通子圖;

      s4、對連通子圖使用聚類算法進(jìn)行圖切割計(jì)算,將所有案件準(zhǔn)確分組;

      s5、提取每個(gè)案件群組的關(guān)鍵特征參數(shù),將關(guān)鍵特征參數(shù)根據(jù)優(yōu)先級(jí)高低推送給用戶。

      如圖2所示,本發(fā)明基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并方法的分析流程如下:

      1、刑事犯罪案件特征描述

      在刑事犯罪案件信息管理系統(tǒng)中,每個(gè)案件包含多個(gè)數(shù)據(jù)項(xiàng),描述案件各種特征或維度,包括嫌疑人身份證號(hào)碼、手機(jī)號(hào)碼、銀行賬號(hào)、作案手法、作案時(shí)間、作案天氣、作案地域、作案工具、嫌疑人身高、嫌疑人年齡等。準(zhǔn)確的案件關(guān)聯(lián)串并過程需要綜合利用這些數(shù)據(jù)分析案件特點(diǎn),判斷案件之間的相似程度。

      這些數(shù)據(jù)項(xiàng)具有不同的數(shù)據(jù)類型。包括1)數(shù)值型,例如發(fā)案時(shí)間、嫌疑人身高(范圍),2)字符串型,例如身份證號(hào)碼、手機(jī)號(hào)碼,3)樹形結(jié)構(gòu)的代碼,例如作案手法(公安部標(biāo)準(zhǔn):刑事犯罪信息管理代碼第7部分作案手段分類和代碼ga240.7-2000)。這些數(shù)據(jù)體現(xiàn)不同的確定性(可能性)。例如電話號(hào)碼等具有唯一性;相反,身高或者作案手法僅能表示可能性。

      2、案件相似度模型

      根據(jù)案件特征變量的確定性程度,設(shè)計(jì)兩種相似度模型

      1)由唯一性變量定義的相似度模型

      一個(gè)案件包括身份證號(hào)碼、手機(jī)號(hào)碼、銀行賬號(hào)等,通常為字符串類型,每個(gè)值具有唯一性。一個(gè)案件m的所有這些值(字符串)構(gòu)成一個(gè)集合cm。案件m,n的相似度表示為

      wa(m,n)=|cm∩cn|(1)

      即兩個(gè)集合交集元素的數(shù)量(元素相等定義為字符串值相等)。

      2)由可能性變量定義的相似度模型

      一個(gè)案件包括作案手法、作案時(shí)間、作案工具、嫌疑人身高、嫌疑人年齡等特征變量,只能表示一定程度的可能性。數(shù)據(jù)類型包括數(shù)值型和樹形結(jié)構(gòu)的分層代碼型。案件m,n的相似度,是多個(gè)特征因素的綜合貢獻(xiàn),定義為

      wb(m,n)=∑iwifi(m,n)(2)

      其中,wi為歸一化權(quán)重,表示各數(shù)據(jù)變量對于整體相似度的貢獻(xiàn)比例,∑iwi=1;fi(m,n)表示案件m,n基于一個(gè)特定數(shù)據(jù)變量的相似度。

      通常,受害人或者目擊者會(huì)提供犯罪嫌疑人的身高范圍[ha,hb]、年齡范圍[aa,ab]。對于犯罪嫌疑人的身高和年齡變量,取平均值,即

      對案件m,n分別涉及的兩個(gè)犯罪嫌疑人pm,pn,身高、年齡差別越小,表示二人相似度越高。相似度表達(dá)式為

      其中,hm,hn為二人身高,am,an為年齡,σh,σa為控制參數(shù),可取經(jīng)驗(yàn)值5(cm),5(歲)。

      與兩個(gè)發(fā)案時(shí)間tm,tn有關(guān)的相似度,即犯罪案件的時(shí)間相關(guān)性為

      σt為控制參數(shù),可根據(jù)案件類型選取。

      如果發(fā)案地點(diǎn)可以表示為幾何坐標(biāo)那么空間相關(guān)性可以表示為

      表示坐標(biāo)點(diǎn)的幾何距離,σd為控制參數(shù)。

      分層代碼型數(shù)據(jù)(圖3)可以表示為一個(gè)樹形結(jié)構(gòu),根節(jié)點(diǎn)表示代碼名稱,例如作案手法。每下一層節(jié)點(diǎn)為對父節(jié)點(diǎn)的進(jìn)一步細(xì)分。在樹形結(jié)構(gòu)中,從根節(jié)點(diǎn)ro到任意一個(gè)節(jié)點(diǎn)nk有唯一的一條路徑,表示為

      pk=roni1nj2…npq,npq=nk(7)

      npq表示在第q層的某個(gè)節(jié)點(diǎn)。這條路徑的長度為q,即節(jié)點(diǎn)nk的高度h(nk)=q。節(jié)點(diǎn)nk與路徑pk等效,表示分層代碼數(shù)據(jù)類型的一個(gè)唯一代碼值。對于兩個(gè)案件的兩個(gè)代碼值,對應(yīng)代碼樹的兩條路徑pi,pj,如果從根節(jié)點(diǎn)開始,直到第k層,二者具有相同的節(jié)點(diǎn),那么這兩條路徑,亦即兩個(gè)代碼的相似度定義為

      f4(pi,pj)=k/max(h(i),h(j))(8)

      所有的fi,i=1-4滿足歸一化條件0≤fi(a,b)≤1,值為1表示完全匹配,相似度最大(關(guān)聯(lián)最強(qiáng));值為0表示最弱的關(guān)系,即完全無關(guān)。式(8)可以用于每種樹形結(jié)構(gòu)代碼,例如作案手法、作案工具等。

      計(jì)算相似度矩陣

      對任意兩個(gè)案件,根據(jù)(1)或(2),計(jì)算相似度值。對所有案件,根據(jù)兩兩關(guān)系,生成n×n的相似度矩陣w,n是案件數(shù)量。w是一個(gè)對稱矩陣,其中對角線元素表示案件與自身的相似度,不需計(jì)算,因此,只需計(jì)算w的上三角或者下三角矩陣。

      3、預(yù)處理:對w矩陣的圖分解

      根據(jù)社會(huì)網(wǎng)絡(luò)分析理論和圖論,將w矩陣轉(zhuǎn)換為一個(gè)無向圖g。圖的每個(gè)節(jié)點(diǎn)表示一個(gè)案件,邊的權(quán)值表示案件之間的關(guān)聯(lián)程度(相似度)。案件關(guān)聯(lián)串并過程分解為對圖的分解和切割兩個(gè)步驟,每個(gè)最終切割計(jì)算生成的子圖作為一個(gè)案件群組,作為案件關(guān)聯(lián)串并的量化依據(jù)。

      在隨后的聚類分析過程中,涉及稀疏矩陣特征方程求解,以及q值的迭代計(jì)算,計(jì)算量、存儲(chǔ)量較大。為了提高計(jì)算效率,需要進(jìn)行預(yù)處理-圖分解。

      對于圖g,設(shè)定一個(gè)接近于零的閾值t,若g的元素小于t,表示兩個(gè)案件不可能有實(shí)際聯(lián)系,直接置零。g由多個(gè)連通子圖構(gòu)成,圖分解將一個(gè)“大”圖分解為若干連通子圖。

      g=∪igi,∩igi=φ(9)

      可以使用常見的寬度或者深度優(yōu)先算法完成圖分解過程。

      4、對連通子圖的聚類分析

      首先,定義以下變量

      圖g(v,w),v為節(jié)點(diǎn)集合,節(jié)點(diǎn)數(shù)n=|v|;w為邊(權(quán)值)集合,表示為n×n相似度矩陣w,w(i,j)=w(j,i),wii=0;

      任意節(jié)點(diǎn)i的度di=σjwij,i=1,2,…,n;

      對角矩陣d,dii=di,djj=0,i≠j;

      假設(shè)圖g切割為k個(gè)群組每個(gè)群組ci為一個(gè)子圖,包括多個(gè)存在強(qiáng)關(guān)聯(lián)的案件,可以作為系列型犯罪案件處理。

      群組內(nèi)部的內(nèi)聚度,對于群組(子圖)a,na=|a|,m(a,a)=vol(a)=∑i,j∈awij/2,為群組a內(nèi)部的邊權(quán)值之和。

      群組與外界的關(guān)聯(lián)程度,m(a,v)=∑i∈a,j∈vwij-m(a,a)=∑i∈adi-m(a,a),為a之外所有與a中節(jié)點(diǎn)連接的邊權(quán)值之和。

      相互分離的兩個(gè)群組a,b的關(guān)聯(lián)程度m(a,b)=σi∈a,j∈bwij;

      對于連通子圖的一個(gè)特定分解,定義q值

      使q值最大化的解為最優(yōu)圖切割,即

      qmax=maxk(qk),kmax=argmaxk(qk)(11)

      以下為基于聚類算法的圖切割方法。

      對于n×n矩陣w,定義相應(yīng)的laplacian矩陣以及相應(yīng)的特征方程

      lw=d-1.w(12)

      lwx=λx(13)

      對于lw,提取由高到低特征值對應(yīng)的特征向量。最大特征值λ1=1,對應(yīng)特征向量j,元素全部為1。如果特征值λ1的重復(fù)度為r,意味著g包括r個(gè)連通子圖。第一個(gè)特征值(特征向量)沒有對圖進(jìn)一步“劃分切割”的能力。實(shí)際上,從大到小,取從2到k的k-1個(gè)特征值對應(yīng)的特征向量,構(gòu)成n×(k-1)矩陣xk={x2,x3,…,xk},xi為第i個(gè)n維列向量。

      對每一個(gè)xk,可以視為維度為k-1的n個(gè)元素組成的集合,對其進(jìn)行聚類分析,生成k個(gè)群組,計(jì)算相應(yīng)的q(k)。k從2開始迭代到某個(gè)預(yù)設(shè)的最大值,使q(k)達(dá)到最大的分解kmax為最優(yōu)分解?;玖鞒痰膫未a為

      通過以上步驟,最終將所有刑事犯罪案件分為若干群組,群組之間聯(lián)系弱,群組內(nèi)部的案件關(guān)聯(lián)強(qiáng),每個(gè)群組初步視為系列性案件,提交人工審核。

      5、案件群組關(guān)鍵特征提取及向用戶推送分析結(jié)果

      完成聚類分析后,進(jìn)一步提取每個(gè)犯罪案件群組的關(guān)鍵特征參數(shù),這些參數(shù)表征該組犯罪案件是否具有并案偵查的實(shí)際價(jià)值,系統(tǒng)把特征參數(shù)按照優(yōu)先級(jí)高低推送給用戶。

      對于一個(gè)犯罪案件群組g,用于并案串并主要參數(shù)為歸一化的內(nèi)聚度,該數(shù)值越高,接近于1,表明所有的案件之間關(guān)聯(lián)度都很強(qiáng),具有很高的參考價(jià)值。內(nèi)聚度表示為:

      當(dāng)然其它參數(shù)也有一定參考意義,例如一個(gè)高關(guān)聯(lián)案件群組的破案率低、甚至為零,表明并案偵查時(shí)應(yīng)予以高度關(guān)注。

      實(shí)施例2

      如圖4所示,本發(fā)明還提供一種基于聚類技術(shù)的刑事犯罪案件關(guān)聯(lián)串并系統(tǒng),包括:

      數(shù)據(jù)變量獲取模塊,用于獲取與案件關(guān)聯(lián)串并分析有關(guān)的高維度、異構(gòu)數(shù)據(jù)類型的案件數(shù)據(jù)變量;

      相似度矩陣計(jì)算模塊,用于根據(jù)案件數(shù)據(jù)變量建立描述案件關(guān)聯(lián)程度的相似度模型,根據(jù)相似度模型計(jì)算相似度矩陣;

      圖分解模塊,用于利用圖分解技術(shù),將相似度矩陣轉(zhuǎn)換成的一個(gè)圖分解為若干連通子圖;

      聚類分析模塊,用于對連通子圖使用聚類算法進(jìn)行圖切割計(jì)算,將所有案件準(zhǔn)確分組;

      特征提取推送模塊,用于提取每個(gè)案件群組的關(guān)鍵特征參數(shù),將關(guān)鍵特征參數(shù)根據(jù)優(yōu)先級(jí)高低推送給用戶。

      本發(fā)明不僅能處理源數(shù)據(jù)具有明確、唯一性特征的數(shù)據(jù),也能處理僅具有可能性特征的數(shù)據(jù),極大的提高了刑事犯罪案件關(guān)聯(lián)串并的效率,并且準(zhǔn)確性高。

      以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1