国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于多數(shù)據(jù)源融合的IP地域類特征提取方法與流程

      文檔序號:11388973閱讀:283來源:國知局
      一種基于多數(shù)據(jù)源融合的IP地域類特征提取方法與流程

      本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,具體涉及一種基于多數(shù)據(jù)源融合的ip地域類特征提取方法。



      背景技術(shù):

      ip地址(internetprotocoladdress,網(wǎng)際協(xié)議地址)是網(wǎng)絡(luò)中節(jié)點的唯一標識。由于ip地址具有唯一性,且是一種符合協(xié)議的地址格式,因此它更像是人們在互聯(lián)網(wǎng)這個“社會”的“身份證”。隨著社會與網(wǎng)絡(luò)科技的發(fā)展,互聯(lián)網(wǎng)的多數(shù)核心業(yè)務(wù)都需要對ip地址進行精準定位。但全球的ip地址數(shù)以億計,遍布于世界上每個角落,不同的ip地址可能包含了不同的地域?qū)傩?,如大洲、國家、地區(qū)、運營商、時區(qū)、經(jīng)緯度等。如何從這浩瀚的網(wǎng)絡(luò)中得到ip地址精準的地域類屬性,是一項極具挑戰(zhàn)性的任務(wù)。

      隨著定位技術(shù)的發(fā)展,互聯(lián)網(wǎng)上也出現(xiàn)了一些優(yōu)秀的定位數(shù)據(jù)庫,如geolite2ip地址數(shù)據(jù)庫、純真ip地址數(shù)據(jù)庫、百度ip地址數(shù)據(jù)庫、淘寶ip地址數(shù)據(jù)庫、全球ipv4地址歸屬地數(shù)據(jù)庫(ipip.net)、中國行政區(qū)域經(jīng)緯度信息表等網(wǎng)絡(luò)數(shù)據(jù)庫。但這些數(shù)據(jù)庫的來源多種多樣,格式規(guī)范不統(tǒng)一,并且都有自己的局限性,比如有些只是針對特定國家的定位比較準確,需要收費,沒有規(guī)范的接口供用戶使用等。所以如何利用現(xiàn)有定位數(shù)據(jù)庫,解決現(xiàn)有數(shù)據(jù)庫定位數(shù)據(jù)沖突、定位不準等問題,如何將國內(nèi)外優(yōu)秀的定位數(shù)據(jù)庫匯集到一起,構(gòu)建一套面向全球ip的地域類特征知識庫,如何構(gòu)建一個相對全面的定位數(shù)據(jù)庫,是目前亟待解決的一個問題。



      技術(shù)實現(xiàn)要素:

      針對現(xiàn)有技術(shù)中存在的ip地址數(shù)據(jù)庫采用各種不同的格式導致無法進行數(shù)據(jù)融合的問題,本發(fā)明要解決的技術(shù)問題是提出一種基于多數(shù)據(jù)源融合的ip地域類特征提取方法。

      為了解決上述問題,本發(fā)明實施例提出了一種基于多數(shù)據(jù)源融合的ip地域類特征提取方法,包括:

      步驟1、基于現(xiàn)有的ip地址定位數(shù)據(jù)庫,計算每一定位數(shù)據(jù)庫的權(quán)威度;

      authorityi=coveri+concidencei;

      其中authorityi為第i個定位數(shù)據(jù)庫的權(quán)威度,coveri為定位數(shù)據(jù)庫中數(shù)據(jù)占所有定位數(shù)據(jù)庫的總數(shù)居的比重;concidencei為定位數(shù)據(jù)庫與其他定位數(shù)據(jù)中數(shù)據(jù)的重合的比重;

      步驟2、基于現(xiàn)有的ip地址定位數(shù)據(jù)庫,計算每一定位數(shù)據(jù)庫中定位數(shù)據(jù)的完整度;

      步驟3、根據(jù)步驟1和步驟2中的每一定位數(shù)據(jù)庫的權(quán)威度和每一定位數(shù)據(jù)庫中定位數(shù)據(jù)的完整度,確定定位數(shù)據(jù)的可信度;

      步驟4、根據(jù)定位數(shù)據(jù)的可信度,選取定位數(shù)據(jù)構(gòu)建ip地域類特征知識庫。

      其中,步驟1中的定位數(shù)據(jù)庫的權(quán)威度通過authorityi以下方式計算:

      步驟11、通過以下公式(1)計算定位數(shù)據(jù)庫的覆蓋率,其中覆蓋率為定位數(shù)據(jù)庫中數(shù)據(jù)占所有定位數(shù)據(jù)庫的總數(shù)居的比重;

      其中dbi表示不同的定位數(shù)據(jù)庫,i=1,2,……,n分別表示n種不同的定位數(shù)據(jù)庫,value表示定位數(shù)據(jù)庫中的數(shù)據(jù)數(shù);

      步驟12、通過以下公式(2)計算一個定位數(shù)據(jù)庫與其他定位數(shù)據(jù)中數(shù)據(jù)的重合的比重,作為重合率

      其中,h運算表示對集合做不去除重復(fù)元素的并運算,b運算表示計算某個元素在h運算結(jié)果中的個數(shù),count運算表示h運算結(jié)果中所有元素的個數(shù),m表示數(shù)據(jù)庫中包含網(wǎng)段的個數(shù);

      則定位數(shù)據(jù)庫權(quán)威度為:

      authorityi=coveri+concidencei。

      其中,步驟2中的定位數(shù)據(jù)的完整度通過以下方法計算:

      步驟21、從ip地域類屬性的12種指標中選擇至少一個指標作為評價指標,以建立定位數(shù)據(jù)完整度integrity評價指標l元組e<e1,e2,……,el>;其中所述12種指標包括:ip地址所屬網(wǎng)段、大洲、大洲id、國家、國家id、一級行政區(qū)域、二級行政區(qū)域、三級行政區(qū)域、互聯(lián)網(wǎng)服務(wù)提供商、時區(qū)、經(jīng)度、緯度。

      步驟22、基于評價指標l元組e<e1,e2,……,el>,利用如下公式計算定位數(shù)據(jù)的完整度integrity:

      其中:interityip,i表示ip地址ip在第i個定位數(shù)據(jù)庫中的定位數(shù)據(jù)完整度,wj(i=1,2,……,l)為各個評價指標特征的權(quán)值系數(shù),滿足

      wj>0

      其中,表示ip地址ip在第i個定位數(shù)據(jù)庫的第j個特征指標的值,其計算公式如下:

      其中,定位數(shù)據(jù)的可信度通過以下方法計算:

      通過定位數(shù)據(jù)庫的權(quán)威度和定位數(shù)據(jù)的完整度計算定位數(shù)據(jù)的可信度:

      credibility(ipvalue(x,i))=interityip,i*authorityi

      其中credibility(ipvalue(x,i))表示ip地址為ip的特征指標x在第i個定位數(shù)據(jù)庫中的定位數(shù)據(jù)值的可信度,interityip,i表示ip地址為ip在第i個定位數(shù)據(jù)庫中的定位數(shù)據(jù)的完整度,authorityi表示第i個定位數(shù)據(jù)庫的權(quán)威度;

      其中,對于ip地址為ip的特征指標x的可信度計算如下所示:

      其中j∈[1,n],表示特征指標x的不去重的取值個數(shù);而對于重復(fù)的屬性取值即當ipvalue(x)=ipvalue(x,i),則特征指標x的可信度為所有重復(fù)屬性值的可信度之和,可以看作特征指標x的加權(quán)投票可信度,max運算表示取加權(quán)投票可信度的最大值。

      其中,步驟4具體包括:基于定位數(shù)據(jù)的可信度,對ip地址的地域類特征的進行篩選,并構(gòu)建ip地域類特征知識庫。

      本發(fā)明的上述技術(shù)方案的有益效果如下:上述技術(shù)方案提出了一種基于多數(shù)據(jù)源融合的ip地域類特征提取方法,其具有以下優(yōu)勢:

      1、針對互聯(lián)網(wǎng)上多種定位數(shù)據(jù)庫數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一以及定位沖突的問題,本發(fā)明將ip地域類特征表示為九元組的形式,利用國內(nèi)外定位數(shù)據(jù)庫的分層特性和ip定位數(shù)據(jù),提出了一種基于多數(shù)據(jù)源的ip地域類特征提取方法。該方法通過計算定位數(shù)據(jù)的可信度(credibility)實現(xiàn)ip地域類特征的提取,定位數(shù)據(jù)可信度的確定則依賴于定位數(shù)據(jù)庫的權(quán)威度(authority)和定位數(shù)據(jù)的完整度(integrity)。

      2、針對定位數(shù)據(jù)庫權(quán)威度的計算問題,本發(fā)明通過分析國內(nèi)外主流ip定位數(shù)據(jù)庫的結(jié)構(gòu)及各數(shù)據(jù)庫之間的數(shù)據(jù)差異,提出了一種基于ip定位數(shù)據(jù)庫之間差異的權(quán)威度評價方法。

      3、針對定位數(shù)據(jù)完整度的計算問題,本發(fā)明基于ip地域類特征的九元組表示方法,構(gòu)建了一種定位數(shù)據(jù)完整度的定量評估模型。

      4、針對定位數(shù)據(jù)可信度評價中多源數(shù)據(jù)庫定位數(shù)據(jù)沖突問題,本發(fā)明考慮數(shù)據(jù)庫權(quán)威度和定位數(shù)據(jù)完整度兩項指標,利用加權(quán)投票機制算法,提出了一種多特征多模態(tài)的可信度定量評價模型,實現(xiàn)了定位數(shù)據(jù)庫可信度的定量計算。

      5、針對目前國內(nèi)外ip地域類屬性的差異,提出了一種基于定位數(shù)據(jù)可信度的ip地域類特征篩選算法,構(gòu)建了一套面向全球ip的地域類特征知識庫。

      附圖說明

      圖1為本發(fā)明實施例的基于多數(shù)據(jù)源融合的ip地域類特征提取方法

      具體實施方式

      為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖及具體實施例進行詳細描述。

      本發(fā)明根據(jù)ip地域類特征的組成結(jié)構(gòu),通過對互聯(lián)網(wǎng)中現(xiàn)有的多個定位數(shù)據(jù)庫(在本發(fā)明實施例中采用五個最常見淘寶ip地址庫、純真ip地址庫、新浪ip地址庫、百度地址數(shù)據(jù)庫、全球ipv4地址歸屬地數(shù)據(jù)庫ipip.net)與中國行政區(qū)域經(jīng)緯度信息表進行分析,實現(xiàn)對國內(nèi)外ip地域類特征的提取,提出了一種基于多數(shù)據(jù)源的ip地域類特征提取方法,最終構(gòu)建一套面向全球ip的地域類特征知識庫。本發(fā)明通過計算定位數(shù)據(jù)的可信度(credibility),選取定位數(shù)據(jù)可信度較高的定位數(shù)據(jù)作為定位結(jié)果,最終實現(xiàn)ip地域類特征的提取。而定位數(shù)據(jù)可信度的計算則依賴于定位數(shù)據(jù)庫的權(quán)威度(authority)和定位數(shù)據(jù)的完整度(integrity)兩項指標。

      本發(fā)明實施例的基于多數(shù)據(jù)源的ip地域類特征提取方法,其流程如圖1所示的,包括:

      步驟1、基于現(xiàn)有的ip地址定位數(shù)據(jù)庫,計算每一定位數(shù)據(jù)庫的權(quán)威度;

      authorityi=coveri+concidencei;

      其中authorityi為第i個定位數(shù)據(jù)庫的權(quán)威度,coveri為定位數(shù)據(jù)庫中數(shù)據(jù)占所有定位數(shù)據(jù)庫的總數(shù)居的比重;concidencei為定位數(shù)據(jù)庫與其他定位數(shù)據(jù)中數(shù)據(jù)的重合的比重;

      步驟2、基于現(xiàn)有的ip地址定位數(shù)據(jù)庫,計算每一定位數(shù)據(jù)庫中定位數(shù)據(jù)的完整度;

      步驟3、根據(jù)步驟1和步驟2中的每一定位數(shù)據(jù)庫的權(quán)威度和每一定位數(shù)據(jù)庫中定位數(shù)據(jù)的完整度,確定定位數(shù)據(jù)的可信度;

      步驟4、根據(jù)定位數(shù)據(jù)的可信度,選取定位數(shù)據(jù)構(gòu)建ip地域類特征知識庫。

      其中,定位數(shù)據(jù)庫的權(quán)威度通過authorityi以下方式計算:

      步驟11、通過以下公式(1)計算定位數(shù)據(jù)庫的覆蓋率,其中覆蓋率為定位數(shù)據(jù)庫中數(shù)據(jù)占所有定位數(shù)據(jù)庫的總數(shù)居的比重;

      其中dbi表示不同的定位數(shù)據(jù)庫,i=1,2,……,n分別表示n種不同的定位數(shù)據(jù)庫,value表示定位數(shù)據(jù)庫中的數(shù)據(jù)數(shù)。在本發(fā)明實施例中,由于采用了現(xiàn)有的5個最常見的ip地址數(shù)據(jù)庫,因此n=5;

      步驟12、通過以下公式(2)計算一個定位數(shù)據(jù)庫與其他定位數(shù)據(jù)中數(shù)據(jù)的重合的比重,作為重合率

      本發(fā)明實施例中可以通過網(wǎng)段為單位,計算定位數(shù)據(jù)庫之間的重合率;

      其中,h運算表示對集合做不去除重復(fù)元素的并運算,b運算表示計算某個元素在h運算結(jié)果中的個數(shù),count運算表示h運算結(jié)果中所有元素的個數(shù),m表示數(shù)據(jù)庫中包含網(wǎng)段的個數(shù);

      例如:n種定位數(shù)據(jù)庫對某一網(wǎng)段ip的某一個屬性x的數(shù)據(jù)值分別為a,b,a,c,a,則:

      即集合中一共有5個元素;

      即其中重復(fù)的元素數(shù)為3;含有3個a

      即包含a,b,a,c,a這5個元素

      則定位數(shù)據(jù)庫權(quán)威度為:

      authorityi=coveri+concidencei。

      其中,步驟2中的定位數(shù)據(jù)的完整度通過以下方法計算:

      ip地域類屬性具有以下12種指標:ip地址所屬網(wǎng)段、大洲、大洲id、國家、國家id、一級行政區(qū)域(對應(yīng)國內(nèi)的省或直轄市)、二級行政區(qū)域(對應(yīng)國內(nèi)的地級市或相當區(qū)域)、三級行政區(qū)域(對應(yīng)國內(nèi)的縣或相當區(qū)域)、互聯(lián)網(wǎng)服務(wù)提供商(isp)、時區(qū)、經(jīng)度、緯度。

      在本發(fā)明實施例中,可以將這12種指標進行合并,只保留如表1所示的9種指標,以建立定位數(shù)據(jù)完整度(integrity)評價指標l元組e<e1,e2,……,el>,對應(yīng)映射表如表1所示:

      表1ip地域類特征

      表1中是采用九元組的方式,這只是本發(fā)明實施例的一種實現(xiàn)方式,可以任意多個指標,本發(fā)明實施例并不對此做出限定。基于評價指標l元組e<e1,e2,……,el>,構(gòu)建定位數(shù)據(jù)完整度(integrity)的計算公式如下:

      如表1所示的例子中用了9種指標,因此l=9。

      其中:interityip,i表示ip地址ip在第i個定位數(shù)據(jù)庫中的定位數(shù)據(jù)完整度,wj(i=1,2,……,l)為各個評價指標特征的權(quán)值系數(shù),滿足

      wj>0

      表示ip地址ip在第i個定位數(shù)據(jù)庫的第j個特征指標的值,其計算公式如下:

      由于特征因素的權(quán)值系數(shù)難以確定,因此采用層次分析法確定各個特征權(quán)值的方法,最終得出特征的權(quán)值依次為(0.03338,0.0512,0.0860,0.1489,0.2455,0.0860,0.0512,0.1489,0.1489)。

      其中,定位數(shù)據(jù)的可信度通過以下方法計算:

      本發(fā)明通過計算定位數(shù)據(jù)的可信度credibility,選取定位數(shù)據(jù)可信度較高的定位數(shù)據(jù)作為ip地域類的最終特征。而定位數(shù)據(jù)可信度的定量計算則依賴于定位數(shù)據(jù)庫的權(quán)威度和定位數(shù)據(jù)的完整度兩項指標。計算公式如下:

      credibility(ipvalue(x,i))=interityiu,i*authorityi

      其中credibility(ipvalue(x,i))表示ip地址為ip的特征指標x在第i個定位數(shù)據(jù)庫中的定位數(shù)據(jù)值的可信度,interityip,i表示ip地址為ip在第i個定位數(shù)據(jù)庫中的定位數(shù)據(jù)的完整度,authorityi表示第i個定位數(shù)據(jù)庫的權(quán)威度。

      其中,對于ip地址為ip的特征指標x的可信度計算如下所示:

      其中j∈[1,n],表示特征指標x的不去重的取值個數(shù);而對于重復(fù)的屬性取值即當ipvalue(x)=ipvalue(x,i),則特征指標x的可信度為所有重復(fù)屬性值的可信度之和,可以看作特征指標x的加權(quán)投票可信度,max運算表示取加權(quán)投票可信度的最大值。

      基于定位數(shù)據(jù)可信度的ip地域類知識庫的構(gòu)建

      本發(fā)明提出了基于定位數(shù)據(jù)可信度對ip地址的地域類特征的篩選方法,利用定位數(shù)據(jù)可信度分別對國內(nèi)、外的ip地域類特征進行提取,具體的提取流程如圖3所示。

      (1)關(guān)于覆蓋率、重合率、權(quán)威度、完整度的計算

      在基于定位數(shù)據(jù)可信度的ip地域類特征提取實際過程中,對于覆蓋率、重合率、權(quán)威度、完整度的計算過程如下:

      對于覆蓋率的計算,我們將淘寶ip地址庫、純真ip地址庫、新浪ip地址庫、百度地址數(shù)據(jù)庫和全球ipv4地址歸屬地數(shù)據(jù)庫ipip.net的地域信息進行合并,提取出每個網(wǎng)段的每個地域類特征全部覆蓋的范圍,然后通過每個知識庫中地域類屬性的覆蓋范圍與合并后全部覆蓋范圍比例確定每個定位數(shù)據(jù)庫的覆蓋率。如圖4所示的,其中對國家、省份、城市的覆蓋率進行研究后發(fā)現(xiàn),ipip.net定位數(shù)據(jù)庫對國家、省份、城市的覆蓋率中的覆蓋率最高,百度定位數(shù)據(jù)庫的覆蓋率最低。

      對于重合率的計算,我們將淘寶ip地址庫、純真ip地址庫、新浪ip地址庫、百度地址數(shù)據(jù)庫和全球ipv4地址歸屬地數(shù)據(jù)庫ipip.net的地域信息進行合并,以網(wǎng)段的地域信息記錄為單位,提取每個網(wǎng)段全部地域類記錄的所有值,然后通過每個數(shù)據(jù)庫中每個網(wǎng)段的每條記錄與全部記錄的重復(fù)個數(shù)的比率的平均值,確定每個數(shù)據(jù)庫的重合率。如圖5所示的,每個數(shù)據(jù)庫的重合率經(jīng)過計算后發(fā)現(xiàn),ipip.net定位數(shù)據(jù)庫相對于其它數(shù)據(jù)庫,重合率較高。

      對于權(quán)威度的計算,采用覆蓋率和重合率之和表示。

      對于完整度的計算,通過每個ip定位數(shù)據(jù)庫中每個網(wǎng)段的地域信息中存在的地域信息屬性值的個數(shù)與本發(fā)明構(gòu)建的九元組的屬性的個數(shù)的比例來確定。

      (2)關(guān)于特征篩選算法的說明

      對于最終的ip地域類特征的篩選策略,本發(fā)明只定義了一條篩選策略:取所有ip地域類特征屬性值中可信度的最大值作為ip最終的地域?qū)傩灾?。通過利用完整度和權(quán)威度,發(fā)明人已經(jīng)構(gòu)建了一個大規(guī)模的ip地域類知識庫,包括國內(nèi)900萬個ip地址國外15萬個ip網(wǎng)段。其中國內(nèi)ip地域類知識庫如圖6所示,國外ip地域類知識庫如圖7所示。

      以上所述是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1