興趣點數(shù)據(jù)融合方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及地理信息處理領(lǐng)域,特別涉及一種興趣點數(shù)據(jù)融合方法和系統(tǒng)。
【背景技術(shù)】
[0002]POI (Point of Interest,興趣點)數(shù)據(jù)是地理信息系統(tǒng)的數(shù)據(jù)類型之一,廣泛應(yīng)用于導(dǎo)航和周邊生活服務(wù)領(lǐng)域。由于Ρ0Ι存在圖上采集、不同服務(wù)商的用戶上傳等,導(dǎo)致同一個Ρ0Ι會存在名稱、地址、經(jīng)緯度都不同,Ρ0Ι屬性值部分相同或者部分相似的情況普遍存在。
[0003]目前的情況是,隨著LBS (Locat1n Based Service,基于位置的服務(wù))生活服務(wù)行業(yè)迅猛發(fā)展,Ρ0Ι數(shù)據(jù)的數(shù)量迅速增長,一家數(shù)據(jù)提供方的數(shù)據(jù)就在千萬數(shù)量級別。為了提高數(shù)據(jù)質(zhì)量,往往需要融合多來源多合作方的數(shù)據(jù),做成一份數(shù)據(jù)。傳統(tǒng)的方法,數(shù)據(jù)處理速度和處理準確度亟待提高,由于數(shù)據(jù)量大,準確度的任何提升都能大幅節(jié)約人工干預(yù)的成本。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例提供一種興趣點數(shù)據(jù)融合方法和系統(tǒng)??捎行Ы鉀Q數(shù)據(jù)處理速度慢、數(shù)據(jù)處理準確性和容錯性不足的問題。
[0005]根據(jù)本發(fā)明的一個方面,提供一種興趣點數(shù)據(jù)融合方法,包括:
[0006]當(dāng)獲得新的目標興趣點Ρ0Ι數(shù)據(jù)時,提取出目標Ρ0Ι數(shù)據(jù)的經(jīng)緯度;
[0007]在預(yù)定的第η層經(jīng)緯度網(wǎng)格中,確定以目標Ρ0Ι數(shù)據(jù)的經(jīng)緯度為中心的區(qū)域R ;
[0008]將在第η層經(jīng)緯度網(wǎng)格中被區(qū)域R覆蓋的網(wǎng)格作為候選網(wǎng)格;
[0009]在Ρ0Ι集合中提取出與候選網(wǎng)格相關(guān)聯(lián)的Ρ0Ι信息,以作為候選Ρ0Ι信息;
[0010]判斷在候選Ρ0Ι信息中,是否存在與目標Ρ0Ι數(shù)據(jù)相重復(fù)的Ρ0Ι信息;
[0011]若在候選Ρ0Ι信息中不存在與目標Ρ0Ι數(shù)據(jù)相重復(fù)的Ρ0Ι信息,則將目標Ρ0Ι數(shù)據(jù)存入Ρ0Ι集合;
[0012]若在候選Ρ0Ι信息中存在與目標Ρ0Ι數(shù)據(jù)相重復(fù)的Ρ0Ι信息Μ,則將目標Ρ0Ι數(shù)據(jù)與Ρ0Ι信息Μ融合,并將融合后的信息存入Ρ0Ι集合,以對Ρ0Ι信息Μ進行更新。
[0013]在一個實施例中,在Ρ0Ι集合中提取出與候選網(wǎng)格相關(guān)聯(lián)的Ρ0Ι信息,以作為候選Ρ0Ι信息的步驟包括:
[0014]判斷候選網(wǎng)格Gi是否為底層網(wǎng)格,其中1彡i彡N,N為候選網(wǎng)格總數(shù);
[0015]若網(wǎng)格Gi是底層網(wǎng)格,則將Ρ0Ι集合中與候選網(wǎng)格Gi相關(guān)聯(lián)的Ρ0Ι信息作為候選Ρ0Ι信息;
[0016]若網(wǎng)格Gi不是底層網(wǎng)格,則確定網(wǎng)格Gi在最底層經(jīng)緯度網(wǎng)格中對應(yīng)的子網(wǎng)格,將Ρ0Ι集合中與所述子網(wǎng)格相關(guān)聯(lián)的Ρ0Ι信息作為候選Ρ0Ι信息。
[0017]在一個實施例中,判斷在候選Ρ0Ι信息中,是否存在與目標Ρ0Ι數(shù)據(jù)相重復(fù)的Ρ0Ι信息的步驟包括:
[0018]對于候選P0I信息中的每個候選P0I信息Cj,判斷目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj之間的相似度FinalScore是否大于預(yù)定的閾值,其中1彡j彡M,Μ為候選Ρ0Ι信息總數(shù),相似度Final Score同目標P0I數(shù)據(jù)與候選P0I信息Cj之間的名稱相似度、電話相似度、距離相似度和地址相似度相關(guān);
[0019]若目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj之間的相似度FinalScore大于預(yù)定的閾值,則確定目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj重復(fù);
[0020]若目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj之間的相似度FinalScore不大于預(yù)定的閾值,則確定目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj不重復(fù)。
[0021]在一個實施例中,上述方法還包括:利用下列公式
[0022]FinalScore = (nameScore+phoneScore)*weightl+(distanceScore+addressScore)氺weight2
[0023]計算相似度FinalScore,其中weightl和weight2預(yù)先設(shè)置的權(quán)值,名稱相似度nameScore同目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj的名稱、類型相關(guān)聯(lián),電話相似度phoneScore同目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj的電話信息相關(guān)聯(lián),距離相似度distanceScore同目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj的經(jīng)緯度相關(guān)聯(lián),地址相似度addressScore同目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj的地址相關(guān)聯(lián)。
[0024]在一個實施例中,將目標Ρ0Ι數(shù)據(jù)與Ρ0Ι信息Μ融合的步驟包括:
[0025]對于目標Ρ0Ι數(shù)據(jù)與Ρ0Ι信息Μ中的名稱信息,將長度最長的名稱信息作為融合后的名稱信息;
[0026]對于目標Ρ0Ι數(shù)據(jù)與Ρ0Ι信息Μ中的地址信息,將長度最長的地址信息作為融合后的地址信息;
[0027]對于目標Ρ0Ι數(shù)據(jù)與Ρ0Ι信息Μ中的電話信息,將兩個電話信息共同作為融合后的電話信息。
[0028]在一個實施例中,將目標Ρ0Ι數(shù)據(jù)與Ρ0Ι信息Μ融合的步驟還包括:
[0029]記錄目標Ρ0Ι數(shù)據(jù)的來源標識。
[0030]在一個實施例中,在預(yù)定的第η層經(jīng)緯度網(wǎng)格中,確定以目標Ρ0Ι數(shù)據(jù)的經(jīng)緯度為中心的區(qū)域R的步驟包括:
[0031]在預(yù)定的第η層經(jīng)緯度網(wǎng)格中,生成以目標Ρ0Ι數(shù)據(jù)的經(jīng)緯度為圓心、以預(yù)定的長度為半徑的圓形區(qū)域,以作為所述區(qū)域R。
[0032]根據(jù)本發(fā)明的另一方面,提供一種興趣點數(shù)據(jù)融合系統(tǒng),包括輸入單元、提取單元、區(qū)域確定單元、候選網(wǎng)格確定單元、候選信息確定單元、識別單元和融合存儲單元,其中:
[0033]輸入單元,用于輸入新的目標興趣點Ρ0Ι數(shù)據(jù);
[0034]提取單元,用于當(dāng)輸入單元獲得目標Ρ0Ι數(shù)據(jù)時,提取出目標Ρ0Ι數(shù)據(jù)的經(jīng)緯度;
[0035]區(qū)域確定單元,用于在預(yù)定的第η層經(jīng)緯度網(wǎng)格中,確定以目標Ρ0Ι數(shù)據(jù)的經(jīng)緯度為中心的區(qū)域R ;
[0036]候選網(wǎng)格確定單元,用于將在第η層經(jīng)緯度網(wǎng)格中被區(qū)域R覆蓋的網(wǎng)格作為候選網(wǎng)格;
[0037]候選信息確定單元,用于在Ρ0Ι集合中提取出與候選網(wǎng)格相關(guān)聯(lián)的Ρ0Ι信息,以作為候選POI信息;
[0038]識別單元,用于判斷在候選Ρ0Ι信息中,是否存在與目標Ρ0Ι數(shù)據(jù)相重復(fù)的Ρ0Ι信息;
[0039]融合存儲單元,用于根據(jù)識別單元的判斷結(jié)果,若在候選Ρ0Ι信息中不存在與目標Ρ0Ι數(shù)據(jù)相重復(fù)的Ρ0Ι信息,則將目標Ρ0Ι數(shù)據(jù)存入Ρ0Ι集合;若在候選Ρ0Ι信息中存在與目標Ρ0Ι數(shù)據(jù)相重復(fù)的Ρ0Ι信息M,則將目標Ρ0Ι數(shù)據(jù)與Ρ0Ι信息Μ融合,并將融合后的信息存入Ρ0Ι集合,以對Ρ0Ι信息Μ進行更新。
[0040]在一個實施例中,候選信息確定單兀包括識別模塊、第一信息確定模塊和第二信息確定模塊,其中:
[0041]識別模塊,用于判斷候選網(wǎng)格Gi是否為底層網(wǎng)格,其中1彡i彡N,N為候選網(wǎng)格總數(shù);
[0042]第一信息確定模塊,用于根據(jù)識別模塊的判斷結(jié)果,若網(wǎng)格Gi是底層網(wǎng)格,則將Ρ0Ι集合中與候選網(wǎng)格Gi相關(guān)聯(lián)的Ρ0Ι信息作為候選Ρ0Ι信息;
[0043]第二信息確定模塊,用于根據(jù)識別模塊的判斷結(jié)果,若網(wǎng)格Gi不是底層網(wǎng)格,則確定網(wǎng)格Gi在最底層經(jīng)緯度網(wǎng)格中對應(yīng)的子網(wǎng)格,將POI集合中與所述子網(wǎng)格相關(guān)聯(lián)的Ρ0Ι信息作為候選Ρ0Ι信息。
[0044]在一個實施例中,識別單元具體對于候選Ρ0Ι信息中的每個候選Ρ0Ι信息Cj,判斷目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj之間的相似度FinalScore是否大于預(yù)定的閾值,其中1彡j彡M,Μ為候選Ρ0Ι信息總數(shù),相似度FinalScore同目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj之間的名稱相似度、電話相似度、距離相似度和地址相似度相關(guān);若目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj之間的相似度FinalScore大于預(yù)定的閾值,則確定目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj重復(fù);若目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj之間的相似度FinalScore不大于預(yù)定的閾值,則確定目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj不重復(fù)。
[0045]在一個實施例中,識別單元具體利用下列公式
[0046]FinalScore = (nameScore+phoneScore)*weightl+(distanceScore+addressScore)氺weight2
[0047]計算相似度FinalScore,其中weightl和weight2預(yù)先設(shè)置的權(quán)值,名稱相似度nameScore同目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj的名稱、類型相關(guān)聯(lián),電話相似度phoneScore同目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj的電話信息相關(guān)聯(lián),距離相似度distanceScore同目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj的經(jīng)緯度相關(guān)聯(lián),地址相似度addressScore同目標Ρ0Ι數(shù)據(jù)與候選Ρ0Ι信息Cj的地址相關(guān)聯(lián)。
[0048]在一個實施例中,融合存儲單元具體在將目標Ρ0Ι數(shù)據(jù)與Ρ0Ι信