發(fā)明的一個可選實施例中,步驟202可以包括如下子步驟:
[0169] 子步驟S21,將標識同一對象的興趣點名稱設(shè)置為興趣點名稱集合;
[0170] POI數(shù)據(jù)一般都會標識一個對象,如一棟房子、一個商鋪、一個郵筒、一個公交站 等。
[0171] 由于該對象的地址信息的準確性一般比較高,因此,在本發(fā)明實施例中,可以通過 將興趣點地址進行歸一化,判斷興趣點地址是否相同或相似;若是,則將興趣點地址關(guān)聯(lián)的 興趣點名稱設(shè)置為興趣點名稱集合。
[0172] 例如,"榆林榆陽膚施路今日潮大酒店隔壁東恒百貨三樓"、"榆林榆陽區(qū)膚施路今 日潮隔壁東恒百貨三樓第一營業(yè)部"、"榆林榆陽南門口東恒百貨大樓3樓"和"陜西榆林南 門口東恒百貨批發(fā)三樓"這4個興趣點地址雖然形式上不完全相同,但是通過歸一化可以確 定它們的地址都為"榆林市榆陽區(qū)東恒百貨大樓三樓"。
[0173] 即其關(guān)聯(lián)的"世界500強企業(yè)"、"中國平安保險公司"、"中國平安榆林分公司"和 "中國平安保險股份有限公司榆林分公司"為興趣點名稱集合。
[0174] 子步驟S22,從所述興趣點名稱集合中識別錯誤的第二目標興趣點名稱;
[0175] 在本發(fā)明實施例中,可以通過挖掘興趣點名稱的關(guān)鍵詞來篩選錯誤的POI名稱, 即第二目標興趣點名稱。
[0176] 在本發(fā)明的一個可選實施例中,子步驟S22進一步可以包括如下子步驟:
[0177] 子步驟S121,在所述興趣點名稱集合中的興趣點名稱選取關(guān)鍵詞;
[0178] 在本發(fā)明實施例中,關(guān)鍵詞可以為包含的信息量最大,體現(xiàn)興趣點名稱特征的詞。
[0179] 在具體實現(xiàn)中,可以對興趣點名稱集合中的興趣點名稱進行分詞處理,獲得一個 或多個分詞;
[0180] 查找分詞在預(yù)設(shè)的興趣點集合中的第一詞頻,該興趣點集合為抓取到的網(wǎng)頁中的 POI數(shù)據(jù)的集合,該POI數(shù)據(jù)的數(shù)量可以多達數(shù)千萬,該第一詞頻是根據(jù)該數(shù)千萬的POI數(shù) 據(jù)的名稱統(tǒng)計。
[0181] 本發(fā)明實施例中,可以采用如下的一種或多種分詞處理:
[0182] 1、基于字符串匹配的分詞:是指按照一定的策略將待分析的漢字串與一個預(yù)置的 機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。
[0183] 2、基于特征掃描或標志切分的分詞:是指優(yōu)先在待分析字符串中識別和切分出 一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞, 從而減少匹配的錯誤率;或者將分詞和詞類標注結(jié)合起來,利用豐富的詞類信息對分詞決 策提供幫助,并且在標注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而提高切分的準確 率。
[0184] 3、基于理解的分詞:是指通過讓計算機模擬人對句子的理解,達到識別詞的效果。 其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義 現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào) 下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模 擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。
[0185] 4、基于統(tǒng)計的分詞方法:是指,中文信息中由于字與字相鄰共現(xiàn)的頻率或概率能 夠較好的反映成詞的可信度,所以可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng) 計,計算它們的互現(xiàn)信息,以及計算兩個漢字X、Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息可以體現(xiàn)漢字 之間結(jié)合關(guān)系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構(gòu)成了一 個詞。
[0186] 例如,對于上述興趣點名稱,可以切分如下分詞:
[0189] 當?shù)谝辉~頻最少時,其包含的信息量一般最大,則可以將同一個興趣點名稱中第 一詞頻最低的X個分詞,作為興趣點名稱的關(guān)鍵詞,其中,X為正整數(shù)。
[0190] 例如,對于上述興趣點名稱,可以提取如下關(guān)鍵詞:
[0191]
[0192] 其中,"企業(yè)"、"公司"、"分公司"等詞的第一詞頻較高,包含的信息量較少,僅表示 企業(yè)/公司身份,指向性不明確,不適宜作為關(guān)鍵詞,"平安"等詞的第一詞頻較較低,包含的 信息量較多,即常用的企業(yè)縮寫名稱,適宜作為關(guān)鍵詞。
[0193] 需要說明的是,可以預(yù)先獲取全國的省、市、縣(區(qū))、鄉(xiāng)鎮(zhèn)、道路等地址數(shù)據(jù),創(chuàng)建 一個地址數(shù)據(jù)庫。
[0194] 當分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時,例如"中國"、"榆林"等等,為無效的關(guān)鍵詞,可 以移除該分詞。
[0195] 子步驟S222,依據(jù)所述關(guān)鍵詞從所述興趣點名稱中識別錯誤的第二目標興趣點名 稱。
[0196] 在具體實現(xiàn)中,可以計算關(guān)鍵詞在興趣點名稱集合中的第二詞頻,將第二詞頻最 低的Z個關(guān)鍵詞所屬的興趣點名稱作確定為正確的目標興趣點名稱,其中,Z為正整數(shù)。
[0197] 例如,對于上述興趣點名稱的關(guān)鍵詞,"世界"的第二詞頻為1,"平安"的第二詞頻 為3, "世界"的第二詞頻較低,可以確認其所屬的"世界500強企業(yè)"為錯誤的第二目標興 趣點名稱。
[0198] 子步驟S23,確定所述第二目標興趣點名稱所屬的興趣點數(shù)據(jù)為錯誤的第二目標 興趣點數(shù)據(jù)。
[0199] 當POI的名稱錯誤時,可以確認該POI為錯誤的POI。
[0200] 步驟203,統(tǒng)計歸屬同一個網(wǎng)站的第二目標興趣點數(shù)據(jù)的第二數(shù)量;
[0201] 在實際應(yīng)用中,可以查找第二目標興趣點數(shù)據(jù)對應(yīng)的URL,當所述第二目標興趣點 數(shù)據(jù)對應(yīng)的URL屬于同一個網(wǎng)站的域名時,統(tǒng)計第二目標興趣點數(shù)據(jù)的第二數(shù)量。
[0202] 例如,對于上述興趣點數(shù)據(jù)的示例,"世界500強企業(yè)"、"中國平安保險公司"、"中 國平安榆林分公司"的URL屬于同一個網(wǎng)站的域名"*#A",即這些興趣點名稱屬于同一個 網(wǎng)站,這個網(wǎng)站的第二目標興趣點數(shù)據(jù)的第一數(shù)量為1。
[0203] 步驟204,根據(jù)所述第二數(shù)量確定所述網(wǎng)站中興趣點數(shù)據(jù)的置信度。
[0204] 在具體實現(xiàn)中,可以依據(jù)第二數(shù)量計算錯誤率,即二而數(shù)量與總數(shù)量的比值,如上 述域名為的網(wǎng)站的錯誤率為33. 33%。
[0205] 按照正確率確定網(wǎng)站中興趣點數(shù)據(jù)的置信度,此時,置信度表征不可信度。
[0206] 在一個示例中,可以直接將正確率賦值給置信度;
[0207] 在另一個示例中,可以針對不同時間段的錯誤率配置權(quán)重,該權(quán)重按照時間衰減, 將配置權(quán)重的錯誤率按照求和等方式計算置信度。
[0208] 當然,上述置信度的計算方式只是作為示例,在實施本發(fā)明實施例時,可以根據(jù)實 際情況設(shè)置其他置信度的計算方式,本發(fā)明實施例對此不加以限制。另外,除了上述置信度 的計算方式外,本領(lǐng)域技術(shù)人員還可以根據(jù)實際需要采用其它置信度的計算方式,本發(fā)明 實施例對此也不加以限制。
[0209] 當置信度低于預(yù)設(shè)的第二閾值時,表明該網(wǎng)站的POI來源是不可信的,禁止從該 網(wǎng)站的網(wǎng)頁提取興趣點數(shù)據(jù)。
[0210] 本發(fā)明實施例從網(wǎng)頁提取中的興趣點數(shù)據(jù)中識別錯誤的第二目標興趣點數(shù)據(jù),并 統(tǒng)計歸屬同一個網(wǎng)站的第二目標興趣點數(shù)據(jù)的第二數(shù)量確定網(wǎng)站中興趣點數(shù)據(jù)的置信度, 從而在后續(xù)的操作中剔除這些錯誤的POI數(shù)據(jù),降低了操作的錯誤率,減少了資源浪費。
[0211] 進而,根據(jù)置信度禁止從這些不可信的POI數(shù)據(jù)來源抓取POI數(shù)據(jù),抓取到的POI 數(shù)據(jù)的正確性高,減少了計算機的系統(tǒng)資源和帶寬資源的浪費,提高了 POI數(shù)據(jù)抓取效率。
[0212] 參照圖3,示出了根據(jù)本發(fā)明一個實施例的一種網(wǎng)站中興趣點數(shù)據(jù)的置信度方法 實施例3的步驟流程圖,具體可以包括如下步驟:
[0213] 步驟301,在網(wǎng)頁中提取興趣點數(shù)據(jù);
[0214] 步驟302,從所述興趣點數(shù)據(jù)中識別正確的第一目標興趣點數(shù)據(jù)和錯誤的第二目 標興趣點數(shù)據(jù);
[0215] 步驟303,統(tǒng)計歸屬同一個網(wǎng)站的第一目標興趣點數(shù)據(jù)的第一數(shù)量和第二目標興 趣點數(shù)據(jù)的第二數(shù)量;
[0216] 步驟304,根據(jù)所述第一數(shù)量和所述第二數(shù)量確定所述網(wǎng)站中興趣點數(shù)據(jù)的置信 度。
[0217] 在本發(fā)明的一個可選實施例中,該方法還可以包括如下步驟:
[0218] 步驟305,當所述置信度高于預(yù)設(shè)的第一閾值時,允許從所述網(wǎng)站的網(wǎng)頁提取興趣 點數(shù)據(jù);
[0219] 步驟306,當所述置信度低于預(yù)設(shè)的第二閾值時,禁止從所述網(wǎng)站的網(wǎng)頁提取興趣 點數(shù)據(jù)。
[0220] 在本發(fā)明的一個可選實施例中,步驟301可以包括如下子步驟:
[0221] 子步驟S31,查找針對網(wǎng)頁配置的模板;
[0222] 子步驟S32,在所述網(wǎng)頁中,依據(jù)所述模板指示的位置提取興趣點數(shù)據(jù)。
[0223] 在本發(fā)明的一個可選實施例中,所述興趣點數(shù)據(jù)包括興趣點名稱;步驟302可以 包括如下子步驟:
[0224] 子步驟S41,將標識同一對象的興趣點名稱設(shè)置為興趣點名稱集合;
[0225] 子步驟S42,從所述興趣點名稱集合中識別正確的第一目標興趣點名稱和錯誤的 第二目標興趣點名稱;
[0226] 子步驟S43,確定所述第一目標興趣點名稱所屬的興趣點數(shù)據(jù)為正確的第一目標 興趣點數(shù)據(jù);
[0227] 子步驟S44,確定所述第二目標興趣點名稱所屬的興趣點數(shù)據(jù)為錯誤的第二目標 興趣點數(shù)據(jù)。
[0228] 在本發(fā)明的一個可選實施例中,所述興趣點數(shù)據(jù)包括興趣點地址;子步驟S41進 一步可以包括如下子步驟:
[0229] 子步驟S411,判斷所述興趣點地址是否相同或相似;若是,則執(zhí)行子步驟S412 ;
[0230] 子步驟S412,將所述興趣點地址關(guān)聯(lián)的興趣點名稱設(shè)置為興趣點名稱集合。
[0231] 在本發(fā)明的一個可選實施例中,子步驟S42進一步可以包括如下子步驟:
[0232] 子步驟S421,在所述興趣點名稱集合中的興趣點名稱選取關(guān)鍵詞;
[0233] 子步驟S422,依據(jù)所述關(guān)鍵詞從所述興趣點名稱中識別正確的第一目標興趣點名 稱和錯誤的第二目標興趣點名稱。
[0234] 在本發(fā)明的一個可選實施例中,子步驟S421進一步可以包括如下子步驟:
[0235] 子步驟S4211,對所述興趣點名稱集合中的興趣點名稱進行分詞處理,獲得一個或 多個分詞;
[0236] 子步驟S4212,查找所述分詞在預(yù)設(shè)的興趣點集合中的第一詞頻;
[0237] 子步驟S4213,將同一個興趣點名稱中第一詞頻最低的X個分詞,作為所述興趣點 名稱的關(guān)鍵詞,其中,X為正整數(shù)。
[0238] 在本發(fā)明的一個可選實施例中,子步驟S421進一步還可以包括如下子步驟:
[0239] 子步驟S4214,當所述分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時,移除所述分詞。
[0240] 在本發(fā)明的一個可選實施例中,子步驟S42