国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的判定方法和裝置的制造方法

      文檔序號(hào):8943112閱讀:419來源:國(guó)知局
      一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的判定方法和裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001] 本發(fā)明涉及計(jì)算機(jī)處理的技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度 方法和一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度裝置。
      【背景技術(shù)】
      [0002] 興趣點(diǎn)(Point of Interest,Ρ0Ι),又可以稱為"信息點(diǎn)",其包含多方面的信息, 如名稱、類別、經(jīng)度煒度等等。
      [0003] 在地理信息系統(tǒng)中,一個(gè)POI可以是一棟房子、一個(gè)商鋪、一個(gè)郵筒、一個(gè)公交站 等。
      [0004] 傳統(tǒng)的地理信息采集方法需要地圖測(cè)繪人員采用精密的測(cè)繪儀器去獲取一個(gè)興 趣點(diǎn)的經(jīng)煒度,然后再標(biāo)記下來。
      [0005] 正因?yàn)镻OI數(shù)據(jù)的采集是一個(gè)非常費(fèi)時(shí)費(fèi)事的工作,對(duì)一個(gè)地理信息系統(tǒng)來說, POI的數(shù)量在一定程度代表著整個(gè)系統(tǒng)的價(jià)值。
      [0006] 為了豐富地理信息系統(tǒng)的POI數(shù)據(jù)的數(shù)量,目前從網(wǎng)頁中挖掘POI數(shù)據(jù),大多是根 據(jù)網(wǎng)頁的結(jié)構(gòu)配置合適的模板,通過模板來提取。
      [0007] 但是,用戶并不一定會(huì)按照網(wǎng)頁的規(guī)定去發(fā)布信息,使得這些包含POI的網(wǎng)站中 充斥著大量的臟數(shù)據(jù),是錯(cuò)誤的POI數(shù)據(jù)。
      [0008] 例如,某個(gè)網(wǎng)站約定網(wǎng)頁的一個(gè)區(qū)域是發(fā)布公司名稱,但是,有的用戶可能發(fā)布諸 如"世界五百強(qiáng)企業(yè)"等數(shù)據(jù),并非是一個(gè)真正的POI名稱。
      [0009] 若后續(xù)應(yīng)用這些錯(cuò)誤的POI數(shù)據(jù)進(jìn)行導(dǎo)航等操作,操作的錯(cuò)誤率高,造成資源浪 費(fèi)。
      [0010] 并且,計(jì)算機(jī)一直抓取這些錯(cuò)誤的POI數(shù)據(jù),浪費(fèi)計(jì)算機(jī)的系統(tǒng)資源和帶寬資源, POI數(shù)據(jù)抓取效率很低。

      【發(fā)明內(nèi)容】

      [0011] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度方法和相應(yīng)的一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度 裝置。
      [0012] 依據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的判定方法,包 括:
      [0013] 在網(wǎng)頁中提取興趣點(diǎn)數(shù)據(jù);
      [0014] 從所述興趣點(diǎn)數(shù)據(jù)中識(shí)別錯(cuò)誤的第二目標(biāo)興趣點(diǎn)數(shù)據(jù);
      [0015] 統(tǒng)計(jì)歸屬同一個(gè)網(wǎng)站的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)的第二數(shù)量;
      [0016] 根據(jù)所述第二數(shù)量確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度。
      [0017] 可選地,還包括:
      [0018] 當(dāng)所述置信度低于預(yù)設(shè)的第二閾值時(shí),禁止從所述網(wǎng)站的網(wǎng)頁提取興趣點(diǎn)數(shù)據(jù)。
      [0019] 可選地,所述在網(wǎng)頁中提取興趣點(diǎn)數(shù)據(jù)的步驟包括:
      [0020] 查找針對(duì)網(wǎng)頁配置的模板;
      [0021] 在所述網(wǎng)頁中,依據(jù)所述模板指示的位置提取興趣點(diǎn)數(shù)據(jù)。
      [0022] 可選地,所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)名稱;
      [0023] 所述從所述興趣點(diǎn)數(shù)據(jù)中識(shí)別錯(cuò)誤的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)的步驟包括:
      [0024] 將標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合;
      [0025] 從所述興趣點(diǎn)名稱集合中識(shí)別錯(cuò)誤的第二目標(biāo)興趣點(diǎn)名稱;
      [0026] 確定所述第二目標(biāo)興趣點(diǎn)名稱所屬的興趣點(diǎn)數(shù)據(jù)為錯(cuò)誤的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)。
      [0027] 可選地,所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)地址;
      [0028] 所述將標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合的步驟包括:
      [0029] 判斷所述興趣點(diǎn)地址是否相同或相似;若是,則將所述興趣點(diǎn)地址關(guān)聯(lián)的興趣點(diǎn) 名稱設(shè)置為興趣點(diǎn)名稱集合。
      [0030] 可選地,所述從所述興趣點(diǎn)名稱集合中識(shí)別錯(cuò)誤的第二目標(biāo)興趣點(diǎn)名稱的步驟包 括:
      [0031] 在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞;
      [0032] 依據(jù)所述關(guān)鍵詞從所述興趣點(diǎn)名稱中識(shí)別錯(cuò)誤的第二目標(biāo)興趣點(diǎn)名稱。
      [0033] 可選地,所述在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞的步驟包括:
      [0034] 對(duì)所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱進(jìn)行分詞處理,獲得一個(gè)或多個(gè)分詞;
      [0035] 查找所述分詞在預(yù)設(shè)的興趣點(diǎn)集合中的第一詞頻;
      [0036] 將同一個(gè)興趣點(diǎn)名稱中第一詞頻最低的X個(gè)分詞,作為所述興趣點(diǎn)名稱的關(guān)鍵 詞,其中,X為正整數(shù)。
      [0037] 可選地,所述在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞的步驟還包括:
      [0038] 當(dāng)所述分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時(shí),移除所述分詞。
      [0039] 可選地,所述依據(jù)所述關(guān)鍵詞從所述興趣點(diǎn)名稱中識(shí)別錯(cuò)誤的第二目標(biāo)興趣點(diǎn)名 稱的步驟包括:
      [0040] 計(jì)算所述關(guān)鍵詞在所述興趣點(diǎn)集合中的第二詞頻;
      [0041] 將所述第二詞頻最低的Z個(gè)關(guān)鍵詞所屬的興趣點(diǎn)名稱作為錯(cuò)誤的第二目標(biāo)興趣 點(diǎn)名稱,其中,Z為正整數(shù)。
      [0042] 可選地,所述興趣點(diǎn)數(shù)據(jù)包括URL ;
      [0043] 所述統(tǒng)計(jì)歸屬同一個(gè)網(wǎng)站的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)的第二數(shù)量的步驟包括:
      [0044] 查找所述第二目標(biāo)興趣點(diǎn)數(shù)據(jù)對(duì)應(yīng)的URL ;
      [0045] 當(dāng)所述第二目標(biāo)興趣點(diǎn)數(shù)據(jù)對(duì)應(yīng)的URL屬于同一個(gè)網(wǎng)站的域名時(shí),統(tǒng)計(jì)所述第二 目標(biāo)興趣點(diǎn)數(shù)據(jù)的第二數(shù)量。
      [0046] 可選地,所述根據(jù)所述第二數(shù)量確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的步驟包 括:
      [0047] 依據(jù)所述第二數(shù)量計(jì)算錯(cuò)誤率;
      [0048] 按照所述錯(cuò)誤率確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度。
      [0049] 根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的判定裝置,包 括:
      [0050] 興趣點(diǎn)數(shù)據(jù)提取模塊,適于在網(wǎng)頁中提取興趣點(diǎn)數(shù)據(jù);
      [0051] 錯(cuò)誤興趣點(diǎn)數(shù)據(jù)識(shí)別模塊,適于從所述興趣點(diǎn)數(shù)據(jù)中識(shí)別錯(cuò)誤的第二目標(biāo)興趣點(diǎn) 數(shù)據(jù);
      [0052] 錯(cuò)誤數(shù)量統(tǒng)計(jì)模塊,適于統(tǒng)計(jì)歸屬同一個(gè)網(wǎng)站的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)的第二數(shù) 量;
      [0053] 不可信置信度確定模塊,適于根據(jù)所述第二數(shù)量確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置 信度。
      [0054] 可選地,還包括:
      [0055] 禁止提取模塊,適于在所述置信度低于預(yù)設(shè)的第二閾值時(shí),禁止從所述網(wǎng)站的網(wǎng) 頁提取興趣點(diǎn)數(shù)據(jù)。
      [0056] 可選地,所興趣點(diǎn)數(shù)據(jù)提取模塊還適于:
      [0057] 查找針對(duì)網(wǎng)頁配置的模板;
      [0058] 在所述網(wǎng)頁中,依據(jù)所述模板指示的位置提取興趣點(diǎn)數(shù)據(jù)。
      [0059] 可選地,所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)名稱;
      [0060] 所述錯(cuò)誤興趣點(diǎn)數(shù)據(jù)識(shí)別模塊還適于:
      [0061] 將標(biāo)識(shí)同一對(duì)象的興趣點(diǎn)名稱設(shè)置為興趣點(diǎn)名稱集合;
      [0062] 從所述興趣點(diǎn)名稱集合中識(shí)別錯(cuò)誤的第二目標(biāo)興趣點(diǎn)名稱;
      [0063] 確定所述第二目標(biāo)興趣點(diǎn)名稱所屬的興趣點(diǎn)數(shù)據(jù)為錯(cuò)誤的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)。
      [0064] 可選地,所述興趣點(diǎn)數(shù)據(jù)包括興趣點(diǎn)地址;
      [0065] 所述錯(cuò)誤興趣點(diǎn)數(shù)據(jù)識(shí)別模塊還適于:
      [0066] 判斷所述興趣點(diǎn)地址是否相同或相似;若是,則將所述興趣點(diǎn)地址關(guān)聯(lián)的興趣點(diǎn) 名稱設(shè)置為興趣點(diǎn)名稱集合。
      [0067] 可選地,所述錯(cuò)誤興趣點(diǎn)數(shù)據(jù)識(shí)別模塊還適于:
      [0068] 在所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱選取關(guān)鍵詞;
      [0069] 依據(jù)所述關(guān)鍵詞從所述興趣點(diǎn)名稱中識(shí)別錯(cuò)誤的第二目標(biāo)興趣點(diǎn)名稱。
      [0070] 可選地,所述錯(cuò)誤興趣點(diǎn)數(shù)據(jù)識(shí)別模塊還適于:
      [0071] 對(duì)所述興趣點(diǎn)名稱集合中的興趣點(diǎn)名稱進(jìn)行分詞處理,獲得一個(gè)或多個(gè)分詞;
      [0072] 查找所述分詞在預(yù)設(shè)的興趣點(diǎn)集合中的第一詞頻;
      [0073] 將同一個(gè)興趣點(diǎn)名稱中第一詞頻最低的X個(gè)分詞,作為所述興趣點(diǎn)名稱的關(guān)鍵 詞,其中,X為正整數(shù)。
      [0074] 可選地,所述錯(cuò)誤興趣點(diǎn)數(shù)據(jù)識(shí)別模塊還適于:
      [0075] 當(dāng)所述分詞與預(yù)設(shè)的地址數(shù)據(jù)匹配時(shí),移除所述分詞。
      [0076] 可選地,所述錯(cuò)誤興趣點(diǎn)數(shù)據(jù)識(shí)別模塊還適于:
      [0077] 計(jì)算所述關(guān)鍵詞在所述興趣點(diǎn)集合中的第二詞頻;
      [0078] 將所述第二詞頻最低的Z個(gè)關(guān)鍵詞所屬的興趣點(diǎn)名稱作為錯(cuò)誤的第二目標(biāo)興趣 點(diǎn)名稱,其中,Z為正整數(shù)。
      [0079] 可選地,所述興趣點(diǎn)數(shù)據(jù)包括URL ;
      [0080] 所述錯(cuò)誤數(shù)量統(tǒng)計(jì)模塊還適于:
      [0081 ] 查找所述第二目標(biāo)興趣點(diǎn)數(shù)據(jù)對(duì)應(yīng)的URL ;
      [0082] 當(dāng)所述第二目標(biāo)興趣點(diǎn)數(shù)據(jù)對(duì)應(yīng)的URL屬于同一個(gè)網(wǎng)站的域名時(shí),統(tǒng)計(jì)所述第二 目標(biāo)興趣點(diǎn)數(shù)據(jù)的第二數(shù)量。
      [0083] 可選地,所述不可信置信度確定模塊還適于:
      [0084] 依據(jù)所述第二數(shù)量計(jì)算錯(cuò)誤率;
      [0085] 按照所述錯(cuò)誤率確定所述網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度。
      [0086] 本發(fā)明實(shí)施例從網(wǎng)頁提取中的興趣點(diǎn)數(shù)據(jù)中識(shí)別錯(cuò)誤的第二目標(biāo)興趣點(diǎn)數(shù)據(jù),并 統(tǒng)計(jì)歸屬同一個(gè)網(wǎng)站的第二目標(biāo)興趣點(diǎn)數(shù)據(jù)的第二數(shù)量確定網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度, 從而在后續(xù)的操作中剔除這些錯(cuò)誤的POI數(shù)據(jù),降低了操作的錯(cuò)誤率,減少了資源浪費(fèi)。
      [0087] 進(jìn)而,根據(jù)置信度禁止從這些不可信的POI數(shù)據(jù)來源抓取POI數(shù)據(jù),抓取到的POI 數(shù)據(jù)的正確性高,減少了計(jì)算機(jī)的系統(tǒng)資源和帶寬資源的浪費(fèi),提高了 POI數(shù)據(jù)抓取效率。
      [0088] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
      【附圖說明】
      [0089] 通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
      [0090] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度方法實(shí)施 例1的步驟流程圖;
      [0091] 圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度方法實(shí)施 例2的步驟流程圖;
      [0092] 圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度方法實(shí)施 例3的步驟流程圖;
      [0093] 圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的判定裝 置實(shí)施例1的結(jié)構(gòu)框圖;
      [0094] 圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的判定裝 置實(shí)施例2的結(jié)構(gòu)框圖;以及
      [0095] 圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種網(wǎng)站中興趣點(diǎn)數(shù)據(jù)的置信度的判定裝 置實(shí)施例3的結(jié)構(gòu)框圖。
      【具體實(shí)施方式】
      [0096] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,
      當(dāng)前第1頁1 2 3 4 5 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1