對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法和設(shè)備的制作方法
【專利摘要】提供了一種對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法和設(shè)備。所述方法包括:選取地址中帶有鄰居描述關(guān)系的第一興趣點(diǎn);取出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn)并獲取第二興趣點(diǎn)的位置信息;利用第二興趣點(diǎn)的位置信息對第一興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)。根據(jù)本發(fā)明的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法可以校驗(yàn)傳統(tǒng)方法無法校驗(yàn)的興趣點(diǎn)數(shù)據(jù)位置,因此提升興趣點(diǎn)空間準(zhǔn)確率。
【專利說明】對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及基于位置的服務(wù)(LBS)領(lǐng)域,更具體地講,涉及LBS領(lǐng)域的興趣點(diǎn)空間位置檢驗(yàn)。
【背景技術(shù)】
[0002]導(dǎo)航在我們的日常生活中發(fā)揮的作用越來越大,導(dǎo)航產(chǎn)品逐漸向精細(xì)化、人性化、個性化的方向發(fā)展,這就對導(dǎo)航數(shù)據(jù)的準(zhǔn)確性提出了更高的要求。
[0003]導(dǎo)航數(shù)據(jù)包括存儲于導(dǎo)航器存儲設(shè)備中的電子地圖數(shù)據(jù),這些電子地圖數(shù)據(jù)顯示在屏幕上形成地圖圖像,電子地圖數(shù)據(jù)還包括一些興趣點(diǎn)信息。興趣點(diǎn)信息是電子地圖數(shù)據(jù)的重要組成部分,常常是使用頻率較高或者一定地域內(nèi)比較重要的設(shè)施信息,例如小區(qū)、學(xué)校、醫(yī)院、商場、超市、寫字樓、餐廳、賓館酒店、停車場等。興趣點(diǎn)信息通常包括興趣點(diǎn)的名稱、興趣點(diǎn)地址和電話號碼等信息。
[0004]興趣點(diǎn)空間準(zhǔn)確率是LBS產(chǎn)品的重要指標(biāo),也是影響LBS產(chǎn)品用戶體驗(yàn)的重要因素。
[0005]傳統(tǒng)方式下,空間準(zhǔn)確率是靠數(shù)據(jù)采集方來保證,使用方強(qiáng)依賴于來源方,目前校驗(yàn)興趣點(diǎn)空間位置的方法主要包括以下三種:
[0006]第一種是人工掃街復(fù)查,即人工到實(shí)際地點(diǎn)去確認(rèn)。這種方法需要大量的人力,當(dāng)需要校驗(yàn)的興趣點(diǎn)數(shù)據(jù)量越來越大時,使用純?nèi)斯?fù)查的成本會加大。
[0007]第二種是UGC(用戶原創(chuàng)內(nèi)容)方式。即,通過使用地圖產(chǎn)品的用戶反饋來修改錯誤的地點(diǎn)。這種方式由于受限于用戶反饋意識,反饋數(shù)量有限,因此局限性較大。
[0008]第三種是多個來源之間相互校驗(yàn)方式。在多個來源的地點(diǎn)數(shù)據(jù)都標(biāo)注在空間同一位置的情況下,如果四個同等可信度來源對同一個地點(diǎn)標(biāo)注的空間位置有一定距離,其中一個和其他三個隔得遠(yuǎn),則認(rèn)為這個孤立的來源方的這條數(shù)據(jù)是錯的。這種方式受限于各來源方數(shù)據(jù)規(guī)范的統(tǒng)一,且此方法本身具有缺陷,一是各個來源方的可信度不一樣,但是當(dāng)兩條數(shù)據(jù)出現(xiàn)不一致時,也不一定是可信度低的來源方是錯誤數(shù)據(jù);二是各來源數(shù)據(jù)互補(bǔ)的集合大,重合的區(qū)間小,非重合數(shù)據(jù)此方法無法校驗(yàn)。
[0009]因此,需要一種能夠更準(zhǔn)確地對興趣點(diǎn)空間位置進(jìn)行校驗(yàn)的方法。
【發(fā)明內(nèi)容】
[0010]根據(jù)本發(fā)明的一方面,提供了一種對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法,包括:選取地址中帶有鄰居描述關(guān)系的第一興趣點(diǎn);取出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn)并獲取第二興趣點(diǎn)的位置信息;利用第二興趣點(diǎn)的位置信息對第一興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)。
[0011]取出第二興趣點(diǎn)并獲取第二興趣點(diǎn)的位置信息可包括:將所存儲的所有興趣點(diǎn)構(gòu)建成Trie樹;用第一興趣點(diǎn)在Trie樹中找出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn);取出第二興趣點(diǎn)的位置信息。[0012]如果沒有找出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn),則可將所述第二興趣點(diǎn)作為新增點(diǎn)補(bǔ)充到興趣點(diǎn)庫中。
[0013]對第一興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)可包括:將第一興趣點(diǎn)地址中的鄰居描述關(guān)系以及弟二興趣點(diǎn)地址中的鄰居描述關(guān)系保存成鄰居關(guān)系表;從鄰居關(guān)系表中取出弟一興趣點(diǎn)對應(yīng)的第二興趣點(diǎn),并使用第一興趣點(diǎn)和第二興趣點(diǎn)的坐標(biāo)和鄰居位置關(guān)系來校正第一興趣點(diǎn)的位置信息。
[0014]所述方法可還包括:基于校驗(yàn)出的位置信息錯誤的錯誤興趣點(diǎn)和位置信息正確的正確興趣點(diǎn)提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列;基于興趣點(diǎn)對提取的操作歷史序列進(jìn)行聚合以得到針對正確興趣點(diǎn)的正確操作序列和針對錯誤興趣點(diǎn)的錯誤操作序列;提取所有含有錯誤操作序列的興趣點(diǎn)作為興趣點(diǎn)錯誤數(shù)據(jù)。
[0015]提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列可包括:在用戶日志中預(yù)先記錄用戶對興趣點(diǎn)的操作歷史信息;按照時間順序?qū)⑼挥脩舻牟僮鳉v史信息進(jìn)行排序并記錄其操作對應(yīng)的興趣點(diǎn)信息;對排序后的操作歷史信息中的連續(xù)操作行為進(jìn)行去重;按時間間隔將去重后的操作歷史信息切分為不同的操作序列。
[0016]所述方法可還包括:對提取的興趣點(diǎn)錯誤數(shù)據(jù)進(jìn)行過濾以找出錯誤提取的非興趣點(diǎn)錯誤數(shù)據(jù)。
[0017]根據(jù)本發(fā)明的另一方面,提供了一種對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的設(shè)備,包括:興趣點(diǎn)選取單元,選取地址中帶有鄰居描述關(guān)系的第一興趣點(diǎn);鄰居點(diǎn)獲取單元,取出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn)并獲取第二興趣點(diǎn)的位置信息;位置信息校驗(yàn)單元,利用第二興趣點(diǎn)的位置信息對第一興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)。
[0018]鄰居點(diǎn)獲取單元可包括:Trie樹創(chuàng)建單元,將所存儲的所有興趣點(diǎn)構(gòu)建成Trie樹;鄰居點(diǎn)尋找單元,用第一興趣點(diǎn)在Trie樹中找出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn);鄰居點(diǎn)位置信息取出單元,取出第二興趣點(diǎn)的位置信息。
[0019]鄰居點(diǎn)獲取單元可還包括:興趣點(diǎn)增加單元,如果鄰居點(diǎn)尋找單元沒有找出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn),則將所述第二興趣點(diǎn)作為新增點(diǎn)補(bǔ)充到興趣點(diǎn)庫中。
[0020]位置信息校驗(yàn)單元可將第一興趣點(diǎn)地址中的鄰居描述關(guān)系以及第二興趣點(diǎn)地址中的鄰居描述關(guān)系保存成鄰居關(guān)系表,從鄰居關(guān)系表中取出弟一興趣點(diǎn)對應(yīng)的弟二興趣點(diǎn),并使用第一興趣點(diǎn)和第二興趣點(diǎn)的坐標(biāo)和鄰居位置關(guān)系來校正第一興趣點(diǎn)的位置信
肩、O
[0021]所述設(shè)備可還包括:操作歷史序列提取單元,基于校驗(yàn)出的位置信息錯誤的錯誤興趣點(diǎn)和位置信息正確的正確興趣點(diǎn)提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列;操作歷史序列聚合單元,基于興趣點(diǎn)對提取的操作歷史序列進(jìn)行聚合以得到針對正確興趣點(diǎn)的正確操作序列和針對錯誤興趣點(diǎn)的錯誤操作序列;錯誤數(shù)據(jù)提取單元,提取所有含有錯誤操作序列的興趣點(diǎn)作為興趣點(diǎn)錯誤數(shù)據(jù)。
[0022]操作歷史序列提取單元可包括:操作歷史記錄單元,在用戶日志中預(yù)先記錄用戶對興趣點(diǎn)的操作歷史信息;操作歷史排序單元,按照時間順序?qū)⑼挥脩舻牟僮鳉v史信息進(jìn)行排序并記錄其操作對應(yīng)的興趣點(diǎn)信息;連續(xù)操作去重單元,對排序后的操作歷史信息中的連續(xù)操作行為進(jìn)行去重;切分單元,按時間間隔將去重后的操作歷史信息切分為不同的操作序列。
[0023]所述設(shè)備可還包括:錯誤數(shù)據(jù)過濾單元,對提取的興趣點(diǎn)錯誤數(shù)據(jù)進(jìn)行過濾以找出錯誤提取的非興趣點(diǎn)錯誤數(shù)據(jù)。
[0024]根據(jù)本發(fā)明的另一方面,提供了一種對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法,包括:基于位置信息錯誤的錯誤興趣點(diǎn)和位置信息正確的正確興趣點(diǎn)提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列;基于興趣點(diǎn)對提取的操作歷史序列進(jìn)行聚合以得到針對正確興趣點(diǎn)的正確操作序列和針對錯誤興趣點(diǎn)的錯誤操作序列;提取所有含有錯誤操作序列的興趣點(diǎn)作為興趣點(diǎn)錯誤數(shù)據(jù)。
[0025]提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列可包括:在用戶日志中預(yù)先記錄用戶對興趣點(diǎn)的操作歷史信息;按照時間順序?qū)⑼挥脩舻牟僮鳉v史信息進(jìn)行排序并記錄其操作對應(yīng)的興趣點(diǎn)信息;對排序后的操作歷史信息中的連續(xù)操作行為進(jìn)行去重;按時間間隔將去重后的操作歷史信息切分為不同的操作序列。
[0026]所述方法可還包括:對提取的興趣點(diǎn)錯誤數(shù)據(jù)進(jìn)行過濾以找出錯誤提取的非興趣點(diǎn)錯誤數(shù)據(jù)。
[0027]根據(jù)本發(fā)明的另一方面,提供了一種對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的設(shè)備,包括:操作歷史序列提取單元,基于位置信息錯誤的錯誤興趣點(diǎn)和位置信息正確的正確興趣點(diǎn)提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列;操作歷史序列聚合單元,基于興趣點(diǎn)對提取的操作歷史序列進(jìn)行聚合以得到針對正確興趣點(diǎn)的正確操作序列和針對錯誤興趣點(diǎn)的錯誤操作序列;錯誤數(shù)據(jù)提取單元,提取所有含有錯誤操作序列的興趣點(diǎn)作為興趣點(diǎn)錯誤數(shù)據(jù)。
[0028]操作歷史序列提取單元可包括:操作歷史記錄單元,在用戶日志中預(yù)先記錄用戶對興趣點(diǎn)的操作歷史信息;操作歷史排序單元,按照時間順序?qū)⑼挥脩舻牟僮鳉v史信息進(jìn)行排序并記錄其操作對應(yīng)的興趣點(diǎn)信息;連續(xù)操作去重單元,對排序后的操作歷史信息中的連續(xù)操作行為進(jìn)行去重;切分單元,按時間間隔將去重后的操作歷史信息切分為不同的操作序列。
[0029]所述設(shè)備可還包括:錯誤數(shù)據(jù)過濾單元,對提取的興趣點(diǎn)錯誤數(shù)據(jù)進(jìn)行過濾以找出錯誤提取的非興趣點(diǎn)錯誤數(shù)據(jù)。
[0030]將在接下來的描述中部分闡述本發(fā)明另外的方面和/或優(yōu)點(diǎn),還有一部分通過描述將是清楚的,或者可以經(jīng)過本發(fā)明的實(shí)施而得知。
【專利附圖】
【附圖說明】
[0031]通過下面結(jié)合附圖對本發(fā)明的實(shí)施例進(jìn)行描述,本發(fā)明的上述和其他目的將會變得更加清楚,其中:
[0032]圖1是示出根據(jù)本發(fā)明第一實(shí)施例的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法的流程圖;
[0033]圖2是示出圖1中的取出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn)并獲取第二興趣點(diǎn)的位置信息的過程的流程圖;
[0034]圖3是鄰居關(guān)系表的不意圖;
[0035]圖4是單點(diǎn)校驗(yàn)的示意圖;[0036]圖5是多點(diǎn)校驗(yàn)的示意圖;
[0037]圖6是示出根據(jù)本發(fā)明第二實(shí)施例的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法的流程圖;
[0038]圖7是示出根據(jù)本發(fā)明第三實(shí)施例的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的設(shè)備的結(jié)構(gòu)的框圖;
[0039]圖8是示出圖7中的鄰居點(diǎn)獲取單元的結(jié)構(gòu)的框圖;
[0040]圖9是示出根據(jù)本發(fā)明第四實(shí)施例的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的設(shè)備的結(jié)構(gòu)的框圖;
[0041]圖10是示出操作歷史序列提取單元的結(jié)構(gòu)的框圖。
【具體實(shí)施方式】
[0042]圖1是示出根據(jù)本發(fā)明第一實(shí)施例的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法的流程圖。
[0043]根據(jù)本發(fā)明第一實(shí)施例的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法是基于興趣點(diǎn)的鄰居關(guān)系來對興趣點(diǎn)的位置進(jìn)行校驗(yàn)的方法。鄰居關(guān)系是指興趣點(diǎn)之間相近的空間位置的位置關(guān)系,因此可以借助鄰居關(guān)系中的對方的位置和相對自己的方向來描述自己的位置。例如興趣點(diǎn)Poi A的地址為XX區(qū)XX工業(yè)園B以南30米,則AB具有鄰居關(guān)系。
[0044]因此,如果 第一興趣點(diǎn)的地址中帶有第二興趣點(diǎn)的信息,則第一興趣點(diǎn)與第二興趣點(diǎn)具有鄰居關(guān)系,在第二興趣點(diǎn)也同時具有對應(yīng)的鄰居關(guān)系的情況下,則可確定第一興趣點(diǎn)的位置信息正確。下面對該方法進(jìn)行詳細(xì)描述。
[0045]在101中,選取地址中帶有鄰居描述關(guān)系的弟一興趣點(diǎn)。
[0046]帶有鄰居描述關(guān)系的第一興趣點(diǎn)包括興趣點(diǎn)的名稱,地址,電話,分類,坐標(biāo)等信息。應(yīng)該理解,可存在帶有鄰居描述關(guān)系的一個或多個第一興趣點(diǎn)(以下針對具有鄰居描述關(guān)系的一個興趣點(diǎn)進(jìn)行描述,即以下所稱的第一興趣點(diǎn)就是指具有鄰居描述關(guān)系的一個興趣點(diǎn))。
[0047]例如,可通過關(guān)鍵字識別,通過正則表達(dá)式從存儲了需要進(jìn)行校驗(yàn)的興趣點(diǎn)的庫中取出帶有鄰居描述關(guān)系的興趣點(diǎn)的集合。
[0048]在102中,取出與弟一興趣點(diǎn)具有鄰居描述關(guān)系的弟二興趣點(diǎn)并犾取弟二興趣點(diǎn)的位置信息。
[0049]應(yīng)該理解,第二興趣點(diǎn)是第一興趣點(diǎn)的一個或多個鄰居點(diǎn)的統(tǒng)稱。
[0050]例如,在101中取出興趣點(diǎn)A,興趣點(diǎn)A的地址描述是信息路B點(diǎn)以南100米(鄰居描述關(guān)系是:信息路B點(diǎn)以南100米)的情況下,在102中取出B點(diǎn)的位置信息。
[0051]下面參照圖2對102進(jìn)行詳細(xì)描述。
[0052]在201中,將所存儲的所有興趣點(diǎn)構(gòu)建成Trie樹。
[0053]其中,所有興趣點(diǎn)包含了地址中含有鄰居描述的興趣點(diǎn)和地址中沒有含有鄰居描述的興趣點(diǎn)。Trie樹是計(jì)算機(jī)科學(xué)的一種數(shù)據(jù)結(jié)構(gòu),是一種經(jīng)常用于查找的字典樹,該樹形結(jié)構(gòu)是一種有效提聞查找匹配字符串效率的方式。
[0054]在202中,用第一興趣點(diǎn)在Trie樹中找出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn)(以下稱為鄰居點(diǎn))。[0055]例如,可通過正向匹配來取出鄰居點(diǎn)。
[0056]其中,相對于逆向匹配而言,正向匹配是指從頭開始匹配,逆向匹配則是指從尾部開始倒序匹配。例如A的地址是上地信息路甲9號聯(lián)想大廈附近,正向匹配的方式就是從“上”開始匹配,如果Trie樹中沒有找到“上”,就往下匹配“地”,依次往下,例如找到“聯(lián)”字,在Trie樹中找到了,就在它的子節(jié)點(diǎn)查找“想”,如果“想”是一個葉子節(jié)點(diǎn),那么“聯(lián)想”就是一個正確匹配出的結(jié)果,如果“聯(lián)想大廈“也被匹配出來,那么根據(jù)最大正向匹配的原則會選擇“聯(lián)想大廈作為最終的結(jié)果”。
[0057]如果找出多個鄰居點(diǎn),則根據(jù)找出的多個鄰居點(diǎn)依次進(jìn)行校驗(yàn)。[0058]如果沒有成功匹配出鄰居點(diǎn),則說明需要進(jìn)行校驗(yàn)的興趣點(diǎn)的地址中描述鄰居關(guān)系的點(diǎn)與存儲所有興趣點(diǎn)的數(shù)據(jù)庫中的興趣點(diǎn)名稱不一致。其原因在于:從圖商處買來的所有的興趣點(diǎn)通??删哂袔讉€信息,即興趣點(diǎn)的名稱、地址、電話、坐標(biāo)、分類等。假如圖商采集的時候一個興趣點(diǎn)Poi A的地址是上地信息路甲9號奎科信息科技大廈旁,而另一個興趣點(diǎn)Poi B的名稱是奎科科技信息大廈,這樣用Trie樹去匹配地址“上地信息路甲9號奎科大廈旁”就會匹配不出來奎科信息科技大廈,而實(shí)際上A的鄰居點(diǎn)就是B。
[0059]對于這種情況,可通過這樣的解決方案來解決:對A地址進(jìn)行切詞,粒度粘結(jié),并利用規(guī)則過濾非興趣點(diǎn)項(xiàng),從而取出鄰居點(diǎn)項(xiàng),將鄰居點(diǎn)項(xiàng)進(jìn)行興趣點(diǎn)檢索,對召回的結(jié)果進(jìn)行城市過濾以及和項(xiàng)的相似度計(jì)算,從而取出鄰居興趣點(diǎn)。該解決方案屬于現(xiàn)有技術(shù),因此在此不進(jìn)行更加詳細(xì)的描述。
[0060]在步驟203,確定是否找到了鄰居點(diǎn)。
[0061]在203找到鄰居點(diǎn)之后,在204中,取出鄰居點(diǎn)的位置信息,即鄰居點(diǎn)地址的鄰居描述關(guān)系。
[0062]例如,可通過正則表達(dá)式取出鄰居描述關(guān)系,其中鄰居描述關(guān)系包括鄰居方式,例如,XX點(diǎn)以東I西I南I北…米,或者東南西北角等。其中,正則表達(dá)式使用單個字符串來描述、匹配一系列符合某個句法規(guī)則的字符串。正則表達(dá)式通常被用來檢索、替換那些符合某個模式的文本。
[0063]然而,如果在203無法找到鄰居點(diǎn),說明沒有收錄該鄰居點(diǎn),則在205將取出的鄰居點(diǎn)作為新增點(diǎn)補(bǔ)充到興趣點(diǎn)庫中。
[0064]現(xiàn)在返回圖1,在103,利用第二興趣點(diǎn)的位置信息對第一興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)。
[0065]具體的講,首先,可將第一興趣點(diǎn)地址中的鄰居描述關(guān)系以及第二興趣點(diǎn)地址中的鄰居描述關(guān)系保存成鄰居關(guān)系表。
[0066]例如,鄰居關(guān)系表的格式可以是:左側(cè)表格記錄第一興趣點(diǎn)poi (主點(diǎn))的信息(例如,第一興趣點(diǎn)POi的名稱、地址和坐標(biāo)等),右側(cè)表格記錄與第一興趣點(diǎn)對應(yīng)的鄰居點(diǎn)列表(例如,鄰居點(diǎn)的地址、坐標(biāo)、鄰居方式、閾值)。
[0067]而當(dāng)鄰居點(diǎn)不在興趣點(diǎn)庫中存在時,該鄰居點(diǎn)作為新增點(diǎn)保存,地址為NULL,坐標(biāo)標(biāo)記為新增,鄰居方式和閾值不變。
[0068]圖3是鄰居關(guān)系表的不意圖。
[0069]如圖3所示,在第一行中,興趣點(diǎn)Poi A記錄在左側(cè),同時記錄了興趣點(diǎn)Poi A的地址(即XX路B點(diǎn)附近)以及坐標(biāo),興趣點(diǎn)Poi A存在三個鄰居興趣點(diǎn),即Poi B,Poi C、Poi D,記錄在右側(cè)。其中,記錄了 Poi B的地址是XX路E點(diǎn)附近、坐標(biāo)、鄰居方式(附近)、閾值(100米);Poi C的地址是XX路A點(diǎn)以南100米、坐標(biāo)、鄰居方式(北)、閾值(100米);Poi D的地址是XX路A點(diǎn)東南角、坐標(biāo)、鄰居方式(西南角)、閾值(100米)。
[0070]此外,從圖3中可以看出,在以興趣點(diǎn)Poi C作為主點(diǎn)獲取鄰居點(diǎn)時,從Poi C的地址(X路A點(diǎn)以南100米)中取出了鄰居點(diǎn)A,因此增加會新增一項(xiàng)紀(jì)錄C->A(如第三行),同時也會將C點(diǎn)放入A的鄰居列表中(見第一行中Poi A的鄰居點(diǎn)列表),鄰居方式改為相對的鄰居關(guān)系,閾值與C->A相等。
[0071]另外,對于興趣點(diǎn)Poi B (Poi B的地址為XX路E點(diǎn)附近),由于在存儲所有興趣點(diǎn)的庫中不存在鄰居點(diǎn)Poi E,因此Poi E作為新增點(diǎn)進(jìn)行保存,地址為NULL,坐標(biāo)標(biāo)記為新增。
[0072]其次,可從鄰居關(guān)系表中取出第一興趣點(diǎn)對應(yīng)的鄰居點(diǎn),并使用興趣點(diǎn)和對應(yīng)鄰居點(diǎn)的坐標(biāo)和鄰居位置關(guān)系來校正第一興趣點(diǎn)的位置信息。
[0073]在從鄰居關(guān)系表中取出的一興趣點(diǎn)的鄰居點(diǎn)只有一個的情況下,執(zhí)行單點(diǎn)校驗(yàn)。
[0074]圖4是示出單點(diǎn)校驗(yàn)的示意圖。例如,如圖4所示,興趣點(diǎn)poi C(墨卡托坐標(biāo)為(xl,yl),地址為X路A點(diǎn)以南100米)只有一個鄰居點(diǎn)A(Poi A,墨卡托坐標(biāo)為(x2,y2)地址為XX路B點(diǎn)附近),對興趣點(diǎn)poiC進(jìn)行校驗(yàn)可包括鄰居方式校驗(yàn)和距離校驗(yàn)中的至少一個:
[0075]鄰居方式校驗(yàn)根據(jù)興趣點(diǎn)位置信息關(guān)系來對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)。例如興趣點(diǎn)C在興趣點(diǎn)A的南邊,若y2〈yl則興趣點(diǎn)C通過鄰居方式校驗(yàn)并且確定C點(diǎn)的位置數(shù)據(jù)為正確位置數(shù)據(jù),否則為錯誤位置數(shù)據(jù);
[0076]距離校驗(yàn)根據(jù)興趣點(diǎn)與鄰居點(diǎn)之間的距離來對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)。例如,若滿足興趣點(diǎn)C和鄰居點(diǎn)A之間的距離distance (A, C)〈140+X則通過校驗(yàn),否則為錯誤位置數(shù)據(jù)。
[0077]其中,X為閾值,由兩個因素決定:第一因素是分類。即不同分類取不同閾值。分類是每個興趣點(diǎn)的一個屬性,興趣點(diǎn)的屬性有名稱、地址、電話和分類,比如全聚德王府井店,這個興趣點(diǎn)的分類是餐飲,頤和園這個興趣點(diǎn)的分類是旅游景點(diǎn)。第二因素是鄰居點(diǎn)知名度調(diào)權(quán)。鄰居點(diǎn)為知名地點(diǎn)的情況下,距離閾值應(yīng)該放寬。知名度由類別和被展現(xiàn)次數(shù)共同決定。上式中的140是個多次調(diào)整嘗試的經(jīng)驗(yàn)值。應(yīng)該理解,該值可根據(jù)具體情況而改變。
[0078]圖4中示出的Cl、C2和C2是興趣點(diǎn)C的地理位置可能出現(xiàn)的情況。通過單點(diǎn)校驗(yàn)可確定C2點(diǎn)的位置是正確的。
[0079]另外,在從鄰居關(guān)系表中取出的一興趣點(diǎn)的鄰居點(diǎn)存在多個的情況下,執(zhí)行多點(diǎn)校驗(yàn)。
[0080]圖5是示出多點(diǎn)校驗(yàn)的示意圖。
[0081]例如,如圖5所不,在從鄰居關(guān)系表中取出的例如興趣點(diǎn)A的鄰居點(diǎn)存在多個鄰居點(diǎn)(例如,鄰居點(diǎn)B、C、D)的情況下,執(zhí)行多點(diǎn)校驗(yàn)。多點(diǎn)校驗(yàn)過程如下:
[0082]首先,根據(jù)單點(diǎn)校驗(yàn)中的分類閾值和知名度閾值調(diào)權(quán),求出鄰居點(diǎn)的鄰居輻射面積。鄰居輻射面積是根據(jù)鄰居點(diǎn)的地址中的鄰居描述關(guān)系確定的圖形面積。
[0083]例如,如圖5所不,鄰居點(diǎn)BCD的鄰居福射面積是跟鄰居關(guān)系綁定的,周圍和附近是以該點(diǎn)為圓心的100米范圍,東南則是該點(diǎn)為圓心的100米為半徑的圓的右下角的扇形。
[0084]其次,求鄰居點(diǎn)的鄰居輻射面積的空間交集。
[0085]最后,根據(jù)空間交集確定興趣點(diǎn)的位置信息是否正確。
[0086]如圖5所示,如果興趣點(diǎn)A落在空間交集內(nèi),則通過多點(diǎn)驗(yàn)證;如果A點(diǎn)沒有落在空間交集內(nèi),則分別對興趣點(diǎn)A和鄰居點(diǎn)BCD做單點(diǎn)驗(yàn)證,假如鄰居點(diǎn)CD通過驗(yàn)證,鄰居點(diǎn)B沒有通過驗(yàn)證,則錯誤點(diǎn)為鄰居點(diǎn)B。
[0087]另外,對于新增點(diǎn),如果興趣點(diǎn)A的鄰居點(diǎn)B沒有在庫中找到,說明沒有收錄此點(diǎn),可以將鄰居點(diǎn)B作為新增點(diǎn),通過興趣點(diǎn)A點(diǎn)定位出鄰居點(diǎn)B的空間位置,從而增加興趣點(diǎn)
的覆蓋率。
[0088]圖6是示出根據(jù)本發(fā)明第二實(shí)施例的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法的流程圖。
[0089]根據(jù)本發(fā)明第二實(shí)施例的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法是基于用戶行為對興趣點(diǎn)位置信息錯誤數(shù)據(jù)進(jìn)行校正的方法。具體地講,該實(shí)施例通過對用戶歷史行為的分析以及錯誤數(shù)據(jù)對操作序列擬合來挖掘興趣點(diǎn)位置信息錯誤數(shù)據(jù)。
[0090]如圖6所示,在601,分別基于已經(jīng)發(fā)現(xiàn)的位置信息錯誤的興趣點(diǎn)(以下稱為錯誤興趣點(diǎn))和已經(jīng)發(fā)現(xiàn)的位置信息正確的興趣點(diǎn)(以下稱為正確興趣點(diǎn))提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列。
[0091]例如,這里的已經(jīng)發(fā)現(xiàn)的錯誤興趣點(diǎn)和已經(jīng)發(fā)現(xiàn)的正確興趣點(diǎn)可指通過圖1-圖5進(jìn)行的上述描述校驗(yàn)出的正確興趣點(diǎn)和錯誤興趣點(diǎn)。
[0092]例如,操作歷史可從用戶日志中獲得。
[0093]具體的講,首先,在用戶日志中預(yù)先記錄用戶對興趣點(diǎn)的操作歷史信息。操作信息包括請求類型、請求時間、請求的興趣點(diǎn)信息以及用戶標(biāo)識(id)。請求類型可包括檢索、放大縮小底圖、點(diǎn)擊等等操作,并且分別對各個請求類型賦予不同的序列代號。例如,檢索請求為I,放大請求為2,縮小請求為3,點(diǎn)擊行為為4。
[0094]對于未登錄用戶(即不存在用戶id),可用cookie。
[0095]其次,按照時間順序?qū)⑼挥脩舻牟僮鳉v史信息進(jìn)行排序并記錄其操作對應(yīng)的興趣點(diǎn)信息。
[0096]然后,可對排序后的操作歷史信息中的連續(xù)操作行為進(jìn)行去重。例如,在假設(shè)檢索請求為1,放大請求為2,縮小請求為3,點(diǎn)擊行為為4的情況下,如果用戶A的操作歷史為1222234,用戶B的操作歷史為122234 ;則去重處理后的用戶A和用戶B的有效操作都為1234。
[0097]最后,按時間間隔將操作歷史信息切分為不同的操作序列。例如A用戶對一興趣點(diǎn)的操作歷史為12345678,其中操作1234之間的時間間隔都是5s內(nèi),5678之間的時間間隔也在5s內(nèi),4和5之間的時間間隔是3小時以上,那么將A用戶對該興趣點(diǎn)的操作歷史切分為兩個操作序列1234和5678。
[0098]應(yīng)該理解,上述對用戶日志的操作可根據(jù)需要進(jìn)行執(zhí)行,而非必須對用戶日志執(zhí)行上述所有操作。
[0099]現(xiàn)返回圖6,在602,基于興趣點(diǎn)對提取的操作歷史序列進(jìn)行聚合以得到針對正確興趣點(diǎn)的正確操作序列和針對錯誤興趣點(diǎn)的錯誤操作序列。[0100]這里聚合的方法可以是但不限于操作序列的公共子序列相似度計(jì)算,線性序列相似度計(jì)算等。如果采用公共子序列相似度計(jì)算,可以得到的不同用戶對同一個興趣點(diǎn)的歷史操作序列包括:123456、123457、1378902876、12345678。
[0101]在603,提取所有含有錯誤操作序列的興趣點(diǎn)作為興趣點(diǎn)錯誤數(shù)據(jù)。
[0102]通過上述操作,本發(fā)明第二實(shí)施例的方法便能夠挖掘出潛在的錯誤數(shù)據(jù)。
[0103]為了更精確地挖掘出錯誤數(shù)據(jù),上述提取的興趣點(diǎn)錯誤數(shù)據(jù)中存在不是錯誤數(shù)據(jù)的情況出現(xiàn),本發(fā)明第二實(shí)施例還可包括:例如,在604,對在603中提取的興趣點(diǎn)錯誤數(shù)據(jù)進(jìn)行過濾以找出錯誤提取的非興趣點(diǎn)錯誤數(shù)據(jù)。
[0104]過濾方法可包括但不限于“正確操作序列過濾”和“疑似錯誤操作序列與展現(xiàn)次數(shù)比例排序過濾”。
[0105]對于“正確操作序列過濾”,例如,興趣點(diǎn)Poi A的操作序列是112233445566777,假如錯誤操作序列是556677,則在603可將該興趣點(diǎn)PoiA確定為疑似錯誤數(shù)據(jù),然而假如存在一個正確操作序列為112233,則在604可排除興趣點(diǎn)Poi A是錯誤數(shù)據(jù)。
[0106]關(guān)于“疑似錯誤操作序列與展現(xiàn)次數(shù)比例排序過濾”,例如,如果一個興趣點(diǎn)Poi B展現(xiàn)給用戶次數(shù)是100次,用戶對這個興趣點(diǎn)Poi B的歷史操作有30次為錯誤操作序列,那么比例就是30%,每個興趣點(diǎn)poi都有一個這樣的比例值,這個值越高,是錯誤數(shù)據(jù)的可能性就越大,按這個比例值排序,取前50%或者其他閾值的興趣點(diǎn)認(rèn)為是錯誤興趣點(diǎn)。
[0107]通過對興趣點(diǎn)反復(fù)執(zhí)行上述操作,可挖掘出更多的錯誤數(shù)據(jù)。
[0108]圖7是示出根據(jù)本發(fā)明第三實(shí)施例的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的設(shè)備的結(jié)構(gòu)的框圖。
[0109]該設(shè)備包括興趣點(diǎn)選取單元701、鄰居點(diǎn)獲取單元702和位置信息校驗(yàn)單元703。
[0110]下面分別對各單元進(jìn)行詳細(xì)描述。
[0111]興趣點(diǎn)選取單元701用于選取地址中帶有鄰居描述關(guān)系的第一興趣點(diǎn)。帶有鄰居描述關(guān)系的第一興趣點(diǎn)包括興趣點(diǎn)的名稱,地址,電話,分類,坐標(biāo)等信息。應(yīng)該理解,這里的第一興趣點(diǎn)是帶有鄰居描述關(guān)系的一個或多個興趣點(diǎn)的統(tǒng)稱。
[0112]例如,興趣點(diǎn)選取單元701可通過關(guān)鍵字識別,通過正則表達(dá)式從存儲了需要進(jìn)行校驗(yàn)的興趣點(diǎn)的庫中取出帶有鄰居描述關(guān)系的興趣點(diǎn)的集合。
[0113]鄰居點(diǎn)獲取單元702用于取出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn)并獲取第二興趣點(diǎn)的位置信息。
[0114]應(yīng)該理解,第二興趣點(diǎn)是第一興趣點(diǎn)的一個或多個鄰居點(diǎn)的統(tǒng)稱。
[0115]圖8是示出圖7中的鄰居點(diǎn)獲取單元702的結(jié)構(gòu)的框圖。
[0116]如圖8所示,鄰居點(diǎn)獲取單元702包括Trie樹創(chuàng)建單元801、鄰居點(diǎn)尋找單元802、鄰居點(diǎn)位置信息取出單元803和興趣點(diǎn)增加單元804。
[0117]Trie樹創(chuàng)建單元801用于將所存儲的所有興趣點(diǎn)構(gòu)建成Trie樹。
[0118]其中,所有興趣點(diǎn)包含了地址中含有鄰居描述的興趣點(diǎn)和地址中沒有含有鄰居描述的興趣點(diǎn)。
[0119]鄰居點(diǎn)尋找單元802用于用第一興趣點(diǎn)在Trie樹中找出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn)(以下稱為鄰居點(diǎn))。
[0120]例如,鄰居點(diǎn)尋找單元802可通過正向匹配來取出鄰居點(diǎn)。[0121]如果鄰居點(diǎn)尋找單元802找出多個鄰居點(diǎn),則根據(jù)找出的多個鄰居點(diǎn)依次進(jìn)行校驗(yàn)。如果鄰居點(diǎn)尋找單元802沒有成功匹配出鄰居點(diǎn),則說明需要進(jìn)行校驗(yàn)的興趣點(diǎn)的地址中描述鄰居關(guān)系的點(diǎn)與存儲所有興趣點(diǎn)的數(shù)據(jù)庫中的興趣點(diǎn)名稱不一致。
[0122]鄰居點(diǎn)位置信息取出單兀803用于取出鄰居點(diǎn)的位置信息,即鄰居點(diǎn)地址的鄰居描述關(guān)系。
[0123]例如,鄰居點(diǎn)位置信息取出單元803可通過正則表達(dá)式取出鄰居描述關(guān)系,其中鄰居描述關(guān)系包括鄰居方式。
[0124]興趣點(diǎn)增加單元804用于將沒有找到的鄰居點(diǎn)作為新增點(diǎn)補(bǔ)充到興趣點(diǎn)庫中。
[0125]位置信息校驗(yàn)單元703用于利用第二興趣點(diǎn)的位置信息對第一興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)。
[0126]位置信息校驗(yàn)單元703可將第一興趣點(diǎn)地址中的鄰居描述關(guān)系以及第二興趣點(diǎn)地址中的鄰居描述關(guān)系保存成鄰居關(guān)系表,從鄰居關(guān)系表中取出第一興趣點(diǎn)對應(yīng)的鄰居點(diǎn),并使用興趣點(diǎn)和對應(yīng)鄰居點(diǎn)的坐標(biāo)和鄰居位置關(guān)系來校正第一興趣點(diǎn)的位置信息。
[0127]例如,在從鄰居關(guān)系表中取出的一興趣點(diǎn)的鄰居點(diǎn)只有一個鄰居點(diǎn)的情況下,執(zhí)行單點(diǎn)校驗(yàn)。單點(diǎn)校驗(yàn)可包括鄰居方式校驗(yàn)和距離校驗(yàn)中的至少一個。由于前面已經(jīng)對單點(diǎn)校驗(yàn)進(jìn)行了詳細(xì)描述,在此不再贅述。
[0128]另一方面,在從鄰居關(guān)系表中取出的一興趣點(diǎn)的鄰居點(diǎn)存在多個鄰居點(diǎn)的情況下,執(zhí)行多點(diǎn)校驗(yàn)??赏ㄟ^根據(jù)單點(diǎn)校驗(yàn)中的分類閾值和知名度閾值調(diào)權(quán)求出鄰居點(diǎn)的鄰居輻射面積,求鄰居點(diǎn)的鄰居輻射面積的空間交集,并根據(jù)空間交集確定興趣點(diǎn)的位置信息是否正確來執(zhí)行多點(diǎn)校驗(yàn)。由于前面已經(jīng)對多點(diǎn)校驗(yàn)進(jìn)行了詳細(xì)描述,在此不再贅述。
[0129]圖9是示出根據(jù)本發(fā)明第四實(shí)施例的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的設(shè)備的結(jié)構(gòu)的框圖。
[0130]如圖9所示,該設(shè)備包括操作歷史序列提取單元901、操作歷史序列聚合單元902、錯誤數(shù)據(jù)提取單元903。
[0131]操作歷史序列提取單元901分別基于已經(jīng)發(fā)現(xiàn)的位置信息錯誤的興趣點(diǎn)(以下稱為錯誤興趣點(diǎn))和已經(jīng)發(fā)現(xiàn)的位置信息正確的興趣點(diǎn)(以下稱為正確興趣點(diǎn))提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列。
[0132]例如,這里的已經(jīng)發(fā)現(xiàn)的錯誤興趣點(diǎn)和已經(jīng)發(fā)現(xiàn)的正確興趣點(diǎn)可指通過圖1-圖5和圖7-圖8進(jìn)行的上述描述校驗(yàn)出的正確興趣點(diǎn)和錯誤興趣點(diǎn)。
[0133]圖10是示出操作歷史序列提取單元901的結(jié)構(gòu)的框圖。
[0134]如圖10所示,操作歷史序列提取單元901包括操作歷史記錄單元1001、操作歷史排序單元1002、連續(xù)操作去重單元1003和切分單元1004。
[0135]操作歷史記錄單元1001在用戶日志中預(yù)先記錄用戶對興趣點(diǎn)的操作歷史信息。
[0136]操作歷史排序單元1002按照時間順序?qū)⑼挥脩舻牟僮鳉v史信息進(jìn)行排序并記錄其操作對應(yīng)的興趣點(diǎn)信息。
[0137]連續(xù)操作去重單元1003對排序后的操作歷史信息中的連續(xù)操作行為進(jìn)行去重。
[0138]切分單元1004按時間間隔將去重后的操作歷史信息切分為不同的操作序列。
[0139]現(xiàn)返回圖9,操作歷史聚合單元902用于基于興趣點(diǎn)對提取的操作歷史序列進(jìn)行聚合以得到針對正確興趣點(diǎn)的正確操作序列和針對錯誤興趣點(diǎn)的錯誤操作序列。[0140]錯誤數(shù)據(jù)提取單元903用于提取所有含有根據(jù)錯誤操作序列的興趣點(diǎn)作為興趣點(diǎn)錯誤數(shù)據(jù)。
[0141]為了更精確地挖掘出錯誤數(shù)據(jù),避免錯誤數(shù)據(jù)提取單元903提取的興趣點(diǎn)錯誤數(shù)據(jù)中存在不是錯誤數(shù)據(jù)的情況出現(xiàn),圖9的對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的設(shè)備還可包括錯誤數(shù)據(jù)過濾單元904。
[0142]錯誤數(shù)據(jù)過濾單元904用于對提取的興趣點(diǎn)錯誤數(shù)據(jù)進(jìn)行過濾以找出錯誤提取的非興趣點(diǎn)錯誤數(shù)據(jù)。
[0143]過濾方法可包括但不限于“正確操作序列過濾”和“疑似錯誤操作序列與展現(xiàn)次數(shù)比例排序過濾”。
[0144]通過對興趣點(diǎn)反復(fù)執(zhí)行上述操作,可挖掘出更多的錯誤數(shù)據(jù)。
[0145]通過本發(fā)明的上述實(shí)施例的對興趣點(diǎn)位置信息進(jìn)行校驗(yàn)的方法和設(shè)備,可以校驗(yàn)傳統(tǒng)方法無法校驗(yàn)的興趣點(diǎn)數(shù)據(jù)位置,因此提升興趣點(diǎn)空間準(zhǔn)確率,減少錯誤數(shù)據(jù)對用戶帶來的傷害,改善用戶體驗(yàn)。
[0146]盡管已經(jīng)參照本發(fā)明的實(shí)施例具體顯示和描述了本發(fā)明,但是本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離由權(quán)利要求限定的本發(fā)明的精神和范圍的情況下,可以對其進(jìn)行形式和細(xì)節(jié)上的各種改變。
【權(quán)利要求】
1.一種對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法,包括: 選取地址中帶有鄰居描述關(guān)系的第一興趣點(diǎn); 取出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn)并獲取第二興趣點(diǎn)的位置信息; 利用第二興趣點(diǎn)的位置信息對第一興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)。
2.如權(quán)利要求1所述的方法,其中,取出第二興趣點(diǎn)并獲取第二興趣點(diǎn)的位置信息包括: 將所存儲的所有興趣點(diǎn)構(gòu)建成Trie樹; 用第一興趣點(diǎn)在Trie樹中找出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn); 取出第二興趣點(diǎn)的位置信息。
3.如權(quán)利要求2所述的方法,其中,如果沒有找出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn),則將所述第二興趣點(diǎn)作為新增點(diǎn)補(bǔ)充到興趣點(diǎn)庫中。
4.如權(quán)利要求1所述的方法,其中,對第一興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)包括: 將第一興趣點(diǎn)地址中的鄰居描述關(guān)系以及第二興趣點(diǎn)地址中的鄰居描述關(guān)系保存成鄰居關(guān)系表; 從鄰居關(guān)系表中取出弟一興趣點(diǎn)對應(yīng)的第二興趣點(diǎn),并使用弟一興趣點(diǎn)和第二興趣點(diǎn)的坐標(biāo)和鄰居位置關(guān)系來校正第一興趣點(diǎn)的位置信息。
5.如權(quán)利要求1所述的方法,還包括: 基于校驗(yàn)出的位置信息錯誤的錯誤興趣點(diǎn)和位置信息正確的正確興趣點(diǎn)提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列; 基于興趣點(diǎn)對提取的操作歷史序列進(jìn)行聚合以得到針對正確興趣點(diǎn)的正確操作序列和針對錯誤興趣點(diǎn)的錯誤操作序列; 提取所有含有錯誤操作序列的興趣點(diǎn)作為興趣點(diǎn)錯誤數(shù)據(jù)。
6.如權(quán)利要求5所述的方法,其中,提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列包括: 在用戶日志中預(yù)先記錄用戶對興趣點(diǎn)的操作歷史信息; 按照時間順序?qū)⑼挥脩舻牟僮鳉v史信息進(jìn)行排序并記錄其操作對應(yīng)的興趣點(diǎn)信息; 對排序后的操作歷史信息中的連續(xù)操作行為進(jìn)行去重; 按時間間隔將去重后的操作歷史信息切分為不同的操作序列。
7.如權(quán)利要求5所述的方法,還包括:對提取的興趣點(diǎn)錯誤數(shù)據(jù)進(jìn)行過濾以找出錯誤提取的非興趣點(diǎn)錯誤數(shù)據(jù)。
8.一種對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的設(shè)備,包括: 興趣點(diǎn)選取單元,選取地址中帶有鄰居描述關(guān)系的第一興趣點(diǎn); 鄰居點(diǎn)獲取單元,取出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn)并獲取第二興趣點(diǎn)的位置信息; 位置信息校驗(yàn)單元,利用第二興趣點(diǎn)的位置信息對第一興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)。
9.如權(quán)利要求8所述的設(shè)備,其中,鄰居點(diǎn)獲取單元包括: Trie樹創(chuàng)建單元,將所存儲的所有興趣點(diǎn)構(gòu)建成Trie樹; 鄰居點(diǎn)尋找單元,用第一興趣點(diǎn)在Trie樹中找出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn); 鄰居點(diǎn)位置信息取出單元,取出第二興趣點(diǎn)的位置信息。
10.如權(quán)利要求9所述的設(shè)備,其中,鄰居點(diǎn)獲取單元還包括:興趣點(diǎn)增加單元,如果鄰居點(diǎn)尋找單元沒有找出與第一興趣點(diǎn)具有鄰居描述關(guān)系的第二興趣點(diǎn),則將所述第二興趣點(diǎn)作為新增點(diǎn)補(bǔ)充到興趣點(diǎn)庫中。
11.如權(quán)利要求8所述的設(shè)備,其中,位置信息校驗(yàn)單元將第一興趣點(diǎn)地址中的鄰居描述關(guān)系以及第二興趣點(diǎn)地址中的鄰居描述關(guān)系保存成鄰居關(guān)系表,從鄰居關(guān)系表中取出第一興趣點(diǎn)對應(yīng)的第二興趣點(diǎn),并使用第一興趣點(diǎn)和第二興趣點(diǎn)的坐標(biāo)和鄰居位置關(guān)系來校正第一興趣點(diǎn)的位置信息。
12.如權(quán)利要求8所述的設(shè)備,還包括: 操作歷史序列提取單元,基于校驗(yàn)出的位置信息錯誤的錯誤興趣點(diǎn)和位置信息正確的正確興趣點(diǎn)提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列; 操作歷史序列聚合單元,基于興趣點(diǎn)對提取的操作歷史序列進(jìn)行聚合以得到針對正確興趣點(diǎn)的正確操作序列和針對錯誤興趣點(diǎn)的錯誤操作序列; 錯誤數(shù)據(jù)提取單元,提取所有含有錯誤操作序列的興趣點(diǎn)作為興趣點(diǎn)錯誤數(shù)據(jù)。
13.如權(quán)利要求12所述的設(shè)備,其中,操作歷史序列提取單元包括: 操作歷史記錄單元,在用戶日志中預(yù)先記錄用戶對興趣點(diǎn)的操作歷史信息; 操作歷史排序單元,按照時間順序?qū)⑼挥脩舻牟僮鳉v史信息進(jìn)行排序并記錄其操作對應(yīng)的興趣點(diǎn)信息; 連續(xù)操作去重單元,對排序后的操作歷史信息中的連續(xù)操作行為進(jìn)行去重; 切分單元,按時間間隔將去重后的操作歷史信息切分為不同的操作序列。
14.如權(quán)利要求12所述的設(shè)備,還包括:錯誤數(shù)據(jù)過濾單元,對提取的興趣點(diǎn)錯誤數(shù)據(jù)進(jìn)行過濾以找出錯誤提取的非興趣點(diǎn)錯誤數(shù)據(jù)。
15.一種對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的方法,包括: 基于位置信息錯誤的錯誤興趣點(diǎn)和位置信息正確的正確興趣點(diǎn)提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列; 基于興趣點(diǎn)對提取的操作歷史序列進(jìn)行聚合以得到針對正確興趣點(diǎn)的正確操作序列和針對錯誤興趣點(diǎn)的錯誤操作序列; 提取所有含有錯誤操作序列的興趣點(diǎn)作為興趣點(diǎn)錯誤數(shù)據(jù)。
16.如權(quán)利要求15所述的方法,其中,提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列包括: 在用戶日志中預(yù)先記錄用戶對興趣點(diǎn)的操作歷史信息; 按照時間順序?qū)⑼挥脩舻牟僮鳉v史信息進(jìn)行排序并記錄其操作對應(yīng)的興趣點(diǎn)信息; 對排序后的操作歷史信息中的連續(xù)操作行為進(jìn)行去重; 按時間間隔將去重后的操作歷史信息切分為不同的操作序列。
17.如權(quán)利要求15所述的方法,還包括:對提取的興趣點(diǎn)錯誤數(shù)據(jù)進(jìn)行過濾以找出錯誤提取的非興趣點(diǎn)錯誤數(shù)據(jù)。
18.—種對興趣點(diǎn)的位置信息進(jìn)行校驗(yàn)的設(shè)備,包括:操作歷史序列提取單元,基于位置信息錯誤的錯誤興趣點(diǎn)和位置信息正確的正確興趣點(diǎn)提取不同用戶針對這些興趣點(diǎn)進(jìn)行過操作的操作歷史序列; 操作歷史序列聚合單元,基于興趣點(diǎn)對提取的操作歷史序列進(jìn)行聚合以得到針對正確興趣點(diǎn)的正確操作序列和針對錯誤興趣點(diǎn)的錯誤操作序列; 錯誤數(shù)據(jù)提取單元,提取所有含有錯誤操作序列的興趣點(diǎn)作為興趣點(diǎn)錯誤數(shù)據(jù)。
19.如權(quán)利要求18所述的設(shè)備,其中,操作歷史序列提取單元包括: 操作歷史記錄單元,在用戶日志中預(yù)先記錄用戶對興趣點(diǎn)的操作歷史信息; 操作歷史排序單元,按照時間順序?qū)⑼挥脩舻牟僮鳉v史信息進(jìn)行排序并記錄其操作對應(yīng)的興趣點(diǎn)信息; 連續(xù)操作去重單元,對排序后的操作歷史信息中的連續(xù)操作行為進(jìn)行去重; 切分單元,按時間間隔將去重后的操作歷史信息切分為不同的操作序列。
20.如權(quán)利要求18所述的設(shè)備,還包括:錯誤數(shù)據(jù)過濾單元,對提取的興趣點(diǎn)錯誤數(shù)據(jù)進(jìn)行過濾以找出錯誤提取 的非興趣點(diǎn)錯誤數(shù)據(jù)。
【文檔編號】G06F17/30GK103886082SQ201410117421
【公開日】2014年6月25日 申請日期:2014年3月26日 優(yōu)先權(quán)日:2014年3月26日
【發(fā)明者】劉燕云, 孫彬, 李國強(qiáng) 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司