本公開涉及計算機(jī)技術(shù),尤其涉及一種地圖興趣點簡稱獲取方法和裝置。
背景技術(shù):
地圖興趣點即poi(pointofinterest),例如,一個poi可以是一棟房子、一個商鋪、一座學(xué)校、一個公交站等。當(dāng)在地圖中搜索某個poi時,利用該poi的簡稱進(jìn)行搜索也是一種常用的搜索方式,例如,當(dāng)在地圖中搜索查找“北京師范大學(xué)”時,也可以輸入該北京師范大學(xué)的簡稱“北師大”進(jìn)行搜索,也可以找到該大學(xué)在地圖中所處的位置。因此,為了支持這種利用poi簡稱進(jìn)行搜索的方式,需要獲取一些poi全稱對應(yīng)的簡稱,建立全稱與簡稱的對應(yīng)關(guān)系,這樣才能根據(jù)地圖用戶輸入的簡稱準(zhǔn)確確定對應(yīng)的全稱,并反饋用戶搜索的目標(biāo)地址給用戶。相關(guān)技術(shù)中,興趣點的簡稱通常是由人工標(biāo)注得到,但是這種方式的人工工作量較大,效率也較低,當(dāng)?shù)貓D數(shù)據(jù)量逐漸增大時,人工標(biāo)注方式的低效率問題將更加顯著。
技術(shù)實現(xiàn)要素:
為克服相關(guān)技術(shù)中存在的問題,本公開提供一種地圖興趣點簡稱獲取方法和裝置,以提高地圖興趣點簡稱的獲取效率。
根據(jù)本公開實施例的第一方面,提供一種地圖興趣點簡稱獲取方法,包括:
根據(jù)地圖興趣點的興趣點全稱,生成多個待評估簡稱;
在距離所述興趣點的預(yù)設(shè)范圍內(nèi),獲取含有所述興趣點全稱或者任一待 評估簡稱的多個地址名稱;
根據(jù)所述地址名稱,計算目標(biāo)詞的詞狀態(tài)向量,所述詞狀態(tài)向量用于表示所述目標(biāo)詞在所述地址名稱中的位置狀態(tài),所述目標(biāo)詞是所述興趣點全稱或者任一所述待評估簡稱;
分別計算所述興趣點全稱的詞狀態(tài)向量與任一待評估簡稱的詞狀態(tài)向量之間的相似度;
將高于預(yù)設(shè)閾值的相似度對應(yīng)的待評估簡稱,確定為所述興趣點全稱對應(yīng)的興趣點簡稱。
根據(jù)本公開實施例的第二方面,提供一種地圖興趣點簡稱獲取裝置,包括:
評估簡稱生成模塊,用于根據(jù)地圖興趣點的興趣點全稱,生成多個待評估簡稱;
相關(guān)地址獲取模塊,用于在距離所述興趣點的預(yù)設(shè)范圍內(nèi),獲取含有所述興趣點全稱或者任一待評估簡稱的多個地址名稱;
詞狀態(tài)計算模塊,用于根據(jù)所述地址名稱,分別計算目標(biāo)詞的詞狀態(tài)向量,所述詞狀態(tài)向量用于表示所述目標(biāo)詞在所述地址名稱中的位置狀態(tài),所述目標(biāo)詞是所述興趣點全稱或者任一所述待評估簡稱;
相似度計算模塊,用于分別計算所述興趣點全稱的詞狀態(tài)向量與任一待評估簡稱的詞狀態(tài)向量之間的相似度;
簡稱確定模塊,用于將高于預(yù)設(shè)閾值的相似度對應(yīng)的待評估簡稱,確定為所述興趣點全稱對應(yīng)的興趣點簡稱。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:通過在給出一個興趣點的興趣點全稱時,利用該方法,可以自動從地圖地址庫中獲取該興趣點附近的相關(guān)地址名稱,并根據(jù)該地址名稱計算出所有可能的待評估簡稱中,哪一個簡稱有可能是全稱的簡稱,從而自動完成簡稱的確定,使得簡稱獲取的效率提高,提高了地圖興趣點簡稱的獲取效率。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性 的,并不能限制本公開。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1是根據(jù)一示例性實施例示出的興趣點簡稱獲取方法的流程圖;
圖2是根據(jù)一示例性實施例示出的二維空間余弦相似度的計算原理圖;
圖3是根據(jù)一示例性實施例示出的一種地圖興趣點簡稱獲取裝置。
具體實施方式
這里將詳細(xì)地對示例性實施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
本申請實施例提供了一種地圖興趣點簡稱獲取方法,該方法是一種根據(jù)興趣點全稱自動獲取對應(yīng)簡稱的方案,不再需要借助人工標(biāo)注,以提高簡稱獲取的效率。
該簡稱獲取方法是基于如下原理:興趣點poi在用于地址名稱的命名時,不論全稱還是簡稱,在地址名稱中的位置狀態(tài)應(yīng)該一致,并且全稱和簡稱通常在同一地點或相近地理位置附近使用。
例如,以興趣點是一個學(xué)校為例,假設(shè)該學(xué)校的全稱是北京師范大學(xué),那么,通常在大學(xué)內(nèi)部或者大學(xué)的周邊會有很多使用學(xué)校名稱的地址名稱,比如,北京師范大學(xué)食堂、北師大書店、北京師范宿舍樓a區(qū)、北師教研室等(需要說明的是,以上名稱只是為了舉例說明本申請的方案,實際中可能不存在)??梢钥吹?,有的地址名稱中使用了全稱,例如,北京師范大學(xué)食堂中的“北京師范大學(xué)”;有的地址名稱中使用了簡稱,例如,北師大書店 中的“北師大”,北師教研室中的“北師”。
上述的例子即是將興趣點poi的全稱或者簡稱,應(yīng)用于某個地址名稱中,并且,全稱和簡稱在應(yīng)用時滿足上面提到的兩個方面的一致性:
第一、在同一地點或相近地理位置附近使用。例如,北京師范大學(xué)食堂、北師大書店、北京師范宿舍樓a區(qū)等,這些地址都是在北京師范大學(xué)的學(xué)校內(nèi)部或者學(xué)校周邊。
第二、全稱和簡稱在詳細(xì)地址字符串中的位置狀態(tài)基本一致。例如,以“北京師范大學(xué)”為例,對于其簡稱“北師大”,如果存在某一詳細(xì)地址字符串是這樣描述的:“北京市新街口外大街19號北京師范大學(xué)圖書館”,則地址庫中也會存在較大的可能出現(xiàn)這樣描述的地址字符串“北京市新街口外大街19號北師大圖書館”,或者是類似的“北京新街口外大街北師大圖書館”這樣的字符串,這表明poi的全稱和簡稱對在地址庫中出現(xiàn)的位置狀態(tài)是基本一致的,也可稱為上下文環(huán)境基本一致。
例如,對于大規(guī)模的地址文本庫,一對全稱和簡稱,有可能出現(xiàn)相同的前后詞,比如,在上面的例子的地址庫中,全稱“北京師范大學(xué)”和對應(yīng)的簡稱“北師大”,前后詞都出現(xiàn)了“新街口外大街”和“圖書館”。以一對全稱和簡稱的前后詞包括“食堂”、“圖書館”和“教學(xué)樓”為例,這些詞可以組成一個向量{食堂、圖書館、教學(xué)樓},每個詞是該向量的一個維度。
表1全簡稱對應(yīng)的向量維度
如上表1的示例,在包含全稱的詳細(xì)地址字符串中,“食堂”出現(xiàn)了117次,在包含簡稱的詳細(xì)地址字符串中,“食堂”出現(xiàn)了32次;同樣對于全稱 和簡稱,“圖書館”分別出現(xiàn)267次、71次,“教學(xué)樓”分別出現(xiàn)422次、112次,可以看到,這三個維度的出現(xiàn)次數(shù)基本上是等比例的。即對于全稱“北京師范大學(xué)”,其對應(yīng)的向量是{117、267、422},對于簡稱“北師大”,其對應(yīng)的向量是{32、71、112},如果計算這兩個向量的余弦相似度,可以得知該余弦值是一個非常接近于1的值。
基于以上原理,本申請興趣點簡稱獲取方法的流程可以參見圖1,包括:
在步驟101中,根據(jù)地圖興趣點的興趣點全稱,生成多個待評估簡稱。
本步驟可以將興趣點全稱中包括的各個單字,按照單字排列順序進(jìn)行任意單字?jǐn)?shù)量的組合,每一組合為一個簡稱,得到多個簡稱。
例如,仍以“北京師范大學(xué)”為例,該全稱中包括六個單字,分別為“北”、“京”、“師”、“范”、“大”、“學(xué)”;然后將這些單字進(jìn)行任意單字?jǐn)?shù)量的組合,當(dāng)單字?jǐn)?shù)量為2時,即兩個單字進(jìn)行組合,例如,“北京”、“京師”、“師范”、“范大”、“大學(xué)”、“北師”、“北范”等,并且可以看到,在組合時按照各個單字在全稱中的排列順序進(jìn)行組合,即組合中的各個單字的前后順序與在全稱中的前后順序一致。當(dāng)單字?jǐn)?shù)量為3時,即三個單字進(jìn)行組合,例如,“北京師”、“京師范”、“北師范”等。
再進(jìn)行任意組合得到多個簡稱后,還可以從多個簡稱中剔除單字和確認(rèn)非興趣點簡稱的噪聲詞,剩余的簡稱即待評估簡稱,這樣使得參與后續(xù)處理步驟的待評估簡稱的數(shù)量得到減少,有助于提高該流程的處理效率。單字即上述的“北”、“京”、“師”等,噪聲詞例如包括:“北京”、“師范”、“大學(xué)”等,這些常用詞通常不可能被用戶作為北京師范大學(xué)的簡稱輸入。
在步驟102中,在距離興趣點的預(yù)設(shè)范圍內(nèi),獲取含有興趣點全稱或者任一待評估簡稱的多個地址名稱。
例如,預(yù)設(shè)范圍可以是興趣點附近500米內(nèi),比如上面列舉的北京師范大學(xué)食堂、北師大書店、北京師范宿舍樓a區(qū)、北師教研室等,這些地址名稱中要么含有興趣點全稱“北京師范大學(xué)”,要么含有待評估簡稱,例如“北師大”,該待評估簡稱即為在步驟101中確定的地圖興趣點的待評估簡稱。
在步驟103中,根據(jù)地址名稱,計算目標(biāo)詞的詞狀態(tài)向量,詞狀態(tài)向量用于表示目標(biāo)詞在地址名稱中的位置狀態(tài),目標(biāo)詞是興趣點全稱或者任一待評估簡稱。
本步驟中計算的詞狀態(tài)向量,可以是一個高維向量,比如,可以是n維向量(a1,a2,…..an);并且,興趣點全稱或者任一待評估簡稱中的每一個都可以計算得到一個對應(yīng)的詞狀態(tài)向量,比如,全稱“北京師范大學(xué)”對應(yīng)的詞狀態(tài)向量是(a1,a2,…..an),其中一個待評估簡稱“北師大”對應(yīng)的詞狀態(tài)向量是(b1,b2,…..bn)。
詞狀態(tài)向量的計算,可以結(jié)合在步驟102中獲取的多個地址名稱來進(jìn)行,并且,興趣點全稱和待評估簡稱的詞狀態(tài)向量的計算方法是相同的。如果將興趣點全稱或任一待評估簡稱稱為目標(biāo)詞,那么其中一個目標(biāo)詞的詞狀態(tài)向量可以按照如下方式計算:
在步驟102獲取的地址名稱可以有多個,例如,北師大書店、北師教研室等,對于某個目標(biāo)詞,比如,該目標(biāo)詞是“北師大”,查找哪些地址名稱中包含了“北師大”,例如“北師大書店”,可能有多個地址名稱中都包含該目標(biāo)詞。對于每一個包含目標(biāo)詞的地址名稱,獲取目標(biāo)詞的相鄰詞,該相鄰詞包括前一個詞和后一個詞。
例如,在包含目標(biāo)詞“北師大”的地址名稱“北師大書店”中,目標(biāo)詞的前一個詞是“空”(即前面沒有詞),后一個詞是“書店”。又例如,在包含目標(biāo)詞“北師大”的地址名稱“博文北師大書房”中,目標(biāo)詞的前一個詞是“博文”,后一個詞是“書房”。經(jīng)過統(tǒng)計后,所有包含目標(biāo)詞的地址名稱中,目標(biāo)詞的相鄰詞可以有多個,例如上述列舉的“空”、“書店”、“博文”、“書房”,假設(shè)只有這四個相鄰詞(實際可能更多),那么該四個詞可以分別對應(yīng)目標(biāo)詞的詞狀態(tài)向量的一個向量維度,該向量(空、書店、博文、書房)是一個四維向量。
每一個向量維度的維度數(shù)值,可以是對應(yīng)該維度的詞在所有地址名稱中的出現(xiàn)頻率,例如,以“書店”為例,假設(shè)在步驟102中獲取的地址名稱共 有10個,而“書店”出現(xiàn)了2次,那么“書店”的出現(xiàn)頻率是2。其他維度的維度數(shù)值計算同理,不再描述。
在步驟104中,分別計算興趣點全稱的詞狀態(tài)向量與任一待評估簡稱的詞狀態(tài)向量之間的相似度。
例如,在步驟103中計算出興趣點全稱的詞狀態(tài)向量、以及任一個待評估簡稱的詞狀態(tài)向量后,將興趣點全稱的詞狀態(tài)向量分別與各個待評估簡稱的詞狀態(tài)向量計算相似度,本例子計算的相似度可以是余弦相似度。
參見圖2所示,示例了二維空間的余弦相似度的計算,a、b是兩個二維向量,并假設(shè)a的坐標(biāo)是(x1,y1),b的坐標(biāo)是(x2,y2)。將這兩個向量根據(jù)坐標(biāo)值繪制到向量空間中即圖2。然后計算a、b這兩個二維向量的夾角對應(yīng)的余弦值,此余弦值就可以用來表征這兩個向量的相似性,如果兩個向量越相似,它們的夾角越小,余弦值越接近1,它們的方向更加吻合。
根據(jù)向量點積公式,夾角余弦值計算如下:
將上述公式擴(kuò)展到多維向量的余弦相似度的計算,如果興趣點全稱的詞狀態(tài)向量a=(a1,a2,...,an),其中一個待評估簡稱的詞狀態(tài)向量b=(b1,b2,...,bn),那么這兩個向量的余弦相似度計算如下:
在步驟105中,將高于預(yù)設(shè)閾值的相似度對應(yīng)的待評估簡稱,確定為興趣點全稱對應(yīng)的興趣點簡稱。
例如,如果將預(yù)設(shè)閾值設(shè)為0.42,那么經(jīng)過計算的余弦相似度的數(shù)值大于或等于該0.42時,就可以將相似度對應(yīng)的待評估簡稱確定為興趣點全稱對應(yīng)的興趣點簡稱。比如,如果興趣點全稱“北京師范大學(xué)”的詞狀態(tài)向量a與其中一個待評估簡稱“北師大”的詞狀態(tài)向量b的余弦相似度是0.7,那 么可以確定將待評估簡稱“北師大”作為全稱“北京師范大學(xué)”的簡稱。
本例子中,高于預(yù)設(shè)閾值的待評估簡稱的數(shù)量為至少一個,比如,全稱“北京師范大學(xué)”的簡稱可以包括“北師大”、“北師”、“北京師范”等多個簡稱。
上述的地圖興趣點簡稱獲取方法,當(dāng)給出一個興趣點的興趣點全稱時,利用該方法,可以自動從地圖地址庫中獲取該興趣點附近的相關(guān)地址名稱,并根據(jù)該地址名稱計算出所有可能的待評估簡稱中,哪一個簡稱有可能是全稱的簡稱,從而自動完成簡稱的確定,使得簡稱獲取的效率提高。此外,可以將該方法的執(zhí)行布置到分布式計算平臺處理,以進(jìn)一步提高處理速度。
在確定興趣點的全稱與簡稱的對應(yīng)關(guān)系后,可以將該對應(yīng)關(guān)系應(yīng)用到地圖興趣點的搜索中,或者應(yīng)用到其他涉及到地址輸入的場景。例如,用戶輸入“東外大街”時,通過全簡稱對比可知,“東外大街”的全稱為“東直門外大街”,則可提醒用戶“您要輸入的是否是東直門大街?”,而且在地址自動聯(lián)想填充中,把相關(guān)的全稱東直門外大街的后續(xù)可能的詳細(xì)地址提供給用戶選擇,比如位于東直門外大街附近的餐館、酒店等地址。
本申請實施例還提供了一種地圖興趣點簡稱獲取裝置,如圖3所示,該裝置可以包括:評估簡稱生成模塊31、相關(guān)地址獲取模塊32、詞狀態(tài)計算模塊33、相似度計算模塊34和簡稱確定模塊35。其中,
評估簡稱生成模塊31,用于根據(jù)地圖興趣點的興趣點全稱,生成多個待評估簡稱;
相關(guān)地址獲取模塊32,用于在距離所述興趣點的預(yù)設(shè)范圍內(nèi),獲取含有所述興趣點全稱或者任一待評估簡稱的多個地址名稱;
詞狀態(tài)計算模塊33,用于根據(jù)所述地址名稱,分別計算目標(biāo)詞的詞狀態(tài)向量,所述詞狀態(tài)向量用于表示所述目標(biāo)詞在所述地址名稱中的位置狀態(tài),所述目標(biāo)詞是所述興趣點全稱或者任一所述待評估簡稱;
相似度計算模塊34,用于分別計算所述興趣點全稱的詞狀態(tài)向量與任一待評估簡稱的詞狀態(tài)向量之間的相似度;
簡稱確定模塊35,用于將高于預(yù)設(shè)閾值的相似度對應(yīng)的待評估簡稱,確定為所述興趣點全稱對應(yīng)的興趣點簡稱。
一個例子中,評估簡稱生成模塊31,在用于根據(jù)地圖興趣點的興趣點全稱生成多個待評估簡稱時,包括:將所述興趣點全稱中包括的各個單字,按照單字排列順序進(jìn)行任意單字?jǐn)?shù)量的組合,每一組合為一個簡稱,得到多個所述簡稱;從多個簡稱中剔除單字和確定是非興趣點簡稱的噪聲詞,剩余的簡稱即所述待評估簡稱。
一個例子中,詞狀態(tài)計算模塊33,在用于根據(jù)地址名稱計算目標(biāo)詞的詞狀態(tài)向量時,包括:在所述多個地址名稱中,獲取目標(biāo)詞在任一地址名稱中的相鄰詞;每個所述相鄰詞在所述多個地址名稱中的出現(xiàn)頻率,作為所述目標(biāo)詞的詞狀態(tài)向量中的其中一個向量維度的維度數(shù)值。
一個例子中,相似度計算模塊34,用于計算所述興趣點全稱的詞狀態(tài)向量與任一待評估簡稱的詞狀態(tài)向量之間的余弦相似度。
一個例子中,高于預(yù)設(shè)閾值的相似度對應(yīng)的待評估簡稱數(shù)量為至少一個。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實施方案。本申請旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本發(fā)明的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。