專利名稱::一種網(wǎng)絡(luò)地圖服務(wù)中未登錄地名的定位方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及網(wǎng)絡(luò)信息挖掘和地圖檢索服務(wù)領(lǐng)域,尤其是網(wǎng)絡(luò)地圖服務(wù)中未登錄地名關(guān)聯(lián)定位技術(shù)。
背景技術(shù):
:2004年底,Google推出網(wǎng)絡(luò)地圖服務(wù),在GoogleMaps讓網(wǎng)絡(luò)地圖服務(wù)真正進(jìn)入廣大網(wǎng)民的生活中的同時(shí),也帶動(dòng)了國內(nèi)網(wǎng)絡(luò)地圖服務(wù)的發(fā)展步伐。網(wǎng)絡(luò)地圖服務(wù)產(chǎn)業(yè)呈現(xiàn)出爆炸式的發(fā)展,各式各樣的地圖服務(wù)網(wǎng)站如雨后春筍般涌現(xiàn)出來。地圖服務(wù)最吸引人也是最重要的功能就是地名搜索定位功能,即用戶輸入目的地名的關(guān)鍵詞,然后由地圖服務(wù)網(wǎng)站在地圖上標(biāo)識出目的地的位置并顯示相關(guān)信息。但是現(xiàn)有的網(wǎng)絡(luò)地圖服務(wù)中地名搜索服務(wù)還不能完全滿足人們的需求,主要體現(xiàn)在如果地圖服務(wù)的相關(guān)空間數(shù)據(jù)庫中沒有目的地名的相關(guān)信息,則無法對目的地名進(jìn)行定位。地名搜索定位服務(wù)的基本過程都是用戶輸入感興趣的地方的地名關(guān)鍵詞并提交給地圖服務(wù)網(wǎng)站,然后就可以從地圖服務(wù)網(wǎng)站得到一張標(biāo)有目的地名的地圖。目前知名的地圖服務(wù)網(wǎng)站幾乎都是根據(jù)地名關(guān)鍵詞(字)匹配來進(jìn)行定位的,關(guān)鍵詞匹配的對象就是空間數(shù)據(jù)庫一一一個(gè)包含大量地名及其位置信息和其他屬性信息的數(shù)據(jù)庫。在地圖服務(wù)的服務(wù)器端,定位的過程主要經(jīng)歷以下幾個(gè)步驟首先在服務(wù)器端的空間數(shù)據(jù)庫中査找與關(guān)鍵詞匹配的地名或?qū)傩孕畔⒅邪P(guān)鍵詞的地址,然后在通過該地址的坐標(biāo)在地圖上標(biāo)識出這個(gè)地址并顯示給用戶。但是通常一個(gè)城市就包含著上萬甚至幾十萬的地址信息,想要采集出全部的地址及其坐標(biāo)是件非常繁瑣復(fù)雜的工作,并且經(jīng)常會有新的地址產(chǎn)生或老的地址消失。因此由于空間數(shù)據(jù)庫數(shù)據(jù)不全、更新不及時(shí)等原因,許多用戶在使用地圖搜索時(shí)都會遇到查不到地名的情況。以"鉆石大廈"為例,服務(wù)器端的查詢定位服務(wù)會在空間數(shù)據(jù)庫中查找有沒有"鉆石大廈"這個(gè)地址;如果沒有,則會査找地址的其他相關(guān)描述信息中包含"鉆石大廈"的結(jié)果,比如某個(gè)公司的描述信息中包含"位于鉆石大廈A座2層",并且這個(gè)公司位于空間數(shù)據(jù)庫中,那么就會將這個(gè)公司的位置作為結(jié)果返回給用戶。如果以上兩種地址都沒有找到,有的網(wǎng)站會直接提示用戶沒有找到這個(gè)地名,如百度地圖會顯示"抱歉,沒有找到與'鉆石大廈'相關(guān)的地點(diǎn)"。也有些地圖服務(wù)網(wǎng)站會對關(guān)鍵詞作一些處理后進(jìn)行再次査詢,比如Google地圖會將"鉆石大廈"進(jìn)行切分,然后將切分結(jié)果"鉆石"和"大廈"作為新的關(guān)鍵詞再到空間數(shù)據(jù)庫中進(jìn)行査詢,將地名描述中包含"鉆石"和"大廈"的結(jié)果返回給用戶,即使這兩個(gè)詞在地名描述中不是連在一起出現(xiàn)。后者的做法相當(dāng)于一種分析關(guān)鍵詞與空間數(shù)據(jù)庫內(nèi)容相關(guān)性的方法,在無法找到完全匹配的內(nèi)容的情況下,將"最相近"的地址返回給用戶。對于多個(gè)地名組合而成的地址信息這樣做會有一定的效果,比如用"中關(guān)村軟件園鉆石大廈"査不到的結(jié)果,分別用"中關(guān)村軟件園"和"鉆石大廈"就可能會査到相關(guān)信息。但是對于非組合式的地名來說,如"鉆石大廈",分詞后仍然很難査到與關(guān)鍵詞相關(guān)的結(jié)果。這時(shí),通常用戶會轉(zhuǎn)而采用其他方式來獲得地理實(shí)體的位置信息,如使用搜索引擎查找該地理實(shí)體的位置。但目前的搜索引擎并沒有針對地理位置的搜索采取專門的檢索策略,比如在搜索引擎輸入一個(gè)公司名稱并點(diǎn)擊搜索,那么搜索引擎會把所有包含該公司名稱的網(wǎng)頁返回給用戶。但是關(guān)于這個(gè)公司更詳細(xì)具體的信息比如地址、電話等,則要用戶自己打開一個(gè)個(gè)的網(wǎng)頁來判斷與查找這些信息,大大降低了地理實(shí)體的搜索和定位的效率,增加了用戶定位所需的時(shí)間。發(fā)明目的從上面的分析可以看出,要對網(wǎng)絡(luò)地圖服務(wù)的空間數(shù)據(jù)庫中沒有的地名——未登錄地名進(jìn)行定位,目前還沒有很好的方法。最根本的解決辦法當(dāng)然是擴(kuò)充并更新空間數(shù)據(jù)庫中的數(shù)據(jù)。不過目前空間數(shù)據(jù)更新主要由人工來完成,具有固有的復(fù)雜性和滯后性。本發(fā)明要解決的問題就是在不對空間數(shù)據(jù)庫中的已有數(shù)據(jù)進(jìn)行更新的情況下,只在己有空間數(shù)據(jù)庫的支持下,利用搜索引擎搜索得到包含未登錄地名的網(wǎng)頁,對搜索得到的網(wǎng)頁進(jìn)行分析和挖掘,得到能夠描述未登錄地名位置的、并且存在于已有空間數(shù)據(jù)庫中的地址信息,實(shí)現(xiàn)未登錄地名的定位,從而改善地名搜索定位服務(wù)的質(zhì)量。為了解決目前各地圖服務(wù)網(wǎng)站對空間數(shù)據(jù)庫中不存在的未登錄地名無法處理的情況,本發(fā)明提出通過對互聯(lián)網(wǎng)上包含的大量地址信息進(jìn)行分析,找出其中既在己有空間數(shù)據(jù)庫中,又能描述未登錄地名的地址信息,并通過這些地址信息對空間數(shù)據(jù)庫中沒有的未登錄地名進(jìn)行定位的方法。本發(fā)明方法包括以下步驟(如圖1所示)(1)首先收集所有包含用戶輸入的未登錄地名關(guān)鍵詞的網(wǎng)頁。網(wǎng)頁的獲取方式可以從本地已有的網(wǎng)頁庫中檢索出包含關(guān)鍵詞的網(wǎng)頁,也可以通過搜索引擎檢索到包含關(guān)鍵詞的網(wǎng)頁鏈接,再下載到本地。然后從網(wǎng)頁中提取出包含關(guān)鍵詞的上下文信息,上下文為純文本信息,大小在200字以內(nèi)為宜(關(guān)鍵詞前后各100字)。我們通過人工調(diào)查,對一個(gè)給定的未登錄地名,在包含這個(gè)未登錄地名的網(wǎng)頁文本集合中,能夠描述這個(gè)未登錄地名位置的地址信息(或稱空間相關(guān)地址)在文本中絕大部分都出現(xiàn)在距該未登錄地名ioo個(gè)字以內(nèi)的上下文中,而其他不能描述該未登錄地名位置的地址信息(或稱空間不相關(guān)地址)則大部分出現(xiàn)在距離這個(gè)實(shí)體名稱100個(gè)字以外的上下文中。所以上下文范圍取100個(gè)字時(shí)可以在幾乎不影響空間相關(guān)地址提取效果的情況下,較好地排除空間不相關(guān)的地址信息,降低識別出的空間不相關(guān)信息帶來的不良影響。(2)根據(jù)地圖服務(wù)網(wǎng)站所擁有的空間數(shù)據(jù)庫,構(gòu)建相應(yīng)的地名詞典。該地名詞典中的地名詞匯,都來源于空間數(shù)據(jù)庫中的地址信息,相應(yīng)地,每個(gè)地名詞匯都會有具體的坐標(biāo)位置。采用基于地名詞典的匹配方法(昝紅英,《基于實(shí)體屬性的中文網(wǎng)頁檢索研究》,北京大學(xué)博士論文,2004),從所有網(wǎng)頁的未登錄地名關(guān)鍵詞上下文中提取出所有可以通過空間數(shù)據(jù)庫直接定位的地址信息(或者說在空間數(shù)據(jù)庫中出現(xiàn)的地址信息)。G)定量計(jì)算出這些地址信息與用戶輸入的未登錄地名關(guān)鍵詞的空間相關(guān)度。空間相關(guān)度是指地址與未登錄地名關(guān)鍵詞的空間相關(guān)性,即識別出的地址的地理位置與用戶輸入未登錄地名關(guān)鍵詞的地理位置的相鄰程度??臻g相關(guān)度計(jì)算主要依據(jù)文本中地址與未登錄地名關(guān)鍵詞之間的文字距離來計(jì)算(羅英偉等,《一種文本上下文中實(shí)體地址信息的提取方法》,專利申請)。(4)根據(jù)對地址信息的空間聚類分析對空間相關(guān)度進(jìn)行修正。因?yàn)榕c未登錄地名關(guān)鍵詞空間相關(guān)的地址在地理位置上具有聚集性,即與同一地點(diǎn)相關(guān)的地址,彼此之間也是空間鄰近的,而空間不相關(guān)的地址之間則沒有這種特點(diǎn)。因此根據(jù)空間數(shù)據(jù)庫把識別出的地址轉(zhuǎn)換成具體的地理位置,通過地圖服務(wù)的空間聚類計(jì)算(AlanT.MurrayandVladimirEstivill-Cas加,Clusterdiscoverytechniquesforexploratoryspatialdataanalysis,InternationalJournalofGeographicalInformationScience,1998,12(5):431-443.),可以從中找出地址分布密集、初始相關(guān)度又高的區(qū)域,并認(rèn)為這個(gè)區(qū)域內(nèi)的地址最有可能是空間相關(guān)地址,大幅提升它們的相關(guān)度。一個(gè)簡單的空間相關(guān)度值的修正方法就是將該區(qū)域的每一個(gè)地址的空間相關(guān)度累加起來,記做ER,該區(qū)域的每一個(gè)地址修正后的空間相關(guān)度值為其原來的空間相關(guān)度值加5ZR。(5)根據(jù)地址空間相關(guān)度的排名,取排名前幾個(gè)地址作為定位結(jié)果返回給用戶,并在地圖上標(biāo)識出所有返回結(jié)果供用戶選擇。因?yàn)樽R別出的地址都是空間數(shù)據(jù)庫中的己知地址,因此可以直接在地圖上進(jìn)行定位并標(biāo)識出來。為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案。一種網(wǎng)絡(luò)地圖服務(wù)中未登錄地名的定位方法,其步驟為1)收集所有包含用戶輸入的未登錄地名關(guān)鍵詞的網(wǎng)頁;2)從網(wǎng)頁中提取出包含地名關(guān)鍵詞的上下文信息;3)從所有網(wǎng)頁的地名關(guān)鍵詞上下文中提取出所有地名詞典中包含的地址信息;4)計(jì)算出上述地址信息與用戶輸入的未登錄地名關(guān)鍵詞的空間相關(guān)度;5)對空間相關(guān)度進(jìn)行排名,取排名前幾個(gè)地址作為定位結(jié)果在地圖上標(biāo)識返回給用戶。所述的方法中網(wǎng)頁的收集方式為從本地己有的網(wǎng)頁庫中檢索出包含關(guān)鍵詞的網(wǎng)頁或通過搜索引擎檢索到包含關(guān)鍵詞的網(wǎng)頁鏈接,再下載到本地。所述網(wǎng)頁的地名關(guān)鍵詞上下文為純文本信息,關(guān)鍵詞前后各100字以內(nèi)。所述的地名詞典為根據(jù)網(wǎng)絡(luò)地圖服務(wù)網(wǎng)站的空間數(shù)據(jù)庫而建立,每個(gè)地名詞匯都有具體的坐標(biāo)位置。所述的方法中采用基于地名詞典的匹配方法提取出所有地名詞典中包含的地址信息。所述的方法中從網(wǎng)頁文本中所提取的所有地址信息根據(jù)坐標(biāo)位置能夠在網(wǎng)絡(luò)地圖服務(wù)中進(jìn)行定位。所述的方法中采用空間聚類計(jì)算對空間相關(guān)度進(jìn)行修正。發(fā)明的優(yōu)點(diǎn)與積極效果與現(xiàn)有網(wǎng)絡(luò)地圖服務(wù)中的地名搜索定位服務(wù)相比,本發(fā)明提出的定位方法可以很好的處理網(wǎng)絡(luò)地圖服務(wù)中空間數(shù)據(jù)庫內(nèi)沒有的未登錄地名的定位問題,能夠很好地給出未登錄地名的真實(shí)地址或相鄰地址。為了測試本發(fā)明方法的效果,我們以北京市為例,采用基于地名詞典匹配的地址識別方法,對174個(gè)空間數(shù)據(jù)庫中沒有的地名和機(jī)構(gòu)名稱進(jìn)行定位,并將部分結(jié)果列在表l中??梢钥闯霾?眾成信達(dá)貿(mào)易有限公司"時(shí),我們查出的最相關(guān)的地址是"朝陽區(qū)松榆北路7號院",并且它的空間相關(guān)度經(jīng)過修正后遠(yuǎn)遠(yuǎn)高于其他地址。而對"京圃園生物工程有限公司"的識別結(jié)果中,雖然前兩名地址的相關(guān)度相差不大,但是因?yàn)榈谝幻?海淀區(qū)中國農(nóng)業(yè)科學(xué)院"和第三名"海淀區(qū)中關(guān)村南大街12號"表示的是同一個(gè)地址,而用戶會傾向于相信聚集性比較強(qiáng)的地址,所以仍然可以達(dá)到準(zhǔn)確定位的目的。査"舊宮志新偉業(yè)家具廠",雖然第一個(gè)結(jié)果的地理范圍比較大,但是第二個(gè)結(jié)果可以輔助用戶進(jìn)行精確的定位。而査"話匣子咖啡廳"也是前兩個(gè)結(jié)果不但可信度高,而且空間聚集性強(qiáng),可以起到正確定位的作用。表1對空間數(shù)據(jù)庫中沒有的地名進(jìn)行定位的部分測試結(jié)果<table>tableseeoriginaldocumentpage7</column></row><table>圖1示意了一個(gè)針對不存在于空間數(shù)據(jù)庫中的未登錄地名的定位流程圖。圖2未登錄地名的地圖定位效果具體實(shí)施例方式下面通過一個(gè)具體的例子來說明如何實(shí)施本專利所描述的方法來對一個(gè)空間數(shù)據(jù)庫中沒有的未登錄地名進(jìn)行定位。假設(shè)用戶査詢"朋克美容美發(fā)"這個(gè)地點(diǎn),首先通過網(wǎng)頁收集模塊(圖1中的第1個(gè)模塊)獲取到所有包含"朋克美容美發(fā)"的網(wǎng)頁,并保存到圖1中的第(2)個(gè)模塊中。由網(wǎng)頁預(yù)處理及上下文截取模塊(圖1中的第3個(gè)模塊)將網(wǎng)頁中的標(biāo)簽信息去掉后,截取出網(wǎng)頁中所有"朋克美容美發(fā)"的前后100個(gè)字的上下文信息并交給地址信息提取模塊處理。地址信息提取模塊采用基于地名詞典的匹配方法從上下文中提取出所有空間數(shù)據(jù)庫中已有的地址信息,比如"清華東門"、"海淀區(qū)五道口華清嘉園"、"海淀區(qū)北三環(huán)7西路48號"、"北京海淀五道口"等等,然后由地址的相關(guān)度計(jì)算模塊(圖1中的第5個(gè)模塊)根據(jù)這些地址距"朋克美容美發(fā)"的距離計(jì)算其空間相關(guān)度。比如對于"朋克美容美發(fā)海淀區(qū)五道口華清嘉園8號樓北一層,Mttll南300米"這段上下文來說,標(biāo)下劃線的部分是識別出的地址,"海淀區(qū)五道口華清嘉園"因?yàn)榫嚯x關(guān)鍵詞"朋克美容美發(fā)"比較近,所以相關(guān)度就高一些。而"清華東門"因?yàn)榫嚯x比較遠(yuǎn),則相關(guān)度會低一些。有些空間不相關(guān)的地址因?yàn)槌霈F(xiàn)次數(shù)多,或距離關(guān)鍵詞較近,因而會獲得較高的空間相關(guān)度。但是經(jīng)過基于空間聚集性的地址相關(guān)度修正模塊(圖1中的第6個(gè)模塊)進(jìn)行空間聚集性分析后,我們可以發(fā)現(xiàn)"清華東門"、"海淀區(qū)五道口華清嘉園"和"北京海淀五道口"這幾個(gè)地址距離很近,具有明顯的空間聚集性(通過空間聚類計(jì)算可以得到彼此之間的距離只有幾百米),而"海淀區(qū)北三環(huán)西路48號"則距這幾個(gè)地址幾公里,我們就會認(rèn)為彼此相鄰的這些地址更可能是地名關(guān)鍵詞的空間相關(guān)地址從而提升它們的空間相關(guān)度(具體提升方法是每個(gè)地址的空間相關(guān)度值都加上這些空間聚集地址的相關(guān)度的累加值)。最后由圖1中的第7個(gè)模塊結(jié)果展示接口將排名最靠前的幾個(gè)地址以及它們的空間相關(guān)度以文字和地圖的方式展現(xiàn)給用戶,幫助用戶決定選擇哪個(gè)地址作為目標(biāo)地址(如圖2所示)。權(quán)利要求1.一種網(wǎng)絡(luò)地圖服務(wù)中未登錄地名的定位方法,其步驟為1)收集所有包含用戶輸入的未登錄地名關(guān)鍵詞的網(wǎng)頁;2)從網(wǎng)頁中提取出包含地名關(guān)鍵詞的上下文信息;3)從所有網(wǎng)頁的地名關(guān)鍵詞上下文中提取出所有地名詞典中包含的地址信息;4)計(jì)算出上述地址信息與用戶輸入的未登錄地名關(guān)鍵詞的空間相關(guān)度;5)對空間相關(guān)度進(jìn)行排名,取排名前幾個(gè)地址作為定位結(jié)果在地圖上標(biāo)識返回給用戶。2.如權(quán)利要求1所述的定位方法,其特征在于網(wǎng)頁的收集方式為從本地已有的網(wǎng)頁庫中檢索出包含關(guān)鍵詞的網(wǎng)頁或通過搜索引擎檢索到包含關(guān)鍵詞的網(wǎng)頁鏈接,再下載到本地。3.如權(quán)利要求1所述的定位方法,其特征在于所述網(wǎng)頁的地名關(guān)鍵詞上下文為純文本信息,關(guān)鍵詞前后各100字以內(nèi)。4.如權(quán)利要求1所述的定位方法,其特征在于所述的地名詞典為根據(jù)網(wǎng)絡(luò)地圖服務(wù)網(wǎng)站的空間數(shù)據(jù)庫而建立,每個(gè)地名詞匯都有具體的坐標(biāo)位置。5.如權(quán)利要求1所述的定位方法,其特征在于采用基于地名詞典的匹配方法提取出所有地名詞典中包含的地址信息。6.如權(quán)利要求1或5所述的定位方法,其特征在于從網(wǎng)頁文本中所提取的所有地址信息根據(jù)坐標(biāo)位置能夠在網(wǎng)絡(luò)地圖服務(wù)中進(jìn)行定位。7.如權(quán)利要求1所述的定位方法,其特征在于采用空間聚類計(jì)算對空間相關(guān)度進(jìn)行修正。全文摘要本發(fā)明提供了一種網(wǎng)絡(luò)地圖服務(wù)中未登錄地名的定位方法,其首先收集所有包含用戶輸入的未登錄地名關(guān)鍵詞的網(wǎng)頁,從中提取出空間數(shù)據(jù)庫中登錄的地址信息,根據(jù)地名關(guān)鍵詞與登錄的地址信息之間的距離計(jì)算得到空間相關(guān)度,并根據(jù)空間聚類計(jì)算對空間相關(guān)度進(jìn)行修正,取空間相關(guān)度排名在前的幾個(gè)地址作為定位結(jié)果在地圖上標(biāo)識返回給用戶。本發(fā)明的方法可以在不擴(kuò)展、更新地址數(shù)據(jù)的情況下,迅速有效的提供未登錄地名的地址信息,并根據(jù)文字的地址信息在地圖上進(jìn)行定位,可以在一定程度上提高地圖搜索定位服務(wù)的質(zhì)量。文檔編號G06F17/30GK101110080SQ20071012054公開日2008年1月23日申請日期2007年8月21日優(yōu)先權(quán)日2007年8月21日發(fā)明者周曉魯,汪小林,羅英偉,許卓群申請人:北京大學(xué)