專利名稱:提供地域化信息的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及互聯(lián)網(wǎng)技術領域,特別涉及一種提供地域化信息的方法和系統(tǒng)。
背景技術:
互聯(lián)網(wǎng)技術中,可以提供各種形式的信息,諸如新聞、體育、娛樂信息等。
還有通過論壇(BBS)、博客(Blog)、相冊、視頻等網(wǎng)站提供的豐富的信息。
目前,這些信息的提供都是網(wǎng)站自主提供的。即使存在提供按照關鍵字搜 索或分類的互聯(lián)網(wǎng)信息,例如一些門戶網(wǎng)站通過搜索引擎提供的按照關鍵字搜 索得到的互聯(lián)網(wǎng)信息,也僅僅能做到從原始抓取的來源豐富的網(wǎng)頁中收集出現(xiàn) 該關鍵字的信息。例如通過搜索引擎中搜索"北京"關鍵字的新聞,則搜索到 的內(nèi)容是所有包含"北京"關鍵字的新聞,而往往這類搜索到的新聞中并不都 是發(fā)生在北京本地的新聞,也就不能滿足用戶真正的按照地域搜索新聞的意 圖。
隨著互聯(lián)網(wǎng)技術的發(fā)展和互聯(lián)網(wǎng)用戶需求的增加,需要一種技術來實現(xiàn)地 域化信息的提供。但是現(xiàn)有技術中還沒有這樣一種技術來滿足用戶的需求。
發(fā)明內(nèi)容
本發(fā)明實施例的目的是提供一種提供地域化信息的方法和系統(tǒng),以實現(xiàn)地 域化信息的提供。
為解決上述技術問題,本發(fā)明實施例提供一種提供地域化信息的方法和系 統(tǒng)這樣實現(xiàn)的
一種提供地域化信息的方法,包括 萃取文檔數(shù)據(jù)中的地理信息;
根據(jù)萃取的地理信息在預置的地理信息庫查找對應的地理屬性,并為所述 文檔數(shù)據(jù)標記所述查找到的地理屬性; 獲取用戶的地理屬性;
將標記的地理屬性與用戶的地理屬性匹配的文檔數(shù)據(jù)提供給用戶。一種^是供地域化信息的方法,包括 萃取文檔數(shù)據(jù)中的地理信息; 獲取用戶的地理屬性;
將地理信息與用戶的地理屬性匹配的文檔數(shù)據(jù)^提供給用戶。 一種提供地域化信息的系統(tǒng),包括
文檔數(shù)據(jù)地理信息萃取模塊,用于萃取文檔數(shù)據(jù)中的地理信息; 地理信息庫,用于存儲地名名稱和表示地理信息的詞以及地理信息之間的 隸屬關系;
標記才莫塊,用于才艮據(jù)萃取的地理信息在地理信息庫查找對應的地理屬性, 并為所述文檔lt據(jù)標記所述查找到的地理屬性;
用戶地理屬性獲^^莫塊,用于獲取用戶的地理屬性;
輸出^f莫塊,用于將標記的地理屬性與用戶的地理屬性匹配的文檔數(shù)據(jù)提供 給用戶。
一種提供地域化信息的系統(tǒng),包括
文檔數(shù)據(jù)地理信息萃取模塊,用于萃取文檔數(shù)據(jù)中的地理信息; 用戶地理屬性獲取模塊,用于獲取用戶的地理屬性; 輸出模塊,用于將與用戶的地理屬性匹配的文檔數(shù)據(jù)提供給用戶。 由以上本發(fā)明實施例提供的技術方案可見,萃取文檔數(shù)據(jù)中的地理信息, 根據(jù)萃取的地理信息在預置的地理信息庫查找對應的地理屬性,并為所述文檔
數(shù)據(jù)標記所述地理屬性,獲取用戶的地理屬性,將標記的地理屬性與用戶的地 理屬性匹配的文檔數(shù)據(jù)提供給用戶,這樣,可以提供適于用戶的地域化信息。 而且,該方法實施例中,實現(xiàn)了對用戶和文檔數(shù)據(jù)信息的地域化,從而幫助用 戶更快更精準的找到需要的信息。
圖1為本發(fā)明方法一個實施例的流程圖; 圖2為本發(fā)明地理信息庫的組織結構圖; 圖3為本發(fā)明方法另一實施例的流程圖;圖4為本發(fā)明系統(tǒng)一個實施例的框圖5為本發(fā)明系統(tǒng)一個實施例的框圖6為本發(fā)明系統(tǒng)一個實施例的框圖7為本發(fā)明系統(tǒng)一個實施例的框圖8為本發(fā)明系統(tǒng)一個實施例的框圖9為本發(fā)明系統(tǒng)一個實施例的框圖IO為本發(fā)明系統(tǒng)一個實施例的框圖11為本發(fā)明系統(tǒng)一個實施例的框圖12為本發(fā)明系統(tǒng)一個實施例的框圖13為本發(fā)明系統(tǒng)一個實施例的框圖。
具體實施例方式
本發(fā)明實施例提供一種提供地域化信息的方法和系統(tǒng)。
為了使本技術領域的人員更好地理解本發(fā)明方案,下面結合附圖和實施方 式對本發(fā)明實施例作進一步的詳細說明。
以下介紹本發(fā)明提供地域化信息的方法實施例。圖1示出了該實施例的流 程,如圖l所示,該方法實施例包括
S101:萃取文檔數(shù)據(jù)中的地理信息。
互聯(lián)網(wǎng)中,存在于網(wǎng)頁形式中的新聞、體育、娛樂、博客、論壇、相冊、 視頻等的內(nèi)容,很多存在地理信息。例如,存在省、市、區(qū)之類信息,而網(wǎng)頁 中的這些信息一般都是文檔數(shù)據(jù)。該步驟中,就是要將文檔數(shù)據(jù)內(nèi)容中的地理 信息萃取出來。
以下例舉該步驟的兩種具體的實現(xiàn)方式。
以下介紹方式一
該方式中,可以預置地名詞庫,該地名詞庫中存儲有地名名稱。例如省級 行政區(qū)類的省、直轄市、自治區(qū)、特別行政區(qū),地區(qū)級行政區(qū)類的地區(qū)市、地 區(qū)、自治州、盟名稱等,縣級行政區(qū)類的市轄區(qū)、縣級市、縣、自治縣、旗、 自治旗、特區(qū)、林區(qū)名稱等,鄉(xiāng)級行政區(qū)類的鎮(zhèn)、鄉(xiāng)、街道、蘇木名稱等,村級行政區(qū)類的社區(qū)、居委會、村名稱等。
當然,這個地名詞庫中還可以包括任何表示地理信息的詞,例如高校名稱、
興趣點數(shù)據(jù)(Point Of Interest, POI)名稱、企業(yè)名稱、特產(chǎn)名稱、小區(qū)名稱、景點名稱等,因為這些詞也都可以代表地理信息。例如高校,清華大學可以代表北京市海淀區(qū)五道口地區(qū)這一地理信息;例如興趣點數(shù)據(jù),毛家飯店藍堡店可以代表北京市西大望路藍堡國際中心這一地理信息;例如企業(yè)名稱,淘寶網(wǎng)可以代表浙江省杭州市文二路391號這一地理信息;例如特產(chǎn)名稱,西湖龍井可以代表浙江省杭州市西湖區(qū)這一地理信息;例如景點名稱,頤和園可以代表北京市海淀區(qū)這一地理信息;例如小區(qū)名稱,陽光100可以代表北京市朝陽區(qū)西大望路這一地理信息;等等。
則該方式可以包括根據(jù)預置的地名詞庫萃取文檔數(shù)據(jù)中的地理信息。該步驟,簡單地說,即是查找出文檔數(shù)據(jù)中出現(xiàn)在預置的地名詞庫中的地名名稱。關于如何利用預置的地名詞庫查找文檔數(shù)據(jù)中的地名名稱或其它地理信息,所述其它地理信息可以如上面描述的高校名稱、興趣點數(shù)據(jù)名稱、企業(yè)名稱、特產(chǎn)名稱、小區(qū)名稱、景點名稱等。具體的,所述^^艮據(jù)預置的地名詞庫萃取文檔數(shù)據(jù)中的地理信息可以有多種方式實現(xiàn),這里不再具體展開描述。以下介紹方式二
該方式中,可以預置地名后綴詞庫,該地名后綴詞庫中存儲有地名后綴。例如,該地名后綴詞庫中包括省、市、縣、鄉(xiāng)、區(qū)、路、街等地名后綴。
則該方式可以包括才艮據(jù)預置的地名后綴詞庫查找文檔數(shù)據(jù)中存在的地名后綴,并將地名后綴前固定出現(xiàn)的詞作為該文檔數(shù)據(jù)的地理信息。
例如文檔數(shù)據(jù)中可以查找到地名后綴詞庫中的"市,,,并且在該后綴"市"之前固定出現(xiàn)的詞為"北京",則可以將"北京"作為該文檔數(shù)據(jù)的地理信息。
這里,作為實施例,給出了兩種萃取文檔數(shù)據(jù)中地理信息的方式,當然,本領域技術人員應當知道,還存在其它萃取文檔數(shù)據(jù)中地理信息的方式,而本發(fā)明涵蓋的范圍應當包括該步驟的這些不同實施方式。
實際當中,還可能存在同一文檔數(shù)據(jù)中出現(xiàn)多個不同地理信息的情況。這時候,按照上述兩種方式或其它方式萃取地理信息后,該文檔數(shù)據(jù)中可能萃取出若干不同的地理信息。而一般地,同一文檔數(shù)據(jù)中,描述的內(nèi)容應當具有一個中心地理信息。例如,在談到四川地震新聞的文檔數(shù)據(jù)中,會萃取得到四川這一地理信息,但是,同時該新聞中還可能談到其它省、市對四川的援助,這樣還會萃取得到例如廣東、北京這些地理信息。而萃取到的這些地理信息中,四川應當是中心地理信息。
那么,以下給出確定萃取的多個地理信息中的中心地理信息的一種實現(xiàn)方
式
對于同一文檔數(shù)據(jù)中萃取出的多個地理信息,將這些地理信息中出現(xiàn)次數(shù)
最多的作為該文檔數(shù)據(jù)的中心地理信息,也就是作為該文檔數(shù)據(jù)最終的地理信自
例如上述例子中,四川在該文檔數(shù)據(jù)中出現(xiàn)6次,北京出現(xiàn)2次,廣東出現(xiàn)l次,則將出現(xiàn)次數(shù)最多的,即出現(xiàn)6次的四川確定為該文檔數(shù)據(jù)的中心地理信息,也就是確定為該文檔數(shù)據(jù)最終的地理信息。
仍然以四川地震新聞的文檔數(shù)據(jù)為例,可能在該文檔數(shù)據(jù)中,談到較多的
是四川境內(nèi)發(fā)生災情的市、縣、自治區(qū)等。同時,還可能談到北京、廣東等省市對災區(qū)的4爰助。該情況下,四川、北京、廣東在該文檔教:據(jù)中出現(xiàn)的次數(shù)可能相同,但是,四川應當是該文檔數(shù)據(jù)中的中心地理信息。
那么,以下給出確定萃取的多個地理信息中的中心地理信息的一種實現(xiàn)方
式
對于萃取出的多個地理信息,按照行政區(qū)劃隸屬關系統(tǒng)計隸屬的地理信息出現(xiàn)次數(shù);將萃取到的地理信息和統(tǒng)計的隸屬于的地理信息中出現(xiàn)次數(shù)最多的作為該文檔數(shù)據(jù)的中心地理信息,也就是作為該文檔數(shù)據(jù)最終的地理信息。
如文檔凄t據(jù)中出現(xiàn)1次四川,1次汶川,1次綿竹,1次北川,1次北京,l次廣東,則,由于汶川、綿竹、北川都隸屬于四川這一行政區(qū)劃,因此統(tǒng)計為3次四川,加上出現(xiàn)的l次四川,則四川共統(tǒng)計出現(xiàn)4次,而北京和廣東各出現(xiàn)1次,這樣,四川出現(xiàn)次數(shù)最多,將四川作為該文檔數(shù)據(jù)中萃取的中心地
ii理信息,也就是該文檔數(shù)據(jù)最終的地理信息。
這里的行政區(qū)劃隸屬關系,可以通過預置的地理信息庫實現(xiàn)。該地理信息庫中,除了具備前述預置的地名詞庫的全部地理名稱外,還有所有地理信息之間的隸屬關系。例如,該地理信息詞庫中包括四川這一省級區(qū)劃,四川之下包括所有市級的行政區(qū)劃,每個市下面包括縣級的行政區(qū)劃,每個縣下面包括區(qū)給的行政區(qū)劃,依次類推,并且其它省級行政區(qū)劃也類似。當然,所述地理信息庫中還可以包括國家級別的地理信息,并且,不同國家之下包括各自的州、省等行政區(qū)劃,在此不再贅述。
這樣,按照預置的地理信息庫,可以實現(xiàn)將萃取出的多個地理信息按照行政區(qū)劃隸屬關系統(tǒng)計隸屬的地理信息出現(xiàn)次數(shù)。
需要說明的是,前述方式一中的預置的地名詞庫,可以采用這里的地理信息庫。
S102:根據(jù)萃取的地理信息在預置的地理信息庫查找對應的地理屬性,并為所述文檔ft據(jù)標記所述地理屬性。
這里的預置的地理信息庫,可以與前述S101中的地理信息庫相同。其中存儲有地名名稱。例如省級行政區(qū)類的省、直轄市、自治區(qū)、特別行政區(qū),地區(qū)級行政區(qū)類的地區(qū)市、地區(qū)、自治州、盟名稱等,縣級行政區(qū)類的市轄區(qū)、縣級市、縣、自治縣、旗、自治旗、特區(qū)、林區(qū)名稱等,鄉(xiāng)級行政區(qū)類的鎮(zhèn)、鄉(xiāng)、街道、蘇木名稱等,村級行政區(qū)類的社區(qū)、居委會、村名稱等。不同地名名稱之間,還存在行政區(qū)劃的隸屬關系。以中國為例,其下可以包括省、直轄市、特別行政區(qū)、自治區(qū)這類省級行政區(qū)劃,省級行政區(qū)下包括地區(qū)市、地區(qū)、自治州、盟等地區(qū)級行政區(qū)劃,地區(qū)級行政區(qū)下包括市轄區(qū)、縣級市、縣、自治縣、旗、自治旗、特區(qū)、林區(qū)及其它縣級行政區(qū)劃,縣級行政區(qū)下包括鎮(zhèn)、鄉(xiāng)、街道、蘇木及其它鄉(xiāng)級行政區(qū)劃,鄉(xiāng)級行政區(qū)下包括社區(qū)、居委會、村等村級行政區(qū)劃。圖2示出了預置的地理信息庫的結構圖。上述地理信息庫中的地名名稱與行政區(qū)劃的隸屬關系可以如圖2中組織。
特別的,預置的地理信息庫中,還可以包括任何表示地理信息的詞,例如高校名稱、興趣點數(shù)據(jù)名稱、企業(yè)名稱、特產(chǎn)名稱、小區(qū)名稱、景點名稱等,因為這些詞也都可以代表地理信息。這樣,與前面類似的,例如高校,清華大
學可以代表北京市海淀區(qū)五道口地區(qū)這一地理信息;例如興趣點數(shù)據(jù),毛家飯店藍堡店可以代表北京市西大望3各藍堡國際中心這一地理信息;例如企業(yè)名稱,淘寶網(wǎng)可以代表浙江省杭州市文二路391號這一地理信息;例如特產(chǎn)名稱,西湖龍井可以代表浙江省杭州市西湖區(qū)這一地理信息;例如景點名稱,頤和園可以代表北京市海淀區(qū)這一地理信息;例如小區(qū)名稱,陽光100可以代表北京市朝陽區(qū)西大望路這一地理信息;等等。當然,這些表示地理信息的詞也有與預置的地理信息庫中地理信息之間的行政區(qū)劃隸屬關系。
前述S101中萃取出文檔數(shù)據(jù)中的地理信息后,可以在預置的地理信息庫中查找對應的地理屬性,并將地理屬性標記在所述文檔數(shù)據(jù)上。
例如萃取到文檔數(shù)據(jù)中的地理信息為"大望路,',根據(jù)預置的地理信息庫
中可以查找到地理屬性為"北京市-朝陽區(qū)-大望路",這樣,可以對該文檔數(shù)據(jù)標記地理屬性,例如完整的"北京市-朝陽區(qū)-大望路"。S103:獲耳又用戶的地理屬性。
用戶具有一定的地理屬性。例如,用戶操作終端接入互聯(lián)網(wǎng)過程中,所處的地理位置。這一地理位置可以通過用戶終端接入互聯(lián)網(wǎng)的IP地址表明。
例如當前用戶終端的IP地址為202.115.33.3,通過網(wǎng)際協(xié)i義(InternetProtocol, IP )地址的查詢,可以得知該IP地址來自"四川大學工程設計中心,,,而該地址的完整地址為"四川省-成都市-四川大學工程i殳計",則該地址可以作為用戶的地理屬性。
這樣,通過查詢用戶終端的IP地址,可以獲取用戶的地理屬性。
用戶的地理屬性,還可以是用戶登記的地址,如登記家庭住址、學校地址、工作地址等。通過查詢用戶登記的地址,可以獲取用戶的地理屬性。
此外,用戶的地理屬性,還可以是用戶定制的地理位置。例如,用戶定制了廈門這一地理位置,則S103中,通過查詢用戶定制的地理位置,可以獲取到這一地理屬性。
13另外,用戶的地理屬性,還可以是通過獲取用戶的經(jīng)綿度信息得到用戶的
地理屬性。例如用戶通過手持式GPS定位了當前的經(jīng)煒度信息,則可以通過
獲取該經(jīng)綿度信息得到用戶當前的地理位置。
再者,還可以是通過搜集用戶的上網(wǎng)瀏覽焦點得到用戶的地理屬性。例如,用戶在一定時間段內(nèi)通過互聯(lián)網(wǎng)搜索或查詢九寨溝這一地理位置,則很有可能用戶希望在未來的一段時期內(nèi)去該地旅行,則通過4叟集用戶這一段時間內(nèi)搜索或查詢的這一地理位置得到用戶的地理屬性。
獲取用戶地理屬性的方式有很多種,上面僅例舉出了幾種,本領域技術人員應當知道,本發(fā)明并不限于上述幾種方式。只要可以獲取用戶的地理屬性,無論該地理屬性是用戶當前的IP地址,或用戶登記的地理位置,或用戶定制的地理位置,或用戶的經(jīng)綿度信息,或用戶的上網(wǎng)瀏覽焦點,或者其它方式的用戶地理屬性,都應當涵蓋在本發(fā)明實施例的范圍內(nèi)。
S104:將標記的地理屬性與用戶的地理屬性匹配的文檔凝:據(jù)提供給用戶。
該步驟中,首先對文檔數(shù)據(jù)上標記的地理屬性與獲取的用戶地理屬性進行匹配,如果匹配,則將對應的文檔凝:據(jù)4是供給用戶。
需要說明的是,由于S101、 S102中的文檔數(shù)據(jù)可以有很多,例如類似于搜索引擎,通過網(wǎng)絡爬蟲抓取的當天互聯(lián)網(wǎng)中所有的文檔數(shù)據(jù),或是幾天內(nèi)的互聯(lián)網(wǎng)中所有的文檔數(shù)據(jù)。現(xiàn)有的網(wǎng)站提供的服務中,完全可以有能力做到收集互聯(lián)網(wǎng)上所有的文檔數(shù)據(jù)。
前述提到,標記到文檔數(shù)據(jù)上的地理屬性中,可以包括不同的行政區(qū)劃等級,例如一些文檔數(shù)據(jù)上標記的完整地理屬性為"北京市-朝陽區(qū)-大望路,,,而另一些文檔數(shù)據(jù)上標記的完整地理屬性為"北京市-朝陽區(qū)-建國門",還有一些文檔數(shù)據(jù)上標記的完整地理屬性為"北京市-朝陽區(qū)"。如果用戶的地理位置為大望路,則可以提供標記為"北京市-朝陽區(qū)-大望路,,的文檔數(shù)據(jù)給用戶,而不提供標記為"北京市-朝陽區(qū)-建國門"的文檔凄t據(jù)給用戶。
當然,也可以提供標記為"北京市-朝陽區(qū)"的文檔數(shù)據(jù)給用戶。此時,標記為"北京市-朝陽區(qū)"的文檔數(shù)據(jù),可以包括標記為"北京市-朝陽區(qū)-大望路"的文檔數(shù)據(jù)和標記為"北京市-朝陽區(qū)-建國門"的文檔數(shù)據(jù),當然還可以包括其它標記中包括"北京市-朝陽區(qū),,的文檔數(shù)據(jù)。
上述不同行政區(qū)劃等級的文檔數(shù)據(jù),可以分級提供給用戶,即為用戶的瀏覽進行逐級地域導航,或提供由用戶選擇,例如提供給用戶選擇某一等級的行政區(qū)劃的文檔數(shù)據(jù),如選擇北京市這一行政區(qū)劃等級的文檔數(shù)據(jù),或選擇朝陽區(qū)這一行政區(qū)劃等級的文檔數(shù)據(jù)。
所述將文檔數(shù)據(jù)提供給用戶,本領域技術人員和一般用戶都可以理解,包括將包含文檔數(shù)據(jù)的網(wǎng)頁通過標題鏈接的方式發(fā)送到用戶終端的瀏覽器頁面上。
需要說明的是,上述S101、 S102與S103之間并沒有嚴格的先后順序,也可以是先執(zhí)行S103,再執(zhí)行S101和S102,也就是說只要在S104之前得到S102和S103的結果即可。
從上述本發(fā)明方法實施例可以看出,萃取文檔數(shù)據(jù)中的地理信息,根據(jù)萃取的地理信息在預置的地理信息庫查找對應的地理屬性,并為所述文檔數(shù)據(jù)標記所述地理屬性,獲取用戶的地理屬性,將標記的地理屬性與用戶的地理屬性匹配的文檔數(shù)據(jù)提供給用戶,這樣,可以提供適于用戶的地域化信息。而且,該方法實施例中,實現(xiàn)了對文檔數(shù)據(jù)的地域化,從而幫助用戶更快更精準的找到需要的信息。
本發(fā)明4是供地域化信息的方法實施例,應用范圍廣泛,例如可以應用到以下幾種產(chǎn)品和服務中
1) 新聞搜索
通過上述方法實施例,可以自動對新聞按照地域進行分類,生成地方新聞聚合,再根據(jù)訪問用戶的地域屬性,主動推薦相關的新聞內(nèi)容給用戶,真正實現(xiàn)"講述老百姓身邊的故事",同時還可以通過給新聞標注完整地域信息的優(yōu)勢,為用戶的瀏覽進行逐級地域導航。
2) 生活服務信息提供
生活服務是當前中國互聯(lián)網(wǎng)熱點。同其他信息相比,生活服務信息更強調(diào)
15地域化、準確、及時。利用上述本發(fā)明的方法實施例,可以對生活服務信息按照地域進行有效的聚合,當用戶訪問時,能夠有效地識別用戶的地域屬性,配合經(jīng)過地域化處理的數(shù)據(jù),可以主動將本地生活服務信息推送給用戶,以便于用戶對生活服務信息使用的便利度,提高生活服務信息的服務效果和效率。例如關于某一地區(qū)內(nèi)的餐飲信息,打折信息、房屋租售信息、小時工信息等生活服務信息,針對性的提供給與該地區(qū)相關的用戶,可以利用用戶便利的了解該地區(qū)的生活服務信息,從而提高生活服務信息的服務效果和效率。
3 )社區(qū)(Community )和社會化網(wǎng)絡服務(Society Network Service, SNS )
當前的社區(qū)服務包括論壇,博客,相冊,群組等服務,目前多是以話題來聚合信息,用戶在檢索數(shù)據(jù)也大多是通過關鍵詞進行。采用本發(fā)明上述方法實施例對這些數(shù)據(jù)進行地域化處理后,就可以分不同地方、不同區(qū)域等級來聚合數(shù)據(jù),同樣是根據(jù)用戶的地域屬性進行有效引導和推薦,讓用戶方便地了解到身邊網(wǎng)友都在關注什么,并能夠按地域來聚合朋友圈,形成社會化網(wǎng)絡,加強用戶的網(wǎng)上社交和互動。
綜上,通過對互聯(lián)網(wǎng)信息的地域化處理,并對用戶地域屬性的識別,可以有效的將互聯(lián)網(wǎng)中的海量數(shù)據(jù)根據(jù)用戶地理屬性提供給用戶,從而提高了用戶獲取數(shù)據(jù)和信息的效率和效果,在互聯(lián)網(wǎng)服務中具有廣闊的應用前景。
以下介紹本發(fā)明提供地域化信息的另一方法實施例,圖3示出了該方法實施例的流程圖,如圖3中所述,該方法實施例可以包括
S301:萃取文檔數(shù)據(jù)中的地理信息。
該步驟與前述S101類似,可以包括兩種實現(xiàn)方式
方式一根據(jù)預置的地名詞庫萃取文檔數(shù)據(jù)中的地理信息;所述地名詞庫中存儲有地名名稱和表示地理信息的詞。
方式二根據(jù)預置的地名后綴詞庫查找文檔數(shù)據(jù)中存在的地名后綴,并將地名后綴前固定出現(xiàn)的詞作為所述文檔數(shù)據(jù)的地理信息。
上述兩種方式具體請參見S101中對應的兩種方式,在此不再贅述。
實際當中,還可能存在同一文檔數(shù)據(jù)中出現(xiàn)多個不同地理信息的情況。這時候,按照上述兩種方式或其它方式萃取地理信息后,該文檔數(shù)據(jù)中可能萃取 出若干不同的地理信息。而一般地,同一文檔數(shù)據(jù)中,描述的內(nèi)容應當具有一 個中心地理信息。
那么,以下給出確定萃取的多個地理信息中的中心地理信息的兩種實現(xiàn)方
式
方式一對于同一文檔數(shù)據(jù)中萃取出的多個地理信息,將這些地理信息中 出現(xiàn)次數(shù)最多的作為該文檔數(shù)據(jù)最終的地理信息。
方式二對于萃取出的多個地理信息,根據(jù)預置的地理信息庫,按照行政 區(qū)劃隸屬關系統(tǒng)計隸屬的地理信息出現(xiàn)次數(shù);所述地理信息庫中存儲有地名名 稱和表示地理信息的詞以及地理信息之間的隸屬關系;將萃取到的地理信息和 統(tǒng)計的隸屬于的地理信息中出現(xiàn)次數(shù)最多的作為該文檔數(shù)據(jù)最終的地理信息。
上述確定萃取的多個地理信息中的中心地理信息的兩種實現(xiàn)方式與前述 S101中對應的兩種方式類似,在此也不再贅述。
S302:獲取用戶的地理屬性。
通過查詢用戶終端的IP地址獲耳又用戶的地理屬性;或, 通過查詢用戶登記的地址獲取用戶的地理屬性;或, 通過查詢用戶定制地理位置獲:f又到這一地理屬性;或, 通過獲取用戶的經(jīng)綽度信息得到用戶的地理屬性;或, 通過搜集用戶的上網(wǎng)瀏覽焦點得到用戶的地理屬性。 該步驟與前述S103類似。
S303:將地理信息與用戶的地理屬性匹配的文檔數(shù)據(jù)提供給用戶。
該步驟中,直接將文檔數(shù)據(jù)的地理信息與獲取的用戶地理屬性進行匹配, 如果匹配,則將對應的文檔數(shù)據(jù)提供給用戶。
上述不同行政區(qū)劃等級的文檔數(shù)據(jù),可以分級提供給用戶,即為用戶的瀏 覽進行逐級地域導航,或提供由用戶選擇,例如提供給用戶選擇某一等級的行 政區(qū)劃的文檔數(shù)據(jù)。
這樣,具體的,可以將文檔數(shù)據(jù)的地理信息與用戶的地理屬性匹配的文檔
17數(shù)據(jù),按照不同行政區(qū)劃等級分級提供給用戶,或提供由用戶選擇。
所述將文檔數(shù)據(jù)提供給用戶,本領域技術人員和一般用戶都可以理解,包 括將包含文檔數(shù)據(jù)的網(wǎng)頁通過標題鏈接的方式發(fā)送到用戶終端的瀏覽器頁面 上。
需要說明的是,上述S301與S302間并沒有嚴格的先后順序,也可以是先 執(zhí)行S302,再執(zhí)行S301,也就是說只要在S303之前完成S301的結果和S302 的結果即可。
以下介紹本發(fā)明提供地域化信息的系統(tǒng)的一個實施例,圖4示出了該系統(tǒng)
實施例的框圖,如圖4所示,該系統(tǒng)實施例可以包括
文檔數(shù)據(jù)地理信息萃取;漠塊41 ,用于萃取文檔數(shù)據(jù)中的地理信息; 地理信息庫42,用于存儲地名名稱和表示地理信息的詞以及地理信息之
間的隸屬關系;
標記模塊43,用于根據(jù)萃取的地理信息在地理信息庫查找對應的地理屬
性,并為所述文檔數(shù)據(jù)標記所述查找到的地理屬性;
用戶地理屬性獲取模塊44,用于獲取用戶的地理屬性;
輸出模塊45,用于將標記的地理屬性與用戶的地理屬性匹配的文檔數(shù)據(jù)
提供給用戶。
優(yōu)選地,所述系統(tǒng)還可以如圖5所示,在圖4的基礎上進一步包括地名詞 庫51,其中存儲有地名名稱和表示地理信息的詞;
這樣,所述文檔數(shù)據(jù)地理信息萃取模塊41可以根據(jù)地名詞庫萃取文檔數(shù) 據(jù)中的地理信息。
需要說明的是,地名詞庫51,可以位于文檔數(shù)據(jù)地理信息萃取模塊41之 內(nèi),也可以位于文檔數(shù)據(jù)地理信息萃取模塊41之外的系統(tǒng)中。
所述系統(tǒng)還可以如圖6所示,在圖4的基礎上進一步包括地名后綴詞庫 61,所述文檔數(shù)據(jù)地理信息萃取41模塊根據(jù)預置的地名后綴詞庫61查找文檔 數(shù)據(jù)中存在的地名后綴,并將地名后綴前固定出現(xiàn)的詞作為所述文檔數(shù)據(jù)的地 理信息。
18需要說明的是,地名后綴詞庫61,可以位于文檔數(shù)據(jù)地理信息萃取模塊
41之內(nèi),也可以位于文檔數(shù)據(jù)地理信息萃取^^莫塊41之外的系統(tǒng)中。
所述系統(tǒng)還可以在圖4、或圖5、或圖6的基礎上進一步包括中心地理信 息確定模塊71,這里僅示出在圖4基礎上包括中心地理信息確定模塊71的情 況,如圖7所示,用于將文檔數(shù)據(jù)地理信息萃取模塊41對同一文檔數(shù)據(jù)中萃 取出的多個地理信息中的出現(xiàn)次數(shù)最多的確定為該文檔數(shù)據(jù)最終的地理信息。 所述系統(tǒng)還還可以在圖4、或圖5、或圖6的基礎上進一步包括中心地理 信息確定模塊81和預置的地理信息庫82,這里僅示出在圖4基礎上包括中心 地理信息確定模塊81和預置的地理信息庫82的情況,如圖8所示。
中心地理信息確定模塊81,用于將文檔數(shù)據(jù)地理信息萃取^莫塊41對同一 文檔數(shù)據(jù)中萃取出的多個地理信息,根據(jù)預置的地理信息庫82,按照行政區(qū) 劃隸屬關系統(tǒng)計隸屬的地理信息出現(xiàn)次數(shù),并將萃取到的地理信息和統(tǒng)計的隸 屬于的地理信息中出現(xiàn)次數(shù)最多的作為該文檔數(shù)據(jù)最終的地理信息;所述地理 信息庫82中存儲有地名名稱和表示地理信息的詞以及地理信息之間的隸屬關 系。
優(yōu)選地,所述系統(tǒng)中,所述用戶地理屬性獲取;f莫塊44,通過查詢用戶終 端的IP地址獲取用戶的地理屬性;或,
通過查詢用戶登記的地址獲取用戶的地理屬性;或, 通過查詢用戶定制地理位置獲:f又到這一地理屬性;或, 通過獲取用戶的經(jīng)煒度信息得到用戶的地理屬性;或, 通過搜集用戶的上網(wǎng)瀏覽焦點得到用戶的地理屬性。
以下介紹本發(fā)明提供地域化信息的系統(tǒng)的另 一實施例,圖9示出了該系統(tǒng) 實施例的框圖,如圖9所示,該系統(tǒng)實施例可以包:fe:
文檔數(shù)據(jù)地理信息萃取模塊91,用于萃取文檔數(shù)據(jù)中的地理信息;
用戶地理屬性獲取模塊92,用于獲取用戶的地理屬性;
輸出模塊93,用于將與用戶的地理屬性匹配的文檔數(shù)據(jù)提供給用戶。
19優(yōu)選地,所述系統(tǒng)還可以如圖IO所示,進一步包括地名詞庫101,其中 存儲有地名名稱和表示地理信息的詞;
這樣,所述文檔數(shù)據(jù)地理信息萃^^莫塊91根據(jù)地名詞庫萃取文檔數(shù)據(jù)中 的地理信息。
需要說明的是,地名詞庫101,可以位于文檔數(shù)據(jù)地理信息萃取模塊91 之內(nèi),也可以位于文檔數(shù)據(jù)地理信息萃取模塊91之外的系統(tǒng)中。
優(yōu)選地,所述系統(tǒng)還可以如圖11所示,進一步包括地名后綴詞庫111, 所述文檔數(shù)據(jù)地理信息萃取模塊91根據(jù)預置的地名后綴詞庫111查找文檔數(shù) 據(jù)中存在的地名后綴,并將地名后綴前固定出現(xiàn)的詞作為所述文檔數(shù)據(jù)的地理 信息。
需要說明的是,地名后綴詞庫lll,可以位于文檔數(shù)據(jù)地理信息萃取模塊 91之內(nèi),也可以位于文檔數(shù)據(jù)地理信息萃取模塊91之外的系統(tǒng)中。
優(yōu)選地,所述系統(tǒng)還可以在圖9、或圖10、或圖11的基礎上進一步包括 中心地理信息確定才莫塊121,這里^5l示出在圖9基礎上包括中心地理信息確定 模塊121的情況,如圖12所示,中心地理信息確定模塊121用于將文檔數(shù)據(jù) 地理信息萃取模塊91對同一文檔數(shù)據(jù)中萃取出的多個地理信息中的出現(xiàn)次數(shù) 最多的確定為該文檔數(shù)據(jù)最終的地理信息。
需要說明的是,中心地理信息確定才莫塊121,可以位于文檔數(shù)據(jù)地理信息 萃取模塊91之內(nèi),也可以位于文檔數(shù)據(jù)地理信息萃取模塊91之外的系統(tǒng)中。
優(yōu)選地,所述系統(tǒng)還可以在圖9、或圖10、或圖11的基礎上進一步包括 中心地理信息確定模塊131和預置的地理信息庫132,這里僅示出在圖9基礎 上包括中心地理信息確定模塊131和預置的地理信息庫132的情況,如圖13 所示。
中心地理信息確定模塊131,用于將文檔數(shù)據(jù)地理信息萃取模塊91對同 一文檔數(shù)據(jù)中萃取出的多個地理信息,根據(jù)預置的地理信息庫132,按照行政 區(qū)劃隸屬關系統(tǒng)計隸屬的地理信息出現(xiàn)次數(shù),并將萃取到的地理信息和統(tǒng)計的 隸屬于的地理信息中出現(xiàn)次數(shù)最多的作為該文檔數(shù)據(jù)最終的地理信息;所述地理信息庫132中存儲有地名名稱和表示地理信息的詞以及地理信息之間的隸 屬關系。
優(yōu)選地,所述系統(tǒng)中,所述用戶地理屬性獲取;f莫塊92,可以通過查詢用 戶終端的IP地址獲取用戶的地理屬性;或,
通過查詢用戶登記的地址獲取用戶的地理屬性;或, 通過查詢用戶定制地理位置獲取到這一地理屬性;或, 通過獲取用戶的經(jīng)綿度信息得到用戶的地理屬性;或, 通過搜集用戶的上網(wǎng)瀏覽焦點得到用戶的地理屬性。
雖然通過實施例描繪了本發(fā)明,本領域普通技術人員知道,本發(fā)明有許多 變形和變化而不脫離本發(fā)明的精神,希望所附的權利要求包括這些變形和變化 而不脫離本發(fā)明的精神。
權利要求
1、一種提供地域化信息的方法,其特征在于,包括萃取文檔數(shù)據(jù)中的地理信息;根據(jù)萃取的地理信息在預置的地理信息庫查找對應的地理屬性,并為所述文檔數(shù)據(jù)標記所述查找到的地理屬性;獲取用戶的地理屬性;將標記的地理屬性與用戶的地理屬性匹配的文檔數(shù)據(jù)提供給用戶。
2、 如權利要求1所述的方法,其特征在于,所述萃取文檔數(shù)據(jù)中的地理 信息包括根據(jù)預置的地名詞庫萃取文檔數(shù)據(jù)中的地理信息;所述地名詞庫中存儲有 地名名稱和表示地理信息的詞。
3、 如權利要求1所述的方法,其特征在于,所述萃取文檔數(shù)據(jù)中的地理 信息包括根據(jù)預置的地名后綴詞庫查找文檔數(shù)據(jù)中存在的地名后綴,并將地名后綴 前固定出現(xiàn)的詞作為所述文檔凝:據(jù)的地理信息。
4、 如權利要求l、 2或3所述的方法,其特征在于,所述萃取文檔數(shù)據(jù)中 的地理信息包括對于同一文檔數(shù)據(jù)中萃取出的多個地理信息,將這些地理信息中出現(xiàn)次數(shù) 最多的作為該文檔數(shù)據(jù)最終的地理信息。
5、 如權利要求l、 2或3所述的方法,其特征在于,所述萃取文檔數(shù)據(jù)中 的地理信息包括對于萃取出的多個地理信息,根據(jù)預置的地理信息庫,按照行政區(qū)劃隸屬 關系統(tǒng)計隸屬的地理信息出現(xiàn)次數(shù);所述地理信息庫中存儲有地名名稱和表示 地理信息的詞以及地理信息之間的隸屬關系;將萃取到的地理信息和統(tǒng)計的隸屬于的地理信息中出現(xiàn)次數(shù)最多的作為 該文檔數(shù)據(jù)最終的地理信息。
6、 如權利要求1所述的方法,其特征在于,所述獲取用戶的地理屬性包括通過查詢用戶終端的IP地址獲取用戶的地理屬性;或, 通過查詢用戶登記的地址獲取用戶的地理屬性;或, 通過查詢用戶定制地理位置獲取到這一地理屬性;或, 通過獲取用戶的經(jīng)綿度信息得到用戶的地理屬性;或, 通過^l叟集用戶的上網(wǎng)瀏覽焦點得到用戶的地理屬性。
7、 如權利要求1所述的方法,其特征在于,所述將標記的地理屬性與用 戶的地理屬性匹配的文檔數(shù)據(jù)提供給用戶,包括將標記的地理屬性與用戶的地理屬性匹配的文檔數(shù)據(jù),按照不同行政區(qū)劃 等級分級提供給用戶,或提供由用戶選擇。
8、 一種提供地域化信息的方法,其特征在于,包括 萃取文檔數(shù)據(jù)中的地理信息; 獲取用戶的地理屬性;將地理信息與用戶的地理屬性匹配的文檔數(shù)據(jù)提供給用戶。
9、 如權利要求8所述的方法,其特征在于,所述萃取文檔數(shù)據(jù)中的地理 信息包括根據(jù)預置的地名詞庫萃取文檔數(shù)據(jù)中的地理信息;所述地名詞庫中存儲有 地名名稱和表示地理信息的詞。
10、 如權利要求8所述的方法,其特征在于,所述萃取文檔數(shù)據(jù)中的地理 信息包括才艮據(jù)預置的地名后綴詞庫查找文檔凄t據(jù)中存在的地名后綴,并將地名后綴 前固定出現(xiàn)的詞作為所述文檔數(shù)據(jù)的地理信息。
11、 如權利要求8、 9或10所述的方法,其特征在于,所述萃取文檔數(shù)據(jù) 中的地理信息包括對于同 一文檔數(shù)據(jù)中萃取出的多個地理信息,將這些地理信息中出現(xiàn)次數(shù) 最多的作為該文檔數(shù)據(jù)最終的地理信息。
12、 如權利要求8、 9或10所述的方法,其特征在于,所述萃取文檔數(shù)據(jù) 中的地理信息包括對于萃取出的多個地理信息,根據(jù)預置的地理信息庫,按照行政區(qū)劃隸屬關系統(tǒng)計隸屬的地理信息出現(xiàn)次數(shù);所述地理信息庫中存儲有地名名稱和表示 地理信息的詞以及地理信息之間的隸屬關系;將萃取到的地理信息和統(tǒng)計的隸屬于的地理信息中出現(xiàn)次數(shù)最多的作為 該文檔數(shù)據(jù)最終的地理信息。
13、 如權利要求8所述的方法,其特征在于,所述獲取用戶的地理屬性包括通過查詢用戶終端的IP地址獲取用戶的地理屬性;或, 通過查詢用戶登記的地址獲取用戶的地理屬性;或, 通過查詢用戶定制地理位置獲取到這一地理屬性;或, 通過獲取用戶的經(jīng)綿度信息得到用戶的地理屬性;或, 通過搜集用戶的上網(wǎng)瀏覽焦點得到用戶的地理屬性。
14、 如權利要求9所述的方法,其特征在于,所述將地理信息與用戶的地 理屬性匹配的文檔數(shù)據(jù)提供給用戶,包括將文檔數(shù)據(jù)的地理信息與用戶的地理屬性匹配的文檔數(shù)據(jù),按照不同行政 區(qū)劃等級分級提供給用戶,或提供由用戶選擇。
15、 一種提供地域化信息的系統(tǒng),其特征在于,包括 文檔數(shù)據(jù)地理信息萃取模塊,用于萃取文檔數(shù)據(jù)中的地理信息; 地理信息庫,用于存儲地名名稱和表示地理信息的詞以及地理信息之間的隸屬關系;標記模塊,用于根據(jù)萃取的地理信息在地理信息庫查找對應的地理屬性, 并為所述文檔數(shù)據(jù)標記所述查找到的地理屬性;用戶地理屬性獲取^莫塊,用于獲取用戶的地理屬性;輸出模塊,用于將標記的地理屬性與用戶的地理屬性匹配的文檔數(shù)據(jù)提供 給用戶。
16、 如權利要求15所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括地名詞庫, 其中存儲有地名名稱和表示地理信息的詞;所述文檔數(shù)據(jù)地理信息萃取模塊根據(jù)地名詞庫萃取文檔數(shù)據(jù)中的地理信臺
17、 如權利要求15所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括地名后綴詞庫,所述文檔數(shù)據(jù)地理信息萃取模塊根據(jù)預置的地名后綴詞庫查找文檔數(shù)據(jù)中存在的地名后綴,并將地名后綴前固定出現(xiàn)的詞作為所述文檔數(shù)據(jù)的地理信 臺
18、 如權利要求15所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括中心地理 信息確定模塊,用于將文檔數(shù)據(jù)地理信息萃取模塊對同一文檔數(shù)據(jù)中萃取出的 多個地理信息中的出現(xiàn)次數(shù)最多的確定為該文檔數(shù)據(jù)最終的地理信息。
19、 如權利要求15所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括中心地理 信息確定模塊,用于將文檔數(shù)據(jù)地理信息萃取模塊對同一文檔數(shù)據(jù)中萃取出的 多個地理信息,根據(jù)預置的地理信息庫,按照行政區(qū)劃隸屬關系統(tǒng)計隸屬的地 理信息出現(xiàn)次數(shù),并將萃取到的地理信息和統(tǒng)計的隸屬于的地理信息中出現(xiàn)次 數(shù)最多的作為該文檔數(shù)據(jù)最終的地理信息;所述地理信息庫中存儲有地名名稱 和表示地理信息的詞以及地理信息之間的隸屬關系。
20、 如權利要求15所述的系統(tǒng),其特征在于,所述用戶地理屬性獲取模 塊,通過查詢用戶終端的IP地址獲取用戶的地理屬性;或,通過查詢用戶登記的地址獲取用戶的地理屬性;或, 通過查詢用戶定制地理位置獲取到這一地理屬性;或, 通過獲取用戶的經(jīng)煒度信息得到用戶的地理屬性;或, 通過搜集用戶的上網(wǎng)瀏覽焦點得到用戶的地理屬性。
21、 一種提供地域化信息的系統(tǒng),其特征在于,包括 文檔數(shù)據(jù)地理信息萃取模塊,用于萃取文檔數(shù)據(jù)中的地理信息; 用戶地理屬性獲取模塊,用于獲取用戶的地理屬性; 輸出模塊,用于將與用戶的地理屬性匹配的文檔數(shù)據(jù)提供給用戶。
22、 如權利要求21所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括地名詞庫, 其中存儲有地名名稱和表示地理信息的詞;所述文檔數(shù)據(jù)地理信息萃取模塊根據(jù)地名詞庫萃取文檔數(shù)據(jù)中的地理信臺
23、 如權利要求21所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括地名后綴詞庫,所述文檔數(shù)據(jù)地理信息萃取模塊根據(jù)預置的地名后綴詞庫查找文檔數(shù)據(jù)中存在的地名后綴,并將地名后綴前固定出現(xiàn)的詞作為所述文檔數(shù)據(jù)的地理信 臺
24、 如權利要求21所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括中心地理 信息確定模塊,用于將文檔數(shù)據(jù)地理信息萃取模塊對同一文檔數(shù)據(jù)中萃取出的 多個地理信息中的出現(xiàn)次數(shù)最多的確定為該文檔數(shù)據(jù)最終的地理信息。
25、 如權利要求21所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括中心地理 信息確定模塊,用于將文檔數(shù)據(jù)地理信息萃取模塊對同 一文檔數(shù)據(jù)中萃取出的 多個地理信息,根據(jù)預置的地理信息庫,按照行政區(qū)劃隸屬關系統(tǒng)計隸屬的地 理信息出現(xiàn)次數(shù),并將萃取到的地理信息和統(tǒng)計的隸屬于的地理信息中出現(xiàn)次 數(shù)最多的作為該文檔數(shù)據(jù)最終的地理信息;所述地理信息庫中存儲有地名名稱 和表示地理信息的詞以及地理信息之間的隸屬關系。
26、 如權利要求21所述的系統(tǒng),其特征在于,所述用戶地理屬性獲取才莫 塊,通過查詢用戶終端的IP地址獲取用戶的地理屬性;或,通過查詢用戶登記的地址獲取用戶的地理屬性;或, 通過查詢用戶定制地理位置獲取到這一地理屬性;或, 通過獲取用戶的經(jīng)綿度信息得到用戶的地理屬性;或, 通過搜集用戶的上網(wǎng)瀏覽焦點得到用戶的地理屬性。
全文摘要
本發(fā)明公開了提供地域化信息的方法和系統(tǒng)。一種提供地域化信息的方法實施例,包括萃取文檔數(shù)據(jù)中的地理信息;根據(jù)萃取的地理信息在預置的地理信息庫查找對應的地理屬性,并為所述文檔數(shù)據(jù)標記所述查找到的地理屬性;獲取用戶的地理屬性;將標記的地理屬性與用戶的地理屬性匹配的文檔數(shù)據(jù)提供給用戶。利用本發(fā)明,可以提供適于用戶的地域化信息。
文檔編號H04L12/58GK101651634SQ200810135169
公開日2010年2月17日 申請日期2008年8月13日 優(yōu)先權日2008年8月13日
發(fā)明者劉維佳, 周洪喜, 李曉拴, 暄 王, 王名悠, 陳傳文, 雷國平, 娜 馬 申請人:阿里巴巴集團控股有限公司