專利名稱:一種基于移動(dòng)設(shè)備位置的搜索服務(wù)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及移動(dòng)搜索技術(shù)領(lǐng)域,特別是涉及一種基于移動(dòng)設(shè)備位置的捜索服務(wù)方法和一種搜索服務(wù)數(shù)據(jù)庫的建立方法。
背景技術(shù):
隨著移動(dòng)網(wǎng)絡(luò)的快速發(fā)展,移動(dòng)搜索作為ー項(xiàng)新興的技術(shù),受到了越來越多的關(guān)注。移動(dòng)搜索是ー項(xiàng)基于移動(dòng)網(wǎng)絡(luò)、應(yīng)用于手機(jī)終端的捜索技木,用戶可以通過SMS(短消息月艮務(wù)、Short Message Service)、WAP (無線應(yīng)用協(xié)議,Wireless Application Protocol)、 IVR(互動(dòng)式語音應(yīng)答,Interactive Voice Response)等多種接入方式進(jìn)行搜索,獲得因特網(wǎng)信息、移動(dòng)增值服務(wù)及本地信息服務(wù)內(nèi)容。但由于手機(jī)終端的特性,移動(dòng)搜索本身存在一定的局限性,例如手機(jī)內(nèi)存小、運(yùn)行速度慢,屏幕尺寸有限導(dǎo)致難以通過單ー頁面完整顯示查詢結(jié)果等。LBS (基于位置的服務(wù),Location Based krvice)是ー種通過移動(dòng)設(shè)備、移動(dòng)網(wǎng)絡(luò)手機(jī)終端位置信息,并以此為依據(jù)提供信息的服務(wù)方式,例如最簡(jiǎn)單的導(dǎo)航系統(tǒng) (navigation systems)。一方面,位置信息能夠很好地表現(xiàn)用戶的查詢意圖,所以利用這個(gè)位置信息分析、猜測(cè)用戶的興趣點(diǎn),可以有效地避免不必要的運(yùn)算,從而縮短查詢的操作時(shí)間。另ー方面,如果能夠準(zhǔn)確地估計(jì)出用戶所期望的內(nèi)容,那么將會(huì)減小屏幕尺寸所帯來的限制。目前,ー個(gè)與LBS相關(guān)聯(lián)、且得到廣泛使用的實(shí)例是GIS(地理資訊系統(tǒng), Geographic Information Systems)。GIS中的數(shù)據(jù)代表了現(xiàn)實(shí)中的實(shí)體,對(duì)于基于位置的服務(wù),除了需要GIS系統(tǒng)中存儲(chǔ)的客觀的空間數(shù)據(jù)(spatial data)夕卜,還需要更多的信息來給用戶提供更好的服務(wù),因此需要在GIS中引入用戶POI (興趣點(diǎn),Point of Interest) 的概念。每個(gè)POI表示ー個(gè)對(duì)用戶有用或者能夠讓用戶產(chǎn)生興趣的點(diǎn),通常用經(jīng)緯度來表征。這樣,當(dāng)移動(dòng)終端用戶輸入某個(gè)查詢?cè)~,例如“成都小吃”,傳統(tǒng)的基于移動(dòng)設(shè)備位置的捜索服務(wù)方法只能給出簡(jiǎn)單的POI信息,例如地址,而不能給出詳細(xì)的結(jié)構(gòu)化信息,例如菜系、乘車路線、評(píng)價(jià)、圖片等,這就影響了用戶的查詢體驗(yàn)??傊?,需要本領(lǐng)域技術(shù)人員迫切解決的ー個(gè)技術(shù)問題就是如何能夠向移動(dòng)終端用戶提供豐富的結(jié)構(gòu)化信息。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種搜索服務(wù)數(shù)據(jù)庫的建立方法,能夠針對(duì)感興趣地理數(shù)據(jù),獲取并存儲(chǔ)豐富、詳細(xì)、充實(shí)的結(jié)構(gòu)化數(shù)據(jù);相應(yīng)的,本發(fā)明還提供了一種基于移動(dòng)設(shè)備位置的捜索服務(wù)方法,使得可以依據(jù)移動(dòng)設(shè)備的當(dāng)前位置和當(dāng)前方位,在捜索服務(wù)數(shù)據(jù)庫中進(jìn)行捜索,將包含有豐富、詳細(xì)、充實(shí)結(jié)構(gòu)化數(shù)據(jù)的搜索結(jié)果直接推送給移動(dòng)設(shè)備用戶,或者,以查詢響應(yīng)的形式返回給移動(dòng)設(shè)備用戶。為了解決上述問題,本發(fā)明公開了ー種基于移動(dòng)設(shè)備位置的捜索服務(wù)方法,包括依據(jù)移動(dòng)設(shè)備的當(dāng)前位置和當(dāng)前方位,在捜索服務(wù)數(shù)據(jù)庫中進(jìn)行捜索,并將第一捜索結(jié)果推送給移動(dòng)設(shè)備用戶,其中,該搜索服務(wù)數(shù)據(jù)庫為依據(jù)在互聯(lián)網(wǎng)中采集得到與所述感興趣地理數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù)建立,該搜索服務(wù)數(shù)據(jù)庫中包括有感興趣地理數(shù)據(jù)和對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),所述感興趣地理數(shù)據(jù)包括地理位置和標(biāo)簽;或者,在接收到移動(dòng)設(shè)備用戶發(fā)送的搜索請(qǐng)求吋,從該搜索請(qǐng)求中提取關(guān)鍵詞;依據(jù)所述關(guān)鍵詞及該移動(dòng)設(shè)備用戶的當(dāng)前位置和當(dāng)前方位,在該搜索服務(wù)數(shù)據(jù)庫中進(jìn)行搜索,并將第二捜索結(jié)果返回給該移動(dòng)設(shè)備用戶。優(yōu)選的,所述依據(jù)移動(dòng)設(shè)備的當(dāng)前位置和當(dāng)前方位,在捜索服務(wù)數(shù)據(jù)庫中進(jìn)行搜索的步驟,包括通過移動(dòng)設(shè)備中的位置感應(yīng)裝置獲取移動(dòng)設(shè)備的當(dāng)前經(jīng)緯度和當(dāng)前方位;依據(jù)該當(dāng)前經(jīng)緯度和當(dāng)前方位,獲取第一興趣區(qū)域;在該搜索服務(wù)數(shù)據(jù)庫中搜索該第一興趣區(qū)域范圍內(nèi)的感興趣地理數(shù)據(jù)和對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第一捜索結(jié)果。優(yōu)選的,所述依據(jù)所述關(guān)鍵詞及該移動(dòng)設(shè)備用戶的當(dāng)前位置和當(dāng)前方位,在該搜索服務(wù)數(shù)據(jù)庫中進(jìn)行捜索的步驟,包括通過移動(dòng)設(shè)備中的位置感應(yīng)裝置獲取移動(dòng)設(shè)備的當(dāng)前經(jīng)緯度和當(dāng)前方位;依據(jù)該當(dāng)前經(jīng)緯度和當(dāng)前方位,獲取第二興趣區(qū)域;在該搜索服務(wù)數(shù)據(jù)庫中搜索該第二興趣區(qū)域范圍內(nèi)的、且與所述關(guān)鍵字相匹配的感興趣地理數(shù)據(jù)和對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第二捜索結(jié)果。優(yōu)選的,通過以下步驟獲取第一興趣區(qū)域或者第二興趣區(qū)域以當(dāng)前經(jīng)緯度Plmgitude,latitude為圓心,做ー個(gè)半徑為R、圓心角為θ的扇形,以該扇形區(qū)域作為第一興趣區(qū)域或者第二興趣區(qū)域,其中,該扇形區(qū)域關(guān)于當(dāng)前方位d imt, m&對(duì)稱,R、θ為根據(jù)移動(dòng)設(shè)備用戶輸入確定,或者由服務(wù)器設(shè)置。優(yōu)選的,所述方法還包括根據(jù)移動(dòng)設(shè)備用戶輸入,變更R、θ的值。優(yōu)選的,所述將第二捜索結(jié)果返回給該移動(dòng)設(shè)備用戶的步驟,包括通過統(tǒng)計(jì)當(dāng)前關(guān)鍵詞keyi在第一捜索結(jié)果ハ中出現(xiàn)的次數(shù)Iii, j得到捜索結(jié)果ハ 與用戶搜索的第一相似度Scorejl =Σ i = ..,Jtfi,產(chǎn)idfi),其中,Iii為當(dāng)前關(guān)鍵詞的詞頻, 歸ー化詞頻tfy = Iii,ノ叫,Clfi為統(tǒng)計(jì)的包含keyi的元組數(shù)量,逆向文件頻率idfi = log (1/ (Ifi);計(jì)算rj所在位置與用戶位置Plmgitude, latitude的距離Clistj,進(jìn)ー步得到第二搜索結(jié)果ハ與用戶搜索的第二相似度Scorej2 = IMistj ;根據(jù)站點(diǎn)可信度與IP地址分析,獲得第二捜索結(jié)果ハ與用戶搜索的第三相似度 Scorej3 ;利用scoreがscoreがscoreJ3計(jì)算第二搜索結(jié)果。與用戶搜索的總相似度Scorej=α ^scorejl+ α o*scoreJ2+ α 3*score;3,其中,α ^ α 0> α ,分另Ij為 Scorejl, scoreJ2, scoreJ3 的權(quán)值,O く Q1, α2> α3< 1 ;根據(jù)ScorejM第二捜索結(jié)果排序,并將排在前面的返回給用戶。優(yōu)選的,通過以下步驟建立所述搜索服務(wù)數(shù)據(jù)庫獲取感興趣地理數(shù)據(jù),其中,所述感興趣地理數(shù)據(jù)包括地理位置和標(biāo)簽;依據(jù)所述標(biāo)簽,在互聯(lián)網(wǎng)中采集得到與所述感興趣地理數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù),并連同所述感興趣地理數(shù)據(jù)保存至第一數(shù)據(jù)庫;對(duì)所述第一數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)進(jìn)行清洗,得到第二數(shù)據(jù)庫;將所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為與搜索服務(wù)屬性相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第三數(shù)據(jù)庫;對(duì)所述第三數(shù)據(jù)庫中同一個(gè)感興趣地理數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合,得到搜索服務(wù)數(shù)據(jù)庫。另ー方面,本發(fā)明還公開了ー種搜索服務(wù)數(shù)據(jù)庫的建立方法,包括獲取感興趣地理數(shù)據(jù),其中,所述感興趣地理數(shù)據(jù)包括地理位置和標(biāo)簽;依據(jù)所述標(biāo)簽,在互聯(lián)網(wǎng)中采集得到與所述感興趣地理數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù),并連同所述感興趣地理數(shù)據(jù)保存至第一數(shù)據(jù)庫;對(duì)所述第一數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)進(jìn)行清洗,得到第二數(shù)據(jù)庫;將所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為與搜索服務(wù)屬性相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第三數(shù)據(jù)庫;對(duì)所述第三數(shù)據(jù)庫中同一個(gè)感興趣地理數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合,得到搜索服務(wù)數(shù)據(jù)庫。優(yōu)選的,所述獲取感興趣地理數(shù)據(jù)的步驟為,從空間數(shù)據(jù)庫中提取地理位置及相應(yīng)的標(biāo)簽。優(yōu)選的,所述依據(jù)所述標(biāo)簽得到第一數(shù)據(jù)庫的步驟,包括針對(duì)每個(gè)感興趣地理數(shù)據(jù),將其標(biāo)簽作為關(guān)鍵字在互聯(lián)網(wǎng)中進(jìn)行網(wǎng)頁查詢;選取前k 條查詢結(jié)果 Pljl, P1j2, ...,Pljk, P2a,... , Pma,... , Pm,k,連同相應(yīng)的感興趣地理數(shù)據(jù)保存至第一數(shù)據(jù)庫,其中,k為自然數(shù)。優(yōu)選的,所述對(duì)第一數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)進(jìn)行清洗的步驟,包括驗(yàn)證所述網(wǎng)頁數(shù)據(jù)的準(zhǔn)確性和去除重復(fù)的網(wǎng)頁數(shù)據(jù)。優(yōu)選的,所述去除重復(fù)的網(wǎng)頁數(shù)據(jù)的步驟,包括計(jì)算兩個(gè)網(wǎng)頁之間的相似度;若該相似度小于第一閾值,則視該兩個(gè)網(wǎng)頁重復(fù),并從所述第一數(shù)據(jù)庫中刪除其中ー個(gè)。優(yōu)選的,所述驗(yàn)證所述網(wǎng)頁數(shù)據(jù)的準(zhǔn)確性的步驟,包括統(tǒng)計(jì)同一標(biāo)簽的網(wǎng)頁數(shù)據(jù);通過投票機(jī)制,保留票數(shù)高的網(wǎng)頁數(shù)據(jù),以及,從所述第一數(shù)據(jù)庫中刪除票數(shù)低的網(wǎng)頁數(shù)據(jù)。優(yōu)選的,所述將所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為與搜索服務(wù)屬性相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第三數(shù)據(jù)庫的步驟,包括
確定搜索服務(wù)屬性;依據(jù)所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)中,識(shí)別各標(biāo)簽對(duì)應(yīng)的搜索服務(wù)屬性的值;依據(jù)搜索服務(wù)屬性和相應(yīng)的值,將所有網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),并保存至第
三數(shù)據(jù)庫。優(yōu)選的,所述識(shí)別各標(biāo)簽對(duì)應(yīng)的搜索服務(wù)屬性的值的方法包括HTML識(shí)別、XML標(biāo)簽識(shí)別或者正則表達(dá)式匹配。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)本發(fā)明在互聯(lián)網(wǎng)中采集得到與POI數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù),并依據(jù)所述網(wǎng)頁數(shù)據(jù)建立捜索服務(wù)數(shù)據(jù)庫;由于互聯(lián)網(wǎng)中的數(shù)據(jù)是海量的,可以為搜索服務(wù)數(shù)據(jù)庫提供充足的數(shù)據(jù)來源,并且,由于在建立過程中,將所述網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為與搜索服務(wù)屬性相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),這樣,搜索服務(wù)數(shù)據(jù)庫存儲(chǔ)有與地址、電話、菜系、評(píng)價(jià)、圖片等多種搜索服務(wù)屬性相對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù);因此,搜索服務(wù)數(shù)據(jù)庫可以提供豐富、充實(shí)的結(jié)構(gòu)化數(shù)據(jù);另外,由于在建立過程中對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行了清洗,該清洗能夠去除數(shù)據(jù)庫中不完全、不正確、不精準(zhǔn)、不相關(guān)的數(shù)據(jù),因此,搜索服務(wù)數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)是準(zhǔn)確的;綜上,本發(fā)明可以依據(jù)移動(dòng)設(shè)備的當(dāng)前位置和當(dāng)前方位,在捜索服務(wù)數(shù)據(jù)庫中進(jìn)行捜索,將包含有豐富、詳細(xì)、充實(shí)結(jié)構(gòu)化數(shù)據(jù)的搜索結(jié)果直接推送給移動(dòng)設(shè)備用戶,或者, 以查詢響應(yīng)的形式返回給移動(dòng)設(shè)備用戶;因此,本發(fā)明可以提高移動(dòng)檢索的效率和準(zhǔn)確率, 從而給用戶帶來更好的查詢體驗(yàn)與視覺效果。
圖1是本發(fā)明一種搜索服務(wù)數(shù)據(jù)庫的建立方法實(shí)施例的流程圖;圖2是本發(fā)明一種基于移動(dòng)設(shè)備位置的捜索服務(wù)方法實(shí)施例的流程圖。
具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)ー步詳細(xì)的說明。本發(fā)明的核心構(gòu)思之一在干,在互聯(lián)網(wǎng)中采集得到與POI數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù), 并依據(jù)所述網(wǎng)頁數(shù)據(jù)建立捜索服務(wù)數(shù)據(jù)庫;互聯(lián)網(wǎng)中的海量數(shù)據(jù)決定了所述網(wǎng)頁數(shù)據(jù)的豐富性,這就導(dǎo)致依據(jù)所述網(wǎng)頁數(shù)據(jù)建立的捜索服務(wù)數(shù)據(jù)庫,能夠針對(duì)感興趣地理數(shù)據(jù),存儲(chǔ)豐富、詳細(xì)、充實(shí)的結(jié)構(gòu)化數(shù)據(jù),如一家餐館的標(biāo)簽、地址、電話、菜系、評(píng)價(jià)、圖片等;這樣, 當(dāng)用戶查詢吋,服務(wù)器端能夠依據(jù)用戶的位置信息,將包含有豐富、詳細(xì)、充實(shí)結(jié)構(gòu)化數(shù)據(jù)的搜索結(jié)果以查詢響應(yīng)的形式返回給移動(dòng)設(shè)備用戶,從而給用戶帶來更好的查詢體驗(yàn)與視覺效果。參照?qǐng)D1,示出了本發(fā)明ー種搜索服務(wù)數(shù)據(jù)庫的建立方法實(shí)施例的流程圖,具體可以包括步驟101、獲取感興趣地理數(shù)據(jù),其中,所述感興趣地理數(shù)據(jù)可以包括地理位置和標(biāo)簽;在實(shí)際中,可由服務(wù)器端以從空間數(shù)據(jù)庫中提取地理位置及相應(yīng)的標(biāo)簽;其中,所述空間數(shù)據(jù)庫Ds可為已有數(shù)據(jù)庫,也可通過收集地圖信息,建立空間數(shù)據(jù)庫Ds ;總之,這里的空間數(shù)據(jù)庫為包含有一系列POI數(shù)據(jù)點(diǎn)的數(shù)據(jù)庫,本發(fā)明對(duì)該空間數(shù)據(jù)庫的具體來源不加以限制。在具體實(shí)現(xiàn)中,每個(gè)POI數(shù)據(jù)點(diǎn)可由若干部分組成,其中,最基本的性質(zhì)可以包括兩個(gè)地理位置和標(biāo)簽,地理位置記錄了該P(yáng)OI數(shù)據(jù)點(diǎn)在地圖上所處的位置(例如經(jīng)緯度),標(biāo)簽標(biāo)記了該P(yáng)OI數(shù)據(jù)點(diǎn)的屬性(例如海底撈餐館)。步驟102、依據(jù)所述標(biāo)簽,在互聯(lián)網(wǎng)中采集得到與所述感興趣地理數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù),并連同所述感興趣地理數(shù)據(jù)保存至第一數(shù)據(jù)庫;首先互聯(lián)網(wǎng)中的數(shù)據(jù)是海量的,可以為搜索服務(wù)數(shù)據(jù)庫提供充足的數(shù)據(jù)來源。但是,從需求角度考慮,并非所有的內(nèi)容都是有用的,所以建立捜索服務(wù)數(shù)據(jù)庫的第一步就是從海量的數(shù)據(jù)中采集有意義的數(shù)據(jù)。在具體實(shí)現(xiàn)中,所述依據(jù)所述標(biāo)簽得到第一數(shù)據(jù)庫的步驟,具體可以包括子步驟Al、針對(duì)每個(gè)感興趣地理數(shù)據(jù),將其標(biāo)簽作為關(guān)鍵字在互聯(lián)網(wǎng)中進(jìn)行網(wǎng)頁查詢;子步驟A2、選取前 k 條查詢結(jié)果 Pia, Plj2, . .. ,Pljk, P2a,... , Pma,... , Pm,k,連同相應(yīng)的感興趣地理數(shù)據(jù)保存至第一數(shù)據(jù)庫,其中,k為自然數(shù)?,F(xiàn)有多數(shù)廣泛使用的搜索引擎能夠提供針對(duì)不同數(shù)據(jù)類型的檢索功能,可以用來抓取不同類型相關(guān)數(shù)據(jù)。例如,可以用標(biāo)簽內(nèi)容(例如海底撈餐館)在搜索引擎中執(zhí)行查詢,對(duì)于每個(gè)地點(diǎn),選擇返回結(jié)果中的前100個(gè)頁面保存;由于搜索引擎已經(jīng)完成了ー些過濾信息、相關(guān)度排序等的功能,故可以用這些頁面連同相應(yīng)的感興趣地理數(shù)據(jù)構(gòu)建第一數(shù)據(jù)庫。步驟103、對(duì)所述第一數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)進(jìn)行清洗,得到第二數(shù)據(jù)庫;雖然搜索引擎已經(jīng)完成了部分?jǐn)?shù)據(jù)清洗的工作,但是仍然不夠徹底。此時(shí),第一數(shù)據(jù)庫中還存在一些“臟數(shù)據(jù)”,這里的“臟數(shù)據(jù)”主要指不完全、不正確、不精確、不相關(guān)等的網(wǎng)頁數(shù)據(jù),例如,重復(fù)、虛假(例如廣告等)的網(wǎng)頁數(shù)據(jù)等。因此,欲給用戶提供更加滿意的結(jié)構(gòu)化數(shù)據(jù),還需要在第一數(shù)據(jù)庫中去除這部分“臟數(shù)據(jù)”。在實(shí)際中,所述對(duì)第一數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)進(jìn)行清洗的步驟,主要可以包括驗(yàn)證所述網(wǎng)頁數(shù)據(jù)的準(zhǔn)確性和去除重復(fù)的網(wǎng)頁數(shù)據(jù)。互聯(lián)網(wǎng)中有很多內(nèi)容都是重復(fù)的,在本發(fā)明的一種優(yōu)選實(shí)施例中,可以通過如下步驟去除重復(fù)的網(wǎng)頁數(shù)據(jù)子步驟Bi、計(jì)算兩個(gè)網(wǎng)頁之間的相似度;子步驟B2、若該相似度大于第一閾值,則視該兩個(gè)網(wǎng)頁重復(fù),并從所述第一數(shù)據(jù)庫中刪除其中ー個(gè)。在實(shí)際中,可以用Jaccard距離或編輯距離的原理來計(jì)算該相似度。例如,Jaccard距離也即將兩個(gè)網(wǎng)頁文本的Jaccard距離作為判定重復(fù)的標(biāo)準(zhǔn),現(xiàn)有很多方法可以用于快速地估算Jaccard距離的值,例如min-hash(最小哈希)算法等。在判定過程中,可以設(shè)定第一閾值S =0.75,S卩如果兩個(gè)HTML(超文本標(biāo)記語言,Hyper Text Mark-up Language)文檔的Jaccard距離大于0. 7吋,就可以判定這兩個(gè)網(wǎng)頁內(nèi)容重復(fù),刪除其中ー個(gè)。在實(shí)際應(yīng)用中,可利用一些經(jīng)典的方法驗(yàn)證所述網(wǎng)頁數(shù)據(jù)的準(zhǔn)確性,例如,可通過審計(jì)、觀察等方法獲取數(shù)據(jù)特征,檢測(cè)、修復(fù)、刪除第一數(shù)據(jù)庫中不正確、不完整、不必要的網(wǎng)頁數(shù)據(jù)。在本發(fā)明的另ー種優(yōu)選實(shí)施例中,可通過投票機(jī)制刪除第一數(shù)據(jù)庫中的錯(cuò)誤信息,此時(shí),所述驗(yàn)證所述網(wǎng)頁數(shù)據(jù)的準(zhǔn)確性的步驟,具體可以包括子步驟Cl、統(tǒng)計(jì)同一標(biāo)簽的網(wǎng)頁數(shù)據(jù);子步驟C2、通過投票機(jī)制,保留票數(shù)高的網(wǎng)頁數(shù)據(jù),以及,從所述第一數(shù)據(jù)庫中刪除票數(shù)低的網(wǎng)頁數(shù)據(jù)。例如通過某個(gè)網(wǎng)頁P(yáng)x, y得到“Px是一家經(jīng)營川菜的餐館”,而通過與之相關(guān)的另一個(gè)網(wǎng)頁P(yáng)x,z得到“Px是意式餐廳”這樣矛盾的信息,其中肯定有一條是錯(cuò)誤的。采用投票機(jī)制,統(tǒng)計(jì)在100個(gè)網(wǎng)頁中分別有多少網(wǎng)頁將Px標(biāo)注為“川菜館”,又有多少網(wǎng)頁將其標(biāo)注為 “意式餐廳”,這樣,票數(shù)高的視為正確結(jié)果。此外,在投票機(jī)制中,還可以考慮數(shù)據(jù)來源的站點(diǎn)可信度,對(duì)于可信度較高的網(wǎng)站,給予更高的權(quán)值,反之賦予權(quán)值較低。本發(fā)明對(duì)投票機(jī)制的具體實(shí)現(xiàn)方式不加以限制。為了更好地適應(yīng)移動(dòng)搜索的特點(diǎn),在每次數(shù)據(jù)清洗結(jié)束后,還可以執(zhí)行進(jìn)一歩的人工標(biāo)注/審核,此時(shí),如果數(shù)據(jù)質(zhì)量仍然沒有達(dá)到要求,可以重復(fù)執(zhí)行數(shù)據(jù)清洗,直至數(shù)據(jù)在準(zhǔn)確性、完整性方面符合要求,所述人工標(biāo)注/審核能夠進(jìn)ー步確保數(shù)據(jù)的準(zhǔn)確性。對(duì)于第二數(shù)據(jù)庫而言,其中包含的仍然是一系列網(wǎng)頁,每個(gè)網(wǎng)頁對(duì)應(yīng)于ー個(gè)POI 數(shù)據(jù)點(diǎn)。與第一數(shù)據(jù)庫相比,區(qū)別僅在于第二數(shù)據(jù)庫中的數(shù)據(jù)是準(zhǔn)確無重復(fù)的。步驟104、將所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為與搜索服務(wù)屬性相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第三數(shù)據(jù)庫;一方面,互聯(lián)網(wǎng)數(shù)據(jù)大多是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,所以很難進(jìn)行分析以及進(jìn)一步的信息提取,另ー方面,對(duì)于手機(jī)用戶而言,手機(jī)的體積限制了查詢結(jié)果的顯示;因此,本步驟將所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為與搜索服務(wù)屬性相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),也即,將用戶感興趣的內(nèi)容從中原始的網(wǎng)頁文檔中識(shí)別抽取出來。在實(shí)際中,可通過實(shí)體識(shí)別(entity recognition)和信息抽取(information extraction)進(jìn)行網(wǎng)頁數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換。具體而言,實(shí)現(xiàn)實(shí)體識(shí)別需要自然語言處 5M (natural language processing)、 $>^| (machine learning)用:^去處理第二數(shù)據(jù)庫,只保留抽取出的有意義的實(shí)體信息,例如商場(chǎng)、餐廳等的電話號(hào)碼等,通過這種方式將所有的網(wǎng)頁轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)Su,Slj2, ... , Sljk, S2a, ... , Sma, ... ,、,k,得到第三數(shù)據(jù)庫。實(shí)體識(shí)別的目的在于搜索服務(wù)屬性值的抽取,這里,需要抽取的捜索服務(wù)屬性可以包括“位置”,“營業(yè)時(shí)間”,“客戶評(píng)價(jià)”等。在本發(fā)明的一種優(yōu)選實(shí)施例中,所述步驟104 具體可以包括子步驟D1、確定搜索服務(wù)屬性;子步驟D2、依據(jù)所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)中,識(shí)別各標(biāo)簽對(duì)應(yīng)的搜索服務(wù)屬性的值;子步驟D3、依據(jù)搜索服務(wù)屬性和相應(yīng)的值,將所有網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),并
保存至第三數(shù)據(jù)庫。其中,所述識(shí)別各標(biāo)簽對(duì)應(yīng)的搜索服務(wù)屬性的值的方法具體可以包括HTML識(shí)別、XML(可擴(kuò)展標(biāo)記語言,Extensible Markup Language)標(biāo)簽識(shí)別或者正則表達(dá)式匹配寸。對(duì)于比較エ整的網(wǎng)頁,可直接從HTML文檔中識(shí)別相應(yīng)標(biāo)簽,而ー些人工編寫的、 表達(dá)不規(guī)則的網(wǎng)頁,則使用正則表達(dá)式匹配的方法,例如“營業(yè)時(shí)間”這個(gè)屬性,它通常是 "hh:mm-hh:mm"的格式,因此通過表達(dá)式\d{l,2} :\d{l,2} :\d{l,2}\d{l,2}· \d{l,2} :\d{l,2} :\d{l,2}\d{l,2}進(jìn)行匹配,其中,中間的“.”可以用來匹配“-” “ ”等多種用于表示時(shí)間關(guān)聯(lián)的符號(hào)。得到了捜索服務(wù)屬性和相應(yīng)的值,就可以將第二數(shù)據(jù)庫中的非結(jié)構(gòu)化或者半結(jié)構(gòu)化的網(wǎng)頁轉(zhuǎn)換為標(biāo)簽與屬性值嚴(yán)格匹配、格式統(tǒng)ー的結(jié)構(gòu)化數(shù)據(jù),用這些結(jié)構(gòu)化數(shù)據(jù)構(gòu)建第三數(shù)據(jù)庫。第三數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)與第二數(shù)據(jù)庫中的網(wǎng)頁是一一對(duì)應(yīng)的關(guān)系,即ー 個(gè)POI數(shù)據(jù)對(duì)應(yīng)了多個(gè)結(jié)構(gòu)化數(shù)據(jù)。步驟105、對(duì)所述第三數(shù)據(jù)庫中同一個(gè)感興趣地理數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合,得到捜索服務(wù)數(shù)據(jù)庫。數(shù)據(jù)整合要完成的工作就是將同一個(gè)POI數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)整合起來,使每 ー個(gè)POI數(shù)據(jù)只與唯一的ー個(gè)包含了所有信息的結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)。例如,POI Pi對(duì)應(yīng)了 Siil,Si,2,Si, k,那么,數(shù)據(jù)整合則是將這k個(gè)結(jié)構(gòu)化數(shù)據(jù)合井,得到31;,而も中包括了 Siil,Sij2, ... , Sijk中所有的信息。需要說明的是,如果ー個(gè)捜索服務(wù)屬性的值A(chǔ)j只出現(xiàn)在了其中一個(gè)結(jié)構(gòu)化數(shù)據(jù)中,則可以將這個(gè)值加入到Sk中,否則,需要通過投票機(jī)制決定它的最終值,然后加入到Sk 中。若干POI連同相應(yīng)的も,就組成了捜索服務(wù)數(shù)據(jù)庫。可以注意到,も中的信息可以對(duì)應(yīng)地址、電話、菜系、評(píng)價(jià)、圖片等多種搜索服務(wù)屬性,因此,搜索服務(wù)數(shù)據(jù)庫可以提供豐富的結(jié)構(gòu)化數(shù)據(jù)。另外,由于數(shù)據(jù)清洗去除了數(shù)據(jù)庫中不完全、不正確、不精準(zhǔn)、不相關(guān)的數(shù)據(jù),因此,捜索服務(wù)數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)也是準(zhǔn)確的。在實(shí)際應(yīng)用中,除了以互聯(lián)網(wǎng)數(shù)據(jù)作為數(shù)據(jù)來源外,捜索服務(wù)數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)還可以由合作商家直接提供。其中,在提供數(shù)據(jù)時(shí),只需將數(shù)據(jù)規(guī)范化,直接作為新的標(biāo)簽與捜索服務(wù)屬性對(duì)(pair)加入到對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)中即可。例如,合作商家可以向搜索服務(wù)數(shù)據(jù)庫D1中加入更詳細(xì)的商鋪數(shù)據(jù)、打折優(yōu)惠等內(nèi)容。在D1中找到與合作商C商鋪對(duì)應(yīng)的POI px,在它對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)Sx中添加相應(yīng)標(biāo)簽和值,記為Sx,;這樣,當(dāng)合作商家提供優(yōu)惠券吋,可以在原有結(jié)構(gòu)化數(shù)據(jù)Sx基礎(chǔ)上加上 <coupon>XXXX</coupon>0用這樣的方式,可以得到一個(gè)更加生活化的基于位置的數(shù)據(jù)庫IV。參照?qǐng)D2,示出了本發(fā)明ー種基于移動(dòng)設(shè)備位置的捜索服務(wù)方法實(shí)施例的流程圖, 具體可以包括步驟201、依據(jù)移動(dòng)設(shè)備的當(dāng)前位置和當(dāng)前方位,在捜索服務(wù)數(shù)據(jù)庫中進(jìn)行捜索, 并將第一捜索結(jié)果推送給移動(dòng)設(shè)備用戶,其中,該搜索服務(wù)數(shù)據(jù)庫可以為依據(jù)在互聯(lián)網(wǎng)中采集得到與所述感興趣地理數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù)建立,該搜索服務(wù)數(shù)據(jù)庫中可以包括有感興趣地理數(shù)據(jù)和對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),所述感興趣地理數(shù)據(jù)可以包括地理位置和標(biāo)簽;
科技的發(fā)展不僅體現(xiàn)在網(wǎng)絡(luò)上,也體現(xiàn)在移動(dòng)設(shè)備上?,F(xiàn)有手機(jī)已經(jīng)有功能強(qiáng)大的導(dǎo)航、感應(yīng)設(shè)備,能夠捕捉到充足的信息來反映用戶的個(gè)性化特征。因此,綜合利用移動(dòng)設(shè)備上的用戶數(shù)據(jù)以及上述捜索服務(wù)數(shù)據(jù)庫中存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),能夠給用戶帶來更好的查詢體驗(yàn)與視覺效果。在具體實(shí)現(xiàn)中,可以通過以下步驟建立所述搜索服務(wù)數(shù)據(jù)庫獲取感興趣地理數(shù)據(jù),其中,所述感興趣地理數(shù)據(jù)包括地理位置和標(biāo)簽;依據(jù)所述標(biāo)簽,在互聯(lián)網(wǎng)中采集得到與所述感興趣地理數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù),并連同所述感興趣地理數(shù)據(jù)保存至第一數(shù)據(jù)庫;對(duì)所述第一數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)進(jìn)行清洗,得到第二數(shù)據(jù)庫;將所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為與搜索服務(wù)屬性相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第三數(shù)據(jù)庫;對(duì)所述第三數(shù)據(jù)庫中同一個(gè)感興趣地理數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合,得到搜索服務(wù)數(shù)據(jù)庫。對(duì)于建立捜索服務(wù)數(shù)據(jù)庫的詳細(xì)過程,請(qǐng)參照捜索服務(wù)數(shù)據(jù)庫的建立方法實(shí)施例的相關(guān)說明,在此不做贅述。在實(shí)際中,可通過如下步驟獲取所述第一捜索結(jié)果子步驟E1、通過移動(dòng)設(shè)備中的位置感應(yīng)裝置(例如GPS裝置)獲取移動(dòng)設(shè)備的當(dāng)前經(jīng)緯度和當(dāng)前方位;子步驟E2、依據(jù)該當(dāng)前經(jīng)緯度和當(dāng)前方位,獲取第一興趣區(qū)域;子步驟E3、在該搜索服務(wù)數(shù)據(jù)庫中搜索該第一興趣區(qū)域范圍內(nèi)的感興趣地理數(shù)據(jù)和對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第一捜索結(jié)果。在本發(fā)明的一種優(yōu)選實(shí)施例中,可以通過以下步驟獲取第一興趣區(qū)域以當(dāng)前經(jīng)緯度Plmgitude,latitude為圓心,做ー個(gè)半徑為R、圓心角為θ的扇形,以該扇形區(qū)域作為第一興趣區(qū)域或者第二興趣區(qū)域,其中,該扇形區(qū)域關(guān)于當(dāng)前方位d imt, m&對(duì)稱,R、θ為根據(jù)移動(dòng)設(shè)備用戶輸入確定,或者由服務(wù)器設(shè)置。移動(dòng)設(shè)備用戶獲得第一捜索結(jié)果后,可以根據(jù)需要縮小捜索范圍,例如,可以通過輸入變更R、θ的值,由服務(wù)器重新進(jìn)行搜索?;蛘?,步驟202,可以包括步驟221、在接收到移動(dòng)設(shè)備用戶發(fā)送的捜索請(qǐng)求時(shí),從該搜索請(qǐng)求中提取關(guān)鍵詞;步驟222、依據(jù)所述關(guān)鍵詞及該移動(dòng)設(shè)備用戶的當(dāng)前位置和當(dāng)前方位,在該搜索服務(wù)數(shù)據(jù)庫中進(jìn)行捜索,并將第二捜索結(jié)果返回給該移動(dòng)設(shè)備用戶。在實(shí)際中,可通過如下步驟獲取所述第二捜索結(jié)果子步驟F1、通過移動(dòng)設(shè)備中的位置感應(yīng)裝置獲取移動(dòng)設(shè)備的當(dāng)前經(jīng)緯度和當(dāng)前方位;子步驟F2、依據(jù)該當(dāng)前經(jīng)緯度和當(dāng)前方位,獲取第二興趣區(qū)域;子步驟F3、在該搜索服務(wù)數(shù)據(jù)庫中搜索該第二興趣區(qū)域范圍內(nèi)的、且與所述關(guān)鍵字相匹配的感興趣地理數(shù)據(jù)和對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第二捜索結(jié)果。對(duì)于獲取第二興趣區(qū)域的過程,由于其與第一興趣區(qū)域的獲取過程類似,故在此不作贅述。在本發(fā)明的一種優(yōu)選實(shí)施例中,還可以對(duì)第二捜索結(jié)果進(jìn)行排序后返回,相應(yīng)地, 所述將第二捜索結(jié)果返回給該移動(dòng)設(shè)備用戶的步驟,具體可以包括子步驟G1、通過統(tǒng)計(jì)當(dāng)前關(guān)鍵詞keyi在第一捜索結(jié)果。中出現(xiàn)的次數(shù)Iii, ρ得到捜索結(jié)果rj與用戶搜索的第一相似度Scorejl =Σ i =レ..^ Ufi,^idfi),其中,Iii為當(dāng)前關(guān)鍵詞的詞頻,歸ー化詞頻tfy = n^./n^df,為統(tǒng)計(jì)的包含keyi的元組數(shù)量,逆向文件頻率 Idfi = Iog(Vdfi);子步驟G2、計(jì)算ハ所在位置與用戶位置Pltmgitude, latitude的距離distp進(jìn)ー步得到第二捜索結(jié)果ハ與用戶搜索的第二相似度score” = Ι/distj ;子步驟G3、根據(jù)站點(diǎn)可信度與IP地址分析,獲得第二搜索結(jié)果ハ與用戶搜索的第三相似度Scorej3 ;子步驟G4、利用Scorejl, scoreJ2, Scorej3計(jì)算第二搜索結(jié)果。與用戶搜索的總才目イ以度 Scorej = α ^scorejl+ α 2*scoreJ2+ α 3*scorej3,其中,α 丄、α 2、α ,分另Ij為 score,^1, scoreJ2, score;3 的權(quán)值,O < α ” α 2ヽ α 3 < 1 ;子步驟G5、根據(jù)scorち對(duì)第二捜索結(jié)果排序,并將排在前面的返回給用戶。網(wǎng)絡(luò)的發(fā)展和移動(dòng)設(shè)備的推廣普及,使得人們將越來越多的精力投入到基于位置的移動(dòng)搜索領(lǐng)域上來。位置信息在一定程度上可以很好地反應(yīng)用戶需求,因此,基于位置的移動(dòng)搜索可以給用戶帶來更好的查詢體驗(yàn),為用戶提供更加精準(zhǔn)、更加符合要求的查詢結(jié)果。對(duì)于商家而言,移動(dòng)搜索也提供了一個(gè)很好的平臺(tái),讓其能更加合理地推廣它們產(chǎn)品及服務(wù),而不至于因?yàn)榻o用戶帶來困擾而引起負(fù)面效果。因此,本發(fā)明可以利用位置信息,準(zhǔn)確估計(jì)用戶查詢意圖,提供相關(guān)的結(jié)構(gòu)化信息及檢索服務(wù),也即可以提高移動(dòng)檢索的效率和準(zhǔn)確率。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。以上對(duì)本發(fā)明所提供的一種基于移動(dòng)設(shè)備位置的捜索服務(wù)方法和ー種搜索服務(wù)數(shù)據(jù)庫的建立方法,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種基于移動(dòng)設(shè)備位置的捜索服務(wù)方法,其特征在干,包括依據(jù)移動(dòng)設(shè)備的當(dāng)前位置和當(dāng)前方位,在捜索服務(wù)數(shù)據(jù)庫中進(jìn)行捜索,并將第一捜索結(jié)果推送給移動(dòng)設(shè)備用戶,其中,該搜索服務(wù)數(shù)據(jù)庫為依據(jù)在互聯(lián)網(wǎng)中采集得到與所述感興趣地理數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù)建立,該搜索服務(wù)數(shù)據(jù)庫中包括有感興趣地理數(shù)據(jù)和對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),所述感興趣地理數(shù)據(jù)包括地理位置和標(biāo)簽;或者,在接收到移動(dòng)設(shè)備用戶發(fā)送的搜索請(qǐng)求吋,從該搜索請(qǐng)求中提取關(guān)鍵詞;依據(jù)所述關(guān)鍵詞及該移動(dòng)設(shè)備用戶的當(dāng)前位置和當(dāng)前方位,在該搜索服務(wù)數(shù)據(jù)庫中進(jìn)行捜索,并將第二捜索結(jié)果返回給該移動(dòng)設(shè)備用戶。
2.如權(quán)利要求1所述的方法,其特征在干,所述依據(jù)移動(dòng)設(shè)備的當(dāng)前位置和當(dāng)前方位, 在捜索服務(wù)數(shù)據(jù)庫中進(jìn)行捜索的步驟,包括通過移動(dòng)設(shè)備中的位置感應(yīng)裝置獲取移動(dòng)設(shè)備的當(dāng)前經(jīng)緯度和當(dāng)前方位;依據(jù)該當(dāng)前經(jīng)緯度和當(dāng)前方位,獲取第一興趣區(qū)域;在該搜索服務(wù)數(shù)據(jù)庫中搜索該第一興趣區(qū)域范圍內(nèi)的感興趣地理數(shù)據(jù)和對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第一捜索結(jié)果。
3.如權(quán)利要求1所述的方法,其特征在干,所述依據(jù)所述關(guān)鍵詞及該移動(dòng)設(shè)備用戶的當(dāng)前位置和當(dāng)前方位,在該搜索服務(wù)數(shù)據(jù)庫中進(jìn)行捜索的步驟,包括通過移動(dòng)設(shè)備中的位置感應(yīng)裝置獲取移動(dòng)設(shè)備的當(dāng)前經(jīng)緯度和當(dāng)前方位;依據(jù)該當(dāng)前經(jīng)緯度和當(dāng)前方位,獲取第二興趣區(qū)域;在該搜索服務(wù)數(shù)據(jù)庫中搜索該第二興趣區(qū)域范圍內(nèi)的、且與所述關(guān)鍵字相匹配的感興趣地理數(shù)據(jù)和對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第二捜索結(jié)果。
4.如權(quán)利要求2或3所述的方法,其特征在干,通過以下步驟獲取第一興趣區(qū)域或者第 ニ興趣區(qū)域以當(dāng)前經(jīng)緯度Plmgitude,latitude為圓心,做ー個(gè)半徑為R、圓心角為θ的扇形,以該扇形區(qū)域作為第一興趣區(qū)域或者第二興趣區(qū)域,其中,該扇形區(qū)域關(guān)于當(dāng)前方位d imt, mgle對(duì)稱, R、θ為根據(jù)移動(dòng)設(shè)備用戶輸入確定,或者由服務(wù)器設(shè)置。
5.如權(quán)利要求2或3所述的方法,其特征在于,還包括根據(jù)移動(dòng)設(shè)備用戶輸入,變更R、θ的值。
6.如權(quán)利要求3所述的方法,其特征在干,所述將第二捜索結(jié)果返回給該移動(dòng)設(shè)備用戶的步驟,包括通過統(tǒng)計(jì)當(dāng)前關(guān)鍵詞keyi在第一捜索結(jié)果ハ中出現(xiàn)的次數(shù)Ili,ρ得到捜索結(jié)果ハ與用戶搜索的第一相似度Scorejl =Σ i = 1,...,Jtfi, ^idfi),其中,Hi為當(dāng)前關(guān)鍵詞的詞頻,歸一化詞頻tfy = n^./n,, Clfi為統(tǒng)計(jì)的包含keyi的元組數(shù)量,逆向文件頻率idfi = log(l/ (Ifi);計(jì)算。所在位置與用戶位置Plmgitudeilatitude的距離Clistj,進(jìn)ー步得到第二捜索結(jié)果。 與用戶搜索的第二相似度Scorej2 = IMistj ;根據(jù)站點(diǎn)可信度與IP地址分析,獲得第二搜索結(jié)果。與用戶搜索的第三相似度 Scorej3 ;利用Scorejl, scoreJ2, Scorej3計(jì)算第二捜索結(jié)果。與用戶搜索的總相似度Scorej =α ^scorejl+ α 2*scoreJ2+ α ,氺Scorej3,其中,α ” α 2、α 3 分另Ij為 Scorejl, scoreJ2, scoreJ3 的權(quán)值,O < α ” α 2、α 3 < 1 ;根據(jù)scorち對(duì)第二捜索結(jié)果排序,并將排在前面的返回給用戶。
7.如權(quán)利要求1所述的方法,其特征在干,通過以下步驟建立所述搜索服務(wù)數(shù)據(jù)庫 獲取感興趣地理數(shù)據(jù),其中,所述感興趣地理數(shù)據(jù)包括地理位置和標(biāo)簽;依據(jù)所述標(biāo)簽,在互聯(lián)網(wǎng)中采集得到與所述感興趣地理數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù),并連同所述感興趣地理數(shù)據(jù)保存至第一數(shù)據(jù)庫;對(duì)所述第一數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)進(jìn)行清洗,得到第二數(shù)據(jù)庫; 將所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為與搜索服務(wù)屬性相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第三數(shù)據(jù)庫;對(duì)所述第三數(shù)據(jù)庫中同一個(gè)感興趣地理數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合,得到捜索服務(wù)數(shù)據(jù)庫。
8.一種搜索服務(wù)數(shù)據(jù)庫的建立方法,其特征在干,包括獲取感興趣地理數(shù)據(jù),其中,所述感興趣地理數(shù)據(jù)包括地理位置和標(biāo)簽; 依據(jù)所述標(biāo)簽,在互聯(lián)網(wǎng)中采集得到與所述感興趣地理數(shù)據(jù)相應(yīng)的網(wǎng)頁數(shù)據(jù),并連同所述感興趣地理數(shù)據(jù)保存至第一數(shù)據(jù)庫;對(duì)所述第一數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)進(jìn)行清洗,得到第二數(shù)據(jù)庫; 將所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為與搜索服務(wù)屬性相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第三數(shù)據(jù)庫;對(duì)所述第三數(shù)據(jù)庫中同一個(gè)感興趣地理數(shù)據(jù)對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合,得到捜索服務(wù)數(shù)據(jù)庫。
9.如權(quán)利要求8所述的方法,其特征在干,所述獲取感興趣地理數(shù)據(jù)的步驟為,從空間數(shù)據(jù)庫中提取地理位置及相應(yīng)的標(biāo)簽。
10.如權(quán)利要求8所述的方法,其特征在干,所述依據(jù)所述標(biāo)簽得到第一數(shù)據(jù)庫的步驟,包括針對(duì)每個(gè)感興趣地理數(shù)據(jù),將其標(biāo)簽作為關(guān)鍵字在互聯(lián)網(wǎng)中進(jìn)行網(wǎng)頁查詢; 選取前k條查詢結(jié)果Pia,Plj2, ... ,Pljk, P2a, ... , Pma,... , Pm, k,連同相應(yīng)的感興趣地理數(shù)據(jù)保存至第一數(shù)據(jù)庫,其中,k為自然數(shù)。
11.如權(quán)利要求8所述的方法,其特征在干,所述對(duì)第一數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)進(jìn)行清洗的步驟,包括驗(yàn)證所述網(wǎng)頁數(shù)據(jù)的準(zhǔn)確性和去除重復(fù)的網(wǎng)頁數(shù)據(jù)。
12.如權(quán)利要求11所述的方法,其特征在干,所述去除重復(fù)的網(wǎng)頁數(shù)據(jù)的步驟,包括 計(jì)算兩個(gè)網(wǎng)頁之間的相似度;若該相似度小于第一閾值,則視該兩個(gè)網(wǎng)頁重復(fù),并從所述第一數(shù)據(jù)庫中刪除其中一個(gè)。
13.如權(quán)利要求11所述的方法,其特征在干,所述驗(yàn)證所述網(wǎng)頁數(shù)據(jù)的準(zhǔn)確性的步驟, 包括統(tǒng)計(jì)同一標(biāo)簽的網(wǎng)頁數(shù)據(jù);通過投票機(jī)制,保留票數(shù)高的網(wǎng)頁數(shù)據(jù),以及,從所述第一數(shù)據(jù)庫中刪除票數(shù)低的網(wǎng)頁數(shù)據(jù)。
14.如權(quán)利要求8所述的方法,其特征在干,所述將所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為與搜索服務(wù)屬性相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),得到第三數(shù)據(jù)庫的步驟,包括確定搜索服務(wù)屬性;依據(jù)所述第二數(shù)據(jù)庫中的網(wǎng)頁數(shù)據(jù)中,識(shí)別各標(biāo)簽對(duì)應(yīng)的搜索服務(wù)屬性的值; 依據(jù)搜索服務(wù)屬性和相應(yīng)的值,將所有網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),并保存至第三數(shù)據(jù)庫。
15.如權(quán)利要求14所述的方法,其特征在干,所述識(shí)別各標(biāo)簽對(duì)應(yīng)的搜索服務(wù)屬性的值的方法包括=HTML識(shí)別、XML標(biāo)簽識(shí)別或者正則表達(dá)式匹配。
全文摘要
本發(fā)明提供了一種基于移動(dòng)設(shè)備位置的搜索服務(wù)方法和一種搜索服務(wù)數(shù)據(jù)庫的建立方法,其中的搜索服務(wù)方法具體包括依據(jù)移動(dòng)設(shè)備的當(dāng)前位置和當(dāng)前方位,在搜索服務(wù)數(shù)據(jù)庫中進(jìn)行搜索,并將第一搜索結(jié)果推送給移動(dòng)設(shè)備用戶,其中,該搜索服務(wù)數(shù)據(jù)庫中包括有感興趣地理數(shù)據(jù)和對(duì)應(yīng)的結(jié)構(gòu)化數(shù)據(jù);或者,在接收到移動(dòng)設(shè)備用戶發(fā)送的搜索請(qǐng)求時(shí),從該搜索請(qǐng)求中提取關(guān)鍵詞;依據(jù)所述關(guān)鍵詞及該移動(dòng)設(shè)備用戶的當(dāng)前位置和當(dāng)前方位,在該搜索服務(wù)數(shù)據(jù)庫中進(jìn)行搜索,并將第二搜索結(jié)果返回給該移動(dòng)設(shè)備用戶。本發(fā)明能夠?qū)胸S富、詳細(xì)、充實(shí)結(jié)構(gòu)化數(shù)據(jù)的搜索結(jié)果提供給移動(dòng)設(shè)備用戶,從而給用戶帶來更好的查詢體驗(yàn)與視覺效果。
文檔編號(hào)G06F17/30GK102591867SQ20111000262
公開日2012年7月18日 申請(qǐng)日期2011年1月7日 優(yōu)先權(quán)日2011年1月7日
發(fā)明者馮建華, 李國良, 黃維篁 申請(qǐng)人:清華大學(xué)