專利名稱:搜索引擎的檢索結(jié)果重排序方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,更具體地說,涉及一種搜索引擎的檢索結(jié) 果重排序方法及系統(tǒng)。
背景技術(shù):
目前,用戶使用搜索引擎檢索信息時,常常會檢索一些與地區(qū)相關(guān)的信息。 例如公交信息、餐飲信息、地圖、租房/買房信息等等?,F(xiàn)有的搜索引擎并未對 這些與地區(qū)相關(guān)的信息做特別處理,對返回的網(wǎng)頁數(shù)據(jù)也僅僅按照網(wǎng)頁級別及 相關(guān)性等因素進行排序,往往造成用戶需要的與其所在地相關(guān)的網(wǎng)頁數(shù)據(jù)并不 能在比較靠前的位置給出。
用戶需要檢索某一地區(qū)的信息時,通常會通過輸入地址位置名詞來檢索這 個地區(qū)的信息。例如,用戶需要檢索深圳的飲食信息,則可同時輸入"深圳" 和"大食"。然而,^艮多地區(qū)性的網(wǎng)站上并沒有自己城市或地區(qū)的名字,例如, 深圳的某個介紹飲食的網(wǎng)站,有可能整個網(wǎng)站上并沒有"深圳"兩個字,則該 網(wǎng)站很可能不會被檢索到,從而造成漏檢。另外, 一些地理名字在很多城市都 有,例如"市中區(qū)"、"南山"等詞匯在多個城市中都有。用戶在輸入這些地理 名詞時,很可能返回的結(jié)果并不是自己所在城市的信息。
發(fā)明內(nèi)容
基于此,有必要提供一種能提高檢索準(zhǔn)確性的搜索引擎的檢索結(jié)果重排序 方法。
另外,還有必要提供一種能提高檢索準(zhǔn)確性的搜索引擎的檢索結(jié)果重排序 系統(tǒng)。
所述搜索引擎的檢索結(jié)果重排序方法包括檢測用戶輸入的檢索串,當(dāng)檢 測到所述檢索串屬于本地化信息的數(shù)據(jù)集合時,則獲取用戶的地理信息編碼; 查找搜索引擎返回的檢索結(jié)果中地理信息編碼與所述用戶的地理信息編碼一致 的網(wǎng)頁,對所述網(wǎng)頁進行加權(quán)處理;根據(jù)加權(quán)處理的結(jié)果對所述搜索引擎返回 的檢索結(jié)果進行重新排序。該獲取用戶的地理信息編碼的步驟具體可以是根據(jù)用戶的訪問信息獲取 用戶的地理位置信息,并查找與所述地理位置信息對應(yīng)的地理信息編碼。
而檢測用戶輸入的檢索串的步驟之前還可包括存儲本地化信息的數(shù)據(jù)集合。
另外,4全測用戶輸入的檢索串的步驟之前還可包括建立地理位置信息與 編碼的對應(yīng)關(guān)系。
該方法還可包括獲取網(wǎng)頁數(shù)據(jù),當(dāng)網(wǎng)頁數(shù)據(jù)包含本地化信息時,獲取網(wǎng) 頁的地理位置信息,并根據(jù)地理位置信息與編碼的對應(yīng)關(guān)系查找網(wǎng)頁的地理信 息編碼。
所述搜索引擎的檢索結(jié)果重排序系統(tǒng)包括檢測單元,用于檢測用戶輸入 的檢索串;地理信息編碼單元,與檢測單元相連,當(dāng)檢測單元檢測到檢索串屬 于本地化信息的數(shù)據(jù)集合時,則獲取用戶的地理信息編碼;加權(quán)處理單元,與 地理信息編碼單元相連,從搜索引擎返回的檢索結(jié)果中查找地理信息編碼與用 戶的地理信息編碼一致的網(wǎng)頁,并對網(wǎng)頁進行加4又處理;4非序單元,與加4又處 理單元相連,根據(jù)加權(quán)處理的結(jié)果對搜索引擎返回的檢索結(jié)果進行重新排序。
該地理信息編碼單元還可用于根據(jù)用戶的訪問信息獲取用戶的地理位置信 息,并查找與所述地理位置信息對應(yīng)的地理信息編碼。
該系統(tǒng)還可包括存儲本地化信息的數(shù)據(jù)集合的數(shù)據(jù)庫。
而數(shù)據(jù)庫可包括搜索引擎數(shù)據(jù)庫,用于存儲搜索引擎返回的檢索結(jié)果; 地理信息數(shù)據(jù)庫,用于存儲地理位置信息與編碼的對應(yīng)關(guān)系的記錄。 另外,該系統(tǒng)還可包括網(wǎng)頁爬蟲單元,與所述數(shù)據(jù)庫相連,獲耳又網(wǎng)頁數(shù)據(jù), 當(dāng)所述網(wǎng)頁數(shù)據(jù)包含本地化信息時,獲取所迷網(wǎng)頁的地理位置信息,并根據(jù)所 述地理位置信息與編碼的對應(yīng)關(guān)系查找網(wǎng)頁的地理信息編碼。
上述搜索引擎的檢索結(jié)果重排序方法及系統(tǒng)中,通過檢測用戶輸入的檢索 串,當(dāng)檢索串屬于本地化信息的數(shù)據(jù)集合時,表明用戶需檢索的是本地化信息, 則獲取用戶的地理信息編碼,并查找搜索引擎返回的檢索結(jié)果中地理信息編碼 與用戶的地理信息編碼一致的網(wǎng)頁,對這些網(wǎng)頁進行加權(quán)處理,將加權(quán)處理后 的網(wǎng)頁靠前,使其能優(yōu)先呈現(xiàn)給用戶。由于對包含本地化信息的網(wǎng)頁進行了處理,無需用戶輸入地理名詞,且能將返回的4企索結(jié)果中與用戶所在地區(qū)或城市 相關(guān)的網(wǎng)頁優(yōu)先顯示給用戶,因此所得到的檢索結(jié)果更準(zhǔn)確。
圖1是一個實施例中搜索引擎的檢索結(jié)果重排序方法的流程圖; 圖2是一個實施例中獲取用戶的地理信息編碼的方法流程圖; 圖3是一個實施例中獲取網(wǎng)頁的地理信息編碼的方法流程圖; 圖4是一個實施例中搜索引擎的檢索結(jié)果重排序系統(tǒng)的示意圖; 圖5是一個實施例中網(wǎng)頁爬蟲單元與數(shù)據(jù)庫的連接示意圖。
具體實施例方式
圖1示出了一個實施例中搜索引擎的檢索結(jié)果重排序方法的流程,具體過 程如下
在步驟S101中,檢測用戶輸入的檢索串,當(dāng)檢測到所述檢索串屬于本地化 信息的數(shù)據(jù)集合時,則獲取用戶的地理信息編碼。
在步驟S102中,查找搜索引擎返回的檢索結(jié)果中地理信息編碼與用戶的地 理信息編碼一致的網(wǎng)頁,對所述網(wǎng)頁進行加權(quán)處理。
在步驟S103中,根據(jù)所述加權(quán)處理的結(jié)果對搜索引擎返回的檢索結(jié)果進行 重新排序。
上述本地化信息指的是與地區(qū)相關(guān)的信息,例如餐飲、公交、房屋出租、 娛樂設(shè)施等適合就近體驗的項目的信息。當(dāng)檢測到用戶輸入的檢索串屬于本地 化信息的數(shù)據(jù)集合時,表明用戶需檢索的是本地化信息且希望就近去體驗。
圖2示出了一個實施例中獲取用戶的地理信息編碼的方法流程,具體過程 如下
在下述步驟之前,需建立本地化信息的數(shù)據(jù)集合?,F(xiàn)有的很多網(wǎng)站都對本 地的信息進行了詳細的收錄,例如,各地的旅游網(wǎng)站、租房網(wǎng)站,當(dāng)?shù)氐慕榻B 飲食、小吃的網(wǎng)站,以及人才招聘網(wǎng)站等。這些網(wǎng)站都收錄了很多當(dāng)?shù)氐男畔ⅲ?通過分析這些網(wǎng)站,可以得到這些信息內(nèi)容的數(shù)據(jù)集合,這個數(shù)據(jù)集合則成為 本地化信息的數(shù)據(jù)集合,可將其存儲在數(shù)據(jù)庫中,用于后續(xù)的檢測步驟使用。另外,還需建立地理位置信息與編碼的對應(yīng)關(guān)系,對不同的城市或地區(qū), 可設(shè)置不同的編碼,該編碼成為地理信息編碼。例如,廣東廣州的編碼設(shè)置為
10001,廣東深圳的編碼設(shè)置為10002等。為避免出現(xiàn)地理^言息的重復(fù),每一個 地區(qū)的地理信息都應(yīng)用唯一的編碼表示。建立好地理位置信息與編碼的對應(yīng)關(guān) 系后,可將其存儲在數(shù)據(jù)庫中。
在步驟S201中,檢測用戶輸入的檢索串。
在步驟S202中,判斷用戶輸入的檢索串是否屬于本地化信息的數(shù)據(jù)集合, 若是則進入步驟S203,否則結(jié)束,不獲取用戶的地理信息編碼。
在步驟S203中,獲取用戶的訪問信息。用戶的訪問信息包括用戶的IP信 息、GPS信息及手機信息等。這里的IP信息是指用戶的IP地址,通過公開的 IP地址數(shù)據(jù)庫即可查找到IP地址所對應(yīng)的區(qū)域。GPS信息指的是GPS定位信 息,當(dāng)用戶進行移動^t索時,其還會帶有GPS定位信息,通過對GPS定位信息 解碼,也可得到GPS定位信息所對應(yīng)的區(qū)域。手機信息可以是手機的服務(wù)區(qū)或 手機號碼。
在步驟S204中,根據(jù)用戶的訪問信息獲取用戶的地理位置信息。不同的訪 問信息所對應(yīng)的地區(qū)不同,根據(jù)用戶的訪問信息即可獲取用戶所處的地理位置。
在步驟S205中,查找與用戶的地理位置信息對應(yīng)的地理信息編碼。根據(jù)上 述建立的地理位置信息與編碼的對應(yīng)關(guān)系,從數(shù)據(jù)庫中即可查找到與用戶的地 理位置信息所對應(yīng)的編碼,從而得到用戶的地理信息編碼。例如,根據(jù)用戶的 IP地址查找到該用戶所在的地區(qū)為"深圳",則根據(jù)數(shù)據(jù)庫中存儲的地理位置信 息與編碼的對應(yīng)關(guān)系查找到該用戶的地理信息編碼為10002。
在一個實施方式中,執(zhí)行上述步驟之前,還需對網(wǎng)頁進行地理信息編碼。 圖3示出了一個實施例中獲取網(wǎng)頁的地理信息編碼的方法流程,具體過程如下
如上所述,在執(zhí)行下述步驟之前,也需建立本地化信息的數(shù)據(jù)集合以及建 立地理位置信息與編碼的對應(yīng)關(guān)系,其方法原理與上述相同,在此不再贅述。
在步驟S301中,獲耳又網(wǎng)頁數(shù)據(jù)。在一個實施方式中,通過網(wǎng)頁爬蟲單元4爪 取普通的網(wǎng)頁數(shù)據(jù),這些網(wǎng)頁數(shù)據(jù)包括網(wǎng)頁所屬網(wǎng)站的內(nèi)容、網(wǎng)站的域名、錨 文本信息等,通過這些信息則可判斷該網(wǎng)頁是否包含了本地化信息的內(nèi)容。
在步驟S302中,判斷網(wǎng)頁數(shù)據(jù)是否包含本地化信息,若是,則進入步驟S3 03,否則結(jié)束,不對網(wǎng)頁進行地理信息編碼。
在步驟S303中,獲取網(wǎng)頁的地理位置信息。根據(jù)上述獲取的網(wǎng)頁數(shù)據(jù)則可 獲取網(wǎng)頁的地理位置信息。例如,htt。:〃sz.soufun.com網(wǎng)站,通過網(wǎng)頁爬蟲單元 獲取到該網(wǎng)站的內(nèi)容是介紹深圳的房地產(chǎn)信息的,則在這個站點下的所有網(wǎng)頁 的地理位置都是深圳。這里的網(wǎng)站并不一定是整個網(wǎng)站,可以是子域級別的網(wǎng) 站。
在步驟S304中,查找與網(wǎng)頁的地理位置信息對應(yīng)的地理信息編碼。根據(jù)上 述建立的地理位置信息與編碼的對應(yīng)關(guān)系,從數(shù)據(jù)庫中即可查找到與網(wǎng)頁的地 理位置信息對應(yīng)的編碼,該編碼即網(wǎng)頁的地理信息編碼。例如,對上述介紹深 圳房地產(chǎn)信息的網(wǎng)站,其所有網(wǎng)頁的地理位置都是深圳,則這些網(wǎng)頁對應(yīng)的地 理信息編碼是10002。
應(yīng)當(dāng)說明的是,同一網(wǎng)頁可給其分配多個不同的地理信息編碼,由于行政 區(qū)域的劃分是層級的,當(dāng)用戶的地理位置信息不明確時,可將較大范圍的數(shù)據(jù) 反饋給用戶。例如,對一個記錄深圳飲食信息的網(wǎng)頁,其地理信息編碼可以對 應(yīng)深圳的編碼,也可以對應(yīng)廣東的編碼。
在一個實施方式中,當(dāng)查找到用戶的地理信息編碼和網(wǎng)頁的地理信息編碼 后,則可從搜索引擎返回的檢索結(jié)果中查找地理信息編碼與用戶的地理信息編 碼一致的網(wǎng)頁,并對這些網(wǎng)頁進行加權(quán)處理,以及對;f企索結(jié)果進行重新排序, 使加權(quán)處理過的網(wǎng)頁的排序靠前。在一個實施例中,獲取到用戶的地理信息編 碼是10002,表明用戶所屬的地區(qū)為深圳。從搜索引擎返回的檢索結(jié)果中查找地 理信息編碼為10002的網(wǎng)頁,并對這些網(wǎng)頁進行加4又處理,以及將加4又處理過 的網(wǎng)頁的排序靠前。由于對包含了本地化信息的網(wǎng)頁進行了處理,且將包含用 戶所在地區(qū)的信息的網(wǎng)頁優(yōu)先呈現(xiàn)給了用戶,避免了漏;險以及靠前的網(wǎng)頁并不 適合用戶所需的情形,提高了檢索的準(zhǔn)確性。同時,該方法無需用戶手動輸入 地理名詞,也提高了用戶檢索的便利性。
圖4示出了一個實施例中搜索引擎的檢索結(jié)果重排序的系統(tǒng),該系統(tǒng)包括 檢測單元100、地理信息編碼單元200、加權(quán)處理單元300和排序單元400。其
中檢測單元100用于檢測用戶輸入的檢索串;地理信息編碼單元200與檢測 單元100相連,用于當(dāng)檢測單元100檢測到用戶輸入的檢索串屬于本地化信息 的數(shù)據(jù)集合時,則獲取用戶的地理信息編碼;加權(quán)處理單元300與地理信息編 碼單元200相連,用于從搜索引擎返回的檢索結(jié)果中查找地理信息編碼與用戶 的地理信息編碼一致的網(wǎng)頁,并對該網(wǎng)頁進行加權(quán)處理;排序單元400與加權(quán) 處理單元300相連,用于根據(jù)加權(quán)處理的結(jié)果對搜索引擎返回的檢索結(jié)果進行 重新排序。
在一個實施方式中,本發(fā)明提供的系統(tǒng)還包括數(shù)據(jù)庫500和網(wǎng)頁爬蟲單元 600。圖5示出了一個實施例中網(wǎng)頁爬蟲單元600與數(shù)據(jù)庫500的連4妄示意圖, 其中,數(shù)據(jù)庫500與檢測模塊100、地理信息編碼單元200、力口權(quán)處理單元300 及排序單元400相連(圖中未示出),其中存儲了本地化信息的數(shù)據(jù)集合。
數(shù)據(jù)庫500包括搜索引擎數(shù)據(jù)庫501和地理信息數(shù)據(jù)庫502,其中,搜索引 擎數(shù)據(jù)庫501用于存儲搜索引擎返回的檢索結(jié)果,即存儲檢索到的網(wǎng)頁數(shù)據(jù); 地理信息數(shù)據(jù)庫502與搜索引擎數(shù)據(jù)庫501相連,用于存儲地理位置信息與編 碼的對應(yīng)關(guān)系。在一個實施方式中,檢測單元100可根據(jù)凄t據(jù)庫500中存儲的 本地化信息的數(shù)據(jù)集合判斷用戶輸入的檢索串是否屬于該本地化信息的數(shù)據(jù)集 合,若屬于,則地理信息編碼單元200獲取用戶的訪問信息,并根據(jù)用戶的訪 問信息獲取用戶的地理位置信息,以及根據(jù)地理信息數(shù)據(jù)庫502中存儲的地理 信息位置與編碼的對應(yīng)關(guān)系,查找與用戶的地理位置信息對應(yīng)的編碼,該編碼 即用戶的地理信息編碼,并將用戶的地理信息編碼存儲在地理信息數(shù)據(jù)庫502 中。
網(wǎng)頁爬蟲單元600與數(shù)據(jù)庫500相連,用于獲取網(wǎng)頁數(shù)據(jù),當(dāng)網(wǎng)頁數(shù)據(jù)包 含本地化信息時,獲取該網(wǎng)頁的地理位置信息,并根據(jù)地理位置信息與編碼的 對應(yīng)關(guān)系查找網(wǎng)頁的地理信息編碼。在一個實施例中,網(wǎng)頁爬蟲單元600抓取 網(wǎng)頁數(shù)據(jù),這些網(wǎng)頁數(shù)據(jù)包括網(wǎng)頁所屬網(wǎng)站的內(nèi)容、域名、錨文本信息等,通 過這些信息則可判斷該網(wǎng)頁是否包含了本地化信息的內(nèi)容。當(dāng)網(wǎng)頁包含本地化 信息時,網(wǎng)頁爬蟲單元600根據(jù)抓取的網(wǎng)頁數(shù)據(jù)得到網(wǎng)頁的地理位置信息,則 可根據(jù)地理信息數(shù)據(jù)庫502中存儲的地理位置信息與編碼的對應(yīng)關(guān)系查找網(wǎng)頁 的地理信息編碼,并將查找到的網(wǎng)頁的地理信息編碼也存儲在地理信息數(shù)據(jù)庫502中。
上述實施方式中,加權(quán)處理單元300才艮據(jù)地理信息數(shù)據(jù)庫502中存儲的用 戶的地理信息編碼和網(wǎng)頁的地理信息編碼,從搜索引擎數(shù)據(jù)庫501中存儲的檢 索結(jié)果中查找地理信息編碼與用戶的地理信息編碼一致的網(wǎng)頁,并對這些網(wǎng)頁 進行加權(quán)處理,然后通知排序單元400對4全索結(jié)果進行重新排序。排序單元400 則將加權(quán)處理的網(wǎng)頁靠前排列,使這些網(wǎng)頁優(yōu)先呈現(xiàn)給用戶。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā) 明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明 的保護范圍之內(nèi)。
權(quán)利要求
1、一種搜索引擎的檢索結(jié)果重排序方法,其特征在于,所述方法包括檢測用戶輸入的檢索串,當(dāng)檢測到所述檢索串屬于本地化信息的數(shù)據(jù)集合時,則獲取用戶的地理信息編碼;查找搜索引擎返回的檢索結(jié)果中地理信息編碼與所述用戶的地理信息編碼一致的網(wǎng)頁,對所述網(wǎng)頁進行加權(quán)處理;根據(jù)所述加權(quán)處理的結(jié)果對所述搜索引擎返回的檢索結(jié)果進行重新排序。
2、 根據(jù)權(quán)利要求1所述的搜索引擎的檢索結(jié)果重排序方法,其特征在于, 所述獲取用戶的地理信息編碼的步驟具體是根據(jù)用戶的訪問信息獲取用戶的 地理位置信息,并查找與所述地理位置信息對應(yīng)的地理信息編碼。
3、 根據(jù)權(quán)利要求l所述的搜索引擎的檢索結(jié)果重排序方法,其特征在于, 所述檢測用戶輸入的檢索串的步驟之前還包括存儲本地化信息的數(shù)據(jù)集合。
4、 根據(jù)權(quán)利要求l所述的搜索引擎的檢索結(jié)果重排序方法,其特征在于, 所述纟全測用戶輸入的4企索串的步驟之前還包括建立地理位置信息與編碼的對 應(yīng)關(guān)系。
5、 根據(jù)權(quán)利要求4所述的搜索引擎的檢索結(jié)果重排序方法,其特征在于, 所述方法還包括獲取網(wǎng)頁數(shù)據(jù),當(dāng)所述網(wǎng)頁數(shù)據(jù)包含本地化信息時,獲取所 述網(wǎng)頁的地理位置信息,并根據(jù)所述地理位置信息與編碼的對應(yīng)關(guān)系查找網(wǎng)頁 的地理信息編碼。
6、 一種搜索引擎的檢索結(jié)果重排序系統(tǒng),其特征在于,所述系統(tǒng)包括 檢測單元,用于4企測用戶輸入的檢索串;地理信息編碼單元,與所述^:測單元相連,當(dāng)所述^全測單元4全測到所迷4全 索串屬于本地化信息的數(shù)據(jù)集合時,則獲取用戶的地理信息編碼;加權(quán)處理單元,與所述地理信息編碼單元相連,從搜索引擎返回的檢索結(jié) 果中查找地理信息編碼與所述用戶的地理信息編碼一致的網(wǎng)頁,并對所述網(wǎng)頁 進4亍加 f又處理;排序單元,與所述加權(quán)處理單元相連,根據(jù)所述加權(quán)處理的結(jié)果對搜索引 擎返回的檢索結(jié)果進行重新排序。
7、 根據(jù)權(quán)利要求6所述的搜索引擎的檢索結(jié)果重排序系統(tǒng),其特征在于, 所述地理信息編碼單元還用于根據(jù)用戶的訪問信息荻取用戶的地理位置信息,并查找與所述地理位置信息對應(yīng)的地理信息編碼。
8、 根據(jù)權(quán)利要求6所述的搜索引擎的檢索結(jié)果重排序系統(tǒng),其特征在于, 所述系統(tǒng)還包括存儲本地化信息的數(shù)據(jù)集合的數(shù)據(jù)庫。
9、 根據(jù)權(quán)利要求8所述的搜索引擎的檢索結(jié)果重排序系統(tǒng),其特征在于, 所述數(shù)據(jù)庫包括搜索引擎數(shù)據(jù)庫,用于存儲搜索引擎返回的檢索結(jié)果; 地理信息數(shù)椐庫,用于存儲地理位置信息與編碼的對應(yīng)關(guān)系的記錄。
10、 根據(jù)權(quán)利要求8所述的搜索引擎的檢索結(jié)果重排序系統(tǒng),其特征在于, 所述系統(tǒng)還包括網(wǎng)頁爬蟲單元,與所述數(shù)據(jù)庫相連,獲取網(wǎng)頁數(shù)據(jù),當(dāng)所述網(wǎng)頁數(shù)據(jù)包含 本地化信息時,獲取所述網(wǎng)頁的地理位置信息,并#4居所述地理位置信息與編 碼的對應(yīng)關(guān)系查找網(wǎng)頁的地理信息編碼。
全文摘要
本發(fā)明提供了一種搜索引擎的檢索結(jié)果重排序方法及系統(tǒng),所述方法包括檢測用戶輸入的檢索串,當(dāng)檢測到所述檢索串屬于本地化信息的數(shù)據(jù)集合時,則獲取用戶的地理信息編碼;查找搜索引擎返回的檢索結(jié)果中地理信息編碼與所述用戶的地理信息編碼一致的網(wǎng)頁,對所述網(wǎng)頁進行加權(quán)處理;根據(jù)加權(quán)處理的結(jié)果對所述搜索引擎返回的檢索結(jié)果進行重新排序。本發(fā)明還提供一種搜索引擎的檢索結(jié)果重排序系統(tǒng)。采用本發(fā)明,能將用戶需求的結(jié)果靠前優(yōu)先呈現(xiàn)給用戶,提高了檢索的準(zhǔn)確性。
文檔編號G06F17/30GK101604317SQ20091004106
公開日2009年12月16日 申請日期2009年7月13日 優(yōu)先權(quán)日2009年7月13日
發(fā)明者頊 王, 璠 陳 申請人:騰訊科技(深圳)有限公司