国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種垂直搜索設(shè)備及方法

      文檔序號:6515705閱讀:287來源:國知局
      一種垂直搜索設(shè)備及方法
      【專利摘要】本發(fā)明公開了一種垂直搜索設(shè)備及方法,其中的垂直搜索方法包括:獲取關(guān)鍵詞,關(guān)鍵詞中至少包括漢語文字和/或漢語拼音;將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音;根據(jù)關(guān)鍵詞對應(yīng)的漢語拼音在垂直搜索信息庫中搜索相匹配的搜索結(jié)果,所述垂直搜索信息庫至少包括漢語拼音形式的索引項(xiàng)以及每個(gè)索引項(xiàng)對應(yīng)的搜索結(jié)果。通過本發(fā)明實(shí)施例提供的垂直搜索設(shè)備及方法,能夠提高垂直搜索的準(zhǔn)確度。
      【專利說明】一種垂直搜索設(shè)備及方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及垂直搜索【技術(shù)領(lǐng)域】,具體涉及一種用于垂直搜索設(shè)備,以及一種垂直搜索方法。
      【背景技術(shù)】
      [0002]垂直搜索引擎是針對某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。
      [0003]用戶進(jìn)行垂直搜索時(shí),輸入的關(guān)鍵詞可能是漢語文字,也可能是漢語拼音。
      [0004]如果用戶輸入的關(guān)鍵詞是漢語文字,目前通用的做法是:直接根據(jù)漢語文字在信息庫中進(jìn)行搜索,但是如果用戶輸入的關(guān)鍵詞是錯(cuò)別字,那么往往搜索不到用戶期望的結(jié)果。比如用戶原本應(yīng)該在游戲垂直搜索引擎中輸入搜索關(guān)鍵詞“七雄”,進(jìn)而搜索到“七雄爭霸”這款游戲結(jié)果,但是因?yàn)榉N種原因,用戶可能輸入的是錯(cuò)別字詞“氣胸”,這種情況下按照目前通用的做法就無法搜索到“七雄爭霸”這款用戶期望的游戲結(jié)果。
      [0005]如果用戶輸入的關(guān)鍵詞是漢語拼音,目前通用的做法是:將用戶輸入的漢語拼音提交給某個(gè)通用拼音搜索的接口,通過該接口轉(zhuǎn)化為相應(yīng)的漢字詞語(一個(gè)或多個(gè)),然后返回的漢字詞語作為搜索關(guān)鍵詞進(jìn)行搜索并給出結(jié)果。本發(fā)明的發(fā)明人發(fā)現(xiàn),由于漢字以及詞語的同音字、同音詞比較多,這樣用戶在輸入拼音之后,經(jīng)過通用拼音搜索接口轉(zhuǎn)化而來的同音詞語也比較多,這些詞語與當(dāng)前垂直搜索涉及領(lǐng)域的內(nèi)容未必能完全匹配或者匹配不準(zhǔn)確,進(jìn)而導(dǎo)致在以這些關(guān)鍵詞進(jìn)行搜索時(shí),結(jié)果可能不是用戶所期望的。比如,用戶在游戲領(lǐng)域進(jìn)行垂直搜索時(shí),輸入了拼音“qixiong”,提交給通用拼音搜索接口后可能返回“氣胸”,“齊胸”等詞語,而使用這些關(guān)鍵詞在游戲領(lǐng)域的垂直搜索中無法搜索到用戶期望的結(jié)果“七雄爭霸”。

      【發(fā)明內(nèi)容】

      [0006]鑒于上述問題,提供一種克服上述問題或者至少部分地解決上述問題的垂直搜索設(shè)備和相應(yīng)的垂直搜索方法。
      [0007]根據(jù)本發(fā)明一個(gè)實(shí)施例,提供了一種垂直搜索設(shè)備,包括:交互接口,被配置為獲取關(guān)鍵詞,所述關(guān)鍵詞中至少包括漢語文字和/或漢語拼音;轉(zhuǎn)換器,被配置為將經(jīng)由所述交互接口獲取到的關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音;以及搜索器,被配置為根據(jù)關(guān)鍵詞對應(yīng)的漢語拼音在垂直搜索信息庫中搜索相匹配的搜索結(jié)果,所述垂直搜索信息庫至少包括漢語拼音形式的索引項(xiàng)以及每個(gè)索引項(xiàng)對應(yīng)的搜索結(jié)果。
      [0008]可選的,轉(zhuǎn)換器還被配置為將用作相應(yīng)數(shù)據(jù)索引信息的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音,所述搜索設(shè)備還包括:索引構(gòu)造器,被配置為將上述漢語拼音添加至所述垂直搜索信息庫作為相應(yīng)數(shù)據(jù)的索引項(xiàng)。
      [0009]可選的,所述轉(zhuǎn)換器包括:直接轉(zhuǎn)換模塊,被配置為按照漢語文字與漢語拼音之間的對應(yīng)關(guān)系,以及預(yù)置的分詞方式,將漢語文字轉(zhuǎn)換為若干相關(guān)的漢語拼音。
      [0010]可選的,所述轉(zhuǎn)換器還包括:模糊音轉(zhuǎn)換模塊,被配置為根據(jù)不同漢語拼音之間的模糊音對應(yīng)關(guān)系,得到與所述直接轉(zhuǎn)換模塊提供的漢語拼音具有模糊音對應(yīng)關(guān)系的其他漢語拼音,所述其他漢語拼音也作為所述漢語文字相關(guān)的漢語拼音。
      [0011]可選的,所述搜索器還被配置為在將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音之前,根據(jù)所述漢語文字在垂直搜索信息庫中搜索相匹配的搜索結(jié)果,如果搜索到,則直接返回搜索結(jié)果。
      [0012]根據(jù)本發(fā)明另一個(gè)實(shí)施例,還提供了一種垂直搜索方法,包括:獲取關(guān)鍵詞,所述關(guān)鍵詞中至少包括漢語文字和/或漢語拼音;將所述關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音;根據(jù)關(guān)鍵詞對應(yīng)的漢語拼音在垂直搜索信息庫中搜索相匹配的搜索結(jié)果,所述垂直搜索信息庫至少包括漢語拼音形式的索引項(xiàng)以及每個(gè)索引項(xiàng)對應(yīng)的搜索結(jié)果。
      [0013]可選的,還包括:將用作相應(yīng)數(shù)據(jù)索引信息的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音;以及將所述漢語拼音添加至所述垂直搜索信息庫作為相應(yīng)數(shù)據(jù)的索引項(xiàng)。
      [0014]可選的,所述將漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音的步驟包括:按照漢語文字與漢語拼音之間的對應(yīng)關(guān)系,以及預(yù)置的分詞、排列組合方式,將漢語文字轉(zhuǎn)換為若干相關(guān)的漢語拼音。
      [0015]可選的,所述將漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音的步驟還包括:根據(jù)不同漢語拼音之間的模糊音對應(yīng)關(guān)系,得到與上述漢語拼音具有模糊音對應(yīng)關(guān)系的其他漢語拼音,所述其他漢語拼音也作為所述漢語文字相關(guān)的漢語拼音。
      [0016]可選的,在將所述關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音步驟之前,還包括:在所述垂直搜索信息庫中根據(jù)所述漢語文字搜索相匹配的搜索結(jié)果,如果搜索到,則直接返回搜索結(jié)果。
      [0017]根據(jù)本發(fā)明實(shí)施例提供的垂直搜索方法及設(shè)備,由于將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為漢語拼音,并且在垂直搜索信息庫中為各搜索結(jié)果添加漢語拼音形式的索引項(xiàng),從而使得可以根據(jù)漢語拼音在垂直搜索信息庫中進(jìn)行搜索;和/或,直接根據(jù)關(guān)鍵詞中的漢語拼音進(jìn)行搜索,進(jìn)而使得如果用戶輸入的關(guān)鍵詞有誤,比如將“七雄”錯(cuò)誤的輸成“氣胸”,也能搜索到正確的搜索結(jié)果“七雄爭霸”;或者如果用戶輸入“qixiong”,也可以搜索到爭取的結(jié)果“七雄爭霸”,而不會出現(xiàn)因使用通用拼音搜索接口返回的“氣胸”、“齊胸”等詞語無法搜索到正確結(jié)果的問題。
      [0018]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
      【專利附圖】

      【附圖說明】
      [0019]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:
      [0020]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的搜索設(shè)備示意圖;
      [0021]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的搜索方法流程圖。【具體實(shí)施方式】
      [0022]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
      [0023]請參閱圖1,其為根據(jù)本發(fā)明一個(gè)實(shí)施例的搜索設(shè)備示意圖。該搜索設(shè)備可以包括交互接口 102、轉(zhuǎn)換器104、搜索器106、展現(xiàn)接口 108、索引構(gòu)造器110以及垂直搜索信息庫112。
      [0024]交互接口 102是搜索設(shè)備與用戶之間用于進(jìn)行信息交互的接口,比如獲取用戶輸入的關(guān)鍵詞。一般每個(gè)垂直搜索都有自己對應(yīng)的交互接口 102,凡是在該交互接口輸入的關(guān)鍵詞,即被認(rèn)為是需要在對應(yīng)的垂直領(lǐng)域進(jìn)行信息搜索。常見的垂直搜索領(lǐng)域有游戲領(lǐng)域、機(jī)票領(lǐng)域、購物領(lǐng)域等等,當(dāng)用戶在游戲領(lǐng)域的交互接口 102輸入某些關(guān)鍵詞后,后續(xù)便會在游戲這個(gè)垂直領(lǐng)域的信息庫中為用戶搜索相應(yīng)的結(jié)果,進(jìn)而用戶在該交互接口 102輸入的關(guān)鍵詞,可稱之為垂直搜索關(guān)鍵詞。
      [0025]交互接口 102接收到的用戶輸入的關(guān)鍵詞種類很多,可能包含漢語文字形式的,比如“氣胸”、“星”等,關(guān)鍵詞中包含的漢語文字可能是一個(gè)漢字,也可能是兩個(gè)以上漢字組成的詞語,本發(fā)明實(shí)施例均統(tǒng)稱為漢語文字;也可能包含漢語拼音形式的,比如“qixiong”、“xingji ”等,還可能有其他形式的。在本發(fā)明實(shí)施例中,主要是針對漢語文字形式或漢語拼音形式的關(guān)鍵詞進(jìn)行創(chuàng)新性的處理。下面針對這兩種情況分別予以介紹。
      [0026]第一種,如果交互接口 102接收到的垂直搜索關(guān)鍵詞中包括漢語文字,那么后續(xù)處理如下:
      [0027]首先,交互接口 102將關(guān)鍵詞中的漢語文字提供給轉(zhuǎn)換器104。轉(zhuǎn)換器104將該漢語文字轉(zhuǎn)換為相關(guān)漢語拼音。在轉(zhuǎn)換過程中,有多種具體實(shí)現(xiàn)方案。比如,轉(zhuǎn)換器104可以包括直接轉(zhuǎn)換模塊1042,可選的,還可以包括模糊音轉(zhuǎn)換模塊1044。
      [0028]具體而言,直接轉(zhuǎn)換模塊1042按照漢語文字與漢語拼音之間的對應(yīng)關(guān)系,以及預(yù)置的分詞、排列組合方式,將漢語文字轉(zhuǎn)換為若干相關(guān)的漢語拼音。漢語文字和漢語拼音之間是存在固定的對應(yīng)關(guān)系的,比如漢語文字“七雄”對應(yīng)的漢語拼音就是“qixiong”,漢語文字“氣”對應(yīng)的漢語拼音就是“qi”等等,因此,可以按照漢語文字和漢語拼音直接的對應(yīng)關(guān)系,將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為對應(yīng)的漢語拼音,比如將關(guān)鍵詞“氣胸爭霸”轉(zhuǎn)換為“qixiongzhengba,,。
      [0029]需要注意的是,如果用戶輸入的關(guān)鍵詞是多個(gè)漢字,那么為了更準(zhǔn)確的進(jìn)行搜索,還可以根據(jù)預(yù)置的分詞方式將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為多個(gè)相關(guān)的漢語拼音。分詞的方式可以有很多種,仍然以前述“氣胸爭霸”的關(guān)鍵詞為例,比如可以每一個(gè)漢字進(jìn)行一次分詞,如切分為“qi” “xiong” “Zheng” “ba” ;也可以每兩個(gè)漢字進(jìn)行一次分詞,如切分為“ qixiong” “zhengba”;還可以從前向后遞進(jìn)式的分詞,如切分為“qi”“ qixiong” “qixiongzheng ”“ qi X i ongzhengba ”;還可以反過來從后向前遞進(jìn)式的分詞,如切分為“ ba ”“ zhengba ”“xiongzhengba’x‘qixiongzhegnba”。此外,如果還希望得到更好、更全的搜索結(jié)果,還可以將切分后的詞再進(jìn)行各種排列組合,如排列組合出“qizheng” “qiba” “xiongba”等等。上述分詞或排列組合后形成的多個(gè)漢語拼音,可以是直接對“氣胸爭霸”的漢語文字先進(jìn)行分詞和/或排列組合,然后再將各漢語文字轉(zhuǎn)換為相應(yīng)的漢語拼音;也可以先將“氣胸爭霸”轉(zhuǎn)換為“qixiongzhengba”,然后再對“qixiongzhengba”進(jìn)行分詞和/或排列組合。
      [0030]除了以上列舉出的分詞、排列組合方式外,還有很多種,無法窮盡。無論是列舉出的,還是未列舉出的各種分詞、排列組合方式均可以單獨(dú)使用,也可以任意多種方式結(jié)合一起,將用戶輸入的漢語文字形式的關(guān)鍵詞轉(zhuǎn)換為多個(gè)相關(guān)的漢語拼音。總之,分詞方式、排列組合方式,可以根據(jù)實(shí)際需求、搜索設(shè)備的運(yùn)算能力而定,本發(fā)明實(shí)施例對此并沒有限制。
      [0031]以上描述的是轉(zhuǎn)換器104中直接轉(zhuǎn)換模塊1042的相關(guān)技術(shù)實(shí)現(xiàn)。可選的,轉(zhuǎn)換器104除了包括直接轉(zhuǎn)換模塊1042之外,為了進(jìn)一步提高搜索效率和準(zhǔn)確度,還可以包括模糊音轉(zhuǎn)換模塊1044。
      [0032]具體而言,模糊音轉(zhuǎn)換模塊1044根據(jù)不同漢語拼音之間的模糊音對應(yīng)關(guān)系,得到與直接轉(zhuǎn)換模塊1042提供的漢語拼音具有模糊音對應(yīng)關(guān)系的其他漢語拼音,通過模糊音轉(zhuǎn)換模塊1044獲得的其他漢語音拼音,也同樣作為關(guān)鍵詞中漢語文字對應(yīng)的相關(guān)漢語拼音。模糊音的產(chǎn)生基于多種原因,比如在某些地區(qū)基于方言習(xí)慣的原因,有些人分不清前鼻音、后鼻音,如“in”和“ing”不分,“an”和“ang”不分;又如,還有人基于對拼音的掌握不好,容易把“ z ”和“ zh”、“ s ”和“ sh”、“r ”和“ I ”、“ I ”和“η”等予以混淆;還有其他各種原因,但本質(zhì)都是相同的,均是將兩種不同的拼音可能予以混淆。針對這種狀況,可以獲得模糊音的對應(yīng)關(guān)系,例如將“in”= “ing”、“an”= “ang”、“z”= “zh”、“r”= “I”等。
      [0033]假設(shè)某用戶本來原本要搜索一款為“星際爭霸”的游戲,但是由于他分不清“xin”和“xing”,因此在用漢語拼音輸入法打字時(shí)敲入的漢語拼音是“xinjizhengba”,進(jìn)而輸入的關(guān)鍵詞是漢語文字“新際爭霸”,這種情況下,通過直接轉(zhuǎn)換模塊1042獲得的相關(guān)漢語拼音分別是“xin” “ji” “Zheng” “ba” “xiji” “xinjizheng” “xinjizhengba” “zhengba,,。如果轉(zhuǎn)換器104中還包括模糊音轉(zhuǎn)換模塊1044,那么模糊音轉(zhuǎn)換模塊1044可以對直接轉(zhuǎn)換模塊1042輸出的各漢語拼音,根據(jù)模糊音的對應(yīng)關(guān)系再派生出其他相關(guān)的漢語音頻,如根據(jù)“in”和“ing”之間的對應(yīng)關(guān)系,將“xin”派生出“xing”,同理,“xiji”派生出“xingji”,“乂;[1^21161^”派生出“1;[1^121161^”等。于是,用戶輸入的關(guān)鍵詞“新際爭霸”,通過轉(zhuǎn)換器104中直接轉(zhuǎn)換模塊1042和模糊音轉(zhuǎn)換模塊1044的轉(zhuǎn)換,可以得到多個(gè)相關(guān)的漢語拼音:“xin’w ji …Zheng^ba^xijixinjizheng^ xinjizhengba^ zhengba^ xing^ xingjiχinjizheng’x‘xinjizhengba”等。由此可見,模糊音轉(zhuǎn)換模塊1044可以擴(kuò)充關(guān)鍵詞中漢語文字轉(zhuǎn)換成的漢語拼音的數(shù)量,增加后續(xù)搜索范圍,在一定程度上減少了用戶因讀音錯(cuò)誤、輸入錯(cuò)誤的關(guān)鍵詞,導(dǎo)致無法搜索到希望的結(jié)果的情況發(fā)生。
      [0034] 在轉(zhuǎn)換器104對漢語文字形式的關(guān)鍵詞進(jìn)行處理后,提交給搜索器106進(jìn)行處理。前面提過,交互接口 102接收到的關(guān)鍵詞可能是漢語文字,也可能是漢語拼音,在前文第一種情況里介紹了是漢語文字情況下的數(shù)據(jù)處理過程,下面在第二種情況里介紹是漢語拼音情況下的數(shù)據(jù)處理過程。
      [0035]第二種,如果交互接口 102接收到的垂直搜索詞中包括漢語拼音,那么后續(xù)處理如下:如果交互接口 102接收到的已經(jīng)是漢語拼音形式的關(guān)鍵詞,那么交互接口 102直接將漢語拼音提供給搜索器106即可,而不必經(jīng)過轉(zhuǎn)換器104進(jìn)行數(shù)據(jù)轉(zhuǎn)換。[0036]綜上可以看出,無論在關(guān)鍵詞是漢語文字的第一種情況下,還是在關(guān)鍵詞是漢語拼音的第二種情況下,最終都會向搜索器106提供相關(guān)的漢語拼音進(jìn)行結(jié)果搜索。
      [0037]搜索器106從轉(zhuǎn)換器104或者交互接口 102獲得相關(guān)的漢語拼音之后,根據(jù)漢語拼音在垂直搜索信息庫中搜索相匹配的搜索結(jié)果。具體而言,垂直搜索信息庫至少包括漢語拼音形式的索引項(xiàng)以及每個(gè)索引項(xiàng)對應(yīng)的搜索結(jié)果。在構(gòu)造垂直搜索信息庫時(shí),還要借助轉(zhuǎn)換器104和索引構(gòu)造器110。
      [0038]首先,搜索設(shè)備可以通過各種途徑收集可以作為搜索結(jié)果的各種數(shù)據(jù),比如網(wǎng)頁數(shù)據(jù)、文檔數(shù)據(jù)等。為了能夠快速定位到相應(yīng)的數(shù)據(jù),一般都會為這些數(shù)據(jù)設(shè)置一定的索引信息,比如可以是相應(yīng)數(shù)據(jù)的名稱、標(biāo)簽(如休閑、刺激等)、標(biāo)題,簡介,摘要等,只要是可以用來標(biāo)識某個(gè)數(shù)據(jù)、具有一定標(biāo)識作用的都可以作為相應(yīng)數(shù)據(jù)的索引信息,這些索引信息,指向?qū)?yīng)的數(shù)據(jù)。進(jìn)而,根據(jù)索引信息,就可以找到對應(yīng)的數(shù)據(jù)、即搜索結(jié)果。這種索引也通常稱為倒排索引。
      [0039]因?yàn)榇蟛糠謹(jǐn)?shù)據(jù)都是漢語文字形式的,因此對應(yīng)的索引信息也多是漢語文字,這種情況下,需要通過轉(zhuǎn)換器104將各種數(shù)據(jù)索引信息中的漢語文字,轉(zhuǎn)換為相關(guān)的漢語拼音。與前面通過轉(zhuǎn)換器104將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音雷同,在構(gòu)建垂直搜索信息庫時(shí)也采取類似的數(shù)據(jù)處理過程將收集到的各種數(shù)據(jù)的索引信息中的漢語文字,轉(zhuǎn)換為相關(guān)的漢語拼音。具體而言,直接轉(zhuǎn)換模塊1042按照漢語文字與漢語拼音之間的對應(yīng)關(guān)系,以及預(yù)置的分詞、排列組合方式,將漢語文字轉(zhuǎn)換為若干相關(guān)的漢語拼音,具體轉(zhuǎn)換過程,參考前文關(guān)于直接轉(zhuǎn)換模塊1042的描述,此處不再贅述。
      [0040]例如,在將某款游戲數(shù)據(jù)引入搜索引擎的垂直搜索信息庫時(shí),先把該游戲的索引信息,比如游戲名稱的漢字轉(zhuǎn)換為拼音,然后再對這些拼音進(jìn)行分詞和/或排列組合,并用空格等分詞符鏈接(字母在搜索引擎中一般默認(rèn)按照空格分詞),形成一個(gè)包含若干漢語拼音的索引字段,該索引字段包括若干索引項(xiàng)。然后,索引構(gòu)造器110將索引字段中的漢語拼音添加至垂直搜索信息庫作為相應(yīng)數(shù)據(jù)的索引項(xiàng)。
      [0041]如,有一款“七雄爭霸”的游戲,假設(shè)該游戲的名稱“七雄爭霸”是索引信息,該索引信息經(jīng)過直接轉(zhuǎn)換模塊1042轉(zhuǎn)換后,得到若干相關(guān)的漢語拼音,如索引字段的內(nèi)容包括:“qi xiong Zheng ba qixiong qixiongzheng qixiongzhengba zhengba,,??梢姡摽钣螒虻乃饕?xiàng)至少包括八個(gè),這八個(gè)索引項(xiàng)都指向“七雄爭霸”這款游戲。如果搜索器106根據(jù)上述8個(gè)索引項(xiàng)中的任何一個(gè)拼音進(jìn)行搜索,均能準(zhǔn)確搜索到“七雄爭霸”這款游戲。
      [0042]進(jìn)而,無論用戶在交互接口 102輸入的是“七雄”還是“氣胸”,經(jīng)過轉(zhuǎn)換器104的處理都可以轉(zhuǎn)換為相關(guān)的漢語拼音形式的關(guān)鍵詞,如“qi” “xiong” “qixiong”等。進(jìn)而,搜索器106可以使用漢語拼音形式的關(guān)鍵詞“qi”或“xiong”或“qixiong”進(jìn)行搜索,又由于垂直搜索信息庫中“七雄爭霸”這款游戲的索引項(xiàng)包括“qi” “xiong” “qixiong”等,因此,搜索器106能夠準(zhǔn)確搜索到“七雄爭霸”這款游戲的文檔數(shù)據(jù)。由此可見,通過本發(fā)明實(shí)施例的技術(shù)方案,即使用戶輸入了錯(cuò)別字,只要拼音正確(不含音調(diào)),比如應(yīng)該輸入“七雄”、但誤輸入了 “氣胸”,也能準(zhǔn)確搜索到用戶希望的“七雄爭霸”。
      [0043]更進(jìn)一步的,為了擴(kuò)大垂直搜索信息庫的索引信息的全面性,還可以同樣引入前面的模糊音轉(zhuǎn)換模塊1044,處理原理與前面介紹的對關(guān)鍵詞的模糊音處理類似,只不過過程反過來,即根據(jù)不同漢語拼音之間的模糊音對應(yīng)關(guān)系,得到與直接轉(zhuǎn)換模塊1042轉(zhuǎn)換后的索引信息漢語拼音對應(yīng)的模糊音,將直接轉(zhuǎn)換模塊1042得到的索引信息對應(yīng)的漢語拼音,以及模糊音轉(zhuǎn)換模塊1044得到的索引信息對應(yīng)的漢語拼音,都錄入垂直搜索信息庫,共同作為某項(xiàng)搜索結(jié)果的索引信息。
      [0044]通過上述內(nèi)容可知,由于在垂直搜索信息庫中,包括很多個(gè)搜索結(jié)果,而每個(gè)搜索結(jié)果都包含漢語拼音形式的索引項(xiàng),因此搜索器106根據(jù)關(guān)鍵詞對應(yīng)的漢語拼音,可以在垂直搜索信息庫中搜索相匹配的搜索結(jié)果。
      [0045]可選的,為了提高效率,在將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音之前,搜索器106可以先根據(jù)漢語文字在垂直搜索信息庫中搜索相匹配的搜索結(jié)果,如果搜索到,則直接返回搜索結(jié)果,不必再轉(zhuǎn)換為漢語拼音進(jìn)行搜索。當(dāng)然,如果為了搜索的更全面,也可以根據(jù)漢語文字搜索與根據(jù)漢語拼音搜索一并進(jìn)行。此外,在某些特殊情況下,也不排除只根據(jù)漢語拼音搜索的可能性。
      [0046]可選的,如果關(guān)鍵詞本身就是漢語拼音,則無需通過轉(zhuǎn)換器104的轉(zhuǎn)換,搜索器106直接根據(jù)漢語拼音形式的關(guān)鍵詞進(jìn)行搜索即可。
      [0047]可選的,如果用戶輸入的關(guān)鍵詞既有漢語文字,又有漢語拼音,則針對漢語文字的部分可以采用轉(zhuǎn)換器104轉(zhuǎn)換為漢語拼音,然后搜索器106根據(jù)轉(zhuǎn)換器104提供的轉(zhuǎn)換后的漢語拼音以及用戶輸入的漢語拼音關(guān)鍵詞,一并在垂直搜索信息庫中進(jìn)行搜索。
      [0048]與前面搜索設(shè)備相對應(yīng),本發(fā)明實(shí)施例還公開了一種搜索方法,具體包括如下幾個(gè)步驟:
      [0049]步驟S210:獲取關(guān)鍵詞,關(guān)鍵詞中至少包括漢語文字和/或漢語拼音??梢岳斫?,用戶輸入的希望進(jìn)行垂直搜索的關(guān)鍵詞可以只是漢語文字,或只是漢語拼音,也可以是漢語文字和漢語拼音一并輸入。本步驟具體可以通過前文中的交互接口 102來實(shí)現(xiàn),相關(guān)的技術(shù)特征可參考前文交互接口 102的相應(yīng)描述,此處不再贅述。
      [0050]步驟S220:將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音。如果在步驟S210中只輸入了漢語拼音,沒有輸入漢語文字,則不需要處理本步驟。只有當(dāng)輸入的關(guān)鍵詞中存在漢語文字時(shí),才需要執(zhí)行本步驟。本步驟具體可以通過前文中的轉(zhuǎn)換器104來實(shí)現(xiàn),例如,按照漢語文字與漢語拼音之間的對應(yīng)關(guān)系,以及預(yù)置的分詞、排列組合方式,將漢語文字轉(zhuǎn)換為若干相關(guān)的漢語拼音?;蛘吒M(jìn)一步,根據(jù)不同漢語拼音之間的模糊音對應(yīng)關(guān)系,得到與前述漢語拼音具有模糊音對應(yīng)關(guān)系的其他漢語拼音,其他漢語拼音也作為所述漢語文字相關(guān)的漢語拼音。換而言之,直接將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為對應(yīng)的漢語拼音,或者更進(jìn)一步借助模糊音的對應(yīng)關(guān)系,轉(zhuǎn)換出更多的漢語拼音。相關(guān)的技術(shù)特征可參考前轉(zhuǎn)換器104的相應(yīng)描述,此處不再贅述。
      [0051]步驟S230:根據(jù)關(guān)鍵詞對應(yīng)的漢語拼音在垂直搜索信息庫中搜索相匹配的搜索結(jié)果,垂直搜索信息庫至少包括漢語拼音形式的索引項(xiàng)以及每個(gè)索引項(xiàng)對應(yīng)的搜索結(jié)果。具體而言,可以將用作相應(yīng)數(shù)據(jù)索引信息的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音,這個(gè)轉(zhuǎn)換過程與步驟S220中將關(guān)鍵詞轉(zhuǎn)換成漢語拼音原理相同,只是過程相反,所以不再贅述。然后,再將漢語拼音添加至垂直搜索信息庫作為相應(yīng)數(shù)據(jù)的索引項(xiàng)。本步驟可以通過前文中的搜索器106、索引構(gòu)造器110、垂直搜索信息庫112來實(shí)現(xiàn),相關(guān)的技術(shù)特征可參考這幾個(gè)模塊的相應(yīng)描述,此處不再贅述。
      [0052]可選的,在執(zhí)行步驟S220將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音步驟之前,還可以在垂直搜索信息庫中先根據(jù)所述漢語文字搜索相匹配的搜索結(jié)果,如果搜索到,則直接返回搜索結(jié)果。如果搜索不到,再執(zhí)行步驟S220以及S230,進(jìn)而返回搜索結(jié)果。
      [0053]綜上所述,通過本發(fā)明實(shí)施例提供的垂直搜索方法及設(shè)備,由于將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為漢語拼音,并且在垂直搜索信息庫中為各搜索結(jié)果添加漢語拼音形式的索引項(xiàng),從而使得可以根據(jù)漢語拼音在垂直搜索信息庫中進(jìn)行搜索;和/或,直接根據(jù)關(guān)鍵詞中的漢語拼音進(jìn)行搜索,進(jìn)而使得如果用戶輸入的關(guān)鍵詞有誤,比如將“七雄”錯(cuò)誤的輸成“氣胸”,也能搜索到正確的搜索結(jié)果“七雄爭霸”;或者如果用戶輸入“qixiong”,也可以搜索到爭取的結(jié)果“七雄爭霸”,而不會出現(xiàn)因使用通用拼音搜索接口返回的“氣胸”、“齊胸”等詞語無法搜索到正確結(jié)果的問題。
      [0054]進(jìn)一步,在關(guān)鍵詞中的漢語文字轉(zhuǎn)換為漢語拼音的過程中,不但可以使用直接轉(zhuǎn)換,還可以考慮模糊音,同理,在垂直搜索信息庫構(gòu)建文檔數(shù)據(jù)索引項(xiàng)的漢語拼音時(shí)也考慮模糊音,能更進(jìn)一步增加搜索的全面性,從而提高搜索結(jié)果的準(zhǔn)確率。
      [0055]再進(jìn)一步,可以先直接采用漢語文字進(jìn)行搜索,搜索不到合適結(jié)果后再采用對應(yīng)的漢語拼音搜索,從而能進(jìn)一步提高搜索的效率。
      [0056]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
      [0057]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
      [0058]類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
      [0059]本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
      [0060]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
      [0061 ] 本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號處理器(DSP )來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的搜索設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
      [0062]應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
      【權(quán)利要求】
      1.一種垂直搜索設(shè)備,包括: 交互接口,被配置為獲取關(guān)鍵詞,所述關(guān)鍵詞中至少包括漢語文字和/或漢語拼音; 轉(zhuǎn)換器,被配置為將經(jīng)由所述交互接口獲取到的關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音; 搜索器,被配置為根據(jù)關(guān)鍵詞對應(yīng)的漢語拼音在垂直搜索信息庫中搜索相匹配的搜索結(jié)果,所述垂直搜索信息庫至少包括漢語拼音形式的索引項(xiàng)以及每個(gè)索引項(xiàng)對應(yīng)的搜索結(jié)果O
      2.如權(quán)利要求1所述的搜索設(shè)備,所述轉(zhuǎn)換器還被配置為將用作相應(yīng)數(shù)據(jù)索引信息的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音,所述搜索設(shè)備還包括: 索引構(gòu)造器,被配置為將上述漢語拼音添加至所述垂直搜索信息庫作為相應(yīng)數(shù)據(jù)的索引項(xiàng)。
      3.如權(quán)利要求1或2所述的搜索設(shè)備,所述轉(zhuǎn)換器包括: 直接轉(zhuǎn)換模塊,被配置為按照漢語文字與漢語拼音之間的對應(yīng)關(guān)系,以及預(yù)置的分詞方式,將漢語文字轉(zhuǎn)換為若干相關(guān)的漢語拼音。
      4.如權(quán)利要求3所述的 搜索設(shè)備,所述轉(zhuǎn)換器還包括: 模糊音轉(zhuǎn)換模塊,被配置為根據(jù)不同漢語拼音之間的模糊音對應(yīng)關(guān)系,得到與所述直接轉(zhuǎn)換模塊提供的漢語拼音具有模糊音對應(yīng)關(guān)系的其他漢語拼音,所述其他漢語拼音也作為所述漢語文字相關(guān)的漢語拼音。
      5.如權(quán)利要求1至4中任一項(xiàng)所述的搜索設(shè)備,所述搜索器還被配置為在將關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音之前,根據(jù)所述漢語文字在垂直搜索信息庫中搜索相匹配的搜索結(jié)果,如果搜索到,則直接返回搜索結(jié)果。
      6.—種垂直搜索方法,包括: 獲取關(guān)鍵詞,所述關(guān)鍵詞中至少包括漢語文字和/或漢語拼音; 將所述關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音; 根據(jù)關(guān)鍵詞對應(yīng)的漢語拼音在垂直搜索信息庫中搜索相匹配的搜索結(jié)果,所述垂直搜索信息庫至少包括漢語拼音形式的索引項(xiàng)以及每個(gè)索引項(xiàng)對應(yīng)的搜索結(jié)果。
      7.如權(quán)利要求6所述的搜索方法,還包括: 將用作相應(yīng)數(shù)據(jù)索引信息的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音;以及 將所述漢語拼音添加至所述垂直搜索信息庫作為相應(yīng)數(shù)據(jù)的索引項(xiàng)。
      8.如權(quán)利要求6或7所述的搜索方法,所述將漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音的步驟包括: 按照漢語文字與漢語拼音之間的對應(yīng)關(guān)系,以及預(yù)置的分詞、排列組合方式,將漢語文字轉(zhuǎn)換為若干相關(guān)的漢語拼音。
      9.如權(quán)利要求8所述的搜索方法,所述將漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音的步驟還包括: 根據(jù)不同漢語拼音之間的模糊音對應(yīng)關(guān)系,得到與上述漢語拼音具有模糊音對應(yīng)關(guān)系的其他漢語拼音,所述其他漢語拼音也作為所述漢語文字相關(guān)的漢語拼音。
      10.如權(quán)利要求6至9中任一項(xiàng)所述的搜索方法,在將所述關(guān)鍵詞中的漢語文字轉(zhuǎn)換為相關(guān)的漢語拼音步驟之前,還包括:在所述垂直搜索信息庫中根據(jù)所述漢語文字搜索相匹配的搜索結(jié)果, 如果搜索到,則直接返回搜索結(jié)果。
      【文檔編號】G06F17/30GK103530380SQ201310487578
      【公開日】2014年1月22日 申請日期:2013年10月17日 優(yōu)先權(quán)日:2013年10月17日
      【發(fā)明者】耿祥磊 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1