一種基于全局搜索的模糊詞確定方法及裝置制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種基于全局搜索的模糊詞確定方法,首先基于搜索日志數(shù)據(jù),獲取共同點(diǎn)擊的統(tǒng)一資源定位器URL所對(duì)應(yīng)的輸入語句query集合;獲取query集合中每一個(gè)query的各個(gè)基礎(chǔ)詞條term的詞條權(quán)重;將各個(gè)term的詞條權(quán)重與預(yù)設(shè)的權(quán)重閾值進(jìn)行比較,將詞條權(quán)重小于權(quán)重閾值的term設(shè)置為次要詞條;在全局搜索范圍內(nèi),統(tǒng)計(jì)各個(gè)term作為次要詞條出現(xiàn)的頻率,將出現(xiàn)頻率大于預(yù)設(shè)的頻率閾值的term設(shè)置為模糊詞。該方法及裝置可以準(zhǔn)確獲取基于共同點(diǎn)擊的輸入語句query的模糊詞,對(duì)于輸入語句query的核心詞提取,以及文檔排序均起到了重要作用,提高了搜索效率和結(jié)果。
【專利說明】—種基于全局搜索的模糊詞確定方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息推送【技術(shù)領(lǐng)域】,尤其涉及一種基于全局搜索的模糊詞確定方法及
>J-U ρ?α裝直。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)和信息技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)的信息量也呈現(xiàn)爆炸式的增長(zhǎng),那么快速并且正確從這些海量的數(shù)據(jù)里面獲取正確的信息成為了現(xiàn)在搜索引擎技術(shù)的核心問題,然而用戶的輸入?yún)s呈現(xiàn)很大的差異性,不同的人接受著不同的教育,以及不同的文化,導(dǎo)致在表述同一個(gè)問題上面的差異很大,同時(shí)針對(duì)用戶輸入的query中某些詞條對(duì)于搜索結(jié)果所起到的作用也很小,例如用戶輸入一個(gè)query是“北京故宮門票是多少”,在這個(gè)query的語境下“是多少”這個(gè)詞條就屬于垃圾詞條,對(duì)搜索結(jié)果起到的作用不大。
[0003]現(xiàn)有技術(shù)方案中所用到的TF-1DF (Term Frequency -1nverse DocumentFrequency)技術(shù),是用于評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度,是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),而該技術(shù)并不能準(zhǔn)確的描述全局條件下某一詞條的重要程度,從而無法有效做到全局條件下query核心詞的提取,從而影響了搜索效率和結(jié)果。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種基于全局搜索的模糊詞確定方法及裝置。
[0005]—種基于全局搜索的模糊詞確定方法,包括:
[0006]基于搜索日志數(shù)據(jù),獲取共同點(diǎn)擊的統(tǒng)一資源定位器URL所對(duì)應(yīng)的輸入語句query集合;
[0007]獲取所述query集合中每一個(gè)query的各個(gè)基礎(chǔ)詞條term的詞條權(quán)重;
[0008]將各個(gè)term的詞條權(quán)重與預(yù)設(shè)的權(quán)重閾值進(jìn)行比較,將詞條權(quán)重小于所述權(quán)重閾值的term設(shè)置為次要詞條;
[0009]在全局搜索范圍內(nèi),統(tǒng)計(jì)各個(gè)term作為次要詞條出現(xiàn)的頻率,將出現(xiàn)頻率大于預(yù)設(shè)的頻率閾值的term設(shè)置為模糊詞。
[0010]本發(fā)明實(shí)施例還提供了一種基于全局搜索的模糊詞確定裝置,所述裝置包括:
[0011]query集合獲取單元,用于基于搜索日志數(shù)據(jù),獲取共同點(diǎn)擊的統(tǒng)一資源定位器URL所對(duì)應(yīng)的輸入語句query集合;
[0012]詞條權(quán)重獲取單元,用于獲取所述query集合中每一個(gè)query的各個(gè)基礎(chǔ)詞條term的詞條權(quán)重;
[0013]次要詞條確定單元,用于將各個(gè)term的詞條權(quán)重與預(yù)設(shè)的權(quán)重閾值進(jìn)行比較,將詞條權(quán)重小于所述權(quán)重閾值的term設(shè)置為次要詞條;
[0014]模糊詞確定單元,用于在全局搜索范圍內(nèi),統(tǒng)計(jì)各個(gè)term作為次要詞條出現(xiàn)的頻率,將出現(xiàn)頻率大于預(yù)設(shè)的頻率閾值的term設(shè)置為模糊詞。
[0015]由以上可知,該方法及裝置可以準(zhǔn)確獲取基于共同點(diǎn)擊的輸入語句query的模糊詞,對(duì)于輸入語句query的核心詞提取,以及文檔排序均起到了重要作用,進(jìn)而提高了搜索效率和結(jié)果。
[0016]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0017]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0018]圖1為本發(fā)明實(shí)施例提供的基于全局搜索的模糊詞確定方法流程示意圖;
[0019]圖2為本發(fā)明實(shí)施例提供的枚舉過程示意圖;
[0020]圖3為本發(fā)明實(shí)施例提供的根據(jù)用戶輸入進(jìn)行相應(yīng)檢索的流程示意圖;
[0021]圖4為本發(fā)明實(shí)施例提供的基于全局搜索的模糊詞確定裝置的結(jié)構(gòu)示意圖;
[0022]圖5為本發(fā)明實(shí)施例提供的基于全局搜索的模糊詞確定裝置的另一結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0024]下面結(jié)合說明書附圖,對(duì)本發(fā)明實(shí)施例提供的模糊詞確定方法進(jìn)行說明,如圖1所示為本發(fā)明實(shí)施例提供的基于全局搜索的模糊詞確定方法流程示意圖,所述方法包括:
[0025]步驟11:基于搜索日志數(shù)據(jù),獲取共同點(diǎn)擊的統(tǒng)一資源定位器URL所對(duì)應(yīng)的輸入語句query集合;
[0026]在該步驟中,日志數(shù)據(jù)可以保存在后臺(tái)搜索服務(wù)器中。
[0027]這里,共同點(diǎn)擊的URL所對(duì)應(yīng)的輸入語句query,其含義就是點(diǎn)擊了相同URL的query,這些query,可以認(rèn)為是有潛在的同義關(guān)系,它們的核心部分應(yīng)該是保持穩(wěn)定的,只是換了一種表達(dá)而已,例如“北京故宮門票多少”、“故宮門票多少錢”,“北京故宮門票”、“故宮門票票價(jià)”……等等問的都是故宮門票的問題,再例如下面的幾個(gè)query: { “360搜索”,“360搜索網(wǎng)站”,“360”,“360搜索引擎”,“360搜索網(wǎng)址” },用戶都點(diǎn)擊了 URLiwww.s0.com,這樣的一組query也被認(rèn)為是共同點(diǎn)擊。
[0028]步驟12:獲取所述query集合中每一個(gè)query的各個(gè)基礎(chǔ)詞條term的詞條權(quán)重;
[0029]在該步驟中,一種實(shí)現(xiàn)方式是首先對(duì)所述query集合中每一個(gè)query進(jìn)行分詞,得到多個(gè)基礎(chǔ)詞條term ;然后再統(tǒng)計(jì)各個(gè)term在所述query集合中出現(xiàn)的頻率,基于出現(xiàn)頻率的高低獲取各個(gè)term的詞條權(quán)重。
[0030]上述過程中,具體的分詞的規(guī)則和方式可以參照現(xiàn)有分詞技術(shù),例如可以對(duì)所述query集合中每一個(gè)query基于n-gram進(jìn)行分詞處理,即采用多階枚舉的方式生成多個(gè)片段gram,得到多個(gè)片段gram的基礎(chǔ)詞條term。
[0031]舉例來說,例如Q = {Τ1,Τ2,Τ3,......Τη},枚舉時(shí),可以預(yù)先設(shè)定n-gram的階數(shù),
然后逐一進(jìn)行枚舉,較佳地,在本發(fā)明實(shí)施例中,可以采用1-4階gram的方式,枚舉的過程參照?qǐng)D2所示,采用1-4階枚舉的方式時(shí),可以從頭(Tl)開始枚舉l-4gram,可以得到多個(gè)片段gram。
[0032]例如對(duì)Q = {a, b, c, d}進(jìn)行4階枚舉時(shí),會(huì)生成如下幾個(gè)片段gram:
[0033]一階 gram:a, b, c, d ;
[0034]二階 gram:ab, be, cd ;
[0035]三階gram:abc, bed ;
[0036]四階gram:abcd。
[0037]然后,基于出現(xiàn)頻率的高低獲取各個(gè)term的詞條權(quán)重的具體過程可以是:選取出現(xiàn)頻率最高的term的次數(shù)作為分母,根據(jù)每一個(gè)term的出現(xiàn)次數(shù)計(jì)算獲取各個(gè)term的詞條權(quán)重,也就是將各term在所述query集合中出現(xiàn)的次數(shù)作為分子,所獲得的比值即為各個(gè)term的詞條權(quán)重。
[0038]舉例來說,若對(duì)每一個(gè)query基于n-gram進(jìn)行分詞處理,得到多個(gè)片段gram的基礎(chǔ)詞條term,則針對(duì)每個(gè)gram,分別統(tǒng)計(jì)其包含的term在query集合中出現(xiàn)的次數(shù),假設(shè)gram為“360搜索”,輪詢query集合,出現(xiàn)一次增加1,直至輪詢結(jié)束,最終得到的統(tǒng)計(jì)結(jié)果為:“360”這個(gè)term在query集合中出現(xiàn)了 5次搜索”這個(gè)term在Qs集合中出現(xiàn)了 4次;然后按照上述方法,可以得到次數(shù)之比為“1,0.8”。
[0039]上述“360搜索:1,0.8”是針對(duì)query集合中的某一個(gè)query統(tǒng)計(jì)得到的數(shù)值,在整個(gè)query集合中(包含了數(shù)量巨大的各種query),按照上述方法,可以同樣計(jì)算出若干個(gè)“360搜索”對(duì)應(yīng)的數(shù)值(與“ 1,0.8”類似的數(shù)值),然后針對(duì)該gram在整個(gè)query集合范圍內(nèi)求均值,就可以得到“360搜索”這個(gè)gram中各term對(duì)應(yīng)的詞條權(quán)重。
[0040]步驟13:將各個(gè)term的詞條權(quán)重與預(yù)設(shè)的權(quán)重閾值進(jìn)行比較,將詞條權(quán)重小于所述權(quán)重閾值的term設(shè)置為次要詞條;
[0041]步驟14:在全局搜索范圍內(nèi),統(tǒng)計(jì)各個(gè)term作為次要詞條出現(xiàn)的頻率,將出現(xiàn)頻率大于預(yù)設(shè)的頻率閾值的term設(shè)置為模糊詞。
[0042]這里所述的全局搜索范圍指的是服務(wù)器搜索記錄的全部query集合。下面以具體實(shí)例來進(jìn)行說明,舉例來說:
[0043]首先,{ “ 360搜索”,“ 360搜索網(wǎng)站”,“ 360 ”,“ 360搜索引擎”,“ 360搜索網(wǎng)址”等}這些query都是共同點(diǎn)擊了 URL:www.s0.com的query,也就是query集合。
[0044]在該query集合中,“360搜索網(wǎng)址是多少“這個(gè)query的分詞結(jié)果是:{360,搜索,網(wǎng)址,是多少},上述各term所對(duì)應(yīng)的詞條權(quán)重為{1,0.8,0.2,0};若設(shè)定權(quán)重閾值為0.2,那么“是多少”這個(gè)term的詞條權(quán)重就小于權(quán)重閾值,則將該term “是多少”設(shè)置為次要詞條。
[0045]然后,進(jìn)一步在服務(wù)器搜索記錄的全部query集合中統(tǒng)計(jì)“是多少”這個(gè)term作為次要詞條出現(xiàn)的頻率,這里預(yù)先設(shè)定頻率閾值為10萬次,若該次要詞條出現(xiàn)的頻率大于預(yù)設(shè)的頻率閾值,那么就可以將“是多少”這個(gè)term設(shè)置為模糊詞。
[0046]另外,在具體實(shí)現(xiàn)中,還可以將各個(gè)模糊詞組成模糊詞典,以方便用戶在檢索時(shí)進(jìn)行查詢。
[0047]進(jìn)一步的,還可以根據(jù)用戶輸入進(jìn)行相應(yīng)的檢索并輸出結(jié)果,具體操作如圖3所示,檢索過程包括:
[0048]步驟31:接收用戶輸入的某一 query,對(duì)該query進(jìn)行分詞得到多個(gè)term ;
[0049]具體分詞的方法見上述實(shí)施例所述。
[0050]步驟32:忽略作為模糊詞的term,利用其余的term作為搜索關(guān)鍵詞,輸出對(duì)應(yīng)的搜索結(jié)果。
[0051]舉例來說,若用戶輸入“北京故宮門票是多少”這個(gè)query,根據(jù)上述的模糊詞確定方法,“是多少”這個(gè)term就是作為模糊詞,故在搜索時(shí),忽略作為模糊詞的term“是多少”,利用其余的term “北京故宮門票”來進(jìn)行檢索,并輸出對(duì)應(yīng)的搜索結(jié)果。通過上述方法就可以有效提取query語句的核心詞,從而提高搜索效率和結(jié)果。
[0052]基于上述方法,本發(fā)明實(shí)施例還提供了一種基于全局搜索的模糊詞確定裝置,如圖4所示為本發(fā)明實(shí)施例提供的基于全局搜索的模糊詞確定裝置的結(jié)構(gòu)示意圖,所述裝置包括:
[0053]query集合獲取單元41,用于基于搜索日志數(shù)據(jù),獲取共同點(diǎn)擊的統(tǒng)一資源定位器URL所對(duì)應(yīng)的輸入語句query集合;
[0054]詞條權(quán)重獲取單元42,用于獲取所述query集合中每一個(gè)query的各個(gè)基礎(chǔ)詞條term的詞條權(quán)重;
[0055]次要詞條確定單元43,用于將各個(gè)term的詞條權(quán)重與預(yù)設(shè)的權(quán)重閾值進(jìn)行比較,將詞條權(quán)重小于所述權(quán)重閾值的term設(shè)置為次要詞條;
[0056]模糊詞確定單元44,用于在全局搜索范圍內(nèi),統(tǒng)計(jì)各個(gè)term作為次要詞條出現(xiàn)的頻率,將出現(xiàn)頻率大于預(yù)設(shè)的頻率閾值的term設(shè)置為模糊詞。
[0057]如圖5所示為本發(fā)明實(shí)施例提供的基于全局搜索的模糊詞確定裝置的另一結(jié)構(gòu)示意圖,如圖5,在具體實(shí)現(xiàn)中,所述詞條權(quán)重獲取單元42包括:
[0058]分詞模塊421,用于對(duì)所述query集合獲取單元所獲取的query集合中每一個(gè)query進(jìn)行分詞處理,得到多個(gè)基礎(chǔ)詞條term ;
[0059]詞條權(quán)重獲取模塊422,用于統(tǒng)計(jì)所述分詞模塊所得到的各個(gè)term在所述query集合中出現(xiàn)的頻率,并基于出現(xiàn)頻率的高低獲取各個(gè)term的詞條權(quán)重。
[0060]另外,上述分詞模塊421進(jìn)一步還可包括:
[0061 ] 分詞處理模塊4211,用于對(duì)所述query集合中每一個(gè)query基于n-gram進(jìn)行分詞處理,得到多個(gè)片段gram的基礎(chǔ)詞條term。
[0062]所述詞條權(quán)重獲取模塊422進(jìn)一步還可包括:
[0063]權(quán)重計(jì)算模塊4221,用于選取出現(xiàn)頻率最高的term的次數(shù)作為分母,根據(jù)每一個(gè)term的出現(xiàn)次數(shù)計(jì)算獲取各個(gè)term的詞條權(quán)重。
[0064]另外,所述裝置進(jìn)一步還可包括:
[0065]用戶輸入接收單元45,用于接收用戶輸入的某一 query,并對(duì)該query進(jìn)行分詞得到多個(gè)term ;
[0066]搜索結(jié)果輸出單元46,用于根據(jù)所述模糊詞確定單元所確定的模糊詞,忽略作為模糊詞的term,利用其余的term作為搜索關(guān)鍵詞,輸出對(duì)應(yīng)的搜索結(jié)果。
[0067]上述裝置中各單元和模塊具體的實(shí)現(xiàn)過程見上述方法實(shí)施例所述。
[0068]綜上所述,本發(fā)明實(shí)施例所提供的方法及裝置可以準(zhǔn)確獲取基于共同點(diǎn)擊的輸入語句query的模糊詞,對(duì)于輸入語句query的核心詞提取,以及文檔排序均起到了重要作用,進(jìn)而提高了搜索效率和結(jié)果。
[0069]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0070]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0071]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0072]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的搜索系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0073]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0074]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1.一種基于全局搜索的模糊詞確定方法,其特征在于,包括: 基于搜索日志數(shù)據(jù),獲取共同點(diǎn)擊的統(tǒng)一資源定位器URL所對(duì)應(yīng)的輸入語句query集合; 獲取所述query集合中每一個(gè)query的各個(gè)基礎(chǔ)詞條term的詞條權(quán)重; 將各個(gè)term的詞條權(quán)重與預(yù)設(shè)的權(quán)重閾值進(jìn)行比較,將詞條權(quán)重小于所述權(quán)重閾值的term設(shè)置為次要詞條; 在全局搜索范圍內(nèi),統(tǒng)計(jì)各個(gè)term作為次要詞條出現(xiàn)的頻率,將出現(xiàn)頻率大于預(yù)設(shè)的頻率閾值的term設(shè)置為模糊詞。
2.如權(quán)利要求1所述的方法,其特征在于,所述獲取所述query集合中每一個(gè)query的各個(gè)基礎(chǔ)詞條term的詞條權(quán)重,具體包括: 對(duì)所述query集合中每一個(gè)query進(jìn)行分詞,得到多個(gè)基礎(chǔ)詞條term ; 統(tǒng)計(jì)各個(gè)term在所述query集合中出現(xiàn)的頻率,基于出現(xiàn)頻率的高低獲取各個(gè)term的詞條權(quán)重。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述對(duì)所述query集合中每一個(gè)query進(jìn)行分詞,得到多個(gè)基礎(chǔ)詞條term,具體包括: 對(duì)所述query集合中每一個(gè)query基于n-gram進(jìn)行分詞處理,得到多個(gè)片段gram的基礎(chǔ)詞條term。
4.如權(quán)利要求1-3所述的方法,其特征在于,所述基于出現(xiàn)頻率的高低獲取各個(gè)term的詞條權(quán)重,具體包括: 選取出現(xiàn)頻率最高的term的次數(shù)作為分母,根據(jù)每一個(gè)term的出現(xiàn)次數(shù)計(jì)算獲取各個(gè)term的詞條權(quán)重。
5.如權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述方法還包括: 接收用戶輸入的某一 query,對(duì)該query進(jìn)行分詞得到多個(gè)term ; 忽略作為模糊詞的term,利用其余的term作為搜索關(guān)鍵詞,輸出對(duì)應(yīng)的搜索結(jié)果。
6.如權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,所述搜索日志數(shù)據(jù)保存在后臺(tái)搜索服務(wù)器中。
7.一種基于全局搜索的模糊詞確定裝置,其特征在于,所述裝置包括: query集合獲取單元,用于基于搜索日志數(shù)據(jù),獲取共同點(diǎn)擊的統(tǒng)一資源定位器URL所對(duì)應(yīng)的輸入語句query集合; 詞條權(quán)重獲取單元,用于獲取所述query集合中每一個(gè)query的各個(gè)基礎(chǔ)詞條term的詞條權(quán)重; 次要詞條確定單元,用于將各個(gè)term的詞條權(quán)重與預(yù)設(shè)的權(quán)重閾值進(jìn)行比較,將詞條權(quán)重小于所述權(quán)重閾值的term設(shè)置為次要詞條; 模糊詞確定單元,用于在全局搜索范圍內(nèi),統(tǒng)計(jì)各個(gè)term作為次要詞條出現(xiàn)的頻率,將出現(xiàn)頻率大于預(yù)設(shè)的頻率閾值的term設(shè)置為模糊詞。
8.如權(quán)利要求7所述的裝置,其特征在于,所述詞條權(quán)重獲取單元包括: 分詞模塊,用于對(duì)所述query集合獲取單元所獲取的query集合中每一個(gè)query進(jìn)行分詞處理,得到多個(gè)基礎(chǔ)詞條term ; 詞條權(quán)重獲取模塊,用于統(tǒng)計(jì)所述分詞模塊所得到的各個(gè)term在所述query集合中出現(xiàn)的頻率,并基于出現(xiàn)頻率的高低獲取各個(gè)term的詞條權(quán)重。
9.如權(quán)利要求7-8任一項(xiàng)所述的裝置,其特征在于,所述分詞模塊進(jìn)一步包括: 分詞處理模塊,用于對(duì)所述query集合中每一個(gè)query基于n-gram進(jìn)行分詞處理,得到多個(gè)片段gram的基礎(chǔ)詞條term。
10.如權(quán)利要求7-9任一項(xiàng)所述的裝置,其特征在于,所述詞條權(quán)重獲取模塊進(jìn)一步包括: 權(quán)重計(jì)算模塊,用于選取出現(xiàn)頻率最高的term的次數(shù)作為分母,根據(jù)每一個(gè)term的出現(xiàn)次數(shù)計(jì)算獲取各個(gè)term的詞條權(quán)重。
【文檔編號(hào)】G06F17/30GK104376115SQ201410720348
【公開日】2015年2月25日 申請(qǐng)日期:2014年12月1日 優(yōu)先權(quán)日:2014年12月1日
【發(fā)明者】鄒啟波, 周連強(qiáng) 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司