專利名稱:一種對例句檢索結(jié)果進(jìn)行排序的方法及裝置的制作方法
一種對例句檢索結(jié)果進(jìn)行排序的方法及裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別涉及一種對例句檢索結(jié)果進(jìn)行排序的方法及裝置。
背景技術(shù):
隨著計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)的深入發(fā)展,人們在語言學(xué)習(xí)中借助計(jì)算機(jī)強(qiáng)大的計(jì)算能力來獲取自己需要的信息成為可能,例句檢索系統(tǒng)就是一種幫助語言學(xué)習(xí)的人們獲取相關(guān)資訊的有力工具,其通過在大規(guī)模句庫中檢索與用戶輸入相匹配的例句,幫助用戶獲得相關(guān)語言的正確用法。但是現(xiàn)有的例句檢索系統(tǒng)在對檢索結(jié)果的排序過程中,不考慮用戶輸入的查詢詞在某個(gè)具體的例句中與例句上下文之間的相互關(guān)系,這樣很可能出現(xiàn)排在檢索結(jié)果前列的例句,并不是用戶真正希望獲取的例句。例如針對用戶輸入的查詢詞“提高” + “效率”,得到下面兩個(gè)匹配例句1、從某種意義上說,生產(chǎn)力的提高可以實(shí)現(xiàn)更高的效率。2、這篇文章詳細(xì)的解釋了如何提高大規(guī)模檢索系統(tǒng)的效率。通常來說,當(dāng)用戶輸入多個(gè)查詢詞,這多個(gè)查詢詞之間是有聯(lián)系的,用戶希望看到的是這幾個(gè)查詢詞在例句中是如何被聯(lián)合使用的。在例句2中,“提高”與“效率”恰好構(gòu)成搭配關(guān)系,具有較強(qiáng)的內(nèi)在聯(lián)系,而例句1中,“提高”實(shí)際上是與“生產(chǎn)力”構(gòu)成了搭配, “提高”與“效率”之間的聯(lián)系并不強(qiáng),對用戶來說,顯然例句2才是他真正希望獲取的內(nèi)容。 由于現(xiàn)有技術(shù)對例句檢索結(jié)果進(jìn)行排序時(shí),不能對例句1和例句2這兩種情況進(jìn)行區(qū)分,從而導(dǎo)致與用戶需求不夠相關(guān)的檢索結(jié)果被排在前列,從而影響了用戶的瀏覽效率,增加了系統(tǒng)的響應(yīng)次數(shù)。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種對例句檢索結(jié)果進(jìn)行排序的方法及裝置, 以解決現(xiàn)有的例句檢索系統(tǒng)中存在的影響用戶瀏覽效率,增加系統(tǒng)響應(yīng)次數(shù)的缺陷。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種對例句檢索結(jié)果進(jìn)行排序的方法,包括A.獲取用戶的查詢詞;B.從句庫中檢索包含所述查詢詞的匹配例句;C.計(jì)算各個(gè)匹配例句與所述查詢詞之間的搭配強(qiáng)度,其中匹配例句與所述查詢詞之間的搭配強(qiáng)度由各查詢詞之間的搭配概率及各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率來確定,詞語之間搭配概率是指詞語之間形成搭配關(guān)系的可能性;D.按照匹配例句與所述查詢詞之間的搭配強(qiáng)度對各個(gè)匹配例句進(jìn)行排序。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述句庫包括單語句庫或雙語句庫。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,匹配例句與所述查詢詞之間的搭配強(qiáng)度等于各查詢詞之間的搭配概率中的最大值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率中的最大值的比值,或者,各查詢詞之間的搭配概率中的最大值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率中的最大值的差值,或者,各查詢詞之間的搭配概率的平均值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率的平均值的比值,或者,各查詢詞之間的搭配概率的平均值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率的平均值的差值,或者,各查詢詞之間的搭配概率之和與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率之和的比值,與長度修正因子的乘積,其中所述長度修正因子是一個(gè)與匹配例句的長度有關(guān)的函數(shù)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法進(jìn)一步包括如果所述句庫為雙語句庫,在展示各個(gè)匹配例句時(shí),展示所述雙語句庫中與各個(gè)匹配例句互為譯文的另一語言的例句。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法進(jìn)一步包括在展示各個(gè)匹配例句時(shí),確定并展示各匹配例句與所述查詢詞之間的搭配強(qiáng)度等級。本發(fā)明還提供了一種對例句檢索結(jié)果進(jìn)行排序的裝置,包括接收單元,用于獲取用戶的查詢詞;檢索單元,用于從句庫中檢索包含各查詢詞的匹配例句;計(jì)算單元,用于計(jì)算各個(gè)匹配例句與所述查詢詞之間的搭配強(qiáng)度,其中匹配例句與所述查詢詞之間的搭配強(qiáng)度由各查詢詞之間的搭配概率及各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率來確定,詞語之間搭配概率是指詞語之間形成搭配關(guān)系的可能性;排序單元,用于按照匹配例句與所述查詢詞之間的搭配強(qiáng)度對各個(gè)匹配例句進(jìn)行排序。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述句庫包括單語句庫或雙語句庫。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,匹配例句與所述查詢詞之間的搭配強(qiáng)度等于各查詢詞之間的搭配概率中的最大值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率中的最大值的比值,或者,各查詢詞之間的搭配概率中的最大值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率中的最大值的差值,或者,各查詢詞之間的搭配概率的平均值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率的平均值的比值,或者,各查詢詞相互之間的搭配概率的平均值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率的平均值的差值,或者,各查詢詞之間的搭配概率之和與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率之和的比值,與長度修正因子的乘積,其中所述長度修正因子是一個(gè)與匹配例句的長度有關(guān)的函數(shù)。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括展示單元,如果所述句庫為雙語句庫,則所述展示單元在展示各個(gè)匹配例句時(shí),展示所述雙語句庫中與各個(gè)匹配例句互為譯文的另一語言的例句。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括確定單元,用于在展示各個(gè)匹配例句時(shí),確定各匹配例句與所述查詢之間的搭配強(qiáng)度等級。由以上技術(shù)方案可以看出,通過計(jì)算各個(gè)匹配例句中各查詢詞之間的搭配強(qiáng)度, 并根據(jù)搭配強(qiáng)度對匹配例句進(jìn)行排序和展示,能夠更好地滿足用戶的語言學(xué)習(xí)的目的和需求,提高用戶的瀏覽效率,同時(shí)減少了系統(tǒng)為滿足用戶需求而增加的響應(yīng)次數(shù)。
圖1為本發(fā)明中對例句檢索結(jié)果進(jìn)行排序的方法的實(shí)施例的流程示意圖;圖2為本發(fā)明中例句檢索結(jié)果展示界面的實(shí)施例一的示意圖;圖3為本發(fā)明中例句檢索結(jié)果展示界面的實(shí)施例二的示意圖4為本發(fā)明中對例句檢索結(jié)果進(jìn)行排序的裝置的實(shí)施例的結(jié)構(gòu)示意框圖。
具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。請參考圖1,圖1為本發(fā)明中對例句檢索結(jié)果進(jìn)行排序的方法的實(shí)施例的流程示意圖。如圖1所示,所述方法包括步驟101 獲取用戶的查詢詞。步驟102 從句庫中檢索包含各查詢詞的匹配例句。步驟103 計(jì)算各個(gè)匹配例句與查詢詞之間的搭配強(qiáng)度。步驟104 按照匹配例句與查詢詞之間的搭配強(qiáng)度的大小對各個(gè)匹配例句進(jìn)行排序。下面對上述步驟進(jìn)行具體說明。用戶在進(jìn)行語言學(xué)習(xí)時(shí),在查詢一個(gè)詞或多個(gè)詞時(shí)的目的通常是不一樣的,在查詢一個(gè)詞的時(shí)候,用戶希望獲得包含該詞語的例句,以了解查詢詞在句子中的用法,而用戶在查詢多個(gè)詞時(shí),通常這多個(gè)詞在使用時(shí)是有搭配關(guān)系的,用戶希望獲得包含這幾個(gè)查詢詞的例句,同時(shí)希望了解這幾個(gè)查詢詞之間的搭配關(guān)系是如何體現(xiàn)在例句中的。在本發(fā)明實(shí)施例中將只考慮兩個(gè)或兩個(gè)以上的查詢詞在例句中搭配關(guān)系的狀況,因此在步驟101 中,獲取的用戶查詢詞為多個(gè)查詢詞。在步驟102中,從已有的句庫中檢索包含查詢詞的匹配例句,句庫可以是單語句庫或雙語句庫。單語句庫是由一種語言的句子形成的句庫,雙語句庫是由雙語句對形成的句庫,該句對由兩種不同語言的句子構(gòu)成,并且這兩個(gè)句子互為對方的譯文。句庫可以通過現(xiàn)有技術(shù)在線下生成,例如單語句庫可以從一種語言的大規(guī)模語料中得來,而雙語句庫可以從大規(guī)模雙語語料中提取得來。如果句庫為雙語句庫,在檢索得到源語言的匹配例句時(shí), 其對應(yīng)的目標(biāo)語言例句也可以相應(yīng)得到。步驟103中,匹配例句與查詢詞之間的搭配強(qiáng)度由各查詢詞之間的搭配概率及各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率來確定。搭配概率是指詞語之間形成搭配關(guān)系的可能性。例如“提高”常和“效率” 一起使用,那么“提高”和“效率”之間的搭配概率就較高,而“提高”和“面積”很少會在一起使用,那么“提高”和“面積”之間的搭配概率就很小。搭配概率可以通過現(xiàn)有技術(shù)獲得,例如通過線下的大規(guī)模語料庫進(jìn)行詞與詞之間的共現(xiàn)概率的統(tǒng)計(jì),就可以得到包含詞和詞之間的搭配概率的語言模型。由于在自然語言處理中,計(jì)算詞和詞之間的多元共現(xiàn)概率是非常成熟的技術(shù),因此在本發(fā)明中將不再贅述其具體內(nèi)容。匹配例句與查詢詞之間的搭配強(qiáng)度用于衡量匹配例句中各查詢詞之間結(jié)合的緊密程度,利用搭配強(qiáng)度,可以對相同的查詢詞在不同匹配例句中的應(yīng)用進(jìn)行區(qū)分,從而找到在匹配例句中,各查詢詞相互之間聯(lián)系緊密的匹配例句返回給用戶,這些匹配例句通常也是用戶真正希望獲得的。搭配強(qiáng)度在考慮詞語之間的搭配概率的基礎(chǔ)上有多種實(shí)施方式,其中一種方式是搭配強(qiáng)度等于各查詢詞之間的搭配概率中的最大值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率中的最大值的比值,或各查詢詞之間的搭配概率中的最大值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率中的最大值的差值。 以公式表示如下
權(quán)利要求
1.一種對例句檢索結(jié)果進(jìn)行排序的方法,其特征在于,所述方法包括A.獲取用戶的查詢詞;B.從句庫中檢索包含所述查詢詞的匹配例句;C.計(jì)算各個(gè)匹配例句與所述查詢詞之間的搭配強(qiáng)度,其中匹配例句與所述查詢詞之間的搭配強(qiáng)度由各查詢詞之間的搭配概率及各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率來確定,詞語之間搭配概率是指詞語之間形成搭配關(guān)系的可能性;D.按照匹配例句與所述查詢詞之間的搭配強(qiáng)度對各個(gè)匹配例句進(jìn)行排序。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述句庫包括單語句庫或雙語句庫。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,匹配例句與所述查詢詞之間的搭配強(qiáng)度等于各查詢詞之間的搭配概率中的最大值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率中的最大值的比值,或者,各查詢詞之間的搭配概率中的最大值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率中的最大值的差值,或者,各查詢詞之間的搭配概率的平均值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率的平均值的比值,或者,各查詢詞之間的搭配概率的平均值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率的平均值的差值,或者,各查詢詞之間的搭配概率之和與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率之和的比值,與長度修正因子的乘積,其中所述長度修正因子是一個(gè)與匹配例句的長度有關(guān)的函數(shù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包括如果所述句庫為雙語句庫,在展示各個(gè)匹配例句時(shí),展示所述雙語句庫中與各個(gè)匹配例句互為譯文的另一語言的例句。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包括在展示各個(gè)匹配例句時(shí),確定并展示各匹配例句與所述查詢詞之間的搭配強(qiáng)度等級。
6.一種對例句檢索結(jié)果進(jìn)行排序的裝置,其特征在于,所述裝置包括接收單元,用于獲取用戶的查詢詞;檢索單元,用于從句庫中檢索包含各查詢詞的匹配例句;計(jì)算單元,用于計(jì)算各個(gè)匹配例句與所述查詢詞之間的搭配強(qiáng)度,其中匹配例句與所述查詢詞之間的搭配強(qiáng)度由各查詢詞之間的搭配概率及各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率來確定,詞語之間搭配概率是指詞語之間形成搭配關(guān)系的可能性;排序單元,用于按照匹配例句與所述查詢詞之間的搭配強(qiáng)度對各個(gè)匹配例句進(jìn)行排序。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述句庫包括單語句庫或雙語句庫。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,匹配例句與所述查詢詞之間的搭配強(qiáng)度等于各查詢詞之間的搭配概率中的最大值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率中的最大值的比值,或者,各查詢詞之間的搭配概率中的最大值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率中的最大值的差值,或者,各查詢詞之間的搭配概率的平均值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率的平均值的比值,或者,各查詢詞相互之間的搭配概率的平均值與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率的平均值的差值,或者,各查詢詞之間的搭配概率之和與各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率之和的比值,與長度修正因子的乘積,其中所述長度修正因子是一個(gè)與匹配例句的長度有關(guān)的函數(shù)。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置進(jìn)一步包括展示單元,如果所述句庫為雙語句庫,則所述展示單元在展示各個(gè)匹配例句時(shí),展示所述雙語句庫中與各個(gè)匹配例句互為譯文的另一語言的例句。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置進(jìn)一步包括確定單元,用于在展示各個(gè)匹配例句時(shí),確定各匹配例句與所述查詢之間的搭配強(qiáng)度等級。
全文摘要
本發(fā)明提供了一種對例句檢索結(jié)果進(jìn)行排序的方法及裝置,其中所述方法包括A.獲取用戶的查詢詞;B.從句庫中檢索包含查詢詞的匹配例句;C.計(jì)算各個(gè)匹配例句與查詢詞之間的搭配強(qiáng)度,其中匹配例句與查詢詞之間的搭配強(qiáng)度由各查詢詞之間的搭配概率及各查詢詞與匹配例句中除各查詢詞之外的其他詞之間的搭配概率來確定;D.按照匹配例句與所述查詢詞之間的搭配強(qiáng)度對各個(gè)匹配例句進(jìn)行排序。通過上述方式,能夠更好地滿足用戶的語言學(xué)習(xí)的目的和需求,提高用戶的瀏覽效率,同時(shí)減少了系統(tǒng)為滿足用戶需求而增加的響應(yīng)次數(shù)。
文檔編號G06F17/30GK102364469SQ201110303380
公開日2012年2月29日 申請日期2011年10月9日 優(yōu)先權(quán)日2011年10月9日
發(fā)明者劉占一, 吳華, 王海峰 申請人:北京百度網(wǎng)訊科技有限公司