国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      檢索處理方法和裝置的制造方法

      文檔序號:10552987閱讀:229來源:國知局
      檢索處理方法和裝置的制造方法
      【專利摘要】本發(fā)明公開了一種檢索處理方法和裝置,其中,方法包括:對網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍;根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息以及主題摘要;根據(jù)各主題的主旨信息以及主題摘要建立與網(wǎng)頁信息對應(yīng)的索引,以便根據(jù)索引進(jìn)行檢索。本發(fā)明通過將索引粒度設(shè)置為主題,提高了檢索結(jié)果和用戶需求的相關(guān)度,提升了用戶的滿足度。
      【專利說明】
      檢索處理方法和裝置
      技術(shù)領(lǐng)域
      [0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種檢索處理方法和裝置。
      【背景技術(shù)】
      [0002]相關(guān)技術(shù)中,搜索引擎的檢索以及對搜索結(jié)果頁面展示的過程以網(wǎng)頁為最小粒度,即搜索引擎根據(jù)用戶輸入的檢索詞,計(jì)算網(wǎng)頁與該檢索詞的相關(guān)性,從而檢索到相關(guān)性較高的網(wǎng)頁,并將相關(guān)網(wǎng)頁按照相關(guān)性進(jìn)行排序并顯示在搜索結(jié)果頁面中,以提供給用戶。
      [0003]但是,上述以網(wǎng)頁為最小粒度的檢索方式,在用戶輸入的檢索詞與網(wǎng)頁相關(guān)性的計(jì)算過程中,會損失很多網(wǎng)頁本身的信息,從而可能會導(dǎo)致檢索的結(jié)果和用戶的檢索詞相關(guān)度不高。例如,搜索引擎根據(jù)用戶輸入的檢索詞“肥胖癥的治療方法”進(jìn)行檢索時(shí),可能由于受到標(biāo)題權(quán)重等相關(guān)因素的影響,檢索到以“肥胖癥的治療方法”為標(biāo)題的網(wǎng)頁中很大篇幅介紹了肥胖癥的病因和預(yù)防,并沒有對“肥胖癥的治療方法”提供相應(yīng)的說明,這導(dǎo)致提供給用戶的相關(guān)網(wǎng)頁信息并不能很好的滿足用戶的需求。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問題之一。
      [0005]為此,本發(fā)明的第一個(gè)目的在于提出一種檢索處理方法,該方法通過將索引粒度設(shè)置為主題,根據(jù)主題范圍的內(nèi)容確定相關(guān)的主旨信息以及主題摘要,并且根據(jù)各主題的主旨信息以及主題摘要建立與網(wǎng)頁信息對應(yīng)的索引,實(shí)現(xiàn)了根據(jù)該索引進(jìn)行檢索得到的結(jié)果,更加符合用戶的需求,提高了用戶的滿足度。
      [0006]本發(fā)明的第二個(gè)目的在于提出一種檢索處理裝置。
      [0007]為達(dá)上述目的,本發(fā)明第一方面實(shí)施例的檢索處理方法,包括:對網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍;根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息以及主題摘要;根據(jù)所述各主題的主旨信息以及主題摘要建立與所述網(wǎng)頁信息對應(yīng)的索引,以便根據(jù)所述索引進(jìn)彳丁檢索。
      [0008]本發(fā)明實(shí)施例的檢索處理方法,通過將索引粒度設(shè)置為主題,根據(jù)主題范圍的內(nèi)容確定相關(guān)的主旨信息以及主題摘要,并且根據(jù)各主題的主旨信息以及主題摘要建立與網(wǎng)頁信息對應(yīng)的索引,實(shí)現(xiàn)了根據(jù)該索引進(jìn)行檢索得到的結(jié)果,更加符合用戶的需求,提升了用戶的滿足度。
      [0009]另外,在本發(fā)明的一個(gè)實(shí)施例中,所述對網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍,包括:采用預(yù)先訓(xùn)練的與主題類型對應(yīng)的切分模型的切分特征對所述網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍。
      [0010]在本發(fā)明的一個(gè)實(shí)施例中,所述主題類型包括以下至少之一:包含切分標(biāo)識的顯式主題類型;包含子標(biāo)題的半顯式主題類型;不包含子標(biāo)題和切分標(biāo)識的隱式主題類型;無結(jié)構(gòu)的單主題類型。
      [0011]在本發(fā)明的一個(gè)實(shí)施例中,在所述采用預(yù)先訓(xùn)練的與主題類型對應(yīng)的切分模型的切分特征對所述網(wǎng)頁信息進(jìn)行主題切分之前,還包括:將具有所述顯式主題類型的網(wǎng)頁信息,按照實(shí)際分布轉(zhuǎn)換成其他主題類型的語料訓(xùn)練切分模型。
      [0012]在本發(fā)明的一個(gè)實(shí)施例中,還包括:在所述切分模型的訓(xùn)練過程中,對訓(xùn)練語料中的切分特征隨機(jī)制空。
      [0013]在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息,包括:提取各主題范圍的子標(biāo)題,或,提取各主題范圍的子標(biāo)題的關(guān)鍵詞。
      [0014]在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息,包括:提取各主題范圍的特征詞并進(jìn)行優(yōu)先級排序;根據(jù)預(yù)設(shè)的知識庫對所述特征詞進(jìn)行分析獲取主旨信息。
      [0015]在本發(fā)明的一個(gè)實(shí)施例中,所述根據(jù)各主題范圍的內(nèi)容確定各主題的主題摘要,包括:采用預(yù)先訓(xùn)練的分析模型中的提取特征對各主題范圍的內(nèi)容進(jìn)行擬合,獲取各主題的主題摘要。
      [0016]在本發(fā)明的一個(gè)實(shí)施例中,還包括:接收輸入的檢索信息;根據(jù)所述索引獲取與所述檢索信息相關(guān)的主題摘要以及主旨信息,并展示在搜索結(jié)果頁面。
      [0017]在本發(fā)明的一個(gè)實(shí)施例中,還包括:當(dāng)所述搜索結(jié)果頁面的主旨信息被觸發(fā)時(shí),跳轉(zhuǎn)到與所述主旨信息對應(yīng)的信息界面。
      [0018]為達(dá)上述實(shí)施例,本發(fā)明第二方面實(shí)施例的檢索處理裝置,包括:第一確定模塊,用于對網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍;第二確定模塊,用于根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息以及主題摘要;建立模塊,用于根據(jù)所述各主題的主旨信息以及主題摘要建立與所述網(wǎng)頁信息對應(yīng)的索引,以便根據(jù)所述索引進(jìn)行檢索。
      [0019]本發(fā)明實(shí)施例的檢索處理裝置,通過將索引粒度設(shè)置為主題,根據(jù)主題范圍的內(nèi)容確定相關(guān)的主旨信息以及主題摘要,并且根據(jù)各主題的主旨信息以及主題摘要建立與網(wǎng)頁信息對應(yīng)的索引,實(shí)現(xiàn)了根據(jù)該索引進(jìn)行檢索得到的結(jié)果,更加符合用戶的需求,提升了用戶的滿足度。
      [0020]另外,在本發(fā)明的一個(gè)實(shí)施例中,所述第一確定模塊具體用于:采用預(yù)先訓(xùn)練的與主題類型對應(yīng)的切分模型的切分特征對所述網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍。
      [0021]在本發(fā)明的一個(gè)實(shí)施例中,所述主題類型包括以下至少之一:包含切分標(biāo)識的顯式主題類型;包含子標(biāo)題的半顯式主題類型;不包含子標(biāo)題和切分標(biāo)識的隱式主題類型;無結(jié)構(gòu)的單主題類型。
      [0022]在本發(fā)明的一個(gè)實(shí)施例中,還包括:轉(zhuǎn)換模塊,用于將具有所述顯式主題類型的網(wǎng)頁信息,按照實(shí)際分布轉(zhuǎn)換成其他主題類型的語料訓(xùn)練切分模型。
      [0023]在本發(fā)明的一個(gè)實(shí)施例中,還包括:制空模塊,用于在所述切分模型的訓(xùn)練過程中,對訓(xùn)練語料中的切分特征隨機(jī)制空。
      [0024]在本發(fā)明的一個(gè)實(shí)施例中,所述第二確定模塊包括:第一提取單元,用于提取各主題范圍的子標(biāo)題,或,提取各主題范圍的子標(biāo)題的關(guān)鍵詞。
      [0025]在本發(fā)明的一個(gè)實(shí)施例中,所述第二確定模塊包括:第二提取單元,用于提取各主題范圍的特征詞并進(jìn)行優(yōu)先級排序;第一獲取單元,用于根據(jù)預(yù)設(shè)的知識庫對所述特征詞進(jìn)行分析獲取主旨信息。
      [0026]在本發(fā)明的一個(gè)實(shí)施例中,所述第二確定模塊,包括:第二獲取單元,用于采用預(yù)先訓(xùn)練的分析模型中的提取特征對各主題范圍的內(nèi)容進(jìn)行擬合,獲取各主題的主題摘要。
      [0027]在本發(fā)明的一個(gè)實(shí)施例中,還包括:接收模塊,用于接收輸入的檢索信息;獲取展示模塊,用于根據(jù)所述索引獲取與所述檢索信息相關(guān)的主題摘要以及主旨信息,并展示在搜索結(jié)果頁面。
      [0028]在本發(fā)明的一個(gè)實(shí)施例中,還包括:跳轉(zhuǎn)模塊,用于在所述搜索結(jié)果頁面的主旨信息被觸發(fā)時(shí),跳轉(zhuǎn)到與所述主旨信息對應(yīng)的信息界面。
      [0029]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
      【附圖說明】
      [0030]本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
      [0031 ]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的檢索處理方法的流程圖;
      [0032]圖2(a)-圖2(c)為根據(jù)不同的主題類型的網(wǎng)頁信息示例圖;
      [0033]圖3是根據(jù)本發(fā)明實(shí)施例的檢索處理方法進(jìn)行檢索處理的流程示意圖;
      [0034]圖4是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的檢索處理方法的流程圖;
      [0035]圖5(a)-圖5(b)為根據(jù)本發(fā)明實(shí)施例的檢索處理方法的線上搜索結(jié)果頁面示例圖;
      [0036]圖6是根據(jù)本發(fā)明一個(gè)實(shí)施例的檢索處理裝置的結(jié)構(gòu)示意圖;
      [0037]圖7是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的檢索處理裝置的結(jié)構(gòu)示意圖;
      [0038]圖8是根據(jù)本發(fā)明另一個(gè)實(shí)施例的檢索處理裝置的結(jié)構(gòu)示意圖;
      [0039]圖9是根據(jù)本發(fā)明又一個(gè)實(shí)施例的檢索處理裝置的結(jié)構(gòu)示意圖;
      [0040]圖10是根據(jù)本發(fā)明還一個(gè)實(shí)施例的檢索處理裝置的結(jié)構(gòu)示意圖;以及
      [0041]圖11是根據(jù)本發(fā)明再一個(gè)實(shí)施例的檢索處理裝置的結(jié)構(gòu)示意圖。
      【具體實(shí)施方式】
      [0042]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
      [0043]下面參考附圖描述本發(fā)明實(shí)施例的檢索處理方法和裝置。
      [0044]本發(fā)明實(shí)施例提出了一種檢索處理方法,包括:對網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍;根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息以及主題摘要;根據(jù)各主題的主旨信息以及主題摘要建立與網(wǎng)頁信息對應(yīng)的索引,以便根據(jù)索引進(jìn)行檢索。
      [0045]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的檢索處理方法的流程圖。
      [0046]如圖1所示,該檢索處理方法包括:
      [0047]S110,對網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍。
      [0048]可以理解,網(wǎng)頁信息中的內(nèi)容可能表達(dá)了一個(gè)或者多個(gè)主題思想,比如一篇關(guān)于肥胖癥的網(wǎng)頁信息的第一段信息,可能具體說明了肥胖癥的治療方法,第二段的信息可能具體說明了肥胖癥的病因等,本發(fā)明實(shí)施例中的檢索處理方法,則是希望為檢索肥胖癥的治療方法的用戶,直接在搜索結(jié)果頁面中展示上述網(wǎng)頁信息中的第一段信息,為檢索肥胖癥的病因的用戶,直接在搜索結(jié)果頁面中展示上述網(wǎng)頁信息中的第二段信息。也就是說,可通過對網(wǎng)頁信息主題的切分,使得檢索出的信息更加的具有針對性,更加的符合用戶的檢索需求。
      [0049]因此,為了提高檢索的準(zhǔn)確度,需要預(yù)先對網(wǎng)頁信息(該網(wǎng)頁信息可以是統(tǒng)一資源定位符、網(wǎng)頁正文內(nèi)容、網(wǎng)頁下載時(shí)間等網(wǎng)頁本身的相關(guān)信息)進(jìn)行主題切分,以確定網(wǎng)頁信息所表達(dá)的主題思想,并確定各主題所在的段落范圍。舉例而言,對一篇以“肥胖癥的治療方法”為標(biāo)題的網(wǎng)頁信息,按照網(wǎng)頁信息的具體內(nèi)容切分為“病因”、“預(yù)防”以及“治療”三個(gè)主題,并且確定上述三個(gè)主題各自所在的段落范圍。
      [0050]具體而言,由于主題具有多種類型,例如包含切分標(biāo)識的顯式主題類型、包含子標(biāo)題的半顯式主題類型、不包含子標(biāo)題和切分標(biāo)識的隱式主題類型以及無結(jié)構(gòu)的單主題類型等,且不同的主題具有不同的主題結(jié)構(gòu),因此為了準(zhǔn)確地對網(wǎng)頁信息進(jìn)行主題切分,需要針對不同的主題類型選擇與其對應(yīng)的不同的切分模型。
      [0051]因此,可采用預(yù)先訓(xùn)練的與主題類型對應(yīng)的切分模型的切分特征對網(wǎng)頁信息進(jìn)行主題切分,并確定各主題范圍。也就是說,切分模型的選擇和主題的類型相關(guān),不同的切分模型的切分特征具有不同的表示,因此要準(zhǔn)確地對網(wǎng)頁信息進(jìn)行主題切分,需要根據(jù)主題類型選擇對應(yīng)的切分模型。比如對于包含切分標(biāo)識的顯示主題類型,其對應(yīng)的切分模型在對其進(jìn)行主題切分的時(shí)候,可以通過考慮網(wǎng)頁信息內(nèi)容首層列表在文章中的占比、列表各項(xiàng)的分布等切分特征,并且可以利用分類模型對網(wǎng)頁信息內(nèi)容進(jìn)行擬合;又比如對于半顯式的切分類型,其對應(yīng)的切分模型在對其進(jìn)行主題切分時(shí),可以通過增加其他特征,用序列標(biāo)注的模型進(jìn)行擬合等方式來處理該網(wǎng)頁信息。
      [0052]為了更加清楚的描述如何采用預(yù)先訓(xùn)練的與主題類型對應(yīng)的切分模型的切分特征對網(wǎng)頁信息進(jìn)行主題切分,并確定各主題范圍,下面結(jié)合附圖2(a)至圖2(c)舉例說明,說明如下:
      [0053]如果上述主題類型是包含切分標(biāo)識的顯式主題類型,例如包含明顯的、規(guī)則的HTML標(biāo)簽標(biāo)識或者切分點(diǎn)有明顯的組號標(biāo)記的切分標(biāo)識,則可采用預(yù)先訓(xùn)練的與顯式主題類型對應(yīng)的切分模型的切分特征對其進(jìn)行主題的切分。例如,對如圖2(a)中所示的具有明顯標(biāo)號的網(wǎng)頁信息,可通過對應(yīng)的切分模型根據(jù)圖2(a)中的切分標(biāo)識A和B對該網(wǎng)頁信息進(jìn)行主題切分,將該網(wǎng)頁信息的內(nèi)容切分為主題A和B,并且確定A和B的范圍為其各自所對應(yīng)的內(nèi)容所在的范圍,即主題A所對應(yīng)的主題范圍為Al段,主題B所對應(yīng)的內(nèi)容為BI段;
      [0054]如果上述主題類型是包含子標(biāo)題的半顯式主題類型,即切分點(diǎn)為對應(yīng)主題的子標(biāo)題等,則可采用與該主題相對應(yīng)的預(yù)先訓(xùn)練的切分模型的切分特征對該網(wǎng)頁信息的內(nèi)容進(jìn)行主題切分。例如,對于如圖2(b)中所示的具有子標(biāo)題C和D的網(wǎng)頁信息,則可以采用與半顯式主題類型相對應(yīng)的切分模型,根據(jù)上述子標(biāo)題C和D對該網(wǎng)頁信息進(jìn)行主題切分,即將該網(wǎng)頁信息的主題切分為C和D,并且確定主題C和D的主題范圍為其各自對應(yīng)的內(nèi)容所在的區(qū)域,即主題C所對應(yīng)的主題范圍為Cl段,主題D所對應(yīng)的內(nèi)容為Dl段;
      [0055]如果,上述主題類型是不包含子標(biāo)題和切分標(biāo)識的隱式主題類型,即主題間不存在子標(biāo)題作為主題間轉(zhuǎn)換的標(biāo)識,則采用預(yù)先訓(xùn)練的與隱式主題相對應(yīng)的切分模型的切分特征對其所在的網(wǎng)頁信息中的內(nèi)容進(jìn)行主題切分。例如,對于如圖2(c)所示的雖然沒有子標(biāo)題和切分標(biāo)識的隱式主題類型,但是每段的內(nèi)容分別針對一個(gè)主題的網(wǎng)頁信息,即E段表達(dá)的主題是氟橡膠密封圈的優(yōu)點(diǎn),F(xiàn)段表達(dá)的主題是氟橡膠密封圈的確定,對其可采用預(yù)先訓(xùn)練的與隱式主題類型對應(yīng)的切分模型對其進(jìn)行主題切分,通過圖2(c)中的段落E和F的內(nèi)容進(jìn)行計(jì)算分析,得到E和F的主題,并確定各主題的主題范圍,即確定主題E的主題范圍為E主題所在的段落,主題F的主題范圍為F主題所在的段落;
      [0056]如果,上述主題類型是無結(jié)構(gòu)的單主題類型,比如整個(gè)網(wǎng)頁信息的內(nèi)容表達(dá)了一個(gè)主題,則可采用預(yù)先訓(xùn)練的與無結(jié)構(gòu)的單主題類型相對應(yīng)的切分模型的切分特征,對網(wǎng)頁信息進(jìn)行主題的切分、計(jì)算等,并確定各主題的主題范圍。
      [0057]S120,根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息以及主題摘要。
      [0058]可以理解,在確定各主題的段落范圍后,為了進(jìn)一步地為用戶提供的檢索結(jié)果直接滿足用戶的檢索需求,可根據(jù)主題的段落范圍對應(yīng)的內(nèi)容確定各主題的主旨信息以及主題摘要,其中,主題的主旨信息可以為主題的子標(biāo)題、關(guān)鍵詞等,該主題信息的意義在于通過簡短的句子或短語概括主題的主要內(nèi)容,例如通過主題信息“病因”概括“肥胖癥的病因”的主題,且該主旨信息可為多個(gè),用戶可根據(jù)該主旨信息了解到當(dāng)前主題所在的整篇內(nèi)容信息的結(jié)構(gòu)等;
      [0059]另外,上述主題摘要指的是在對應(yīng)的主題范圍的內(nèi)容中抽取的具有代表性的句子等,用戶可以根據(jù)該主題摘要一目了然的了解相應(yīng)主題對應(yīng)的最相關(guān)的內(nèi)容,比如,對主題內(nèi)容為“肥胖癥的病因”的主題,其對應(yīng)的主題摘要可為來源于主題范圍的內(nèi)容中的句子“肥胖癥的病因具體如下:1、遺傳因素;2、神經(jīng)精神因素;3、高胰島素血癥;4、褐色脂肪組織異常”。
      [0060]具體而言,根據(jù)主題范圍的內(nèi)容確定各主題的主旨信息的方式有多種,下面以根據(jù)子標(biāo)題和關(guān)鍵詞以及根據(jù)各主題范圍的內(nèi)容的特征詞排序等方式確定主題的主旨信息為例進(jìn)行具體說明:
      [0061]首先以根據(jù)子標(biāo)題以及關(guān)鍵詞確定主題的主旨信息為例進(jìn)行說明:
      [0062]在本發(fā)明的一個(gè)實(shí)施例中,可根據(jù)主題范圍的內(nèi)容提取各主題范圍的子標(biāo)題來確定各主題的主旨信息,具體而言,由于并不是所有網(wǎng)頁信息中的切分點(diǎn)都是本主題的子標(biāo)題,如網(wǎng)頁信息的內(nèi)容中最后總結(jié)的主題并不是本主題的子標(biāo)題,所以在根據(jù)關(guān)鍵詞確定主題的主旨信息之前,需要計(jì)算網(wǎng)頁信息中的主題的切分點(diǎn)可能是子標(biāo)題的可能性。另外,基于上述實(shí)施例,由于子標(biāo)題的內(nèi)容經(jīng)常會有冗余內(nèi)容,導(dǎo)致不便于將其展示在搜索結(jié)果頁中,因此在確定子標(biāo)題并進(jìn)行提取后,還需在保證子標(biāo)題的內(nèi)容不失真的情況下對其進(jìn)行適當(dāng)?shù)膲嚎s。在本發(fā)明的實(shí)施例中,可利用詞法分析、句法分析的結(jié)果、子標(biāo)題本身的特征等對子標(biāo)題的內(nèi)容進(jìn)行壓縮,也可通過序列標(biāo)注模型擬合的方式對子標(biāo)題的內(nèi)容進(jìn)行壓縮。
      [0063]基于上述實(shí)施例,作為一種具體的壓縮方式,可根據(jù)主題范圍的內(nèi)容提取各主題范圍的子標(biāo)題的關(guān)鍵詞來完成對子標(biāo)題內(nèi)容的壓縮,其中,抽取該關(guān)鍵詞的目的是為了選擇適當(dāng)?shù)脑~描述本主題的核心內(nèi)容,該核心內(nèi)容即是重點(diǎn)內(nèi)容又具有代表性。舉例而言,對于內(nèi)容為“肥胖癥的病因”、“肥胖癥的預(yù)防”、“肥胖癥的治療”的子標(biāo)題,可壓縮為“病因”、“預(yù)防”、“治療”;又例如,可將復(fù)雜的如新聞中的內(nèi)容為“以下為SplashData公布的2015年最容易被破解的25個(gè)密碼的子標(biāo)題,壓縮為“2015年最容易被破解的密碼”。
      [0064]另外,上述實(shí)施例中的關(guān)鍵詞除了可以是當(dāng)前主題范圍的內(nèi)容中原有的詞,也可以是根據(jù)主題內(nèi)容總結(jié)的其他的詞,例如,如某主題范圍的內(nèi)容中描述了某公司的多種聯(lián)系方式,包括電話、郵箱、地址等具體地內(nèi)容,為了確定該主題范圍的內(nèi)容的主旨信息,可在提取關(guān)鍵詞的時(shí)候?qū)χ黝}范圍的內(nèi)容信息進(jìn)行總結(jié),即可以對提取到的主題關(guān)鍵詞“電話郵箱地址”進(jìn)行總結(jié)生成關(guān)鍵詞“聯(lián)系方式”。
      [0065]進(jìn)一步地,下面以根據(jù)主題范圍的內(nèi)容的特征值確定各主題的主旨信息為例進(jìn)行說明:
      [0066]在本發(fā)明的一個(gè)實(shí)施例中,可先提取各主題范圍的特征詞并進(jìn)行優(yōu)先級排序,其中上述特征詞可以是主題范圍內(nèi)容中相對具有代表性的詞、可能代表主題范圍內(nèi)容的核心思想的詞等,且在選擇上述特征詞的過程中,需要考慮提取的特征詞的重要性和區(qū)分度,并可通過排序模型進(jìn)行擬合以提取出最符合主題目范圍內(nèi)容的核心內(nèi)容的特征詞,在提取出特征詞后,可根據(jù)預(yù)設(shè)的知識庫對特征詞進(jìn)行分析進(jìn)而獲取主旨信息。
      [0067]基于以上實(shí)施例,在確定了各主題的主旨信息后,還需要根據(jù)各主題范圍的內(nèi)容確定各主題的主題摘要,具體包括:采用預(yù)先訓(xùn)練的分析模型中的提取特征對各主題范圍的內(nèi)容進(jìn)行擬合,獲取各主題的主題摘要。其中,為了更加準(zhǔn)確地確定出最符合當(dāng)前主題的主題摘要,可以以句子為粒度進(jìn)行建模,并通過特征表示句子的重要性和代表性,進(jìn)而可以選擇排序模型、圖模型等對上述句子的重要性和代表性進(jìn)行擬合,準(zhǔn)確地確定出最符合當(dāng)前主題的主題摘要中的句子。
      [0068]S130,根據(jù)各主題的主旨信息以及主題摘要建立與網(wǎng)頁信息對應(yīng)的索引,以便根據(jù)索引進(jìn)行檢索。
      [0069]具體地,為了最終為用戶提供以主題為檢索粒度的相應(yīng)的搜索結(jié)果頁面,需要根據(jù)各主題的主旨信息以及主題的主題摘要建立與網(wǎng)頁信息相對應(yīng)的索引,從而可根據(jù)該索引進(jìn)行相應(yīng)的檢索,即接收到用戶的檢索信息時(shí),可根據(jù)該索引搜索出最符合用戶檢所需求的響應(yīng)的搜索結(jié)果頁面。
      [°07°]基于上述實(shí)施例描述的檢索處理方法,需要說明的是,在上述步驟SI 10中確定各主題范圍之前,需要預(yù)先建立切分模型。在建立切分模型的過程中,為了保證建立的切分模型能夠準(zhǔn)確地對網(wǎng)頁信息中的主題進(jìn)行切分,需要考慮各種數(shù)據(jù)信息,比如結(jié)合用戶在網(wǎng)頁上的點(diǎn)擊次數(shù)信息、瀏覽歷史信息等。下面以使用語料、語料中的切分特征等信息訓(xùn)練切分模型為例進(jìn)行說明,說明如下:
      [0071]為了建立能夠更加準(zhǔn)確地對網(wǎng)頁信息主題進(jìn)行切分的切分模型,可預(yù)先采用語料以訓(xùn)練切分模型,且為了解決語料不足的問題,需要利用現(xiàn)有的語料集合生成訓(xùn)練語料。具體而言,為了保證訓(xùn)練切分模型的訓(xùn)練語料數(shù)量大、結(jié)構(gòu)接近真實(shí)的網(wǎng)頁信息的分布情況,可預(yù)先將具有顯式主題類型的網(wǎng)頁信息,按照實(shí)際分布轉(zhuǎn)換成其他類型的語料。例如,可以將百度百科等帶有明顯主題信息的網(wǎng)頁信息的內(nèi)容,轉(zhuǎn)換成更加符合一般的網(wǎng)頁信息分布情況的半顯式主題類型、隱式主題類型的語料等相關(guān)語料。另外,也可通過對不同網(wǎng)頁信息進(jìn)行內(nèi)容拼接的方式,構(gòu)建大量的訓(xùn)練語料。
      [0072]進(jìn)一步地,在構(gòu)建大量的訓(xùn)練語料后,根據(jù)訓(xùn)練語料的切分特征訓(xùn)練切分模型。具體而言,可根據(jù)訓(xùn)練語料的基本特征,列表特征、標(biāo)題概率、線索信息、網(wǎng)頁格式信息、詞分布特性以及段落長度分布特性等切分特征對切分模型進(jìn)行訓(xùn)練。其中,基本特征可包括段落長度、段落位置、詞/詞性分布、子句個(gè)數(shù)、與標(biāo)題的相似度等;列表特征對應(yīng)的是識別出網(wǎng)頁信息內(nèi)容中的連續(xù)的序號結(jié)構(gòu),以及部分顯式篇章的識別的切分特征;標(biāo)題概率對應(yīng)的是用先驗(yàn)概率標(biāo)識該段落可能是一個(gè)標(biāo)題的可能性的切分特征;線索信息對應(yīng)的是標(biāo)題中常見的詞或模式,如序數(shù)詞、標(biāo)點(diǎn)、典型詞(說明、如下等)、詞性搭配等切分特征;網(wǎng)頁格式信息對應(yīng)的是段落的加粗等級、是否有超鏈接等切分特征;詞分布特征對應(yīng)的是用上下文的詞分布,估計(jì)當(dāng)前段落是主題轉(zhuǎn)換段的可能性的切分特征;段落長度分布特征對應(yīng)的是用上下文段落長度分布,估計(jì)當(dāng)前段落是當(dāng)前主題子標(biāo)題的可能性的切分特征。也就是說,通過對訓(xùn)練語料的切分特征進(jìn)行訓(xùn)練,該切分特征與實(shí)際網(wǎng)頁信息中的切分特征相一致,從而保證了訓(xùn)練出的切分模型能完成對網(wǎng)頁信息的主題切分,且對訓(xùn)練語料的切分特征進(jìn)行訓(xùn)練,保證了根據(jù)主題類型對應(yīng)的切分模型的切分特征對網(wǎng)頁信息進(jìn)行主題切分的可行性。
      [0073]另外,在上述實(shí)施例中,在訓(xùn)練語料的切分特征對切分模型進(jìn)行訓(xùn)練的過程中,為了保證訓(xùn)練出來的切分模型具有實(shí)用性,能準(zhǔn)確地對網(wǎng)頁信息的主題進(jìn)行切分,要保證特征值的量化具有最大的區(qū)分度,可通過對訓(xùn)練語料中的切分特征隨機(jī)制空解決訓(xùn)練偏執(zhí)和過擬合的問題。
      [0074]更進(jìn)一步地,在具體地使用切分模型的切分特征對網(wǎng)頁信息進(jìn)行主題切分的應(yīng)用中,具體的切分特征表示與選擇的切分模型有關(guān),同時(shí)一個(gè)切分特征可以有多種計(jì)算方式,如段落與標(biāo)題的相似度可以使用基于詞共現(xiàn)、基于詞向量等多種方法計(jì)算。
      [0075]應(yīng)當(dāng)理解的是,在上述步驟S120中,根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息是否是子標(biāo)題的過程中,可以復(fù)用上述主題切分的特征、主題切分的語料構(gòu)造等方法,在此不再贅述。
      [0076]為了使得本領(lǐng)域的技術(shù)人員能夠更加清楚的了解本發(fā)明實(shí)施例中的檢索處理方法,下面結(jié)合圖3舉例說明該實(shí)施例中的檢索處理方法的工作流程。如圖3所示,本發(fā)明實(shí)施例中的檢索處理方法,將傳統(tǒng)的網(wǎng)頁信息進(jìn)行主題切分處理(31),得到該網(wǎng)頁信息所對應(yīng)的主題結(jié)構(gòu)(32),其中,該主題結(jié)構(gòu)包括各個(gè)主題范圍以及主題范圍的內(nèi)容等,進(jìn)而根據(jù)確定的各個(gè)主題范圍的內(nèi)容進(jìn)行主題表示處理(33),即確定各主題的主旨信息(34),在確定主題的主旨信息后,根據(jù)確定的各個(gè)主題范圍的內(nèi)容進(jìn)行多主題摘要處理(35),即得到網(wǎng)頁信息全文摘要以及各個(gè)主題摘要(36),進(jìn)而對網(wǎng)頁信息檢索處理完畢后,得到具有各主題的主旨信息以及主題摘要的索引(37)??梢岳斫?,圖3作為一種示例示出了本發(fā)明實(shí)施例的檢索處理方法的線下流程示意圖。
      [0077]綜上所述,本發(fā)明實(shí)施例的檢索處理方法,將通過將索引粒度設(shè)置為主題,根據(jù)主題范圍的內(nèi)容確定相關(guān)的主旨信息以及主題摘要,并且根據(jù)各主題的主旨信息以及主題摘要建立與網(wǎng)頁信息對應(yīng)的索引,實(shí)現(xiàn)了根據(jù)該索引進(jìn)行檢索得到的結(jié)果,更加符合用戶的需求,提升了用戶的滿足度。
      [0078]為了更加清楚的說明本發(fā)明實(shí)施例的檢索處理方法,下面可以線上的展示部分進(jìn)行說明。具體地,基于上述實(shí)施例,根據(jù)用戶輸入的不同的檢索詞以及索引進(jìn)行檢索時(shí),將檢索到的相關(guān)性最高的索引所對應(yīng)的相關(guān)頁面信息在搜索結(jié)果頁面上展示給用戶,圖4為根據(jù)本發(fā)明一個(gè)具體實(shí)施例的檢索處理方法的流程圖,如圖4所示,在如圖1所示的基礎(chǔ)上,該檢索處理方法還包括:
      [0079]S140,接收輸入的檢索信息。
      [0080]其中,上述用戶輸入檢索信息的方式可以通過語音、文本輸入等方式。比如,可接收用戶在搜索引擎的搜索框中輸入的檢索信息。
      [0081]S150,根據(jù)索引獲取與檢索信息相關(guān)的主題摘要以及主旨信息,并展示在搜索結(jié)果頁面。
      [0082]根據(jù)接收到用于輸入的檢索詞,搜索到與檢索詞最接近的,和該搜索詞最相關(guān)的索引,從而將該索引對應(yīng)的主題摘要和主旨信息展示在搜索結(jié)果頁面。如圖5(a)所示,接收到用戶輸入的檢索信息為“肥胖癥的病因”后,則在搜索結(jié)果頁面上展示搜索檢索的結(jié)果,其中,圖5(a)中的G是主題,H為主題摘要部分,該摘要的內(nèi)容主要說明了肥胖癥的病因,該主題只要和用戶輸入的“肥胖癥的病因”直接相關(guān),I為與主題相關(guān)的主旨信息,該主旨信息包含了索引帶的整個(gè)篇章的主題,用戶可通過I中的主旨信息,了解到該篇章主要介紹了肥胖癥的病因、臨床表現(xiàn)等幾個(gè)主題,并且該主旨信息同時(shí)起到了激發(fā)用戶需求的作用。
      [0083]需要說明的是,為了增加搜索結(jié)果頁面的可讀性,可對主題、主旨信息等所在的位置進(jìn)行突出顯示處理,比如改變主題、主旨信息等的顏色、字體等,例如對主題進(jìn)行飄紅顯不等。
      [0084]S160,當(dāng)搜索結(jié)果頁面的主旨信息被觸發(fā)時(shí),跳轉(zhuǎn)到與主旨信息對應(yīng)的信息界面。
      [0085]可以理解的是,搜索結(jié)果頁面的主旨信息是相關(guān)的鏈接,用戶可通過對主旨信息的觸發(fā)操作,以得到該主旨信息對應(yīng)的信息界面。
      [0086]舉例而言,圖5(a)的I中的每個(gè)主旨信息對應(yīng)相應(yīng)的鏈接,用戶可通過點(diǎn)擊相應(yīng)的鏈接,了解到更多和主題相關(guān)的內(nèi)容,比如用戶點(diǎn)擊I中的臨床表現(xiàn),則會觸發(fā)臨床表現(xiàn)所對應(yīng)的鏈接,進(jìn)而就會得到如圖5(b)所示的搜索結(jié)果頁,該搜索結(jié)果頁的主題為肥胖癥的臨床表現(xiàn),提供了肥胖癥的臨床表現(xiàn)的相關(guān)結(jié)果頁面。
      [0087]應(yīng)當(dāng)理解的是,以上示例僅僅是主題結(jié)構(gòu)、主題摘要的一種展示形式,所以示例中的主題摘要的選擇并不是最優(yōu)的,作為另一種較優(yōu)示例,對圖5(a)中的主題摘要可以根據(jù)主題范圍的內(nèi)容替換為“外因以飲食過多而活動(dòng)過少為主。內(nèi)因?yàn)槿梭w內(nèi)在因素使脂肪代謝紊亂而致肥胖。具體如下:1、遺傳因素;2、神經(jīng)精神因素;3、高胰島素血癥;4、褐色脂肪組織異?!薄?br>[0088]綜上所述,本發(fā)明實(shí)施例的檢索處理方法,接收用戶的輸入的檢索信息,并根據(jù)索引獲取與檢索信息相關(guān)的主題摘要以及主旨信息,并展示在搜索結(jié)果頁面上,從而增加了搜索結(jié)果頁的針對性、可讀性,進(jìn)一步直接滿足了用戶的檢索需求。
      [0089]為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出了一種檢索處理裝置。圖6為根據(jù)本發(fā)明一個(gè)實(shí)施例的檢索處理裝置的結(jié)構(gòu)示意圖。如圖6所示,該檢索處理裝置包括:第一確定模塊610、第二確定模塊620以及建立模塊630。
      [0090]其中,第一確定模塊610,用于對網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍。
      [0091]為了提高檢索的準(zhǔn)確度,需要第一確定模塊610預(yù)先對網(wǎng)頁信息(該網(wǎng)頁信息可以是統(tǒng)一資源定位符、網(wǎng)頁正文內(nèi)容、網(wǎng)頁下載時(shí)間等網(wǎng)頁本身的相關(guān)信息)進(jìn)行主題切分,以確定網(wǎng)頁信息所表達(dá)的主題思想,并確定各主題所在的段落范圍。舉例而言,對一篇以“肥胖癥的治療方法”為標(biāo)題的網(wǎng)頁信息,第一確定模塊610可按照網(wǎng)頁信息的具體內(nèi)容切分為“病因”、“預(yù)防”以及“治療”三個(gè)主題,并且確定上述三個(gè)主題各自所在的段落范圍。
      [0092]具體而言,由于主題具有多種類型,例如包含切分標(biāo)識的顯式主題類型、包含子標(biāo)題的半顯式主題類型、不包含子標(biāo)題和切分標(biāo)識的隱式主題類型以及無結(jié)構(gòu)的單主題類型等,且不同的主題具有不同的主題結(jié)構(gòu),因此第一確定模塊610為了準(zhǔn)確地對網(wǎng)頁信息進(jìn)行主題切分,需要針對不同的主題類型選擇與其對應(yīng)的不同的切分模型。
      [0093]因此,第一確定模塊610可采用預(yù)先訓(xùn)練的與主題類型對應(yīng)的切分模型的切分特征對網(wǎng)頁信息進(jìn)行主題切分,并確定各主題范圍。也就是說,切分模型的選擇和主題的類型相關(guān),不同的切分模型的切分特征具有不同的表示,因此要準(zhǔn)確地對網(wǎng)頁信息進(jìn)行主題切分,需要根據(jù)主題類型選擇對應(yīng)的切分模型。
      [0094]第二確定模塊620,用于根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息以及主題摘要。
      [0095]可以理解,第一確定模塊610在確定各主題的段落范圍后,為了進(jìn)一步地為用戶提供的檢索結(jié)果直接滿足用戶的檢索需求,第二確定模塊620可根據(jù)主題的段落范圍對應(yīng)的內(nèi)容確定各主題的主旨信息以及主題摘要,其中,主題的主旨信息可以為主題的子標(biāo)題、關(guān)鍵詞等,該主題信息的意義在于通過簡短的句子或短語概括主題的主要內(nèi)容,例如通過主題信息“病因”概括“肥胖癥的病因”的主題,且該主旨信息可為多個(gè),用戶可根據(jù)該主旨信息了解到當(dāng)前主題所在的整篇內(nèi)容信息的結(jié)構(gòu)等。
      [0096]另外,上述主題摘要指的是在對應(yīng)的主題范圍的內(nèi)容中抽取的具有代表性的句子等,用戶可以根據(jù)該主題摘要一目了然的了解相應(yīng)主題對應(yīng)的最相關(guān)的內(nèi)容,比如,對主題內(nèi)容為“肥胖癥的病因”的主題,其對應(yīng)的主題摘要可為來源于主題范圍的內(nèi)容中的句子“肥胖癥的病因具體如下:1.遺傳因素;2.神經(jīng)精神因素;3.高胰島素血癥;4.褐色脂肪組織異?!?。
      [0097]具體而言,如圖7所示,第二確定模塊620可包括第一提取單元621。在本發(fā)明的一個(gè)實(shí)施例中,第一提取單元621可根據(jù)主題范圍的內(nèi)容提取各主題范圍的子標(biāo)題來確定各主題的主旨信息,具體而言,由于并不是所有網(wǎng)頁信息中的切分點(diǎn)都是本主題的子標(biāo)題,如網(wǎng)頁信息的內(nèi)容中最后總結(jié)的主題并不是本主題的子標(biāo)題,所以在根據(jù)關(guān)鍵詞確定主題的主旨信息之前,第二確定模塊620需要計(jì)算網(wǎng)頁信息中的主題的切分點(diǎn)可能是子標(biāo)題的可能性。另外,基于上述實(shí)施例,由于子標(biāo)題的內(nèi)容經(jīng)常會有冗余內(nèi)容,導(dǎo)致不便于將其展示在搜索結(jié)果頁中,因此在確定子標(biāo)題并進(jìn)行提取后,還需在保證子標(biāo)題的內(nèi)容不失真的情況下對其進(jìn)行適當(dāng)?shù)膲嚎s。在本發(fā)明的實(shí)施例中,可利用詞法分析、句法分析的結(jié)果、子標(biāo)題本身的特征等對子標(biāo)題的內(nèi)容進(jìn)行壓縮,也可通過序列標(biāo)注模型擬合的方式對子標(biāo)題的內(nèi)容進(jìn)行壓縮。
      [0098]基于上述實(shí)施例,作為一種具體的壓縮方式,第一提取單元621可根據(jù)主題范圍的內(nèi)容提取各主題范圍的子標(biāo)題的關(guān)鍵詞來完成對子標(biāo)題內(nèi)容的壓縮,其中,抽取該關(guān)鍵詞的目的是為了選擇適當(dāng)?shù)脑~描述本主題的核心內(nèi)容,該核心內(nèi)容即是重點(diǎn)內(nèi)容又具有代表性。
      [0099]另外,上述實(shí)施例中的第一提取單元621提取的關(guān)鍵詞除了可以是當(dāng)前主題范圍的內(nèi)容中原有的詞,也可以是根據(jù)主題內(nèi)容總結(jié)的其他的詞,例如,如某主題范圍的內(nèi)容中描述了某公司的多種聯(lián)系方式,包括電話、郵箱、地址等具體地內(nèi)容,為了確定該主題范圍的內(nèi)容的主旨?目息,第一提取單兀621可在提取關(guān)鍵詞的時(shí)候?qū)χ黝}范圍的內(nèi)容彳目息進(jìn)行總結(jié),即可以對提取到的主題關(guān)鍵詞“電話郵箱地址”進(jìn)行總結(jié)生成關(guān)鍵詞“聯(lián)系方式”。
      [0100]進(jìn)一步地,如圖8所示,第二確定模塊620可包括:第二提取單元622和第一獲取單元623。
      [0101]在本發(fā)明的一個(gè)實(shí)施例中,第二提取單元622可先提取各主題范圍的特征詞并進(jìn)行優(yōu)先級排序,其中上述特征詞可以是主題范圍內(nèi)容中相對具有代表性的詞、可能代表主題范圍內(nèi)容的核心思想的詞等,且在選擇上述特征詞的過程中,需要考慮提取的特征詞的重要性和區(qū)分度,并可通過排序模型進(jìn)行擬合以提取出最符合主題范圍內(nèi)容的核心內(nèi)容的特征詞,在提取出特征詞后,第一獲取單元623可根據(jù)預(yù)設(shè)的知識庫對特征詞進(jìn)行分析進(jìn)而獲取主旨?目息。
      [0102]基于以上實(shí)施例,在確定了各主題的主旨信息后,還需要根據(jù)各主題范圍的內(nèi)容確定各主題的主題摘要,圖9為根據(jù)本發(fā)明又一個(gè)實(shí)施例的檢索處理裝置的結(jié)構(gòu)示意圖,如圖9所示,該第二確定模塊620還可包括第二獲取單元624,用于采用預(yù)先訓(xùn)練的分析模型中的提取特征對各主題范圍的內(nèi)容進(jìn)行擬合,獲取各主題的主題摘要。其中,為了更加準(zhǔn)確地確定出最符合當(dāng)前主題的主題摘要,第二獲取單元624可以以句子為粒度進(jìn)行建模,并通過特征表示句子的重要性和代表性,進(jìn)而可以選擇排序模型、圖模型等對上述句子的重要性和代表性進(jìn)行擬合,準(zhǔn)確地確定出最符合當(dāng)前主題的主題摘要中的句子。
      [0103]建立模塊630,用于根據(jù)各主題的主旨信息以及主題摘要建立與網(wǎng)頁信息對應(yīng)的索引,以便根據(jù)索引進(jìn)行檢索。
      [0104]具體地,為了最終為用戶提供以主題為檢索粒度的相應(yīng)的搜索結(jié)果頁面,建立模塊630需要根據(jù)各主題的主旨信息以及主題的主題摘要建立與網(wǎng)頁信息相對應(yīng)的索引,從而可根據(jù)該索引進(jìn)行相應(yīng)的檢索,即接收到用戶的檢索信息時(shí),可根據(jù)該索引搜索出最符合用戶檢所需求的響應(yīng)的搜索結(jié)果頁面。
      [0105]基于上述實(shí)施例描述的檢索處理裝置,需要說明的是,在第一確定模塊610確定各主題范圍之前,需要預(yù)先建立切分模型。在建立切分模型的過程中,為了保證建立的切分模型能夠準(zhǔn)確地對網(wǎng)頁信息中的主題進(jìn)行切分,需要考慮各種數(shù)據(jù)信息,比如結(jié)合用戶在網(wǎng)頁上的點(diǎn)擊次數(shù)信息、瀏覽歷史信息等。下面以使用語料、語料中的切分特征等信息訓(xùn)練切分模型為例進(jìn)行說明,說明如下:
      [0106]圖10為根據(jù)本發(fā)明還一個(gè)實(shí)施例的檢索處理裝置的結(jié)構(gòu)示意圖,如圖10所示,在如圖6所示的基礎(chǔ)上,該檢索處理裝置還包括:轉(zhuǎn)換模塊640和制空模塊650。
      [0107]其中,為了保證訓(xùn)練切分模型的訓(xùn)練語料數(shù)量大、結(jié)構(gòu)接近真實(shí)的網(wǎng)頁信息的分布情況,轉(zhuǎn)換模塊640用于將具有顯式主題類型的網(wǎng)頁信息,按照實(shí)際分布轉(zhuǎn)換成其他類型的語料。
      [0108]以及,在訓(xùn)練語料的切分特征對切分模型進(jìn)行訓(xùn)練的過程中,為了保證訓(xùn)練出來的切分模型具有實(shí)用性,能準(zhǔn)確地對網(wǎng)頁信息的主題進(jìn)行切分,要保證特征值的量化具有最大的區(qū)分度,可通過制空模塊650對訓(xùn)練語料中的切分特征隨機(jī)制空解決訓(xùn)練偏執(zhí)和過擬合的問題。
      [0109]需要說明的是,本發(fā)明實(shí)施例中的檢索處理裝置中建立切分模塊的具體步驟和原理與檢索處理方法實(shí)施例中的切分模塊的建立相一致,在此不再贅述。
      [0110]綜上所述,本發(fā)明實(shí)施例的檢索處理裝置,將通過將索引粒度設(shè)置為主題,根據(jù)主題范圍的內(nèi)容確定相關(guān)的主旨信息以及主題摘要,并且根據(jù)各主題的主旨信息以及主題摘要建立與網(wǎng)頁信息對應(yīng)的索引,實(shí)現(xiàn)了根據(jù)該索引進(jìn)行檢索得到的結(jié)果,更加符合用戶的需求,提升了用戶的滿足度。
      [0111]為了更加清楚的說明本發(fā)明實(shí)施例的檢索處理方法,下面可以線上的展示部分進(jìn)行說明。具體地,基于上述實(shí)施例,根據(jù)用戶輸入的不同的檢索詞以及索引進(jìn)行檢索時(shí),將檢索到的相關(guān)性最高的索引所對應(yīng)的相關(guān)頁面信息在搜索結(jié)果頁面上展示給用戶,圖11為根據(jù)本發(fā)明再一個(gè)實(shí)施例的檢索處理裝置的結(jié)構(gòu)示意圖,如圖11所示,在如圖6所示的基礎(chǔ)上,該檢索處理裝置還包括:接收模塊660、獲取展示模塊670以及跳轉(zhuǎn)模塊680。
      [0112]其中,接收模塊660用于接收輸入的檢索信息。
      [0113]其中,上述用戶輸入檢索信息的方式可以通過語音、文本輸入等方式。比如,可接收用戶在搜索引擎的搜索框中輸入的檢索信息。
      [0114]獲取展示模塊670,用于根據(jù)索引獲取與檢索信息相關(guān)的主題摘要以及主旨信息,并展示在搜索結(jié)果頁面。
      [0115]獲取展示模塊670根據(jù)接收到用于輸入的檢索詞,搜索到與檢索詞最接近的,和該搜索詞最相關(guān)的索引,從而將該索引對應(yīng)的主題摘要和主旨信息展示在搜索結(jié)果頁面。
      [0116]跳轉(zhuǎn)模塊680,用于在搜索結(jié)果頁面的主旨信息被觸發(fā)時(shí),跳轉(zhuǎn)到與主旨信息對應(yīng)的信息界面。
      [0117]可以理解的是,搜索結(jié)果頁面的主旨信息是相關(guān)的鏈接,跳轉(zhuǎn)模塊680可以根據(jù)用戶對主旨信息的觸發(fā)操作,跳轉(zhuǎn)到與主旨信息對應(yīng)的信息界面。
      [0118]綜上所述,本發(fā)明實(shí)施例的檢索處理裝置,接收用戶的輸入的檢索信息,并根據(jù)索引獲取與檢索信息相關(guān)的主題摘要以及主旨信息,并展示在搜索結(jié)果頁面上,從而增加了搜索結(jié)果頁的針對性、可讀性,進(jìn)一步直接滿足了用戶的檢索需求。
      [0119]此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個(gè)該特征。在本發(fā)明的描述中,“多個(gè)”的含義是至少兩個(gè),例如兩個(gè),三個(gè)等,除非另有明確具體的限定。
      [0120]在本說明書的描述中,參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。
      [0121]盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。
      【主權(quán)項(xiàng)】
      1.一種檢索處理方法,其特征在于,包括以下步驟: 對網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍; 根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息以及主題摘要; 根據(jù)所述各主題的主旨信息以及主題摘要建立與所述網(wǎng)頁信息對應(yīng)的索引,以便根據(jù)所述索引進(jìn)行檢索。2.如權(quán)利要求1所述的方法,其特征在于,所述對網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍,包括: 采用預(yù)先訓(xùn)練的與主題類型對應(yīng)的切分模型的切分特征對所述網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍。3.如權(quán)利要求2所述的方法,其特征在于,所述主題類型包括以下至少之一: 包含切分標(biāo)識的顯式主題類型; 包含子標(biāo)題的半顯式主題類型; 不包含子標(biāo)題和切分標(biāo)識的隱式主題類型; 無結(jié)構(gòu)的單主題類型。4.如權(quán)利要求3所述的方法,其特征在于,在所述采用預(yù)先訓(xùn)練的與主題類型對應(yīng)的切分模型的切分特征對所述網(wǎng)頁信息進(jìn)行主題切分之前,還包括: 將具有所述顯式主題類型的網(wǎng)頁信息,按照實(shí)際分布轉(zhuǎn)換成其他主題類型的語料訓(xùn)練切分模型。5.如權(quán)利要求4所述的方法,其特征在于,還包括: 在所述切分模型的訓(xùn)練過程中,對訓(xùn)練語料中的切分特征隨機(jī)制空。6.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各主題范圍的內(nèi)容確定各主題的主旨?目息,包括: 提取各主題范圍的子標(biāo)題,或, 提取各主題范圍的子標(biāo)題的關(guān)鍵詞。7.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各主題范圍的內(nèi)容確定各主題的主旨?目息,包括: 提取各主題范圍的特征詞并進(jìn)行優(yōu)先級排序; 根據(jù)預(yù)設(shè)的知識庫對所述特征詞進(jìn)行分析獲取主旨信息。8.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各主題范圍的內(nèi)容確定各主題的主題摘要,包括: 采用預(yù)先訓(xùn)練的分析模型中的提取特征對各主題范圍的內(nèi)容進(jìn)行擬合,獲取各主題的主題摘要。9.如權(quán)利要求1-8任一項(xiàng)所述的方法,其特征在于,還包括: 接收輸入的檢索信息; 根據(jù)所述索引獲取與所述檢索信息相關(guān)的主題摘要以及主旨信息,并展示在搜索結(jié)果頁面。10.如權(quán)利要求9所述的方法,其特征在于,還包括: 當(dāng)所述搜索結(jié)果頁面的主旨信息被觸發(fā)時(shí),跳轉(zhuǎn)到與所述主旨信息對應(yīng)的信息界面。11.一種檢索處理裝置,其特征在于,包括: 第一確定模塊,用于對網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍; 第二確定模塊,用于根據(jù)各主題范圍的內(nèi)容確定各主題的主旨信息以及主題摘要; 建立模塊,用于根據(jù)所述各主題的主旨信息以及主題摘要建立與所述網(wǎng)頁信息對應(yīng)的索弓丨,以便根據(jù)所述索弓I進(jìn)行檢索。12.如權(quán)利要求11所述的裝置,其特征在于,所述第一確定模塊具體用于: 采用預(yù)先訓(xùn)練的與主題類型對應(yīng)的切分模型的切分特征對所述網(wǎng)頁信息進(jìn)行主題切分,確定各主題范圍。13.如權(quán)利要求12所述的裝置,其特征在于,所述主題類型包括以下至少之一: 包含切分標(biāo)識的顯式主題類型; 包含子標(biāo)題的半顯式主題類型; 不包含子標(biāo)題和切分標(biāo)識的隱式主題類型; 無結(jié)構(gòu)的單主題類型。14.如權(quán)利要求13所述的裝置,其特征在于,還包括: 轉(zhuǎn)換模塊,用于將具有所述顯式主題類型的網(wǎng)頁信息,按照實(shí)際分布轉(zhuǎn)換成其他主題類型的語料訓(xùn)練切分模型。15.如權(quán)利要求14所述的裝置,其特征在于,還包括: 制空模塊,用于在所述切分模型的訓(xùn)練過程中,對訓(xùn)練語料中的切分特征隨機(jī)制空。16.如權(quán)利要求11所述的裝置,其特征在于,所述第二確定模塊包括: 第一提取單元,用于提取各主題范圍的子標(biāo)題,或, 提取各主題范圍的子標(biāo)題的關(guān)鍵詞。17.如權(quán)利要求11所述的裝置,其特征在于,所述第二確定模塊包括: 第二提取單元,用于提取各主題范圍的特征詞并進(jìn)行優(yōu)先級排序; 第一獲取單元,用于根據(jù)預(yù)設(shè)的知識庫對所述特征詞進(jìn)行分析獲取主旨信息。18.如權(quán)利要求11所述的裝置,其特征在于,所述第二確定模塊,包括: 第二獲取單元,用于采用預(yù)先訓(xùn)練的分析模型中的提取特征對各主題范圍的內(nèi)容進(jìn)行擬合,獲取各主題的主題摘要。19.如權(quán)利要求11-18任一項(xiàng)所述的裝置,其特征在于,還包括: 接收模塊,用于接收輸入的檢索信息; 獲取展示模塊,用于根據(jù)所述索引獲取與所述檢索信息相關(guān)的主題摘要以及主旨信息,并展示在搜索結(jié)果頁面。20.如權(quán)利要求19所述的裝置,其特征在于,還包括: 跳轉(zhuǎn)模塊,用于在所述搜索結(jié)果頁面的主旨信息被觸發(fā)時(shí),跳轉(zhuǎn)到與所述主旨信息對應(yīng)的信息界面。
      【文檔編號】G06F17/30GK105912631SQ201610214481
      【公開日】2016年8月31日
      【申請日】2016年4月7日
      【發(fā)明人】呂雅娟, 丁長林, 肖欣延, 朱少杰
      【申請人】北京百度網(wǎng)訊科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1