国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種面向搜索引擎的數(shù)據(jù)處理方法及裝置制造方法

      文檔序號:6504268閱讀:215來源:國知局
      一種面向搜索引擎的數(shù)據(jù)處理方法及裝置制造方法
      【專利摘要】本發(fā)明公開了一種面向搜索引擎的數(shù)據(jù)處理方法及裝置,所述方法包括:獲取搜索詞;對所述搜索詞進(jìn)行分詞,得到所述搜索詞的詞素集合;對所述詞素集合中的詞素進(jìn)行組合,得到候選新詞;在預(yù)置的標(biāo)準(zhǔn)語料庫中對所述候選新詞進(jìn)行全包含搜索,若搜索到所述候選新詞,則判定所述候選新詞為未登錄詞。同時,本發(fā)明還公開了一種實現(xiàn)上述方法的裝置。本發(fā)明公開的方法及裝置通過對用戶行為的分析,完成未登陸詞發(fā)現(xiàn),降低了現(xiàn)有的未登錄詞的發(fā)現(xiàn)方法對于既有詞法的依賴以及特定應(yīng)用場合的束縛,提高了未登錄詞發(fā)現(xiàn)結(jié)果的準(zhǔn)確性。
      【專利說明】一種面向搜索引擎的數(shù)據(jù)處理方法及裝置

      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及搜索引擎數(shù)據(jù)【技術(shù)領(lǐng)域】,更具體地說,涉及一種面向搜索引擎的數(shù)據(jù)處理方法及裝置。
      [0002]【背景技術(shù)】中
      [0003]搜索引擎是指通過對信息進(jìn)行搜集、組織和處理得到的分詞詞庫,為用戶提供搜索服務(wù)并將搜索到的信息展示給用戶的系統(tǒng)。因此,全面完善的分詞詞庫是搜索引擎準(zhǔn)確性的保證。
      [0004]為了擴(kuò)大分詞詞庫的數(shù)量,往往需要對未收錄到分詞詞庫中的詞,即未登錄詞,進(jìn)行搜集?,F(xiàn)有技術(shù)的未登錄詞的發(fā)現(xiàn)及處理方法是從母庫語料出發(fā),通過分析詞素(組成詞的最小語義單位)組合的結(jié)構(gòu)、詞性和碎片共現(xiàn)頻率發(fā)現(xiàn)未登錄詞。
      [0005]然而,現(xiàn)有的未登錄詞發(fā)現(xiàn)及處理方法對于既有詞法過分依賴,而對特殊用法習(xí)慣的未登錄詞容易忽略;并且,母庫語料的選取需結(jié)合目標(biāo)應(yīng)用場合的特點,對目標(biāo)應(yīng)用場合可能不適用。因此,現(xiàn)有的未登錄詞發(fā)現(xiàn)及處理方法具有未登陸詞發(fā)現(xiàn)結(jié)果的準(zhǔn)確性較低的技術(shù)缺陷。


      【發(fā)明內(nèi)容】

      [0006]有鑒于此,本發(fā)明提供一種面向搜索引擎的數(shù)據(jù)處理方法及裝置,以實現(xiàn)提高未登錄詞發(fā)現(xiàn)結(jié)果準(zhǔn)確性的技術(shù)目的。
      [0007]—方面,本發(fā)明實施例公開了:
      [0008]一種面向搜索引擎的數(shù)據(jù)處理方法,包括:
      [0009]獲取搜索詞;
      [0010]對所述搜索詞進(jìn)行分詞,得到所述搜索詞的詞素集合;
      [0011]對所述詞素集合的詞素進(jìn)行組合,得到候選新詞;
      [0012]在預(yù)置的標(biāo)準(zhǔn)語料庫中對所述候選新詞進(jìn)行全包含搜索,若搜索到所述候選新詞,則判定所述候選新詞為未登錄詞。
      [0013]另一方面,本發(fā)明實施例還公開了:
      [0014]一種面向搜索引擎的數(shù)據(jù)處理裝置,所述裝置包括:
      [0015]搜索詞獲取單元,用于獲取搜索詞;
      [0016]分詞單元,用于對所述搜索詞進(jìn)行分詞,得到所述搜索詞的詞素集合;
      [0017]候選新詞獲取單元,用于對所述詞素集合的詞素進(jìn)行組合,得到候選新詞;
      [0018]未登陸詞獲取單元,用于在預(yù)置的標(biāo)準(zhǔn)語料庫中對所述候選新詞進(jìn)行全包含搜索,若搜索到所述候選新詞,則判定所述候選新詞為未登錄詞。
      [0019]從上述的技術(shù)方案可以看出,本發(fā)明實施例首先對獲取的搜索詞進(jìn)行分詞,得到所述搜索詞的詞素集合;其次,對所述詞素集合的詞素進(jìn)行組合,得到候選新詞;最后,在預(yù)置的標(biāo)準(zhǔn)語料庫中對所述候選新詞進(jìn)行全包含搜索,若搜索到所述候選新詞,則判定所述候選新詞為未登錄詞。本發(fā)明實施例提供的技術(shù)方案減少了對既有詞法的依賴以及特定應(yīng)用場合的束縛,并通過在標(biāo)準(zhǔn)語料庫中對候選新詞進(jìn)行驗證,提高了未登錄詞發(fā)現(xiàn)的準(zhǔn)確性。

      【專利附圖】

      【附圖說明】
      [0020]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
      [0021]圖1為本發(fā)明實施例公開的一種面向搜索引擎的數(shù)據(jù)處理方法流程圖;
      [0022]圖2為本發(fā)明實施例公開的一種對詞素集合中的詞素進(jìn)行組合,得到候選新詞的方法流程圖;
      [0023]圖3為本發(fā)明實施例公開的一種面向搜索引擎的數(shù)據(jù)處理裝置組成示意圖。

      【具體實施方式】
      [0024]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
      [0025]請參見圖1,是本發(fā)明實施例提供的一種面向搜索引擎的數(shù)據(jù)處理方法,尤其是指一種搜索詞處理方法,該方法包括如下步驟:
      [0026]步驟10:獲取搜索詞;
      [0027]步驟20:對所述搜索詞進(jìn)行分詞,得到所述搜索詞的詞素集合;
      [0028]在實際應(yīng)用中,可根據(jù)預(yù)置的分詞詞庫對獲取的搜索詞進(jìn)行分詞,得到組成所述搜索詞的詞素的集合,詞素也就是組成所述搜索詞的詞,詞素可以是單字,稱為單字詞素,比如,“北”,也可以非單字,稱為非單字詞素,比如,“北京”。
      [0029]步驟30:對所述詞素集合中的詞素進(jìn)行組合,得到候選新詞;
      [0030]步驟40:在預(yù)置的標(biāo)準(zhǔn)語料庫中對所述候選新詞進(jìn)行全包含搜索,若搜索到所述候選新詞,則判定所述候選新詞為未登錄詞,否則,結(jié)束該流程。
      [0031 ] 其中,所述全包含搜索是指,搜索完全包含所述候選新詞的標(biāo)準(zhǔn)語料。針對不同的行業(yè)應(yīng)用,所述標(biāo)準(zhǔn)語料庫存儲的信息有所不同。比如在地理信息行業(yè),所述標(biāo)準(zhǔn)語料庫存儲的是興趣點信息,所述全包含搜索是指,在存儲興趣點信息的標(biāo)準(zhǔn)語料庫中,搜索完全包含所述候選新詞的興趣點信息。由于標(biāo)準(zhǔn)語料庫中,存儲的是相關(guān)行業(yè)的標(biāo)準(zhǔn)信息,因此,在通過標(biāo)準(zhǔn)語料庫對候選新詞進(jìn)行全包含搜索驗證,提高了未登陸詞發(fā)現(xiàn)的準(zhǔn)確性。比如,候選新詞為“方恒國際中心”,則需要搜索包含“方恒國際中心”的標(biāo)準(zhǔn)語料。
      [0032]以上是本發(fā)明實施例提供的一種面向搜索引擎的數(shù)據(jù)處理方法,該方法減少了對既有詞法的依賴以及特定應(yīng)用場合的束縛,通過在標(biāo)準(zhǔn)語料庫中對候選新詞進(jìn)行驗證,提高了未登錄詞發(fā)現(xiàn)的準(zhǔn)確性。
      [0033]在實際應(yīng)用中,用戶輸入的搜索詞數(shù)量極其龐大,為進(jìn)一步提高未登錄詞的發(fā)現(xiàn)效率,本發(fā)明提供的優(yōu)選實施例中,所述獲取搜索詞具體可以是:
      [0034]從預(yù)置的搜索詞搜索頻率記錄中,獲取搜索頻率不低于預(yù)置的搜索頻率閾值的搜索詞,即,獲取搜索頻率大于等于預(yù)置的搜索頻率閾值的搜索詞。其中,技術(shù)人員可以根據(jù)實際情況預(yù)先設(shè)定搜索頻率閾值,大于等于該搜索頻率閾值的搜索詞表示該搜索詞已成為比較流行的詞,因此,需要對這些搜索詞進(jìn)行處理,獲取其中的未登錄詞存入分詞詞庫中,對分詞詞庫進(jìn)行豐富。
      [0035]進(jìn)一步,在實際應(yīng)用中,對詞素集合中的詞素進(jìn)行組合,得到候選新詞可以采用如下方法實現(xiàn):
      [0036]判斷所述詞素集合中是否包括單字詞素,如果包括,則根據(jù)詞素集合中單字詞素的分布情況,獲取候選新詞。
      [0037]由于搜索詞的詞素集合是根據(jù)預(yù)置的分詞詞庫中得到的,通常情況下分詞詞庫中很少會出現(xiàn)單字,如果該詞素集合中包括單字詞素,說明該搜索詞中極有可能存在未登陸詞,因為如果一個詞在分詞詞庫中沒有出現(xiàn),則在分詞過程中,會將這個詞切分為單字,也就是本發(fā)明實施例所稱的單字詞素。
      [0038]在實際應(yīng)用中,詞素集合中單字詞素的分布情況通常包括三種:
      [0039]第一種,詞素集合中全部都是單字詞素,比如,“步” “行” “街”,此時,可以將所述詞素集合對應(yīng)的搜索詞作為候選新詞;
      [0040]第二種,詞素集合中有連續(xù)的單字詞素和非單字詞素,比如,“格林” “豪” “泰”,此時,需要將所述連續(xù)的單字詞素進(jìn)行組合,得到第一組合詞素,并將所述連續(xù)的單字詞素及其相鄰的非單字詞素進(jìn)行組合,得到第二組合詞素;在預(yù)置的搜索詞搜索頻率記錄中,獲取所述第一組合詞素及第二組合詞素的搜索頻率,選擇搜索頻率高的一個組合詞素作為候選新詞;其中,詞素集合中有兩個以上的單字詞素相鄰,即為本發(fā)明實施例所稱連續(xù)的單字詞素;
      [0041]第三種,詞素集合中有單個的單字詞素與非單字詞素相鄰,比如,“赤尾” ,此時,需要將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素;在預(yù)置的搜索詞搜索頻率記錄中,獲取所述非單字詞素與所述第三組合詞素的搜索頻率,并選擇搜索頻率高的一個組合詞素作為候選新詞。
      [0042]需要說明的是,上述三種情況,第一種情況不會和第二或者第三種情況同時出現(xiàn),但第二種情況和第三種情況可能會共同出現(xiàn)。
      [0043]進(jìn)一步,為提高上述第三種情況得到的組合詞素的正確率,本發(fā)明提供了一種優(yōu)選實施例,該實施例中,在將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素之前,所述方法進(jìn)一步包括:
      [0044]判斷組成所述非單字詞素的單字個數(shù)是否小于等于3,如果是,則將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素,否則,結(jié)束該流程。
      [0045]以下結(jié)合附圖2對本發(fā)明實施例提供的對詞素集合中的詞素進(jìn)行組合,得到候選新詞的方法流程進(jìn)行詳細(xì)介紹,該方法包括如下步驟:
      [0046]步驟301:判斷所述詞素集合中是否包括單字詞素,如果包括,則進(jìn)入步驟302,否貝U,結(jié)束該流程;
      [0047]步驟302:判斷所述詞素集合是否都是單字詞素,如果是,則進(jìn)入步驟303,否則進(jìn)入步驟304 ;
      [0048]步驟303:將所述詞素集合對應(yīng)的搜索詞作為候選新詞;
      [0049]步驟304:判斷所述詞素集合中是否有連續(xù)的單字詞素,如果是,則進(jìn)入步驟305,否則,進(jìn)入步驟307 ;
      [0050]步驟305:將所述連續(xù)的單字詞素進(jìn)行組合,得到第一組合詞素,并將所述連續(xù)的單字詞素及其相鄰的非單字詞素進(jìn)行組合,得到第二組合詞素;
      [0051]步驟306:在預(yù)置的搜索詞搜索頻率記錄中,獲取所述第一組合詞素及第二組合詞素的搜索頻率,選擇搜索頻率高的一個組合詞素作為候選新詞;
      [0052]步驟307:判斷所述詞素集合中是否有單個的單字詞素與非單字詞素相鄰,如果是,則進(jìn)入步驟308,如果否,結(jié)束該流程;
      [0053]步驟308:判斷組成所述非單字詞素的單字個數(shù)是否小于等于3,如果是,則進(jìn)入步驟309,如果否,結(jié)束該流程;
      [0054]步驟309:將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素;
      [0055]步驟310:在預(yù)置的搜索詞搜索頻率記錄中,獲取所述非單字詞素與所述第三組合詞素的搜索頻率,并選擇搜索頻率高的一個組合詞素作為候選新詞。
      [0056]以上是本發(fā)明實施例提供的一種面向搜索引擎的數(shù)據(jù)處理方法,在上述實施例中,需要采用預(yù)置的搜索詞頻率記錄,在實際應(yīng)用中,該記錄可以采用如下方法實現(xiàn):統(tǒng)計用戶查詢?nèi)罩局谐霈F(xiàn)的搜索詞及搜索詞的搜索頻率;以搜索詞為鍵,以搜索頻率為值,建立記錄鍵值關(guān)系(搜索詞語其搜索頻率對應(yīng)關(guān)系)的搜索詞搜索頻率記錄。
      [0057]為提高從預(yù)置的搜索詞搜索頻率記錄中,獲取搜索頻率不低于預(yù)置的搜索頻率閾值的搜索詞的效率,上述建立搜索詞搜索頻率記錄可以具體為:
      [0058]以搜索詞為鍵,以搜索頻率為值,按照搜索頻率由低到高或者由高到低的順序,建立記錄鍵值關(guān)系的搜索詞搜索頻率記錄。
      [0059]考慮到,用戶輸入的搜索詞中時常會出現(xiàn)一些無效輸入(如各種標(biāo)點符號),為此上述建立搜索詞頻率記錄的方法中還可以進(jìn)一步包括:刪除搜索詞中的無效輸入,得到不含無效輸入的搜索詞的步驟。
      [0060]以上對本發(fā)明實施例提供的一種面向搜索引擎的數(shù)據(jù)處理方法進(jìn)行了詳細(xì)介紹,以下結(jié)合附圖對本發(fā)明實施例提供的實現(xiàn)上述方法的裝置進(jìn)行進(jìn)一步介紹。
      [0061]請參見圖3,本發(fā)明實施例提供的一種面向搜索引擎的數(shù)據(jù)處理裝置,該裝置包括:
      [0062]搜索詞獲取單元50,用于獲取搜索詞;
      [0063]分詞單元51,用于對所述搜索詞進(jìn)行分詞,得到所述搜索詞的詞素集合;
      [0064]候選新詞獲取單元52,用于對所述詞素集合中的詞素進(jìn)行組合,得到候選新詞;
      [0065]未登陸詞獲取單元53,用于在預(yù)置的標(biāo)準(zhǔn)語料庫中對所述候選新詞進(jìn)行全包含搜索,若搜索到所述候選新詞,則判定所述候選新詞為未登錄詞。
      [0066]以上是本發(fā)明實施例提供的一種面向搜索引擎的數(shù)據(jù)處理裝置,該裝置減少了對既有詞法的依賴以及特定應(yīng)用場合的束縛,并通過在標(biāo)準(zhǔn)語料庫中對候選新詞進(jìn)行驗證,提高了未登錄詞發(fā)現(xiàn)的準(zhǔn)確性。
      [0067]為進(jìn)一步提高獲取未登陸詞的效率,本發(fā)明另一實施例中,上述搜索詞獲取單元50,可以具體用于:從預(yù)置的搜索詞搜索頻率記錄中,獲取搜索頻率不低于預(yù)置的搜索頻率閾值的搜索詞。
      [0068]在實際應(yīng)用中,所述候選新詞獲取單元52具體包括:
      [0069]單字詞素判斷子單元,用于判斷所述詞素集合中是否包括單字詞素,如果包括,則觸發(fā)候選新詞獲取子單元;
      [0070]候選新詞獲取子單元,用于根據(jù)詞素集合中單字詞素的分布情況,獲取候選新詞。
      [0071]在實際應(yīng)用中,詞素集合中單字詞素的分布情況通常包括三種,分別為:詞素集合中全部都是單字詞素、詞素集合中有連續(xù)的單字詞素和非單字詞素及詞素集合中有單個的單字詞素和非單字詞素相鄰,針對這三種情況,所述候選新詞獲取子單元具體包括:
      [0072]第一候選新詞獲取子單元,用于當(dāng)所述詞素集合中的分詞均為單字詞素時,將所述詞素集合對應(yīng)的搜索詞作為候選新詞;
      [0073]第一詞素組合子單元,用于當(dāng)所述詞素集合中有連續(xù)的單字詞素和非單字詞素時,將所述連續(xù)的單字詞素進(jìn)行組合,得到第一組合詞素,并將所述連續(xù)的單字詞素及其相鄰的非單字詞素進(jìn)行組合,得到第二組合詞素;
      [0074]第二候選新詞獲取子單元,用于在預(yù)置的搜索詞搜索頻率記錄中,獲取所述第一組合詞素及第二組合詞素的搜索頻率,選擇搜索頻率高的一個組合詞素作為候選新詞;
      [0075]第二詞素組合子單元,用于當(dāng)所述詞素集合中有單個的單字詞素與非單字詞素相鄰時,將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素;
      [0076]第三候選新詞獲取子單元,用于在預(yù)置的搜索詞搜索頻率記錄中,獲取所述非單字詞素與所述第三組合詞素的搜索頻率,并選擇搜索頻率高的一個組合詞素作為候選新
      ο
      [0077]為提高上述第三種情況得到的組合詞素的正確率,在本發(fā)明提供的優(yōu)選實施例中,所述第二詞素組合子單元可以具體用于:
      [0078]當(dāng)所述詞素集合中有單個的單字詞素與非單字詞素相鄰時,判斷組成所述非單字詞素的單字個數(shù)是否小于等于3,如果小于,則將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素。
      [0079]進(jìn)一步,本發(fā)明實施例提供的上述裝置還可以進(jìn)一步包括用于建立預(yù)置的搜索詞搜索頻率記錄的單元,具體包括:
      [0080]搜索詞及其頻率統(tǒng)計單元,用于統(tǒng)計用戶查詢?nèi)罩局谐霈F(xiàn)的搜索詞及其搜索頻率;
      [0081]記錄建立單元,用于以搜索詞為鍵,以搜索頻率為值,建立記錄鍵值關(guān)系的搜索詞搜索頻率記錄。
      [0082]為提高獲取搜索詞的效率,上述記錄建立單元可以具體用于:
      [0083]以搜索詞為鍵,以搜索頻率為值,按照搜索頻率由低到高或者由高到低的順序,建立記錄鍵值關(guān)系的搜索詞搜索頻率記錄
      [0084]考慮到,用戶輸入的搜索詞中時常會出現(xiàn)一些無效輸入(如各種標(biāo)點符號),為此上述裝置還可以進(jìn)一步包括:
      [0085]無效輸入刪除單元,用于刪除搜索詞中的無效輸入,得到不含無效輸入的搜索詞的步驟。
      [0086]以上是本發(fā)明實施例提供的一種面向搜索引擎的數(shù)據(jù)處理裝置。上述裝置的實施方式,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機(jī)軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能。
      [0087]本說明書中各個實施例采用遞進(jìn)的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的裝置而言,由于其與實施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
      [0088]對于系統(tǒng)實施例而言,由于其基本相應(yīng)于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
      [0089]需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
      [0090]對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明實施例的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明實施例將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。
      【權(quán)利要求】
      1.一種面向搜索引擎的數(shù)據(jù)處理方法,其特征在于,包括: 獲取搜索詞; 對所述搜索詞進(jìn)行分詞,得到所述搜索詞的詞素集合; 對所述詞素集合中的詞素進(jìn)行組合,得到候選新詞; 在預(yù)置的標(biāo)準(zhǔn)語料庫中對所述候選新詞進(jìn)行全包含搜索,若搜索到所述候選新詞,則判定所述候選新詞為未登錄詞。
      2.如權(quán)利要求1所述的方法,其特征在于,所述對所述詞素集合的詞素進(jìn)行組合,得到候選新詞具體包括: 判斷所述詞素集合中是否包括單字詞素,如果包括,則根據(jù)詞素集合中單字詞素的分布情況,獲取候選新詞。
      3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)詞素集合中單字詞素的分布情況,獲取候選新詞具體包括: 當(dāng)所述詞素集合中的分詞均為單字詞素時,將所述詞素集合對應(yīng)的搜索詞作為候選新詞; 當(dāng)所述詞素集合中有連續(xù)的單字詞素和非單字詞素時,將所述連續(xù)的單字詞素進(jìn)行組合,得到第一組合詞素,并將所述連續(xù)的單字詞素及其相鄰的非單字詞素進(jìn)行組合,得到第二組合詞素;在預(yù)置的搜索詞搜索頻率記錄中,獲取所述第一組合詞素及第二組合詞素的搜索頻率,選擇搜索頻率高的一個組合詞素作為候選新詞; 當(dāng)所述詞素集合中有單個的單字詞素與非單字詞素相鄰時,將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素;在預(yù)置的搜索詞搜索頻率記錄中,獲取所述非單字詞素與所述第三組合詞素的搜索頻率,并選擇搜索頻率高的一個組合詞素作為候選新
      ο
      4.如權(quán)利要求3所述的方法,其特征在于,所述將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素之前,所述方法進(jìn)一步包括: 判斷組成所述非單字詞素的單字個數(shù)是否小于等于3,如果是,則將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素,否則,結(jié)束該流程。
      5.如權(quán)利要求3或4所述的方法,其特征在于,所述獲取搜索詞具體為: 從預(yù)置的搜索詞搜索頻率記錄中,獲取搜索頻率不低于預(yù)置的搜索頻率閾值的搜索
      ο
      6.如權(quán)利要求5所述的方法,其特征在于,所述方法進(jìn)一步包括: 統(tǒng)計用戶查詢?nèi)罩局谐霈F(xiàn)的搜索詞及其搜索頻率; 以搜索詞為鍵,以搜索頻率為值,建立記錄鍵值關(guān)系的搜索詞搜索頻率記錄。
      7.一種面向搜索引擎的數(shù)據(jù)處理裝置,其特征在于,所述裝置包括: 搜索詞獲取單元,用于獲取搜索詞; 分詞單元,用于對所述搜索詞進(jìn)行分詞,得到所述搜索詞的詞素集合; 候選新詞獲取單元,用于對所述詞素集合中的詞素進(jìn)行組合,得到候選新詞; 未登陸詞獲取單元,用于在預(yù)置的標(biāo)準(zhǔn)語料庫中對所述候選新詞進(jìn)行全包含搜索,若搜索到所述候選新詞,則判定所述候選新詞為未登錄詞。
      8.如權(quán)利要求7所述的裝置,其特征在于,所述候選新詞獲取單元具體包括: 單字詞素判斷子單元,用于判斷所述詞素集合中是否包括單字詞素,如果包括,則觸發(fā)候選新詞獲取子單元; 候選新詞獲取子單元,用于根據(jù)詞素集合中單字詞素的分布情況,獲取候選新詞。
      9.如權(quán)利要求8所述的裝置,其特征在于,所述候選新詞獲取子單元具體包括: 第一候選新詞獲取子單元,用于當(dāng)所述詞素集合中的分詞均為單字詞素時,將所述詞素集合對應(yīng)的搜索詞作為候選新詞; 第一詞素組合子單元,用于當(dāng)所述詞素集合中有連續(xù)的單字詞素和非單字詞素時,將所述連續(xù)的單字詞素進(jìn)行組合,得到第一組合詞素,并將所述連續(xù)的單字詞素及其相鄰的非單字詞素進(jìn)行組合,得到第二組合詞素; 第二候選新詞獲取子單元,用于在預(yù)置的搜索詞搜索頻率記錄中,獲取所述第一組合詞素及第二組合詞素的搜索頻率,選擇搜索頻率高的一個組合詞素作為候選新詞; 第二詞素組合子單元,用于當(dāng)所述詞素集合中有單個的單字詞素與非單字詞素相鄰時,將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素; 第三候選新詞獲取子單元,用于在預(yù)置的搜索詞搜索頻率記錄中,獲取所述非單字詞素與所述第三組合詞素的搜索頻率,并選擇搜索頻率高的一個組合詞素作為候選新詞。
      10.如權(quán)利要求9所述的裝置,其特征在于,所述第二詞素組合子單元具體用于: 當(dāng)所述詞素集合中有單個的單字詞素與非單字詞素相鄰時,判斷組成所述非單字詞素的單字個數(shù)是否小于等于3,如果小于,則將所述單字詞素與其相鄰的非單字詞素進(jìn)行組合,得到第三組合詞素。
      【文檔編號】G06F17/30GK104239321SQ201310236603
      【公開日】2014年12月24日 申請日期:2013年6月14日 優(yōu)先權(quán)日:2013年6月14日
      【發(fā)明者】劉廣權(quán) 申請人:高德軟件有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1