一種跨語言自動(dòng)構(gòu)建分類規(guī)則的方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種跨語言自動(dòng)構(gòu)建分類規(guī)則的方法和裝置,將源語言的分類規(guī)則進(jìn)行變換得到一個(gè)以上的與關(guān)系規(guī)則后,針對(duì)每一個(gè)與關(guān)系規(guī)則分別執(zhí)行以下步驟:確定當(dāng)前與關(guān)系規(guī)則中判斷條件的關(guān)鍵詞;確定各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言候選詞集合,該集合包括:關(guān)鍵詞的目標(biāo)語言翻譯詞、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞以及該關(guān)鍵詞;分別從各目標(biāo)語言候選詞集合中挑選文檔覆蓋狀況滿足預(yù)設(shè)要求的候選詞作為各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言關(guān)鍵詞;將目標(biāo)語言關(guān)鍵詞采用或的關(guān)系分別替換當(dāng)前與關(guān)系規(guī)則中對(duì)應(yīng)的關(guān)鍵詞,得到目標(biāo)語言的與關(guān)系規(guī)則。通過本發(fā)明僅需要針對(duì)一個(gè)語種人工構(gòu)建分類規(guī)則,從而大大降低了人工成本和工作量。
【專利說明】一種跨語言自動(dòng)構(gòu)建分類規(guī)則的方法和裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】,特別涉及一種跨語言自動(dòng)構(gòu)建分類規(guī)則的方法和裝置。
【【背景技術(shù)】】
[0002]隨著因特網(wǎng)上網(wǎng)頁數(shù)量的爆炸式增長(zhǎng),能否從海量網(wǎng)頁中迅速準(zhǔn)確地搜索出用戶感興趣的信息使文本分類技術(shù)在信息檢索領(lǐng)域得到應(yīng)用。在網(wǎng)頁分類主要是通過機(jī)器學(xué)習(xí)模型進(jìn)行分類,在基于機(jī)器學(xué)習(xí)模型進(jìn)行分類之前,首先需要使用初過濾規(guī)則來剔除掉明顯不是目標(biāo)類型的網(wǎng)頁,以降低分類難度、提高分類效果。在線上對(duì)網(wǎng)頁進(jìn)行分類時(shí),任何一個(gè)網(wǎng)頁都首先進(jìn)行初過濾,對(duì)初過濾后的網(wǎng)頁進(jìn)入分類器。實(shí)際上初過濾已經(jīng)幫助分類器過濾掉了大部分干擾信息才使得分類器達(dá)到較好的線上效果。
[0003]之所以將初過濾和分類器分離,是因?yàn)槌踹^濾所使用的分類模型都是經(jīng)過人觀察而得到的強(qiáng)規(guī)則,分類器通過訓(xùn)練很難完全學(xué)到這些信息。雖然這些強(qiáng)規(guī)則是人工設(shè)置的,但由于也是使用語言相關(guān)的詞語作為特征或者作為初過濾規(guī)則的信息來源,因此當(dāng)存在多個(gè)語種的頁面時(shí),需要針對(duì)每個(gè)語種分別人工構(gòu)建初過濾規(guī)則。然而人工構(gòu)建初過濾規(guī)則的代價(jià)較高,如果目標(biāo)語種較多,那么構(gòu)建成本會(huì)很高,工作量也很難承受,對(duì)于諸如初過濾規(guī)則之外的其他文檔分類規(guī)則也可能存在類似問題。
【
【發(fā)明內(nèi)容】
】
[0004]有鑒于此,本發(fā)明提供了一種跨語言自動(dòng)構(gòu)建分類規(guī)則的方法和裝置,以便于降低多目標(biāo)語種構(gòu)建分類規(guī)則的成本和工作量。
[0005]具體技術(shù)方案如下:
[0006]一種跨語言自動(dòng)構(gòu)建分類規(guī)則的方法,將源語言的分類規(guī)則進(jìn)行變換得到一個(gè)以上的與關(guān)系規(guī)則后,針對(duì)每一個(gè)與關(guān)系規(guī)則分別執(zhí)行以下步驟:
[0007]S1、確定當(dāng)前與關(guān)系規(guī)則中判斷條件的關(guān)鍵詞;
[0008]S2、確定各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言候選詞集合,該集合包括:關(guān)鍵詞的目標(biāo)語言翻譯詞、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞以及該關(guān)鍵詞;
[0009]S3、分別從各目標(biāo)語言候選詞集合中挑選文檔覆蓋狀況滿足預(yù)設(shè)要求的候選詞作為各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言關(guān)鍵詞;
[0010]S4、將目標(biāo)語言關(guān)鍵詞采用或的關(guān)系分別替換當(dāng)前與關(guān)系規(guī)則中對(duì)應(yīng)的關(guān)鍵詞,得到目標(biāo)語言的與關(guān)系規(guī)則。
[0011]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述關(guān)鍵詞的目標(biāo)語言翻譯詞、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞從機(jī)器翻譯所使用的詞表中獲得。
[0012]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述文檔覆蓋狀況滿足預(yù)設(shè)要求為:挑選的候選詞所覆蓋的文檔與目標(biāo)文檔覆蓋狀況之間的逼近程度滿足預(yù)設(shè)要求,所述目標(biāo)文檔覆蓋狀況為:將目標(biāo)語言文檔翻譯為源語言文檔時(shí)滿足當(dāng)前與關(guān)系規(guī)則的目標(biāo)語言文檔。[0013]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟S3具體包括:
[0014]S31、將目標(biāo)語言候選詞集合中的各候選詞按照文檔覆蓋率從高到低進(jìn)行排序;
[0015]S32、按順序逐一對(duì)候選詞進(jìn)行選擇:如果當(dāng)前候選詞所覆蓋的文檔未包含在已選擇候選詞所覆蓋的文檔中,則選擇當(dāng)前候選詞;待已選擇候選詞所覆蓋的文檔達(dá)到目標(biāo)文檔覆蓋狀況,或者,當(dāng)前候選詞所覆蓋的文檔數(shù)小于預(yù)設(shè)狀況,則停止對(duì)候選詞的選擇;
[0016]S33、將選擇出的候選詞作為關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言關(guān)鍵詞。
[0017]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S31中按照如下公式計(jì)算候選詞f2c的文檔覆蓋率S (We2e):
[0018]S (We2c) = I Cover (we2c) | / | re (Dc2e)
[0019]其中,Cover(we2c)=ι^(?(Dc) Πre(Dc2e),為候選詞 we2。所覆蓋的文檔,re(Dc2e)為將目標(biāo)語言文檔翻譯為源語言文檔后滿足當(dāng)前與關(guān)系規(guī)則的文檔集合,1Id 為將當(dāng)前與關(guān)系規(guī)則中的關(guān)鍵詞替換成對(duì)應(yīng)候選詞后目標(biāo)語言文檔中命中替換后與關(guān)系規(guī)則的文檔集合,H為取交集,/為集合數(shù)量的比例。
[0020]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該方法還包括:
[0021]S5、將目標(biāo)語言的與關(guān)系規(guī)則按照源語言的分類規(guī)則中各與關(guān)系規(guī)則之間的邏輯關(guān)系進(jìn)行組合后,得到目標(biāo)語言的分類規(guī)則。
[0022]一種跨語言自動(dòng)構(gòu)建分類規(guī)則的裝置,該裝置包括:
[0023]規(guī)則變換單元,用于·將源語言的分類規(guī)則進(jìn)行變換得到一個(gè)以上的與關(guān)系規(guī)則,將各與關(guān)系規(guī)則分別作為當(dāng)前與關(guān)系規(guī)則提供給關(guān)鍵詞確定單元;
[0024]關(guān)鍵詞確定單元,用于確定當(dāng)前與關(guān)系規(guī)則中判斷條件的關(guān)鍵詞;
[0025]候選詞確定單元,用于確定各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言候選詞集合,該集合包括--關(guān)鍵詞的目標(biāo)語言翻譯詞、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞以及該關(guān)鍵詞;
[0026]候選詞挑選單元,用于分別從各目標(biāo)語言候選詞集合中挑選文檔覆蓋狀況滿足預(yù)設(shè)要求的候選詞作為各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言關(guān)鍵詞;
[0027]規(guī)則替換單元,用于將目標(biāo)語言關(guān)鍵詞采用或的關(guān)系分別替換當(dāng)前與關(guān)系規(guī)則中對(duì)應(yīng)的關(guān)鍵詞,得到目標(biāo)語言的與關(guān)系規(guī)則。
[0028]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述候選詞確定單元從機(jī)器翻譯所使用的詞表中獲得所述關(guān)鍵詞的目標(biāo)語言翻譯詞、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞。
[0029]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述文檔覆蓋狀況滿足預(yù)設(shè)要求為:挑選的候選詞所覆蓋的文檔與目標(biāo)文檔覆蓋狀況之間的逼近程度滿足預(yù)設(shè)要求,所述目標(biāo)文檔覆蓋狀況為:將目標(biāo)語言文檔翻譯為源語言文檔時(shí)滿足當(dāng)前與關(guān)系規(guī)則的目標(biāo)語言文檔。
[0030]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述候選詞挑選單元具體包括:
[0031]排序子單元,用于將目標(biāo)語言候選詞集合中的各候選詞按照文檔覆蓋率從高到低進(jìn)行排序;
[0032]選擇子單元,用于按順序逐一對(duì)候選詞進(jìn)行選擇:如果當(dāng)前候選詞所覆蓋的文檔未包含在已選擇候選詞所覆蓋的文檔中,則選擇當(dāng)前候選詞;待已選擇候選詞所覆蓋的文檔達(dá)到目標(biāo)文檔覆蓋狀況,或者,當(dāng)前候選詞所覆蓋的文檔數(shù)小于預(yù)設(shè)狀況,則停止對(duì)候選詞的選擇;
[0033]確定子單元,用于將所述選擇子單元選擇出的候選詞作為關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言關(guān)鍵詞。
[0034]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述排序子單元按照如下公式計(jì)算候選詞We2c的文檔覆蓋率S (We2e):
[0035]S (we2c) = I Cover (we2c) | / | re (Dc2e)
[0036]其中,Cover(We2e)=I^nd^wM(De)Hre(De2e),為候選詞 we2。所覆蓋的文檔,re(Dc2e)為將目標(biāo)語言文檔翻譯為源語言文檔后滿足當(dāng)前與關(guān)系規(guī)則的文檔集合,rIdiwA(D<:)為將當(dāng)前與關(guān)系規(guī)則中的關(guān)鍵詞替換成對(duì)應(yīng)候選詞后目標(biāo)語言文檔中命中替換后與關(guān)系規(guī)則的文檔集合,H為取交集,/為集合數(shù)量的比例。
[0037]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:
[0038]規(guī)則組合單元,用于將目標(biāo)語言的與關(guān)系規(guī)則按照源語言的分類規(guī)則中各與關(guān)系規(guī)則之間的邏輯關(guān)系進(jìn)行組合后,得到目標(biāo)語言的分類規(guī)則。
[0039]由以上技術(shù)方案可以看出,本發(fā)明通過將源語言的分類規(guī)則中一個(gè)以上的與關(guān)系規(guī)則遷移為目標(biāo)語言的與關(guān)系規(guī)則的方式,實(shí)現(xiàn)跨語言分類規(guī)則的自動(dòng)構(gòu)建,使得僅需要針對(duì)一個(gè)語種人工構(gòu)建分類規(guī)則,其他語種的分類規(guī)則采用本發(fā)明提供的方法或裝置實(shí)現(xiàn)自動(dòng)構(gòu)建,從而大大降低了人工成本和工作量。 【【專利附圖】
【附圖說明】】
[0040]圖1為本發(fā)明實(shí)施例一提供的跨語言自動(dòng)構(gòu)建初過濾規(guī)則的方法流程圖;
[0041]圖2為圖1中步驟104的具體實(shí)現(xiàn)流程圖;
[0042]圖3為本發(fā)明實(shí)施例二提供的跨語言自動(dòng)構(gòu)建分類規(guī)則的裝置結(jié)構(gòu)圖。
【【具體實(shí)施方式】】
[0043]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
[0044]經(jīng)過觀察,給定一個(gè)頁面類型,不同語言上的分類規(guī)則存在較多相似性,因此希望利用低成本的方法來做分類規(guī)則的跨語言遷移,也就是說,對(duì)于一個(gè)頁面類型的分類任務(wù),人工構(gòu)建源語言的分類規(guī)則后能夠?qū)崿F(xiàn)目標(biāo)語言的分類規(guī)則自動(dòng)構(gòu)建。下面以初過濾規(guī)則為例通過實(shí)施例一對(duì)該實(shí)現(xiàn)方法進(jìn)行詳細(xì)描述。
[0045]實(shí)施例一、
[0046]現(xiàn)有的初過濾規(guī)則主要包括兩種:一種是D規(guī)則,用于過濾頁面,即當(dāng)頁面的特征命中該規(guī)則時(shí),該頁面被過濾掉,不進(jìn)入后續(xù)的分類器階段。另一種是C規(guī)則,用于保留頁面,即當(dāng)頁面的特征命中該規(guī)則時(shí),該頁面被保留進(jìn)入后續(xù)的分類器階段,如果一個(gè)頁面沒有命中任何一個(gè)規(guī)則,則被過濾掉。通常無論哪種初過濾規(guī)則都可以看做是一個(gè)特征判斷表達(dá)式,特征判斷表達(dá)式中每一個(gè)判斷條件都屬于下面兩者之一:某個(gè)特征是否包含,或者,某個(gè)特征的值是否大于(或小于)某個(gè)值。各判斷條件之間是“與”的關(guān)系,也可以是“或”的關(guān)系。在表達(dá)式中可以有括號(hào)改變邏輯運(yùn)算的優(yōu)先級(jí),無論怎樣,一個(gè)特征判斷表達(dá)式都可以看做是由“或”連接的多個(gè)“與”關(guān)系規(guī)則或者一個(gè)“與”關(guān)系規(guī)則構(gòu)成,這樣就簡(jiǎn)化為對(duì)“與”關(guān)系規(guī)則的跨語言遷移。如果形式化初過濾規(guī)則,則可以認(rèn)為是如下形式r:
[0047]r JfAcondi Then DELETE/PRESERVE
[0048]其中Λ表示邏輯“且”關(guān)系,Condi表示第i個(gè)判斷條件,DELETE表示將命中的頁面過濾掉,PRESERVE表示將命中的頁面保留。對(duì)于每一個(gè)判斷條件,可以將其定義為作用在頁面特征集合上的函數(shù):
[0049]cond: (FXD) — {0,1}
[0050]f = (s,p, w) e F
[0051]其中F表示頁面中的特征集合,它的每一個(gè)元素f由結(jié)構(gòu)S、屬性P和關(guān)鍵詞w的三元組構(gòu)成。D表示頁面集合,每個(gè)判斷條件對(duì)每個(gè)頁面進(jìn)行判斷,O表示未命中,I表示命中。
[0052]圖1為本發(fā)明實(shí)施例一提供的跨語言自動(dòng)構(gòu)建初過濾規(guī)則的方法流程圖,如圖1所示,該方法可以包括以下步驟:
[0053]步驟101:將源語言的初過濾規(guī)則進(jìn)行變換得到一個(gè)以上的與關(guān)系規(guī)則后,針對(duì)每一個(gè)與關(guān)系規(guī)則分別執(zhí)行后續(xù)步驟。
[0054]本步驟的主要目標(biāo)是把帶有“與”、“或”和括號(hào)的源語言的初過濾規(guī)則等價(jià)變換為只有“與”關(guān)系的規(guī)則,可以通過對(duì)規(guī)則表達(dá)式的解析和邏輯運(yùn)算的分配率,首先將規(guī)則變?yōu)槲鋈》妒?,然后將析取范式拆分成若干與關(guān)系規(guī)則。
[0055]步驟102:確定與關(guān)系規(guī)則中判斷條件的關(guān)鍵詞。
[0056]其中判斷條件由結(jié)構(gòu)、屬性和關(guān)鍵詞構(gòu)成。舉個(gè)例子,假設(shè)源語言為英文,在對(duì)英文的初過濾規(guī)則進(jìn)行變換后,存在如下與關(guān)系規(guī)則:
[0057]IF頁面中包含文字“news” AND
[0058]頁面中包含文字“sports”
[0059]THEN召回該頁面。
[0060]在該與關(guān)系規(guī)則中,結(jié)構(gòu)是“頁面”、屬性是“文字”、關(guān)鍵詞是“news”和“sports”。
[0061]步驟103:確定關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言候選詞集合,該集合包括:關(guān)鍵詞的目標(biāo)語言翻譯詞、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞以及該關(guān)鍵詞。
[0062]在源語言的與關(guān)系規(guī)則中,對(duì)于每個(gè)特征f三元組(s,p,We)中的關(guān)鍵詞We,需要找到對(duì)應(yīng)的目標(biāo)語言關(guān)鍵詞在本步驟中首先找到關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言候選詞集合,然后再通過步驟104從目標(biāo)語言候選詞集合中挑選出目標(biāo)語言關(guān)鍵詞。
[0063]在確定關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言候選詞集合時(shí),可以采用人工翻譯的方式,但優(yōu)選地采用機(jī)器翻譯的方式。機(jī)器翻譯的方式一方面不需要人力成本,另一方面符合機(jī)器翻譯的詞語分布,容易找到對(duì)應(yīng)的特征。
[0064]為了充分考慮到所有可能的翻譯,在確定目標(biāo)語言候選詞集合時(shí)考慮三方面的內(nèi)容:
[0065]其一、關(guān)鍵詞的目標(biāo)語言翻譯詞。也就是說,采用機(jī)器翻譯的方式將源語言的關(guān)鍵詞翻譯為目標(biāo)語言后得到的詞,可以從機(jī)器翻譯所使用的詞表中獲得。接續(xù)上例,英文關(guān)鍵詞“news”的中文翻譯詞為“新聞”,“sports”的中文翻譯詞為“運(yùn)動(dòng)”、“體育”。
[0066]其二、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞,該部分內(nèi)容可以從機(jī)器翻譯所使用的詞表中獲得。例如,存在以下詞表:[0067]新聞->news
[0068]國(guó)際要聞->international news
[0069]中國(guó)電子報(bào)->China Electronics News
[0070]軍事新聞->militarynews
[0071]體育新聞->sports news
[0072]以及:
[0073]運(yùn)動(dòng)->sports
[0074]水上運(yùn)動(dòng) ->water sports
[0075]網(wǎng)球運(yùn)動(dòng)->tennis sports
[0076]體育->sports
[0077]國(guó)家體育總局->GeneralAdministration of Sports
[0078]那么中文翻譯為英文的字符串中包含“news”的中文語言詞為:“新聞”、“國(guó)際要聞”、“中國(guó)電子報(bào)”、“軍事新聞”、“體育新聞”;中文翻譯為英文的字符串中包含“sports”的中文語言詞為:“運(yùn)動(dòng)”、“水上 運(yùn)動(dòng)”、“網(wǎng)球運(yùn)動(dòng)”、“體育”、“國(guó)家體育總局”。
[0079]其三、源語言關(guān)鍵詞本身。之所以考慮將源語言關(guān)鍵詞本身也作為目標(biāo)語言候選詞是因?yàn)橛行┣闆r下,在目標(biāo)語言的文檔中會(huì)直接采用源語言的詞語。
[0080]經(jīng)過該步驟后,英文關(guān)鍵詞“news”對(duì)應(yīng)的中文候選詞集合為{ “新聞”、“國(guó)際要聞”、“中國(guó)電子報(bào)”、“軍事新聞”、“體育新聞”、“news”};英文關(guān)鍵詞“sports”對(duì)應(yīng)的中文候選詞集合為{ “運(yùn)動(dòng)”、“水上運(yùn)動(dòng)”、“網(wǎng)球運(yùn)動(dòng)”、“體育”、“國(guó)家體育總局”、“sports” }。
[0081]步驟104:分別從各目標(biāo)語言候選詞集合中挑選文檔覆蓋狀況滿足預(yù)設(shè)要求的候選詞作為各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言關(guān)鍵詞。
[0082]在從目標(biāo)語言候選詞集合中挑選候選詞時(shí),可以統(tǒng)計(jì)各候選詞在目標(biāo)文檔覆蓋狀況中的出現(xiàn)頻率,選擇出現(xiàn)頻率滿足預(yù)設(shè)頻率閾值的候選詞。優(yōu)選地,也可以選擇候選詞使得選擇的候選詞所覆蓋的文檔與目標(biāo)文檔覆蓋狀況之間的逼近程度滿足預(yù)設(shè)要求。其中目標(biāo)文檔覆蓋狀況為:將目標(biāo)語言文檔翻譯為源語言文檔時(shí)滿足當(dāng)前與關(guān)系規(guī)則的目標(biāo)語言文檔。
[0083]本步驟的一種優(yōu)選實(shí)現(xiàn)方式可以如圖2所示,這種實(shí)現(xiàn)方式是選擇候選詞使得選擇的候選詞所覆蓋的文檔與目標(biāo)文檔覆蓋狀況之間的逼近程度滿足預(yù)設(shè)要求,具體包括以下步驟:
[0084]步驟201:將目標(biāo)語言候選詞集合中的各候選詞按照文檔覆蓋率從高到低進(jìn)行排序。
[0085]其中,候選詞We2e的文檔覆蓋率S (we2c)為:
[0086]
【權(quán)利要求】
1.一種跨語言自動(dòng)構(gòu)建分類規(guī)則的方法,其特征在于,將源語言的分類規(guī)則進(jìn)行變換得到一個(gè)以上的與關(guān)系規(guī)則后,針對(duì)每一個(gè)與關(guān)系規(guī)則分別執(zhí)行以下步驟: 51、確定當(dāng)如與關(guān)系規(guī)則中判斷條件的關(guān)鍵詞; 52、確定各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言候選詞集合,該集合包括:關(guān)鍵詞的目標(biāo)語言翻譯詞、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞以及該關(guān)鍵詞; 53、分別從各目標(biāo)語言候選詞集合中挑選文檔覆蓋狀況滿足預(yù)設(shè)要求的候選詞作為各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言關(guān)鍵詞; 54、將目標(biāo)語言關(guān)鍵詞采用或的關(guān)系分別替換當(dāng)前與關(guān)系規(guī)則中對(duì)應(yīng)的關(guān)鍵詞,得到目標(biāo)語言的與關(guān)系規(guī)則。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述關(guān)鍵詞的目標(biāo)語言翻譯詞、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞從機(jī)器翻譯所使用的詞表中獲得。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述文檔覆蓋狀況滿足預(yù)設(shè)要求為:挑選的候選詞所覆蓋的文檔與目標(biāo)文檔覆蓋狀況之間的逼近程度滿足預(yù)設(shè)要求,所述目標(biāo)文檔覆蓋狀況為:將目標(biāo)語言文檔翻譯為源語言文檔時(shí)滿足當(dāng)前與關(guān)系規(guī)則的目標(biāo)語言文檔。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟S3具體包括: 531、將目標(biāo)語言候選詞集合中的各候選詞按照文檔覆蓋率從高到低進(jìn)行排序; 532、按順序逐一對(duì)候選詞進(jìn)行選擇:如果當(dāng)前候選詞所覆蓋的文檔未包含在已選擇候選詞所覆蓋的文檔中,則·選擇當(dāng)前候選詞;待已選擇候選詞所覆蓋的文檔達(dá)到目標(biāo)文檔覆蓋狀況,或者,當(dāng)前候選詞所覆蓋的文檔數(shù)小于預(yù)設(shè)狀況,則停止對(duì)候選詞的選擇; 533、將選擇出的候選詞作為關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言關(guān)鍵詞。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述步驟S31中按照如下公式計(jì)算候選詞的文檔覆蓋率S(We2e):
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 55、將目標(biāo)語言的與關(guān)系規(guī)則按照源語言的分類規(guī)則中各與關(guān)系規(guī)則之間的邏輯關(guān)系進(jìn)行組合后,得到目標(biāo)語言的分類規(guī)則。
7.一種跨語言自動(dòng)構(gòu)建分類規(guī)則的裝置,其特征在于,該裝置包括: 規(guī)則變換單元,用于將源語言的分類規(guī)則進(jìn)行變換得到一個(gè)以上的與關(guān)系規(guī)則,將各與關(guān)系規(guī)則分別作為當(dāng)前與關(guān)系規(guī)則提供給關(guān)鍵詞確定單元; 關(guān)鍵詞確定單元,用于確定當(dāng)前與關(guān)系規(guī)則中判斷條件的關(guān)鍵詞; 候選詞確定單元,用于確定各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言候選詞集合,該集合包括:關(guān)鍵詞的目標(biāo)語言翻譯詞、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞以及該關(guān)鍵詞; 候選詞挑選單元,用于分別從各目標(biāo)語言候選詞集合中挑選文檔覆蓋狀況滿足預(yù)設(shè)要求的候選詞作為各關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言關(guān)鍵詞; 規(guī)則替換單元,用于將目標(biāo)語言關(guān)鍵詞采用或的關(guān)系分別替換當(dāng)前與關(guān)系規(guī)則中對(duì)應(yīng)的關(guān)鍵詞,得到目標(biāo)語言的與關(guān)系規(guī)則。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述候選詞確定單元從機(jī)器翻譯所使用的詞表中獲得所述關(guān)鍵詞的目標(biāo)語言翻譯詞、目標(biāo)語言翻譯為源語言的字符串中包含該關(guān)鍵詞的目標(biāo)語言詞。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述文檔覆蓋狀況滿足預(yù)設(shè)要求為:挑選的候選詞所覆蓋的文檔與目標(biāo)文檔覆蓋狀況之間的逼近程度滿足預(yù)設(shè)要求,所述目標(biāo)文檔覆蓋狀況為:將目標(biāo)語言文檔翻譯為源語言文檔時(shí)滿足當(dāng)前與關(guān)系規(guī)則的目標(biāo)語言文檔。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述候選詞挑選單元具體包括: 排序子單元,用于將目標(biāo)語言候選詞集合中的各候選詞按照文檔覆蓋率從高到低進(jìn)行排序; 選擇子單元,用于按順序逐一對(duì)候選詞進(jìn)行選擇:如果當(dāng)前候選詞所覆蓋的文檔未包含在已選擇候選詞所覆蓋的文檔中,則選擇當(dāng)前候選詞;待已選擇候選詞所覆蓋的文檔達(dá)到目標(biāo)文檔覆蓋狀況,或者,當(dāng)前候選詞所覆蓋的文檔數(shù)小于預(yù)設(shè)狀況,則停止對(duì)候選詞的選擇; 確定子單元,用于將所述選擇子單元選擇出的候選詞作為關(guān)鍵詞對(duì)應(yīng)的目標(biāo)語言關(guān)鍵
ο
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述排序子單元按照如下公式計(jì)算候選詞的文檔覆蓋率s(w&): 其中,
12.根據(jù)權(quán)利要求7所述的裝置,其特征在于,該裝置還包括: 規(guī)則組合單元,用于將目標(biāo)語言的與關(guān)系規(guī)則按照源語言的分類規(guī)則中各與關(guān)系規(guī)則之間的邏輯關(guān)系進(jìn)行組合后,得到目標(biāo)語言的分類規(guī)則。
【文檔編號(hào)】G06F17/30GK103577498SQ201210283172
【公開日】2014年2月12日 申請(qǐng)日期:2012年8月9日 優(yōu)先權(quán)日:2012年8月9日
【發(fā)明者】劉峰, 牛正雨 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司