專利名稱:一種互譯詞條的獲取方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域,特別是涉及一種互譯詞條的獲取方法及系統(tǒng)。
背景技術(shù):
在信息交流的國際化趨勢下,多語言互譯的重要性日益顯著,計算機已經(jīng)成為最常用的信息互譯工具之一。最初計算機僅能起到電子字典的作用,隨著技術(shù)的發(fā)展,目前的計算機除了能夠?qū)崿F(xiàn)整句、整段文本的自動化翻譯之外,還具有語言學(xué)習(xí)和推理等能力,使得翻譯出的文本更加符合人們的日常語言習(xí)慣。
計算機翻譯正逐漸向著智能化的方向發(fā)展,然而翻譯功能的實現(xiàn)仍然要以準確、 完整的互譯詞庫為基礎(chǔ)?,F(xiàn)有的翻譯軟件或在線翻譯網(wǎng)站都收錄了多種權(quán)威詞典,但是這些詞典的更新頻率非常低,很多新出現(xiàn)的詞句都沒有涉及,為了滿足各類用戶實際的翻譯需求,還需要不斷搜集新詞匯以完善互譯詞庫。
在現(xiàn)實生活中,每天都有大量的新詞匯產(chǎn)生,其中值得收錄的包括各領(lǐng)域的專業(yè)用語、社會流行用語等,互聯(lián)網(wǎng)是獲取這些新詞匯的主要來源?,F(xiàn)有技術(shù)中,獲取新詞匯互譯詞條的方法是先指定一些特定的雙語網(wǎng)站或者論壇,然后對這些網(wǎng)站頁面上的文本進行采集并分析,找出其中的互譯詞條。然而在實際情況中,可用的互譯詞條資源實際上是存在于整個互聯(lián)網(wǎng)范圍的,僅指定一些特定的網(wǎng)站或論壇,會影響詞匯搜集的全面性。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明實施例提供一種互譯詞條的獲取方法及系統(tǒng),以提高詞匯搜集的全面性,技術(shù)方案如下 一種互譯詞條的獲取方法,包括 A.選取至少一組已知的雙語互譯詞條; B.以所述已知雙語互譯詞條的兩種語言文本作為搜索關(guān)鍵詞,生成針對搜索引擎的搜索請求; C.將所述搜索請求發(fā)送給相應(yīng)的搜索引擎,獲得至少一條與所述搜索請求相匹配的搜索結(jié)果; D.從所述搜索結(jié)果中提取新的互譯詞條。
一種互譯詞條獲取系統(tǒng),包括初始化單元、搜求請求生成單元、搜索單元以及互譯詞條提取單元; 初始化單元,用于選取至少一組已知的雙語互譯詞條,并將選取結(jié)果發(fā)送至搜求請求生成單元; 搜求請求生成單元,用于以所述已知雙語互譯詞條的兩種語言文本作為搜索關(guān)鍵詞,生成針對搜索引擎的搜索請求,并將搜索請求發(fā)送至搜索單元; 搜索單元,用于將所述搜索請求發(fā)送給相應(yīng)的搜索引擎,獲得至少一條與所述搜索請求相匹配的搜索結(jié)果,并將搜索結(jié)果發(fā)送至互譯詞條提取單元; 互譯詞條提取單元,用于從所述搜索結(jié)果中提取新的互譯詞條。
本發(fā)明實施例提供的技術(shù)方案,利用搜索引擎來獲得可能包含互譯詞條的網(wǎng)頁, 再從網(wǎng)頁中對互譯詞條進行提取。由于搜索引擎所覆蓋的網(wǎng)頁涉及范圍很大,因此本發(fā)明與現(xiàn)有技術(shù)相比,能夠從更多的網(wǎng)頁中獲取互譯詞條,有效提高了詞匯搜集的全面性。此外,本發(fā)明實施例技術(shù)方案根據(jù)已知互譯詞條的文本生成搜索請求發(fā)送至搜索引擎,對于搜索引擎本身可以不做改進,也具有易于實現(xiàn)的優(yōu)點。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下, 還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例互譯詞條的獲取方法的流程圖; 圖2為本發(fā)明實施例互譯詞條的獲取方法的另一種流程圖; 圖3為本發(fā)明實施例互譯詞條的獲取系統(tǒng)的一種結(jié)構(gòu)示意圖; 圖4為本發(fā)明實施例互譯詞條的獲取系統(tǒng)的另一種結(jié)構(gòu)示意圖; 圖5為本發(fā)明實施例互譯詞條的獲取系統(tǒng)的第三種結(jié)構(gòu)示意圖。
具體實施例方式首先對本發(fā)明實施例的一種互譯詞條的獲取方法進行說明,包括 選取至少一組已知的雙語互譯詞條; 以所述已知雙語互譯詞條的兩種語言文本作為搜索關(guān)鍵詞,生成針對搜索引擎的搜索請求; 將所述搜索請求發(fā)送給相應(yīng)的搜索引擎,獲得至少一條與所述搜索請求相匹配的搜索結(jié)果; 從所述搜索結(jié)果中提取新的互譯詞條。
上述方法中,利用搜索引擎來獲得可能包含互譯詞條的網(wǎng)頁,再從網(wǎng)頁中對互譯詞條進行提取。由于搜索引擎所覆蓋的網(wǎng)頁涉及范圍很大,因此本發(fā)明與現(xiàn)有技術(shù)相比,能夠從更多的網(wǎng)頁中獲取互譯詞條,有效提高了詞匯搜集的全面性。此外,上述方法根據(jù)已知互譯詞條的文本生成搜索請求發(fā)送至搜索引擎,對于搜索引擎本身可以不做改進,具有易于實現(xiàn)的優(yōu)點。
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都應(yīng)當屬于本發(fā)明保護的范圍。
圖1所示為本發(fā)明實施例的一種互譯詞條的獲取方法的流程圖,包括以下步驟 S101,選取至少一組已知的雙語互譯詞條; 本發(fā)明是利用搜索引擎來獲得可能包含互譯詞條的網(wǎng)頁,而搜索引擎需要輸入相應(yīng)的搜索關(guān)鍵詞才能返回相應(yīng)的搜索結(jié)果。首先選取至少一組已知的雙語互譯詞條?;プg詞條的選取并沒有特別的限制,當然,為了保證一次搜索可以獲得較多的結(jié)果,可以優(yōu)先選取那些簡單、常用、意義明確的互譯詞條。以中英雙語為例,可以選擇英文詞條“make”以及其互譯中文詞條“制造”。
在本步驟中,也可以選取多組互譯詞條作為搜索關(guān)鍵詞,其中各組關(guān)鍵詞之間在搜索時的邏輯關(guān)系可以是“與”或“或”。可以理解的是,當各組關(guān)鍵詞以“與”的邏輯關(guān)系進行搜索時,這樣會使得搜索到的結(jié)果可用性更強,但是會減少搜索結(jié)果的數(shù)量,從而影響到詞匯搜集的全面性;而當各組關(guān)鍵詞以“或”的邏輯關(guān)系進行搜索時,將可能得到更多的搜索結(jié)果數(shù)量。本領(lǐng)域技術(shù)人員可以根據(jù)實際需求靈活選用一組或多組關(guān)鍵詞,為描述方便,在以下的實施例中,僅以選取一組互譯詞條作為搜索關(guān)鍵詞進行說明。
S102,以所述已知雙語互譯詞條的兩種語言文本作為搜索關(guān)鍵詞,生成針對搜索引擎的搜索請求; 搜索引擎是一種能夠為用戶提供信息檢索服務(wù)的系統(tǒng),目前已經(jīng)成為用戶上網(wǎng)必不可少的輔助工具之一。從用戶的角度看,搜索引擎一般提供一個包含搜索框的頁面,用戶在搜索框輸入關(guān)鍵詞或其他搜索條件,通過瀏覽器提交給搜索引擎后,搜索引擎就會返回與用戶輸入的關(guān)鍵詞內(nèi)容相匹配的信息。
實際上,對于多數(shù)互聯(lián)網(wǎng)中常用的搜索引擎而言,在接收到用戶提交搜索關(guān)鍵詞之后,會根據(jù)一定的規(guī)則,將搜索關(guān)鍵詞拼接為URUUniformResource Locator,統(tǒng)一資源定位符)格式的搜索請求信息,然后將該信息發(fā)送至相應(yīng)的搜索服務(wù)器,得到搜索反饋結(jié)果。本發(fā)明就是模擬這種規(guī)則,由搜索關(guān)鍵詞生成搜索請求,因此并不需要使用到搜索引擎的搜索頁面。
以Google搜索引擎為例,如果需要搜索既包含“make”又包含“制造”的網(wǎng)頁,則根據(jù)其搜索請求生成規(guī)則,可以得到相應(yīng)的搜索請求為 "http://www. google, cn/search ? hi = zh-CN&newwindow = 1^ = 11181^+5^51% 88% B6% E9% 80% AO&btnG = Google+% E6% 90% 9C% E7% B4% A2&aq = f&oq =” 當然,各種搜索引擎的搜索請求生成規(guī)則可能具體有所區(qū)別,可以理解的是,應(yīng)用類似的方法,也可以生成適用于其他搜索引擎的并且能達到相同搜索目的的搜索請求。
S103,將所述搜索請求發(fā)送給相應(yīng)的搜索引擎,獲得至少一條與所述搜索請求相匹配的搜索結(jié)果; 生成上述搜索請求后,將其發(fā)送給相應(yīng)的搜索引擎,即輸入相應(yīng)的URL信息,相當于模仿在搜索引擎界面輸入搜索關(guān)鍵詞這一操作,同時得到相應(yīng)的搜索結(jié)果。
S104,從所述搜索結(jié)果中提取新的互譯詞條。
通過搜索,可以得到與搜索請求相匹配的一條或多條搜索結(jié)果,這些搜索結(jié)果一般就是所需要的包含雙語信息的網(wǎng)頁。
進一步地,可以對這些網(wǎng)頁的內(nèi)容做進一步分析,通過單詞抽取、對齊等步驟獲取這些網(wǎng)頁中的互譯詞條對。此外,為減少在抽取及對齊過程中詞條對應(yīng)錯誤,還可以對詞進行智能修改或刪除操作,在最大程度上保證詞條對的正確對應(yīng)關(guān)系。本步驟的具體實施可以采用現(xiàn)有技術(shù)中的各種相關(guān)方案實現(xiàn),本實施例對此不做具體限制。
通過執(zhí)行上述步驟,即可以得到搜索引擎所能搜索到的、即包含“make”又包含“制造”的網(wǎng)頁中的其他互譯詞條。同理,通過重新輸入其他已知互譯詞條,又可以再次獲得其他的互譯詞條。與現(xiàn)有的在指定網(wǎng)站上獲取互譯詞條的方法相比,詞匯搜集的全面性得到顯著的提升。
此外,上述方法根據(jù)已知互譯詞條的文本生成搜索請求發(fā)送至搜索引擎,對于搜索引擎本身可以不做改進,也具有易于實現(xiàn)的優(yōu)點。
可以理解的是,也可以直接將步驟S104中所提取的新互譯詞條作為已知互譯詞條,然后重新執(zhí)行步驟S102-S104。
例如,通過最初的“make”及“制造”,得到了新的互譯詞條“happen”和“發(fā)生”,后續(xù)就可以再以“happen”和“發(fā)生”作為已知詞條再次進行搜索。也就是說,最初只需提供一組已知互譯詞條,而后續(xù)的每次搜索都是以之前所得到結(jié)果進行搜索,通過重復(fù)利用之前的搜索結(jié)果,最終獲得大量的互譯詞條。
在本發(fā)明的一個優(yōu)選實施例中,上述過程還可以采用循環(huán)的方式實現(xiàn),參見圖2 所示,在步驟S104之后, S105,判斷本次提取結(jié)果與上次結(jié)果相比,是否增加提取到了新的互譯詞條,如果是,執(zhí)行S106,否則結(jié)束循環(huán)。
S106,以步驟104中所提取的新互譯詞條作為已知互譯詞條,執(zhí)行S102。
上述方法中,進一步增加了一個判斷的步驟S105,即根據(jù)是否能夠提取到新的互譯詞條來決定是否繼續(xù)提取,也就是說,由初期少量的已知互譯詞條開始,可以形成一個封閉的循環(huán),這個過程循環(huán)過程不需認為干預(yù),能夠不斷地獲取新的雙語互譯詞條對,以此不斷的產(chǎn)生新的目標頁面和新的互譯詞條對,直到每次循環(huán)結(jié)束時沒有得到任何的新詞條時退出循環(huán),從而實現(xiàn)對循環(huán)步驟的自動控制。
當然,考慮到搜索引擎往往能夠檢索到大量匹配信息,這個數(shù)量可能會達到數(shù)十至數(shù)萬。為提高重復(fù)或循環(huán)處理的效率,也可以每次選擇只對一定數(shù)量的搜索結(jié)果進行處理,例如每次僅對搜索結(jié)果的前20條進行處理、每次僅對搜索結(jié)果的第一頁進行處理,等等。
本發(fā)明是借助搜索引擎來實現(xiàn)互譯詞條的提取,而現(xiàn)有的獲取引擎本身并非是為獲取互譯詞條所設(shè)計,因此其搜索到的網(wǎng)頁可能并不適用于互譯詞條的提取。而采集網(wǎng)頁內(nèi)容又需要占用大量的時間及網(wǎng)絡(luò)帶寬資源,如果在進行詞條提取之前,無法確定所要采集的目標頁面是否確實包含了兩種語言的互譯文本,將會導(dǎo)致大量時間及帶寬資源的無意義消耗。針對該問題,在本發(fā)明的另一優(yōu)選實施例中,可以先對搜索引擎所獲得的搜索結(jié)果進行過濾,以確定潛在含有互譯詞條的網(wǎng)頁,然后再從這些潛在含有互譯詞條的網(wǎng)頁中,提取新的互譯詞條。
對于一般的網(wǎng)頁搜索引擎而言,常見的搜索結(jié)果反饋形式為一個網(wǎng)頁URL對應(yīng)一個該網(wǎng)頁的摘要。對于搜索結(jié)果的過濾,可以從搜索結(jié)果的網(wǎng)頁摘要入手,其中,簡單的過濾原則可以包括 a)如果網(wǎng)頁摘要中同時包含了兩種語言的文本,則認為該網(wǎng)頁為潛在含有互譯詞條的網(wǎng)頁; b)如果網(wǎng)頁摘要中同時包含了搜索時所用的兩種互譯詞條,則認為該網(wǎng)頁為潛在含有互譯詞條的網(wǎng)頁; 不同的搜索引擎,其采用的具體搜索策略不同,對于有些搜索引擎而言,其搜索結(jié)果的網(wǎng)頁摘要是必然滿足的上述兩種原則。而有些搜索引擎的搜索結(jié)果則未必滿足上述兩種原則,例如,互譯詞條可能僅出現(xiàn)在網(wǎng)頁的非主體內(nèi)容部分,那么這樣網(wǎng)頁中含有其他互譯詞條的可能性不大,可以先將其過濾掉。
此外,結(jié)合實際的使用經(jīng)驗,還可以進一步制訂一些較為復(fù)雜的過濾規(guī)則,例如 c)如果所述網(wǎng)頁摘要內(nèi)容中,構(gòu)成互譯的單詞總長度與摘要文本總長度的比值大于某一預(yù)定的閾值,則認為該網(wǎng)頁為潛在含有互譯詞條的網(wǎng)頁; 例如,對于中英雙語頁面,可以將過濾規(guī)則設(shè)置為
構(gòu)成互譯的中英文單詞總長度I^2 摘要文本總長度 -. 上述規(guī)則的意義是,只有在摘要中構(gòu)成互譯的文本能夠占到一定比例時,才認為該網(wǎng)頁是有進一步處理價值的,其中0. 2為經(jīng)驗閾值,可以根據(jù)實際情況適當調(diào)整。
d)若所述網(wǎng)頁摘要內(nèi)容中,第一語言的單詞個數(shù)與第二語言的單詞個數(shù)的比值處于某一預(yù)定的范圍內(nèi),則認為該網(wǎng)頁為潛在含有互譯詞條的網(wǎng)頁。
例如,對于中英雙語頁面,可以將過濾規(guī)則設(shè)置為
權(quán)利要求
1.一種互譯詞條的獲取方法,其特征在于,包括A.選取至少一組已知的雙語互譯詞條;B.以所述已知雙語互譯詞條的兩種語言文本作為搜索關(guān)鍵詞,生成針對搜索引擎的搜索請求;C.將所述搜索請求發(fā)送給相應(yīng)的搜索引擎,獲得至少一條與所述搜索請求相匹配的搜索結(jié)果;D.從所述搜索結(jié)果中提取新的互譯詞條。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括將步驟D中所提取的新互譯詞條作為已知互譯詞條,重復(fù)執(zhí)行步驟B-步驟D。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括將步驟D中所提取的新互譯詞條作為已知互譯詞條,循環(huán)執(zhí)行步驟B-步驟D,直到無法提取到新的互譯詞條。
4.根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述步驟D包括根據(jù)預(yù)設(shè)算法對所述搜索結(jié)果的網(wǎng)頁摘要內(nèi)容進行分析,確定潛在含有互譯詞條的網(wǎng)頁;從所述潛在含有互譯詞條的網(wǎng)頁中,提取新的互譯詞條。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)算法對所述搜索結(jié)果的網(wǎng)頁摘要內(nèi)容進行分析,確定潛在含有互譯詞條的網(wǎng)頁,包括若所述網(wǎng)頁摘要內(nèi)容中,構(gòu)成互譯的單詞總長度與摘要文本總長度的比值大于預(yù)定的閾值,則認為該網(wǎng)頁為潛在含有互譯詞條的網(wǎng)頁;和/或若所述網(wǎng)頁摘要內(nèi)容中,第一語言的單詞個數(shù)與第二語言的單詞個數(shù)的比值處于某一預(yù)定的范圍內(nèi),則認為該網(wǎng)頁為潛在含有互譯詞條的網(wǎng)頁。
6.一種互譯詞條獲取系統(tǒng),其特征在于,包括初始化單元、搜求請求生成單元、搜索單元以及互譯詞條提取單元;初始化單元,用于選取至少一組已知的雙語互譯詞條,并將選取結(jié)果發(fā)送至搜求請求生成單元;搜求請求生成單元,用于以所述已知雙語互譯詞條的兩種語言文本作為搜索關(guān)鍵詞, 生成針對搜索引擎的搜索請求,并將搜索請求發(fā)送至搜索單元;搜索單元,用于將所述搜索請求發(fā)送給相應(yīng)的搜索引擎,獲得至少一條與所述搜索請求相匹配的搜索結(jié)果,并將搜索結(jié)果發(fā)送至互譯詞條提取單元;互譯詞條提取單元,用于從所述搜索結(jié)果中提取新的互譯詞條。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,還包括重復(fù)提取控制單元,用于將所述互譯詞條提取單元所提取的新互譯詞條作為已知互譯詞條輸入所述搜求請求生成單元。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,還包括循環(huán)提取控制單元,用于判斷所述互譯詞條提取單元是否提取到新的互譯詞條,如果是,則將所述互譯詞條提取單元所提取的新互譯詞條作為已知互譯詞條輸入所述搜求請求生成單元。
9.根據(jù)權(quán)利要求6至8任一項所述的系統(tǒng),其特征在于,所述互譯詞條提取單元包括 搜索結(jié)果過濾子單元,用于根據(jù)預(yù)設(shè)算法對所述搜索結(jié)果的網(wǎng)頁摘要內(nèi)容進行分析,確定潛在含有互譯詞條的網(wǎng)頁;提取子單元,用于從所述潛在含有互譯詞條的網(wǎng)頁中,提取新的互譯詞條。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述搜索結(jié)果過濾子單元根據(jù)預(yù)設(shè)算法對所述搜索結(jié)果的網(wǎng)頁摘要內(nèi)容進行分析,確定潛在含有互譯詞條的網(wǎng)頁,包括若所述網(wǎng)頁摘要內(nèi)容中,構(gòu)成互譯的單詞總長度與摘要文本總長度的比值大于預(yù)定的閾值,則認為該網(wǎng)頁為潛在含有互譯詞條的網(wǎng)頁; 和/或若所述網(wǎng)頁摘要內(nèi)容中,第一語言的單詞個數(shù)與第二語言的單詞個數(shù)的比值處于某一預(yù)定的范圍內(nèi),則認為該網(wǎng)頁為潛在含有互譯詞條的網(wǎng)頁。
全文摘要
本發(fā)明公開了一種互譯詞條的獲取方法及系統(tǒng)。一種互譯詞條的獲取方法包括選取至少一組已知的雙語互譯詞條;以所述已知雙語互譯詞條的兩種語言文本作為搜索關(guān)鍵詞,生成針對搜索引擎的搜索請求;將所述搜索請求發(fā)送給相應(yīng)的搜索引擎,獲得至少一條與所述搜索請求相匹配的搜索結(jié)果;從所述搜索結(jié)果中提取新的互譯詞條。本發(fā)明與現(xiàn)有技術(shù)相比,能夠從更多的網(wǎng)頁中獲取互譯詞條,有效提高了詞匯搜集的全面性。此外,本發(fā)明實施例技術(shù)方案根據(jù)已知互譯詞條的文本生成搜索請求發(fā)送至搜索引擎,對于搜索引擎本身可以不做改進,也具有易于實現(xiàn)的優(yōu)點。
文檔編號G06F17/28GK102207938SQ20101013813
公開日2011年10月5日 申請日期2010年3月31日 優(yōu)先權(quán)日2010年3月31日
發(fā)明者張宇峰, 郭永生 申請人:北京金山軟件有限公司, 北京金山數(shù)字娛樂科技有限公司