專(zhuān)利名稱(chēng):輔助翻譯搜索引擎系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種互聯(lián)網(wǎng)多語(yǔ)言互譯系統(tǒng)及其方法;具體地說(shuō),涉及一種利用網(wǎng)絡(luò)機(jī)器人從互聯(lián)網(wǎng)上不斷收集雙語(yǔ)語(yǔ)料信息,對(duì)信息進(jìn)行處理,再結(jié)合搜索引擎實(shí)現(xiàn)計(jì)算機(jī)輔助翻譯的系統(tǒng)及其方法。
背景技術(shù):
隨著中國(guó)加入WTO,以及申奧成功,中國(guó)的對(duì)外交流越來(lái)越多,所面臨的外文詞匯、文章也會(huì)隨之增加,這就要求人們掌握一定的外語(yǔ)技能,特別是寫(xiě)作和翻譯技能,而這對(duì)于絕大多數(shù)人來(lái)說(shuō)是一件極其困難的事。此外,對(duì)于一些專(zhuān)門(mén)從事某行業(yè)的人士,也會(huì)在工作當(dāng)中面臨查閱大量外文資料的情況,而專(zhuān)業(yè)詞匯量小將嚴(yán)重制約其效率。
目前,國(guó)內(nèi)外已經(jīng)存在了一些這種輔助翻譯工具,但是效果卻不理想。
首先,這些翻譯工具有兩種方式存在。一種是采用自帶字典模式;對(duì)用戶(hù)的輸入請(qǐng)求句逐字逐詞的進(jìn)行翻譯,但是這種翻譯結(jié)果往往完全不符合外文語(yǔ)法,對(duì)用戶(hù)的寫(xiě)作、閱讀毫無(wú)用處。例如“中華人民共和國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局”的外文翻譯早有通行世界的官方定譯,即“State Intellectual Property Office ofP.R.China”,但是按照逐字逐詞的模式翻譯會(huì)翻譯成為“P.R.China NationKnowledge Property Office”,造成了錯(cuò)誤;而要想知道這些已有的“約定俗成”的翻譯,一種有效的辦法是上網(wǎng)去搜索。另一種是采用語(yǔ)料庫(kù)模式;對(duì)用戶(hù)的輸入請(qǐng)求句在語(yǔ)料庫(kù)中查詢(xún),但是由于其語(yǔ)料庫(kù)積累采用的是一種人工添加互譯句對(duì)的方式,所以使語(yǔ)料庫(kù)容量大小受限。目前做得最好的語(yǔ)料庫(kù)也只有50萬(wàn)句對(duì)。
其次,翻譯的一個(gè)重要特征是翻譯的重復(fù)性。研究表明,在內(nèi)容或句型句式上,個(gè)人的翻譯重復(fù)率是30%左右,相對(duì)于整個(gè)互聯(lián)網(wǎng)而言,這個(gè)重復(fù)率會(huì)更高。因此,對(duì)于人工添加雙語(yǔ)語(yǔ)料庫(kù)會(huì)造成大量的重復(fù)勞動(dòng),卻得不到理想的效果。當(dāng)然,對(duì)于雙語(yǔ)語(yǔ)料庫(kù)自動(dòng)積累系統(tǒng),也有專(zhuān)家做過(guò)這方面的研究;例如Christopher C.Yang《Mining English/Chinese Parallel Documents from theWorld Wide Web》,但論文所針對(duì)的研究系統(tǒng),只利用網(wǎng)頁(yè)標(biāo)簽中的title,抓取中英文一一對(duì)照的兩個(gè)網(wǎng)頁(yè),進(jìn)行雙語(yǔ)語(yǔ)料庫(kù)自動(dòng)積累,而沒(méi)有繼續(xù)利用網(wǎng)頁(yè)對(duì)的其它特征點(diǎn),以及沒(méi)有抓取互聯(lián)網(wǎng)海量的中英文在同一網(wǎng)頁(yè)的這一類(lèi)網(wǎng)頁(yè)網(wǎng)頁(yè)信息。
通常,用戶(hù)會(huì)在網(wǎng)頁(yè)上搜索一個(gè)單詞或短語(yǔ)已有的對(duì)應(yīng)翻譯,可以使用像百度、GOOGLE之類(lèi)的通用搜索引擎。但這些搜索引擎并不是專(zhuān)為輔助翻譯而設(shè)計(jì)的,對(duì)用戶(hù)的搜索技能有較高要求,否則會(huì)給出成千上萬(wàn)的信息;由于信息量巨大,從而導(dǎo)致用戶(hù)迷失在信息海洋中,無(wú)法快速獲得自己真正需要的結(jié)果。
在現(xiàn)階段,沒(méi)有一種很好的方法解決上面提到的問(wèn)題。用戶(hù)也只能通過(guò)最原始的查字典的方式進(jìn)行閱讀、寫(xiě)作,對(duì)于一些不懂外文的人群幾乎是無(wú)法完成的工作。
經(jīng)《湖北省科技信息研究院查新檢索中心》(國(guó)家一級(jí)科技查新咨詢(xún)單位)檢索,結(jié)論是委托查新內(nèi)容是一種翻譯搜索引擎,它通過(guò)搜索引擎在檢索結(jié)果中給出多條來(lái)自WEB的翻譯匹配語(yǔ)句,并同時(shí)給出相應(yīng)的鏈接的功能,所檢國(guó)內(nèi)外文獻(xiàn)中未涉及。
發(fā)明內(nèi)容
本發(fā)明的目的就是克服現(xiàn)有技術(shù)存在問(wèn)題和不足,提出一種行之有效的解決方案,即提供一種輔助翻譯搜索引擎系統(tǒng)及其方法。
本發(fā)明的目的是這樣實(shí)現(xiàn)的通過(guò)網(wǎng)絡(luò)機(jī)器人不斷地從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)存入數(shù)據(jù)庫(kù),對(duì)抓取的網(wǎng)頁(yè)建立索引,并提取與識(shí)別,分析過(guò)濾,對(duì)可能存在的雙語(yǔ)對(duì)照內(nèi)容匹配驗(yàn)證,保留完全對(duì)照的雙語(yǔ)資料,連同該語(yǔ)料的出處URL,存入數(shù)據(jù)庫(kù)。再對(duì)數(shù)據(jù)庫(kù)中的雙語(yǔ)資料建立索引,由此積累的語(yǔ)料庫(kù)可被用戶(hù)檢索,當(dāng)用戶(hù)輸入一個(gè)關(guān)鍵詞或句子時(shí),快速響應(yīng)用戶(hù)的請(qǐng)求,返回與用戶(hù)查詢(xún)關(guān)鍵詞或句子相同或相似的參考例句,供用戶(hù)參考。同時(shí),還顯示這些參考雙語(yǔ)例句的出處URL與網(wǎng)頁(yè)標(biāo)題,供用戶(hù)點(diǎn)擊進(jìn)入相應(yīng)的網(wǎng)頁(yè)以獲得更多的信息。
具體地說(shuō),本發(fā)明包括系統(tǒng)和方法兩部分
1、系統(tǒng)如圖1,本系統(tǒng)包括互聯(lián)網(wǎng)A、服務(wù)器B、無(wú)線網(wǎng)絡(luò)連接C、Internet網(wǎng)絡(luò)連接D、移動(dòng)通信設(shè)備客戶(hù)端E、桌面電腦客戶(hù)端或?yàn)g覽器F、移動(dòng)用戶(hù)G、電腦用戶(hù)H;一路,與互聯(lián)網(wǎng)A連通的服務(wù)器B、無(wú)線網(wǎng)絡(luò)連接C、移動(dòng)通信設(shè)備客戶(hù)端E、移動(dòng)用戶(hù)G依次連通;另一路,與互聯(lián)網(wǎng)A連通的服務(wù)器B、Internet網(wǎng)絡(luò)連接D、桌面電腦客戶(hù)端或?yàn)g覽器F、電腦用戶(hù)H依次連通;所述的服務(wù)器B包括依次連通的翻譯搜索引擎服務(wù)器B1,數(shù)據(jù)庫(kù)服務(wù)器B2,檢索服務(wù)器B3;其中翻譯搜索引擎服務(wù)器B1包括網(wǎng)絡(luò)機(jī)器人模塊B1.1、網(wǎng)頁(yè)索引模塊B1.2網(wǎng)頁(yè)識(shí)別和預(yù)處理模塊B1.3、分句匹配模塊B1.4;其中數(shù)據(jù)庫(kù)服務(wù)器B2包括源信息庫(kù)B2.1、網(wǎng)頁(yè)索引庫(kù)B2.2、雙語(yǔ)語(yǔ)料庫(kù)B2.3;其中檢索服務(wù)器B3包括索引模塊B3.1、檢索模塊B3.2。
所述的網(wǎng)絡(luò)機(jī)器人模塊B1.1,即一種將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)信息抓取下來(lái),錄入到源信息庫(kù)B2.1中的系統(tǒng)模塊;所述的網(wǎng)頁(yè)是指一切存在于互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)據(jù)信息,如,html、XML等各種類(lèi)型網(wǎng)頁(yè);所述的網(wǎng)頁(yè)索引模塊B1.2,即一種對(duì)保存在源信息庫(kù)B2.1中的網(wǎng)頁(yè)信息進(jìn)行分析,建立有助于網(wǎng)頁(yè)識(shí)別的索引,錄入到網(wǎng)頁(yè)索引庫(kù)B2.2中的系統(tǒng)模塊;所述的網(wǎng)頁(yè)識(shí)別和預(yù)處理模塊B1.3,即一種從網(wǎng)頁(yè)索引庫(kù)B2.2中尋找含有雙語(yǔ)信息的單個(gè)網(wǎng)頁(yè),或者尋找可能存在第二語(yǔ)言版本對(duì)照的純第一語(yǔ)言版本網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)索引條件找出最匹配的第二語(yǔ)言版本對(duì)照的網(wǎng)頁(yè),形成雙語(yǔ)網(wǎng)頁(yè)對(duì),然后,對(duì)單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì)進(jìn)行噪音凈化過(guò)濾,除去網(wǎng)頁(yè)中的無(wú)關(guān)信息,提取可能存在雙語(yǔ)翻譯對(duì)照網(wǎng)頁(yè)內(nèi)容的系統(tǒng)模塊;所述的分句匹配模塊B1.4,即一種對(duì)網(wǎng)頁(yè)識(shí)別和預(yù)處理模塊B1.3提取的網(wǎng)頁(yè)信息的內(nèi)容,用分句匹配算法,分成對(duì)應(yīng)的雙語(yǔ)句對(duì),連同URL和網(wǎng)頁(yè)標(biāo)題一起錄入到雙語(yǔ)語(yǔ)料庫(kù)B2.3中的系統(tǒng)模塊;所述的源信息庫(kù)B2.1,即一種存儲(chǔ)從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù);
所述的網(wǎng)頁(yè)索引庫(kù)B2.2,即一種存儲(chǔ)有助于網(wǎng)頁(yè)識(shí)別與處理的索引及網(wǎng)頁(yè)文本的數(shù)據(jù)庫(kù);所述的雙語(yǔ)語(yǔ)料庫(kù)B2.3,即一種存儲(chǔ)可以提供輔助翻譯的雙語(yǔ)對(duì)照信息的數(shù)據(jù)庫(kù);上述的三個(gè)數(shù)據(jù)庫(kù)B2.1、B2.2、B2.3,所采用的數(shù)據(jù)庫(kù)即一般的通用數(shù)據(jù)庫(kù),如MySQL,SQL Server,Oracle等;所述的索引模塊B3.1,即一種對(duì)匹配入庫(kù)后的雙語(yǔ)句對(duì)建立索引的系統(tǒng)模塊;所述的檢索模塊B3.2,即一種用戶(hù)通過(guò)各種客戶(hù)端向服務(wù)器B提交想要翻譯的語(yǔ)句,服務(wù)器B將它處理,將相近的中英文結(jié)果,以及URL(網(wǎng)頁(yè)地址)出去返回給客戶(hù)端界面上的系統(tǒng)模塊。
2、方法如圖2,本方法是一種實(shí)現(xiàn)輔助翻譯搜索引擎的方法,它采用如下的步驟①網(wǎng)絡(luò)機(jī)器人自動(dòng)抓取網(wǎng)頁(yè)存入源信息庫(kù)1;②利用網(wǎng)頁(yè)索引模塊建立網(wǎng)頁(yè)索引庫(kù)2;③利用網(wǎng)頁(yè)識(shí)別與預(yù)處理模塊在網(wǎng)頁(yè)索引庫(kù)中找出單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì),并進(jìn)行網(wǎng)頁(yè)預(yù)處理3;④進(jìn)行分句匹配處理4;⑤存入雙語(yǔ)預(yù)料庫(kù)5;⑥對(duì)匹配入庫(kù)后的雙語(yǔ)句對(duì)建立索引6;⑦響應(yīng)用戶(hù)請(qǐng)求,快速檢索出相近的雙語(yǔ)結(jié)果及其出處URL7;⑧在各種客戶(hù)端顯示相近的雙語(yǔ)結(jié)果及其出處URL8。
所述的步驟①網(wǎng)絡(luò)機(jī)器人自動(dòng)抓取網(wǎng)頁(yè)存入源信息庫(kù)1,即利用運(yùn)行在服務(wù)器B端的網(wǎng)絡(luò)機(jī)器人不斷的從互聯(lián)網(wǎng)A上抓取網(wǎng)頁(yè)信息,將抓取的信息與該網(wǎng)頁(yè)的URL存入到運(yùn)行在服務(wù)器B上的數(shù)據(jù)庫(kù)中;所述的步驟②利用網(wǎng)頁(yè)索引模塊建立網(wǎng)頁(yè)索引庫(kù)2,即讀取源信息庫(kù)B2.1中的網(wǎng)頁(yè)信息,利用服務(wù)器B中的網(wǎng)頁(yè)索引模塊B1.2建立有助于網(wǎng)頁(yè)識(shí)別和預(yù)處理的網(wǎng)頁(yè)索引庫(kù)B2.2;所述的步驟③利用網(wǎng)頁(yè)識(shí)別與預(yù)處理模塊在網(wǎng)頁(yè)索引庫(kù)中找出單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì),并進(jìn)行網(wǎng)頁(yè)預(yù)處理3,即從網(wǎng)頁(yè)索引庫(kù)B2.2中讀取含有雙語(yǔ)信息的單個(gè)網(wǎng)頁(yè),或者讀取可能存在第二語(yǔ)言版本對(duì)照的純第一語(yǔ)言版本網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)索引條件找出最匹配的第二語(yǔ)言版本對(duì)照的網(wǎng)頁(yè),形成雙語(yǔ)網(wǎng)頁(yè)對(duì),然后,對(duì)單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì)進(jìn)行噪音凈化過(guò)濾,除去網(wǎng)頁(yè)中的無(wú)關(guān)信息,提取可能存在雙語(yǔ)翻譯對(duì)照的網(wǎng)頁(yè)信息內(nèi)容;所述的步驟④進(jìn)行分句匹配處理4,即對(duì)網(wǎng)頁(yè)信息進(jìn)行識(shí)別和預(yù)處理完成的網(wǎng)頁(yè)信息內(nèi)容用分句匹配算法,分成對(duì)應(yīng)的雙語(yǔ)句對(duì);所述的步驟⑤存入雙語(yǔ)語(yǔ)料庫(kù)5,即將分句匹配處理完成的雙語(yǔ)句對(duì),存入運(yùn)行在服務(wù)器B端的雙語(yǔ)語(yǔ)料庫(kù)B2.3中;所述的步驟⑥對(duì)匹配入庫(kù)后的雙語(yǔ)句對(duì)建立索引6,即將雙語(yǔ)語(yǔ)料庫(kù)B2.3中的雙語(yǔ)對(duì)照信息建立索引,以加快查詢(xún)的響應(yīng)速度;所述的步驟⑦響應(yīng)用戶(hù)請(qǐng)求,快速檢索出相近的雙語(yǔ)結(jié)果及其出處URL7,即對(duì)用戶(hù)輸入的查詢(xún)語(yǔ)句,在建立的索引中檢索,查詢(xún)出與用戶(hù)要求相同或相近的雙語(yǔ)結(jié)果,并獲得其出處URL;所述的步驟⑧在各種客戶(hù)端顯示相近的雙語(yǔ)結(jié)果及其出處URL8,即將查詢(xún)的雙語(yǔ)結(jié)果及其相應(yīng)的互聯(lián)網(wǎng)地址返回到用戶(hù)使用的客戶(hù)端上。
本發(fā)明工作原理參閱圖2,本發(fā)明是通過(guò)在服務(wù)器B端運(yùn)行網(wǎng)絡(luò)機(jī)器人程序,將互聯(lián)網(wǎng)A上的網(wǎng)頁(yè)信息資源抓取下來(lái),存入源信息庫(kù)B2.1,建立網(wǎng)頁(yè)索引,在網(wǎng)頁(yè)索引庫(kù)B2.2中找出單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì),然后將經(jīng)這些步驟處理過(guò)的網(wǎng)頁(yè)進(jìn)行噪音凈化和過(guò)濾,將凈化后對(duì)應(yīng)的雙語(yǔ)網(wǎng)頁(yè)信息,進(jìn)行分句匹配處理4,分成對(duì)應(yīng)的雙語(yǔ)句對(duì),錄入雙語(yǔ)語(yǔ)料庫(kù)B2.3。在雙語(yǔ)語(yǔ)料庫(kù)B2.3中,將匹配入庫(kù)后的雙語(yǔ)句對(duì)建立索引以方便檢索。用戶(hù)可以通過(guò)各種客戶(hù)端,如移動(dòng)通信設(shè)備客戶(hù)端E,桌面電腦客戶(hù)端或?yàn)g覽器F,向服務(wù)器B提交想要翻譯的語(yǔ)句,找出相匹配的結(jié)果并將其通過(guò)用戶(hù)界面接口顯示。在顯示頁(yè)面上,將中文、英文及其在互聯(lián)網(wǎng)上的出處URL及對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題同時(shí)顯示在一起,形成集中對(duì)照的形式。
本發(fā)明具有以下優(yōu)點(diǎn)和積極效果
①本發(fā)明是利用網(wǎng)絡(luò)機(jī)器人抓取互聯(lián)網(wǎng)A上的網(wǎng)頁(yè)信息,對(duì)其進(jìn)行凈化過(guò)濾,提取其中存在的雙語(yǔ)網(wǎng)頁(yè)信息,并對(duì)其進(jìn)行匹配驗(yàn)證,從而獲取完全正確對(duì)照的雙語(yǔ)資料,以提供給用戶(hù)翻譯查詢(xún)。其優(yōu)點(diǎn)在于實(shí)現(xiàn)雙語(yǔ)語(yǔ)料庫(kù)B2.3積累的全自動(dòng)化,有別于一般的人工添加語(yǔ)料庫(kù)的方式,從而突破了人工添加語(yǔ)料庫(kù)數(shù)量小的限制,真正實(shí)現(xiàn)了雙語(yǔ)語(yǔ)料庫(kù)的海量積累。此外,用戶(hù)檢索時(shí)可以根據(jù)翻譯的出處URL點(diǎn)擊進(jìn)入相應(yīng)的翻譯信息網(wǎng)頁(yè)。
②本發(fā)明還能產(chǎn)生積極的效果。如,這種積累雙語(yǔ)語(yǔ)料庫(kù)打破了傳統(tǒng)手工添加語(yǔ)料庫(kù)模式,帶來(lái)了技術(shù)上的革新。此外,積累的雙語(yǔ)語(yǔ)料庫(kù)可以有多種用途,而不僅僅應(yīng)用于網(wǎng)絡(luò)搜索翻譯引擎,還可用于語(yǔ)言對(duì)比研究,翻譯轉(zhuǎn)換,翻譯文體和自動(dòng)翻譯研究,雙語(yǔ)詞典編纂和翻譯教學(xué)等方面。
圖1-本發(fā)明的系統(tǒng)組成示意圖;圖2-本發(fā)明的方法流程圖;圖3-互聯(lián)網(wǎng)、網(wǎng)絡(luò)機(jī)器人模塊與源信息庫(kù)的連通圖;圖4-網(wǎng)頁(yè)識(shí)別和預(yù)處理模塊具體實(shí)施流程圖;圖5-網(wǎng)頁(yè)索引表樣本圖;圖6-分句匹配模塊具體實(shí)施流程圖;圖7-用戶(hù)頁(yè)面生成流程圖。
其中A-互聯(lián)網(wǎng)。
B-服務(wù)器,包括B1-翻譯搜索引擎服務(wù)器,B1.1-網(wǎng)絡(luò)機(jī)器人模塊,B1.2-網(wǎng)頁(yè)索引模塊,B1.3-網(wǎng)頁(yè)識(shí)別和預(yù)處理模塊,B1.4-分句匹配模塊;B2-數(shù)據(jù)庫(kù)服務(wù)器,B2.1-源信息庫(kù),
B2.2-網(wǎng)頁(yè)索引庫(kù),B2.3-雙語(yǔ)語(yǔ)料庫(kù);B3-檢索服務(wù)器,B3.1-索引模塊,B3.2-檢索模塊。
C-無(wú)線網(wǎng)絡(luò)連接。
D-Internet網(wǎng)絡(luò)連接。
E-移動(dòng)通信設(shè)備客戶(hù)端。
F-桌面電腦客戶(hù)端或?yàn)g覽器。
G-移動(dòng)用戶(hù)。
H-電腦用戶(hù)。
1-網(wǎng)絡(luò)機(jī)器人自動(dòng)抓取網(wǎng)頁(yè)存入源信息庫(kù);2-利用網(wǎng)頁(yè)索引模塊建立網(wǎng)頁(yè)索引庫(kù);3-利用網(wǎng)頁(yè)識(shí)別與預(yù)處理模塊在網(wǎng)頁(yè)索引庫(kù)中找出單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì),并進(jìn)行網(wǎng)頁(yè)預(yù)處理;4-進(jìn)行分句匹配處理;5-存入雙語(yǔ)預(yù)料庫(kù);6-對(duì)匹配入庫(kù)后的雙語(yǔ)句對(duì)建立索引;7-響應(yīng)用戶(hù)請(qǐng)求,快速檢索出相近的雙語(yǔ)結(jié)果及其出處URL;8-在各種客戶(hù)端顯示相近的雙語(yǔ)結(jié)果及其出處URL;10-從網(wǎng)頁(yè)索引庫(kù)讀取網(wǎng)頁(yè);11-網(wǎng)頁(yè)分類(lèi)識(shí)別;12-凈化,12.1-初步過(guò)濾,12.2-完全過(guò)濾,12.3-建樹(shù),12.4-分析樹(shù)獲取結(jié)果;13-通過(guò)網(wǎng)頁(yè)索引條件查找對(duì)應(yīng)的中文網(wǎng)頁(yè);14-比較網(wǎng)頁(yè)對(duì);15-分析網(wǎng)頁(yè)對(duì)獲取結(jié)果;16-提交給分句匹配模塊處理;17-網(wǎng)頁(yè)索引表樣本;
18-中文文章段落;19-英文文章段落;20-句子分割單元;21-多個(gè)中文句子(排隊(duì));22-多個(gè)英文句子(排隊(duì));23-判斷句子匹配單元計(jì)算中英文句對(duì)的匹配評(píng)價(jià)值;24-V≥閥值;25-在用戶(hù)界面中提交翻譯內(nèi)容;26-檢索;27-返回對(duì)應(yīng)的中文,英文,出處URL顯示在用戶(hù)界面上。
具體實(shí)施例方式
下面對(duì)本方法的有關(guān)步驟及其實(shí)際應(yīng)用進(jìn)一步說(shuō)明。
為了說(shuō)明方便,這里的雙語(yǔ)采用中文和英文這兩種語(yǔ)言對(duì)照,但本發(fā)明并不只限于中英文這兩種語(yǔ)言。
所述的步驟①網(wǎng)絡(luò)機(jī)器人自動(dòng)抓取網(wǎng)頁(yè)存入源信息庫(kù)1,(參閱圖3)即通過(guò)給網(wǎng)絡(luò)機(jī)器人一個(gè)互聯(lián)網(wǎng)地址來(lái)實(shí)現(xiàn)自動(dòng)抓取這個(gè)互聯(lián)網(wǎng)地址對(duì)應(yīng)的單個(gè)網(wǎng)頁(yè)信息及此網(wǎng)頁(yè)信息中包含的其它鏈接的相應(yīng)內(nèi)容,將抓取的網(wǎng)頁(yè)信息及其對(duì)應(yīng)的互聯(lián)網(wǎng)地址存入源信息庫(kù)B2.1;例如給網(wǎng)絡(luò)機(jī)器人一個(gè)互聯(lián)網(wǎng)地址http://www.51education.net/Article_Show.asp?ArticleID=2402,在這個(gè)地址頁(yè)面中有很多文字對(duì)應(yīng)的鏈接,那么,網(wǎng)絡(luò)機(jī)器人將會(huì)抓取這個(gè)互聯(lián)網(wǎng)地址對(duì)應(yīng)的頁(yè)面上所有內(nèi)容,同時(shí)也會(huì)把這個(gè)頁(yè)面上包含的所有鏈接對(duì)應(yīng)的內(nèi)容抓取下來(lái),即此互聯(lián)網(wǎng)地址對(duì)應(yīng)的整個(gè)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容,并將抓取的內(nèi)容和互聯(lián)網(wǎng)地址同時(shí)保存在源信息庫(kù)B2.1中。
所述的步驟②利用網(wǎng)頁(yè)索引模塊建立網(wǎng)頁(yè)索引庫(kù)2,即將網(wǎng)絡(luò)機(jī)器人抓取的網(wǎng)頁(yè)信息進(jìn)行處理,建立該網(wǎng)頁(yè)的相關(guān)特征信息(URL、域、文件名、網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)類(lèi)型等)的索引。網(wǎng)頁(yè)索引模塊B1.2是負(fù)責(zé)提取網(wǎng)頁(yè)超鏈接URL,分析網(wǎng)頁(yè)的文本語(yǔ)言類(lèi)型,分析網(wǎng)頁(yè)的其他特征值,確定各索引項(xiàng)的模塊;
例如網(wǎng)絡(luò)機(jī)器人抓取了URL為http://www.snda.com/en/about/overview.htm的網(wǎng)頁(yè)信息后,網(wǎng)頁(yè)索引模塊將該網(wǎng)頁(yè)建立對(duì)應(yīng)索引,如圖5所示,存入網(wǎng)頁(yè)索引庫(kù)B2.2。
所述的步驟③利用網(wǎng)頁(yè)識(shí)別和預(yù)處理模塊在網(wǎng)頁(yè)索引庫(kù)中找出單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì),并進(jìn)行網(wǎng)頁(yè)預(yù)處理3(參閱圖4),即從網(wǎng)頁(yè)索引庫(kù)B2.2中讀取網(wǎng)頁(yè),根據(jù)網(wǎng)頁(yè)索引庫(kù)B2.2記錄的網(wǎng)頁(yè)類(lèi)型字段進(jìn)行網(wǎng)頁(yè)分類(lèi)識(shí)別;如果該網(wǎng)頁(yè)屬于中英文對(duì)照在同一頁(yè)的類(lèi)型,則進(jìn)入凈化12處理;凈化12具體流程如下1、首先對(duì)網(wǎng)頁(yè)信息初步過(guò)濾12.1,去掉網(wǎng)頁(yè)中可能存在的無(wú)用信息,將初步過(guò)濾后的內(nèi)容存入一個(gè)臨時(shí)文件中;2、對(duì)初步過(guò)濾后得到的臨時(shí)文件進(jìn)行完全過(guò)濾12.2,僅僅保留可能存在雙語(yǔ)對(duì)照的段落;3、對(duì)識(shí)別完成后的雙語(yǔ)對(duì)照段落建立XML(擴(kuò)展標(biāo)記語(yǔ)言)樹(shù);4、分析XML樹(shù),過(guò)濾掉所有冗余信息,僅僅只保留雙語(yǔ)對(duì)照的網(wǎng)頁(yè);例如互聯(lián)網(wǎng)地址http://www.51education.net/Article_Show.asp?ArticleID=240的一個(gè)網(wǎng)頁(yè),經(jīng)過(guò)初步過(guò)濾12.1,除去此網(wǎng)頁(yè)中“英文歌詞翻譯”對(duì)應(yīng)的鏈接、“免費(fèi)QQ送”對(duì)應(yīng)的圖片等,僅僅只保留“學(xué)習(xí)篇study(中英對(duì)照)”的正文內(nèi)容。再經(jīng)過(guò)完全過(guò)濾12.2,除去正文內(nèi)容中的“作者無(wú)憂(yōu)教育”、“轉(zhuǎn)貼自www.51education.org”等無(wú)用信息。再次對(duì)此正文網(wǎng)頁(yè)內(nèi)容建XML樹(shù),分析XML樹(shù),過(guò)濾掉冗余信息,僅僅只保留雙語(yǔ)對(duì)照的網(wǎng)頁(yè),即“學(xué)問(wèn)淺薄,如履薄冰。A little learning is a dangerous thing.”、“事物的美存在于仔細(xì)觀察者心目中。Beauty in things exists in the mind which contemplates them.”等。
如果該網(wǎng)頁(yè)屬于純英文網(wǎng)頁(yè)類(lèi)型,則進(jìn)入流程依次為通過(guò)網(wǎng)頁(yè)索引條件查找對(duì)應(yīng)的中文網(wǎng)頁(yè),比較網(wǎng)頁(yè)對(duì),分析網(wǎng)頁(yè)對(duì)獲取結(jié)果的預(yù)處理。其中,通過(guò)網(wǎng)頁(yè)索引條件查找對(duì)應(yīng)的中文網(wǎng)頁(yè),即根據(jù)英文網(wǎng)頁(yè)的URL,查找在同一個(gè)域,與英文網(wǎng)頁(yè)的文件名相同或相似的中文網(wǎng)頁(yè)。
例如,“盛大簡(jiǎn)介”的純英文網(wǎng)頁(yè)在網(wǎng)頁(yè)索引庫(kù)B2.2中的索引表如圖5所示,URL為http://www.snda.com/en/about/overview.htm,它的域?yàn)閣ww.snda.com,文件名為overview.htm,通過(guò)它的域,找到對(duì)應(yīng)的文件名為overview.htm的中文網(wǎng)頁(yè)其URL為http://www.snda.com/cs/about/overview.htm所述的步驟④進(jìn)行分句匹配處理4具體流程如下(參閱圖6)1、對(duì)凈化和預(yù)處理后的網(wǎng)頁(yè)(一段中文對(duì)應(yīng)一段英文)進(jìn)行段落分割,分割成為多個(gè)句子單元;例如http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467這個(gè)互聯(lián)網(wǎng)地址中有下面的中英對(duì)照段落中文段落為時(shí)間是什么?是一種像金錢(qián)一樣可以節(jié)省、的花用或浪費(fèi)的東西嗎?或者它像天氣那樣,是一種我們無(wú)法掌握的東西?全世界的時(shí)間是不是都一樣呢?你會(huì)說(shuō),那是一個(gè)簡(jiǎn)單的問(wèn)題,不管你去那里,一分鐘都是60秒,一小時(shí)是60分鐘,一天是24個(gè)小時(shí),以此類(lèi)推。嗯,也許是這樣吧。但是在美國(guó),時(shí)間的意義不只是如此而已。美國(guó)人視時(shí)間為一項(xiàng)重要的資源,也許這就是為什么他們喜歡說(shuō)「時(shí)間就是金錢(qián)」的緣故。
英文段落為What is time?Is it a thing to be saved or spent or wasted,like money?Or is it something we have no control over,like the weather?Is time the same all over the world?That’s an easy question,you say.Wherever you go,a minute is 60 seconds,an hour is 60 minutes,a day is24 hours,and so forth.Well,maybe.But in America,time is more thanthat.Americans see time as a valuable resource.Maybe that’s why theyare fond of the expression,″Time is money.″經(jīng)過(guò)句子分割后,上面中文段落分成7個(gè)中文句子,為時(shí)間是什么?是一種像金錢(qián)一樣可以節(jié)省、的花用或浪費(fèi)的東西嗎?或者它像天氣那樣,是一種我們無(wú)法掌握的東西?全世界的時(shí)間是不是都一樣呢?你會(huì)說(shuō),那是一個(gè)簡(jiǎn)單的問(wèn)題,不管你去那里,一分鐘都是60秒,一小時(shí)是60分鐘,一天是24個(gè)小時(shí),以此類(lèi)推。
嗯,也許是這樣吧。
但是在美國(guó),時(shí)間的意義不只是如此而已。美國(guó)人視時(shí)間為一項(xiàng)重要的資源,也許這就是為什么他們喜歡說(shuō)「時(shí)間就是金錢(qián)」的緣故。
經(jīng)過(guò)句子分割后,上面英文段落分成10個(gè)英文句子,為What is time?Is it a thing to be saved or spent or wasted,like money?Or is it something we have no control over,like the weather?Is time the same all over the world?That’s an easy question,you say.
Wherever you go,a minute is 60 seconds,an hour is 60 minutes,a dayis 24 hours,and so forth.
Well,maybe.
But in America,time is more than that.
Americans see time as a valuable resource.
Maybe that’s why they are fond of the expression,″Time is money.″2、對(duì)上面分割后的中文句子和英文句子保持原有的順序,調(diào)用匹配驗(yàn)證算法,判斷哪些句對(duì)符合要求的匹配率。這里采用七種情況來(lái)對(duì)句對(duì)(句對(duì)即X句中文對(duì)應(yīng)Y句英文,也就是說(shuō)這X個(gè)中文句子和這Y個(gè)英文句子是對(duì)應(yīng)的,所表達(dá)的意思是相同的)進(jìn)行匹配。這七種情況分別是(中文句子數(shù)對(duì)英文句子數(shù))1對(duì)0,0對(duì)1,1對(duì)1,1對(duì)2,2對(duì)1,1對(duì)3,3對(duì)1,則可以獲得七個(gè)評(píng)價(jià)值;例如對(duì)第二步分割后的句子計(jì)算匹配率(下面例子中的“第0句”即沒(méi)有句子)中文第1句對(duì)英文第0句的匹配率為0.0中文第0句對(duì)英文第1句的匹配率為0.0中文第1句對(duì)英文第1句的匹配率為0.15384615384615385中文第1句對(duì)英文第1、2句的匹配率為0.007692307692307693中文第1、2句對(duì)英文第1句的匹配率為0.010636499479268863中文第1句對(duì)英文第1、2、3句的匹配率為0.0025380710659898475中文第1、2、3句對(duì)英文第1句的匹配率為0.00654321287503227有匹配率可知中文第1句對(duì)英文第1句得匹配率最高,因此將其組成一個(gè)句對(duì),作為一條記錄保存。計(jì)算出后,去掉中文第1句和英文第1句,再以相同的方法計(jì)算上面七種情況的匹配率,即可獲得全部雙語(yǔ)匹配的句對(duì)。
3、將V(評(píng)價(jià)值)最高的取出,如果這個(gè)最高評(píng)價(jià)值滿(mǎn)足閥值(所謂閥值是指我們通過(guò)大量統(tǒng)計(jì)得到的一個(gè)數(shù)字,凡是評(píng)價(jià)值比這個(gè)數(shù)字大的句子對(duì),我們就會(huì)認(rèn)定它們是對(duì)應(yīng)的,否則不對(duì)應(yīng),經(jīng)過(guò)大量統(tǒng)計(jì)得出閥值為0.02401435932272006),則判定它們是一個(gè)符合的句對(duì)。讀到雙語(yǔ)對(duì)照但不一定完全意思匹配的句對(duì)時(shí),驗(yàn)證其匹配率;所述的步驟⑤存入雙語(yǔ)語(yǔ)料庫(kù)5,即將分句匹配處理后的中英句對(duì)存入運(yùn)行在服務(wù)器B上的雙語(yǔ)語(yǔ)料庫(kù)B2.3中;例如經(jīng)過(guò)分句匹配驗(yàn)證后,在雙語(yǔ)語(yǔ)料庫(kù)B2.3中存在記錄一http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467時(shí)間是什么?What is time?記錄二http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467是一種像金錢(qián)一樣可以節(jié)省、的花用或浪費(fèi)的東西嗎?Is it a thing to be saved or spent or wasted,like money?記錄三http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467或者它像天氣那樣,是一種我們無(wú)法掌握的東西?Or is it something we have no control over,like the weather?記錄四http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467全世界的時(shí)間是不是都一樣呢?Is time the same all over the world?記錄五http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467你會(huì)說(shuō),那是一個(gè)簡(jiǎn)單的問(wèn)題,不管你去那里,一分鐘都是60秒,一小時(shí)是60分鐘,一天是24個(gè)小時(shí),以此類(lèi)推。
That’s an easy question,you say.Wherever you go,a minute is 60seconds,an hour is 60 minutes,a day is 24 hours,and so forth.
記錄六http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467嗯,也許是這樣吧。
Well,maybe.
記錄七h(yuǎn)ttp://www.oxford.com.cn/Article_Show.asp?ArticleID=1467但是在美國(guó),時(shí)間的意義不只是如此而已。
Americans see time as a valuable resource.
記錄八http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467美國(guó)人視時(shí)間為一項(xiàng)重要的資源,也許這就是為什么他們喜歡說(shuō)「時(shí)間就是金錢(qián)」的緣故。
Maybe that’s why they are fond of the expression,″Time is money.″所述的步驟⑥對(duì)雙語(yǔ)語(yǔ)料庫(kù)建立索引6,即對(duì)雙語(yǔ)語(yǔ)料庫(kù)B2.3中的記錄建立索引,以加快檢索查詢(xún)的速度;所述的步驟⑦響應(yīng)用戶(hù)請(qǐng)求,快速檢索出相近的雙語(yǔ)結(jié)果及其出處URL7,即通過(guò)用戶(hù)通過(guò)本系統(tǒng)提供的移動(dòng)通信設(shè)備客戶(hù)端E和桌面電腦客戶(hù)端F輸入想要查詢(xún)的句子或單詞,本系統(tǒng)獲得用戶(hù)的句子或單詞后在索引文件中查詢(xún),檢索出相同或相近的雙語(yǔ)結(jié)果,并獲得其出處URL;例如用戶(hù)輸入“全世界的時(shí)間是不是都一樣呢”,進(jìn)行翻譯查詢(xún),則返回步驟⑤例子中記錄四的結(jié)果http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467全世界的時(shí)間是不是都一樣呢?Is time the same all over the world?例如用戶(hù)輸入“也許是這樣”,進(jìn)行翻譯查詢(xún),則返回步驟⑤例子中記錄六的結(jié)果
http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467嗯,也許是這樣吧。
Well,maybe.
所述的步驟⑧在各種客戶(hù)端顯示相近的雙語(yǔ)結(jié)果及其出處URL8,即在服務(wù)器B端檢索出了與用戶(hù)輸入相同或相近的雙語(yǔ)句對(duì),在本系統(tǒng)提供的移動(dòng)通信設(shè)備客戶(hù)端E和桌面電腦客戶(hù)端F集中顯示出雙語(yǔ)句對(duì)及雙語(yǔ)句對(duì)的出處URL。顯示結(jié)果還包括網(wǎng)頁(yè)標(biāo)題、及出處對(duì)應(yīng)的超鏈接,點(diǎn)擊雙語(yǔ)結(jié)果或出處URL,都能鏈接到該雙語(yǔ)結(jié)果對(duì)應(yīng)的互聯(lián)網(wǎng)網(wǎng)頁(yè)。
例如用戶(hù)輸入“也許是這樣”,查詢(xún)后在頁(yè)面顯示的結(jié)果為嗯,也許是這樣吧。
Well,maybe.
http://www.oxford.com.cn/Article_Show.asp?ArticleID=1467點(diǎn)擊上面的超鏈接,能打開(kāi)到該雙語(yǔ)結(jié)果對(duì)應(yīng)的互聯(lián)網(wǎng)網(wǎng)頁(yè)。
權(quán)利要求
1.一種輔助翻譯搜索引擎系統(tǒng),包括互聯(lián)網(wǎng)(A)、服務(wù)器(B)、無(wú)線網(wǎng)絡(luò)連接(C)、Internet網(wǎng)絡(luò)連接(D)、移動(dòng)通信設(shè)備客戶(hù)端(E)、桌面電腦客戶(hù)端或?yàn)g覽器(F)、移動(dòng)用戶(hù)(G)、電腦用戶(hù)(H);一路,與互聯(lián)網(wǎng)(A)連通的服務(wù)器(B)、無(wú)線網(wǎng)絡(luò)連接(C)、移動(dòng)通信設(shè)備客戶(hù)端(E)、移動(dòng)用戶(hù)(G)依次連通;另一路,與互聯(lián)網(wǎng)A連通的服務(wù)器(B)、Internet網(wǎng)絡(luò)連接(D)、桌面電腦客戶(hù)端或?yàn)g覽器(F)、電腦用戶(hù)(H)依次連通;其特征在于所述的服務(wù)器(B)包括依次連通的翻譯搜索引擎服務(wù)器(B1),數(shù)據(jù)庫(kù)服務(wù)器(B2),檢索服務(wù)器(B3);其中翻譯搜索引擎服務(wù)器(B1)包括網(wǎng)絡(luò)機(jī)器人模塊(B1.1)、網(wǎng)頁(yè)索引模塊(B1.2)網(wǎng)頁(yè)識(shí)別和預(yù)處理模塊(B1.3)、分句匹配模塊(B1.4);其中數(shù)據(jù)庫(kù)服務(wù)器(B2)包括源信息庫(kù)(B2.1)、網(wǎng)頁(yè)索引庫(kù)(B2.2)、雙語(yǔ)語(yǔ)料庫(kù)(B2.3);其中檢索服務(wù)器B3包括索引模塊(B3.1)、檢索模塊(B3.2)。所述的網(wǎng)絡(luò)機(jī)器人模塊(B1.1),即一種將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)信息抓取下來(lái),錄入到源信息庫(kù)(B2.1)中的系統(tǒng)模塊;所述的網(wǎng)頁(yè)索引模塊(B1.2),即一種對(duì)保存在源信息庫(kù)(B2.1)中的網(wǎng)頁(yè)信息進(jìn)行分析,建立有助于網(wǎng)頁(yè)識(shí)別的索引,錄入到網(wǎng)頁(yè)索引庫(kù)(B2.2)中的系統(tǒng)模塊;所述的網(wǎng)頁(yè)識(shí)別和預(yù)處理模塊(B1.3),即一種從網(wǎng)頁(yè)索引庫(kù)(B2.2)中尋找含有雙語(yǔ)信息的單個(gè)網(wǎng)頁(yè),或者尋找可能存在第二語(yǔ)言版本對(duì)照的純第一語(yǔ)言版本網(wǎng)頁(yè),通過(guò)網(wǎng)頁(yè)索引條件找出最匹配的第二語(yǔ)言版本對(duì)照的網(wǎng)頁(yè),形成雙語(yǔ)網(wǎng)頁(yè)對(duì),然后,對(duì)單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì)進(jìn)行噪音凈化過(guò)濾,除去網(wǎng)頁(yè)中的無(wú)關(guān)信息,提取可能存在雙語(yǔ)翻譯對(duì)照網(wǎng)頁(yè)內(nèi)容的系統(tǒng)模塊;所述的分句匹配模塊(B1.4),即一種對(duì)網(wǎng)頁(yè)識(shí)別和預(yù)處理模塊(B1.3)提取的網(wǎng)頁(yè)信息的內(nèi)容,用分句匹配算法,分成對(duì)應(yīng)的雙語(yǔ)句對(duì),連同URL和網(wǎng)頁(yè)標(biāo)題一起錄入到雙語(yǔ)語(yǔ)料庫(kù)(B2.3)中的系統(tǒng)模塊;所述的源信息庫(kù)(B2.1),即一種存儲(chǔ)從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù);所述的網(wǎng)頁(yè)索引庫(kù)(B2.2),即一種存儲(chǔ)有助于網(wǎng)頁(yè)識(shí)別與處理的索引及網(wǎng)頁(yè)文本的數(shù)據(jù)庫(kù);所述的雙語(yǔ)語(yǔ)料庫(kù)(B2.3),即一種存儲(chǔ)可以提供輔助翻譯的雙語(yǔ)對(duì)照信息的數(shù)據(jù)庫(kù);所述的索引模塊(B3.1),即一種對(duì)匹配入庫(kù)后的雙語(yǔ)句對(duì)建立索引的系統(tǒng)模塊;所述的檢索模塊(B3.2),即一種用戶(hù)通過(guò)各種客戶(hù)端向服務(wù)器(B)提交想要翻譯的語(yǔ)句,服務(wù)器(B)將它處理,將相近的中英文結(jié)果,以及網(wǎng)頁(yè)地址返回給客戶(hù)端界面上的系統(tǒng)模塊。
2.一種實(shí)現(xiàn)輔助翻譯搜索引擎的方法,其特征在于采用如下的步驟①網(wǎng)絡(luò)機(jī)器人自動(dòng)抓取網(wǎng)頁(yè)存入源信息庫(kù)(1);②利用網(wǎng)頁(yè)索引模塊建立網(wǎng)頁(yè)索引庫(kù)(2);③利用網(wǎng)頁(yè)識(shí)別與預(yù)處理模塊在網(wǎng)頁(yè)索引庫(kù)中找出單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì),并進(jìn)行網(wǎng)頁(yè)預(yù)處理(3);④進(jìn)行分句匹配處理(4);⑤存入雙語(yǔ)預(yù)料庫(kù)(5);⑥對(duì)匹配入庫(kù)后的雙語(yǔ)句對(duì)建立索引(6);⑦響應(yīng)用戶(hù)請(qǐng)求,快速檢索出相近的雙語(yǔ)結(jié)果及其出處URL(7);⑧在各種客戶(hù)端顯示相近的雙語(yǔ)結(jié)果及其出處URL(8)。
3.按權(quán)利要求2所述的一種實(shí)現(xiàn)輔助翻譯搜索引擎的方法,其特征在于利用網(wǎng)頁(yè)索引模塊建立網(wǎng)頁(yè)索引庫(kù)(2)即將網(wǎng)絡(luò)機(jī)器人抓取的網(wǎng)頁(yè)信息進(jìn)行處理,建立該網(wǎng)頁(yè)的相關(guān)特征信息的索引。
4.按權(quán)利要求2所述的一種實(shí)現(xiàn)輔助翻譯搜索引擎的方法,其特征在于利用網(wǎng)頁(yè)識(shí)別與預(yù)處理模塊在網(wǎng)頁(yè)索引庫(kù)中找出單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì),并進(jìn)行網(wǎng)頁(yè)預(yù)處理(3),即從網(wǎng)頁(yè)索引庫(kù)(B2.2)中讀取網(wǎng)頁(yè),根據(jù)網(wǎng)頁(yè)索引庫(kù)(B2.2)記錄的網(wǎng)頁(yè)類(lèi)型字段進(jìn)行網(wǎng)頁(yè)分類(lèi)識(shí)別,然后,對(duì)單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì)進(jìn)行凈化或預(yù)處理。
5.按權(quán)利要求2所述的一種實(shí)現(xiàn)輔助翻譯搜索引擎的方法,其特征在于進(jìn)行分句匹配處理(4)具體流程如下①對(duì)凈化和預(yù)處理后的網(wǎng)頁(yè)進(jìn)行段落分割,分割成為多個(gè)句子單元;②對(duì)上面分割后的中文句子和英文句子保持原有的順序,調(diào)用匹配驗(yàn)證算法,判斷哪些句對(duì)符合要求的匹配率;③將評(píng)價(jià)值V最高的取出,如果這個(gè)最高評(píng)價(jià)值滿(mǎn)足閥值,則判定它們是一個(gè)符合的句對(duì)。
6.按權(quán)利要求2所述的一種實(shí)現(xiàn)輔助翻譯搜索引擎的方法,其特征在于在各種客戶(hù)端顯示相近的雙語(yǔ)結(jié)果及其出處URL(8),顯示結(jié)果還包括網(wǎng)頁(yè)標(biāo)題、及出處對(duì)應(yīng)的超鏈接,點(diǎn)擊雙語(yǔ)結(jié)果及URL,都能鏈接到該雙語(yǔ)結(jié)果對(duì)應(yīng)的互聯(lián)網(wǎng)網(wǎng)頁(yè)。
全文摘要
本發(fā)明公開(kāi)了一種輔助翻譯搜索引擎系統(tǒng)及其方法;涉及一種互聯(lián)網(wǎng)多語(yǔ)言互譯系統(tǒng)及其方法;其步驟①網(wǎng)絡(luò)機(jī)器人自動(dòng)抓取網(wǎng)頁(yè)存入源信息庫(kù)1;②利用網(wǎng)頁(yè)索引模塊建立網(wǎng)頁(yè)索引庫(kù)2;③利用網(wǎng)頁(yè)識(shí)別與預(yù)處理模塊在網(wǎng)頁(yè)索引庫(kù)中找出單個(gè)網(wǎng)頁(yè)或雙語(yǔ)網(wǎng)頁(yè)對(duì),并進(jìn)行網(wǎng)頁(yè)預(yù)處理3;④進(jìn)行分句匹配處理4;⑤存入雙語(yǔ)預(yù)料庫(kù)5;⑥對(duì)匹配入庫(kù)后的雙語(yǔ)句對(duì)建立索引6;⑦響應(yīng)用戶(hù)請(qǐng)求,快速檢索出相近的雙語(yǔ)結(jié)果及其出處URL7;⑧在各種客戶(hù)端顯示相近的雙語(yǔ)結(jié)果及其出處URL8。本發(fā)明在于實(shí)現(xiàn)雙語(yǔ)語(yǔ)料庫(kù)積累的全自動(dòng)化,應(yīng)用于網(wǎng)絡(luò)搜索翻譯,用戶(hù)檢索時(shí)可以根據(jù)翻譯的出處URL點(diǎn)擊進(jìn)入相應(yīng)的翻譯信息網(wǎng)頁(yè)。
文檔編號(hào)G06F17/30GK1707476SQ200510018660
公開(kāi)日2005年12月14日 申請(qǐng)日期2005年5月6日 優(yōu)先權(quán)日2005年5月6日
發(fā)明者程偉, 陳智賢, 賀方升, 李銀剛, 孫上海, 王滄洪, 余俊, 朱柳嵩, 朱前線 申請(qǐng)人:賀方升