基于郵件信息判定郵件語種的方法
【專利摘要】本發(fā)明公開了基于郵件信息判定郵件語種的方法,包括:分析郵件中所包含的所有類型特征,提取歸屬每類特征的關鍵字;將所述提取的每類特征的關鍵字與映射表中相應的特征項分別進行匹配;確定每類特征的關鍵字所對應的所有語種,并計算每個語種所對應的關鍵字在該特征所有關鍵字中比重,將該比重作為每個語種的分項權重值;對所有類型的特征中相同語種的分項權重值進行求和,得出每個語種的最終權重值;對每個語種的最終權重值進行判定,確定最終唯一語種。本發(fā)明通過對郵件的翻譯語種進行自動識別,使郵件歸類和郵件翻譯任務分發(fā)的過程實現(xiàn)自動化,提高了郵件流轉效率。
【專利說明】基于郵件信息判定郵件語種的方法
【技術領域】
[0001]本發(fā)明屬于計算機【技術領域】,尤其涉及基于郵件信息判定郵件語種的方法。
【背景技術】
[0002]外貿企業(yè)有80%的業(yè)務溝通都是通過郵件來完成的。外語郵件溝通,尤其是英文以外的外語,對于中小型外貿企業(yè)的業(yè)主和初中級外貿員來說都是巨大的障礙。
[0003]目前的郵件的翻譯系統(tǒng)是人為對翻譯內容進行判定翻譯的語種,這種判定方法,使對翻譯訂單的吞吐能力弱,從而降低了整個翻譯系統(tǒng)的翻譯訂單的分配效率,特別是當系統(tǒng)內多語翻譯郵件訂單需求達到一定規(guī)模時,純人工判定郵件語種、翻譯任務分發(fā)導致的效率低下問題尤其嚴重。
【發(fā)明內容】
[0004]有鑒于此,本發(fā)明的目的是提出基于郵件信息判定郵件語種的方法,以解決現(xiàn)有技術中翻譯訂單的吞吐能力弱的問題。為了對披露的實施例的一些方面有一個基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關鍵/重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現(xiàn)一些概念,以此作為后面的詳細說明的序言。
[0005]本發(fā)明公開了基于郵件信息判定郵件語種的方法,包括:
[0006]分析郵件中所包含的所有類型特征,提取歸屬每類特征的關鍵字;
[0007]將所述提取的每類特征的關鍵字與映射表中相應的特征項分別進行匹配,確定每類特征的關鍵字所對應的所有語種,及每個語種在該特征中的分項權重值;
[0008]對所有類型的特征中相同語種的分項權重值進行求和,得出每個語種的最終權重值;
[0009]對每個語種的最終權重值進行判定,確定最終唯一語種。
[0010]優(yōu)選地,所述映射表包括:語種映射表和郵件歷史行為映射表;
[0011]所述語種映射表中至少包括以下之一類型的特征項:字符集、郵件地址、郵件地址域和時區(qū);
[0012]其中,所述字符集為多種語種顯示,所述郵件地址、郵件地址域和時區(qū)對應著地理信息及該地理信息所對應的所有語種;
[0013]所述郵件歷史行為映射表中至少包括以下之一類型的特征項:郵件接收地址、郵件發(fā)送地址、郵件接收地址域和郵件發(fā)送地址域;
[0014]其中,所述郵件接收地址、郵件發(fā)送地址、郵件接收地址域和郵件發(fā)送地址域對應著地理信息及該地理信息所對應的所有語種。
[0015]優(yōu)選地,所述郵件特征的類型包括:主題字符集、正文字符集、日期、經(jīng)過的中轉服務器地址、接收地址、發(fā)送地址、接收地址域和發(fā)送地址域;
[0016]其中,所述主題字符集的數(shù)據(jù)、所述正文字符集的數(shù)據(jù)、日期信息、經(jīng)過的中轉服務器地址、接收地址、發(fā)送地址、接收地址域和發(fā)送地址域作為所述郵件的關鍵字。
[0017]優(yōu)選地,所述將所述提取的每類特征的關鍵字與映射表中相應的特征項分別進行匹配,確定每類特征的關鍵字所對應的所有語種及每個語種在該特征中的分項權重值的過程包括:
[0018]提取郵件的主題字符集的數(shù)據(jù),與語種映射表中所述字符集的特征項進行對照,得到主題字符集的數(shù)據(jù)所對應的所有語種,計算每個語種對應的數(shù)據(jù)在所述主題字符集的數(shù)據(jù)中的比重,將對應相同語種的數(shù)據(jù)的比重累加,其和作為在該特征中每個語種的分項權重值;
[0019]提取郵件的正文字符集的數(shù)據(jù),與語種映射表中所述字符集的特征項進行對照,得到正文字符集的數(shù)據(jù)所對應的所有語種,計算每個語種對應的數(shù)據(jù)在所述正文字符集的數(shù)據(jù)中的比重,將對應相同語種的數(shù)據(jù)的比重累加,其和作為該特征中每個語種的分項權
重值;
[0020]提取郵件的發(fā)送地址域,與語種映射表中的所述郵件地址域的特征項進行對照,得到發(fā)送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0021]提取郵件的經(jīng)過的中轉服務器地址,與語種映射表中的所述郵件地址的特征項進行對照,得到經(jīng)過的中轉服務器地址的地理信息所對應的所有語種,計算每個語種在該所用語種中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0022]提取郵件的日期數(shù)據(jù),將其轉換為時區(qū)數(shù)據(jù),與語種映射表中的所述時區(qū)的特征項進行對照,得到時區(qū)的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0023]對所述提取郵件的主題字符集的數(shù)據(jù)進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特征項進行對照,得到每個分詞所對應的語種,計算每個不重復的分詞在所有分詞中的比重,將對應相同語種的分詞的比重累加,其和作為在該特征中每個語種的分項權重值;
[0024]對所述提取郵件的正文字符集的數(shù)據(jù)進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特征項進行對照,得到每個分詞所對應的語種,計算每個不重復的分詞在所有分詞中的比重,將對應相同語種的分詞的比重累加,其和作為在該特征中每個語種的分項權重值。
[0025]優(yōu)選地,其特征在于,還包括:
[0026]提取郵件的接收地址,與郵件歷史行為表中所述接收地址的特征項進行對照,得到接收地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0027]提取郵件的接收地址域,與郵件歷史行為表中所述接收地址域的特征項進行對照,得到接收地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0028]提取郵件的發(fā)送地址,與郵件歷史行為表中所述發(fā)送地址的特征項進行對照,得到發(fā)送地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值;[0029]提取郵件的發(fā)送地址域,與郵件歷史行為表中所述發(fā)送地址域的特征項進行對照,得到發(fā)送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值。
[0030]優(yōu)選地,所述對每個語種的最終權重值進行判定的過程包括:
[0031]將每個所述語種的最終權重值分別減去設定的有效語種閥值;
[0032]得出結果大于0,則將該語種定為有效語種;
[0033]否則,將該語種定為無效語種。
[0034]優(yōu)選地,其特征在于,還包括:
[0035]將所有的有效語種按照其最終權重值從大到小排列,對前兩個進行求差;
[0036]得出結果的絕對值大于設定的權重差閥值,則判斷該最大的最終權重值的語種為最終唯一語種;
[0037]否則,所述有效語種為疑是語種,進行人工判定,確定最終唯一語種。
[0038]優(yōu)選地,當所述語種全為無效語種時,進行人工判定,確定最終唯一語種。
[0039]優(yōu)選地,還包括:
[0040]當對所述語種的最終權重值進行判定的次數(shù)達到一定次數(shù)后,計算判定中人工判定在所有判定中的占有率,將所述人工判定的占有率與設定的微調閥值進行比較;
[0041]所述人工判定的占有率小于設定的微調閥值,則保持語種映射表不變;
[0042]否則,將所有人工判定的語種進行統(tǒng)計,根據(jù)統(tǒng)計結果對語種映射表中的相應的語種的特征項進行調節(jié)。
[0043]優(yōu)選地,當只存在一個所述有效語種時,將該語種確定為最終唯一語種。
[0044]本發(fā)明中的基于郵件信息判定郵件語種的方法,具有以下優(yōu)點:
[0045]1、將郵件語種識別、郵件歸類的過程實現(xiàn)自動化;
[0046]2、使翻譯訂單的吞吐能力得到了大大加強,從而提高了整個翻譯過程的效率。
[0047]為了上述以及相關的目的,一個或多個實施例包括后面將詳細說明并在權利要求中特別指出的特征。下面的說明以及附圖詳細說明某些示例性方面,并且其指示的僅僅是各個實施例的原則可以利用的各種方式中的一些方式。其它的益處和新穎性特征將隨著下面的詳細說明結合附圖考慮而變得明顯,所公開的實施例是要包括所有這些方面以及它們的等同。
[0048]說明書附圖
[0049]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0050]圖1示出了實施例1的流程圖;
[0051 ] 圖2示出了實施例2的流程圖。
【具體實施方式】
[0052]下面將參考附圖并結合實施例,來詳細說明本發(fā)明。
[0053]如圖1所示,本發(fā)明公開了基于郵件信息判定郵件語種的方法,包括:
[0054]S11、分析郵件中所包含的所有類型特征,提取歸屬每類特征的關鍵字;
[0055]S12、將所述提取的每類特征的關鍵字與映射表中相應的特征項分別進行匹配,確定每類特征的關鍵字所對應的所有語種,及每個語種在該特征中的分項權重值;
[0056]S13、對所有類型的特征中相同語種的分項權重值進行求和,得出每個語種的最終權重值;
[0057]S14、對每個語種的最終權重值進行判定,確定最終唯一語種。
[0058]優(yōu)選地,所述映射表包括:語種映射表和郵件歷史行為映射表;
[0059]所述語種映射表中至少包括以下之一類型的特征項:字符集、郵件地址、郵件地址域和時區(qū);
[0060]其中,所述字符集為多種語種顯示,所述郵件地址、郵件地址域和時區(qū)對應著地理信息及該地理信息所對應的所有語種;
[0061]所述郵件歷史行為映射表中至少包括以下之一類型的特征項:郵件接收地址、郵件發(fā)送地址、郵件接收地址域和郵件發(fā)送地址域;
[0062]其中,所述郵件接收地址、郵件發(fā)送地址、郵件接收地址域和郵件發(fā)送地址域對應著地理信息及該地理信息所對應的所有語種。
[0063]優(yōu)選地,如圖2所示,本發(fā)明還提供一個優(yōu)選的實施例;
[0064]S21、解析郵件中的所有類型的特征信息,得到郵件內容信息和郵件行為信息;
[0065]郵件內容信息中包括如下類型的特征:
[0066]主題字符集的數(shù)據(jù)、正文字符集的數(shù)據(jù)、日期信息、郵件發(fā)送地址域、經(jīng)過的中轉服務器地址;
[0067]其中,主題即郵件的標題,正文即郵件的正文內容;郵件的標題和正文內容包含有字符集信息;上述的主題字符集數(shù)據(jù)和正文字符集數(shù)據(jù)即為郵件的標題和正文內容包含有字符集信息。
[0068]郵件行為信息中包括如下類型的特征:
[0069]郵件的接收地址、郵件的發(fā)送地址、郵件的接收地址域和郵件的發(fā)送地址域;
[0070]其中,所述主題字符集的數(shù)據(jù)、所述正文字符集的數(shù)據(jù)、日期信息、經(jīng)過的中轉服務器地址、接收地址、發(fā)送地址、接收地址域和發(fā)送地址域作為所述郵件的關鍵字。
[0071]S22、對郵件的內容信息中的每類特征與語種映射表中相應類型的特征進行一一匹配,包括:
[0072]主題字符集分析:
[0073]提取郵件的主題字符集的數(shù)據(jù),與語種映射表中所述字符集的特征項進行對照,得到主題字符集的數(shù)據(jù)所對應的所有語種,計算每個語種對應的數(shù)據(jù)在所述主題字符集的數(shù)據(jù)中的比重,將對應相同語種的數(shù)據(jù)的比重累加,其和作為在該特征中每個語種的分項權重值;
[0074]正文字符集分析:
[0075]提取郵件的正文字符集的數(shù)據(jù),與語種映射表中所述字符集的特征項進行對照,得到正文字符集的數(shù)據(jù)所對應的所有語種,計算每個語種對應的數(shù)據(jù)在所述正文字符集的數(shù)據(jù)中的比重,將對應相同語種的數(shù)據(jù)的比重累加,其和作為在該特征中每個語種的分項權重值;
[0076]發(fā)件人地址域分析:
[0077]提取郵件的發(fā)送地址域,與語種映射表中的所述郵件地址域的特征項進行對照,得到發(fā)送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值;;
[0078]經(jīng)過中轉地址分析:
[0079]提取郵件的發(fā)送地址域,與語種映射表中的所述郵件地址域的特征項進行對照,得到發(fā)送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0080]時區(qū)信息分析:
[0081]提取郵件的經(jīng)過的中轉服務器地址,與語種映射表中的所述郵件地址的特征項進行對照,得到經(jīng)過的中轉服務器地址的地理信息所對應的所有語種,計算每個語種在該所用語種中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0082]主題內容分析:
[0083]對所述提取郵件的主題字符集的數(shù)據(jù)進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特征項進行對照,得到每個分詞所對應的語種,計算每個不重復的分詞在在所有分詞中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0084]正文內容分析:
[0085]對所述提取郵件的正文字符集的數(shù)據(jù)進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特征項進行對照,得到每個分詞所對應的語種,計算每個不重復的分詞在在所有分詞中的比重,將該比重作為在該特征中每個語種的分項權重值。
[0086]S23、對郵件的內容信息中的每類特征與語種歷史行為映射表中相應類型的特征進行一一匹配,包括:
[0087]郵件地址歷史接收語種分析:
[0088]提取郵件的接收地址,與郵件歷史行為表中所述接收地址的特征項進行對照,得到接收地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0089]郵件地址歷史發(fā)送語種分析:
[0090]提取郵件的接收地址域,與郵件歷史行為表中所述接收地址域的特征項進行對照,得到接收地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0091]郵件地址域歷史接收語種分析:
[0092]提取郵件的發(fā)送地址,與郵件歷史行為表中所述發(fā)送地址的特征項進行對照,得到發(fā)送地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值;
[0093]郵件地址域歷史發(fā)送語種分析:
[0094]提取郵件的發(fā)送地址域,與郵件歷史行為表中所述發(fā)送地址域的特征項進行對照,得到發(fā)送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值。
[0095]S24、對所有類型的特征的所有語種中的相同語種的分項權重值進行求和,得到每個語種的最終權重值;
[0096]S25、將每個語種的最終權重值減去設定的有效語種閥值,得出的結果與O進行比較;
[0097]得出的結果大于0,則進入步驟S26 ;
[0098]否則,進入步驟S27;
[0099]S26,將該語種判定為有效語種,并統(tǒng)計有效語種的數(shù)量;
[0100]當有效語種的數(shù)量大于I個的情況下,進入步驟S28 ;
[0101]當有效語種的數(shù)量為I個的情況下,直接將該有效語種判定為最終唯一語種;
[0102]S27,將該語種判定為無效語種,并統(tǒng)計無效語種的數(shù)量;
[0103]判定的語種全為無效語種的情況下,進入步驟32 ;
[0104]S28、將所有的有效語種按其最終權重值從大到小排列,取前兩個有效語種,并對前兩個有效語種的權重值進行求差;
[0105]S29、將得到的差值的絕對值減去設定的權重差閥值,得出的結果大于0,進入步驟S30 ;
[0106]否則,進入步驟S31;
[0107]S30、確定該最終權重值最大的有效語種為最終唯一語種;
[0108]S31、將所有有效語種判定為疑是語種,進入步驟32 ;
[0109]S32、進行人工判定,確定最終唯一語種。
[0110]S33、當對所述語種的最終權重值進行判定的次數(shù)達到一定數(shù)值后,對其中人工判定次數(shù)的占比進行計算,得出人工判定在所有判定中的占有率,將其與設定的微調閥值進行比較;
[0111]其中,該占有率為人工判定次數(shù)與所有判定次數(shù)之比;
[0112]當所述人工判定的占有率小于設定的微調閥值,則保持語種映射表不變;
[0113]否則,將所有人工判定的語種進行統(tǒng)計,統(tǒng)計結果對語種映射表中的相應的語種權重值進行調節(jié),用于增強判定的準確性,提高系統(tǒng)的自學能力。
[0114]例如:設定微調閥值為15% ;
[0115]經(jīng)過10000次語種判定,其中9000次系統(tǒng)自動判定成功,1000次人工手動判定成功;
[0116]則該人工判定占有率為10% ;
[0117]即該人工判定占有率小于微調閥值,表示自動判定程度已經(jīng)很高,不需要調整;
[0118]反之,當人工判定占有率大于微調閥值,表示自動判定程度不高,需要調整
[0119]顯然,本領域的技術人員應該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結合。
[0120]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【權利要求】
1.基于郵件信息判定郵件語種的方法,其特征在于,包括: 分析郵件中所包含的所有類型特征,提取歸屬每類特征的關鍵字; 將所述提取的每類特征的關鍵字與映射表中相應的特征項分別進行匹配,確定每類特征的關鍵字所對應的所有語種,及每個語種在該特征中的分項權重值; 對所有類型的特征中相同語種的分項權重值進行求和,得出每個語種的最終權重值; 對每個語種的最終權重值進行判定,確定最終唯一語種。
2.根據(jù)權利要求1所述的方法,其特征在于,所述映射表包括:語種映射表和郵件歷史行為映射表; 所述語種映射表中至少包括以下之一類型的特征項:字符集、郵件地址、郵件地址域和時區(qū); 其中,所述字符集為多種語種顯示,所述郵件地址、郵件地址域和時區(qū)對應著地理信息及該地理信息所對應的所有語種; 所述郵件歷史行為映射表中至少包括以下之一類型的特征項:郵件接收地址、郵件發(fā)送地址、郵件接收地址域和郵件發(fā)送地址域; 其中,所述郵件接收地址、郵件發(fā)送地址、郵件接收地址域和郵件發(fā)送地址域對應著地理信息及該地理信息所對應的所有語種。
3.根據(jù)權利要求2所述的方法,其特征在于,所述郵件特征的類型包括:主題字符集、正文字符集、日期、經(jīng)過的中轉服務器地址、接收地址、發(fā)送地址、接收地址域和發(fā)送地址域; 其中,所述主題字符集的數(shù)據(jù)、所述正文字符集的數(shù)據(jù)、日期信息、經(jīng)過的中轉服務器地址、接收地址、發(fā)送地址、接收地址域和發(fā)送地址域作為所述郵件的關鍵字。
4.根據(jù)權利要求3所述的方法,其特征在于,所述將所述提取的每類特征的關鍵字與映射表中相應的特征項分別進行匹配,確定每類特征的關鍵字所對應的所有語種及每個語種在該特征中的分項權重值的過程包括: 提取郵件的主題字符集的數(shù)據(jù),與語種映射表中所述字符集的特征項進行對照,得到主題字符集的數(shù)據(jù)所對應的所有語種,計算每個語種對應的數(shù)據(jù)在所述主題字符集的數(shù)據(jù)中的比重,將對應相同語種的數(shù)據(jù)的比重累加,其和作為在該特征中每個語種的分項權重值; 提取郵件的正文字符集的數(shù)據(jù),與語種映射表中所述字符集的特征項進行對照,得到正文字符集的數(shù)據(jù)所對應的所有語種,計算每個語種對應的數(shù)據(jù)在所述正文字符集的數(shù)據(jù)中的比重,將對應相同語種的數(shù)據(jù)的比重累加,其和作為該特征中每個語種的分項權重值; 提取郵件的發(fā)送地址域,與語種映射表中的所述郵件地址域的特征項進行對照,得到發(fā)送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值; 提取郵件的經(jīng)過的中轉服務器地址,與語種映射表中的所述郵件地址的特征項進行對照,得到經(jīng)過的中轉服務器地址的地理信息所對應的所有語種,計算每個語種在該所用語種中的比重,將該比重作為在該特征中每個語種的分項權重值; 提取郵件的日期數(shù)據(jù),將其轉換為時區(qū)數(shù)據(jù),與語種映射表中的所述時區(qū)的特征項進行對照,得到時區(qū)的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值; 對所述提取郵件的主題字符集的數(shù)據(jù)進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特征項進行對照,得到每個分詞所對應的語種,計算每個不重復的分詞在所有分詞中的比重,將對應相同語種的分詞的比重累加,其和作為在該特征中每個語種的分項權重值; 對所述提取郵件的正文字符集的數(shù)據(jù)進行分詞處理,將每個分詞與所述語種映射表中的所述字符集的特征項進行對照,得到每個分詞所對應的語種,計算每個不重復的分詞在所有分詞中的比重,將對應相同語種的分詞的比重累加,其和作為在該特征中每個語種的分項權重值。
5.根據(jù)權利要求4所述的方法,其特征在于,還包括: 提取郵件的接收地址,與郵件歷史行為表中所述接收地址的特征項進行對照,得到接收地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值; 提取郵件的接收地址域,與郵件歷史行為表中所述接收地址域的特征項進行對照,得到接收地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值; 提取郵件的發(fā)送地址,與郵件歷史行為表中所述發(fā)送地址的特征項進行對照,得到發(fā)送地址的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值; 提取郵件的發(fā)送地址域,與 郵件歷史行為表中所述發(fā)送地址域的特征項進行對照,得到發(fā)送地址域的地理信息所對應的所有語種,計算每個語種在該所有語種中的比重,將該比重作為在該特征中每個語種的分項權重值。
6.根據(jù)權利要求1所述的方法,其特征在于,所述對每個語種的最終權重值進行判定的過程包括: 將每個所述語種的最終權重值分別減去設定的有效語種閥值; 得出結果大于O,則將該語種定為有效語種; 否則,將該語種定為無效語種。
7.根據(jù)權利要求6所述的方法,其特征在于,還包括: 將所有的有效語種按照其最終權重值從大到小排列,對前兩個進行求差; 得出結果的絕對值大于設定的權重差閥值,則判斷該最大的最終權重值的語種為最終唯一語種; 否則,所述有效語種為疑是語種,進行人工判定,確定最終唯一語種。
8.根據(jù)權利要求7所述的方法,其特征在于,當所述語種全為無效語種時,進行人工判定,確定最終唯一語種。
9.根據(jù)權利要求8所述的方法,其特征在于,還包括: 當對所述語種的最終權重值進行判定的次數(shù)達到一定次數(shù)后,計算判定中人工判定在所有判定中的占有率,將所述人工判定的占有率與設定的微調閥值進行比較; 所述人工判定的占有率小于設定的微調閥值,則保持語種映射表不變;否則,將所有人工判定的語種進行統(tǒng)計,根據(jù)統(tǒng)計結果對語種映射表中的相應的語種的特征項進行調節(jié)。
10.根據(jù)權利要求6所述的方法,其特征在于,當只存在一個所述有效語種時,將該語種確定為最終唯一語種。
【文檔編號】G06F17/27GK103473219SQ201310407258
【公開日】2013年12月25日 申請日期:2013年9月9日 優(yōu)先權日:2013年9月9日
【發(fā)明者】江潮 申請人:武漢傳神信息技術有限公司