一種電子郵件分類方法及其裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種電子郵件分類方法及其裝置,其中,該方法包括:對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果;使用TF-IDF技術(shù)對(duì)所述分詞結(jié)果進(jìn)行排序處理;獲取每?jī)蓚€(gè)電子郵件之間的相似性;根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果;將所述聚類結(jié)果進(jìn)行顯示。實(shí)施本發(fā)明實(shí)施例,在用戶不希望對(duì)電子郵件進(jìn)行任何操作的情況下,可以智能地根據(jù)電子郵件的內(nèi)容對(duì)電子郵件進(jìn)行分類,可減少用戶的工作;在用戶對(duì)分類結(jié)果進(jìn)行干預(yù)時(shí),也可以根據(jù)用戶自己設(shè)定的規(guī)則進(jìn)行優(yōu)先級(jí)排序,提高了操作靈活性,提高了電子郵件用戶的體驗(yàn)性及便利性。
【專利說(shuō)明】一種電子郵件分類方法及其裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)通信【技術(shù)領(lǐng)域】,特別是涉及一種電子郵件分類方法及其裝置。
【背景技術(shù)】
[0002]隨著移動(dòng)終端技術(shù)的不斷發(fā)展,手機(jī)、掌上電腦、平板、筆記本等各種移動(dòng)設(shè)備已經(jīng)成為人們工作、生活中必不可缺的一部分,而電子郵件是人們辦公、通信最常用的功能之
一。特別是對(duì)于商務(wù)人士,每天因?yàn)楣ぷ鞫伎赡墚a(chǎn)生幾百個(gè)電子郵件,長(zhǎng)時(shí)間使用電子郵件功能后,如何在大量的郵件中方便、有效地找到一條特定電子郵件,尤其是和當(dāng)前環(huán)境相關(guān)的郵件,成了一大問(wèn)題。
[0003]對(duì)于商務(wù)人士而言,如何面對(duì)郵箱里每天繁雜的電子郵件是一個(gè)令人頭疼的問(wèn)題。為了滿足顧客的需求,許多電子郵件服務(wù)商都提供了自定義郵件分類服務(wù)。用戶通過(guò)設(shè)置個(gè)性化收件規(guī)則,可將來(lái)自特定發(fā)件人、特定域名或是郵件中帶有特定詞匯的電子郵件分為一類,方便閱讀和管理。
[0004]現(xiàn)有方案中,對(duì)于電子郵件一般僅保存內(nèi)容、收信人或發(fā)信人、時(shí)間等信息,比如簡(jiǎn)單地按時(shí)間、主題等排序顯示,或者簡(jiǎn)單地按聯(lián)系人分類排序顯示,或者簡(jiǎn)單的提供搜索功能,讓用戶按聯(lián)系人或者電子郵件內(nèi)容來(lái)查找。上述方式只是簡(jiǎn)單把用戶的郵件列出來(lái),對(duì)電子郵件的區(qū)分度較低,當(dāng)用戶想要查看某一個(gè)郵件時(shí),一般用戶很難記得其中的詳細(xì)信息,只能根據(jù)電子郵件的時(shí)間或聯(lián)系人或者郵件的部分內(nèi)容去手動(dòng)查找,對(duì)于存儲(chǔ)了大量電子郵件。
[0005]然而,以上功能存在一定的局限性。首先,使用該功能需要用戶進(jìn)行多步驟的預(yù)設(shè)置;其次,即使郵件已經(jīng)進(jìn)行了分類,用戶依舊不能立馬從海量的未讀郵件中判斷出哪些是最需要優(yōu)先處理的;最后,該功能基本對(duì)手機(jī)用戶不適用?,F(xiàn)有技術(shù)中存在一種根據(jù)郵件發(fā)件人的重要性進(jìn)行分級(jí)的方案,會(huì)依照發(fā)件人的地址對(duì)郵件進(jìn)行優(yōu)先級(jí)評(píng)級(jí),也會(huì)通過(guò)發(fā)件人填寫的收件人信息來(lái)判斷郵件的重要程度。如果該郵件來(lái)自workOboss.com,郵箱系統(tǒng)將自動(dòng)給予該郵件較高評(píng)級(jí);如果該郵件是發(fā)件人對(duì)用戶一對(duì)一發(fā)送的,郵箱會(huì)自動(dòng)判定它的優(yōu)先級(jí)比群發(fā)郵件更高;如果該郵件由發(fā)件人群發(fā)至“家人”分組,則收件方也會(huì)把這郵件判定為家庭郵件。與傳統(tǒng)的郵箱系統(tǒng)不同,這套智能信息系統(tǒng)的分類標(biāo)準(zhǔn)建立在對(duì)發(fā)件人信息的判斷,并且依據(jù)判斷結(jié)果把郵件的重要性分為各等級(jí),為收件人在短時(shí)間內(nèi)判斷閱讀順序給予參考。
[0006]在現(xiàn)有技術(shù)中,在使用“智能”分類功能之前,必須首先整理好聯(lián)系人列表,并標(biāo)記聯(lián)系人屬于哪個(gè)分組,否則該分類系統(tǒng)也無(wú)法獲知哪個(gè)聯(lián)系人是“老板”,哪個(gè)聯(lián)系人是“家人”;現(xiàn)有技術(shù)主要是基于發(fā)信人或者收信人進(jìn)行排序,但是沒(méi)有考慮郵件內(nèi)容。一般情況下,老板和家人的郵件優(yōu)先級(jí)高是正確的,但是除了這些明顯的分類之外,其他聯(lián)系人的分類等級(jí)相對(duì)模糊。比如同樣是同事,有時(shí)候是本部門同事應(yīng)該優(yōu)先,有時(shí)候是外部門同事優(yōu)先,更復(fù)雜的情況是外部門的經(jīng)理比本部門的一般職別同事優(yōu)先。這些復(fù)雜的關(guān)系每個(gè)人都可能有不同的定義,而且最終的邏輯可能會(huì)非常復(fù)雜,很難定義清楚。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種電子郵件分類方法及其裝置,在用戶不希望對(duì)電子郵件進(jìn)行任何操作的情況下,可以智能地根據(jù)電子電子郵件的內(nèi)容對(duì)電子郵件進(jìn)行分類,可減少用戶的工作。
[0008]為了解決上述問(wèn)題,本發(fā)明提出了一種電子郵件分類方法,所述方法包括:
對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果;
使用TF-1DF技術(shù)對(duì)所述分詞結(jié)果進(jìn)行排序處理;
獲取每?jī)蓚€(gè)電子郵件之間的相似性;
根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果;
將所述聚類結(jié)果進(jìn)行顯示。
[0009]優(yōu)選地,所述對(duì)電子郵件中的文本進(jìn)行分詞處理的步驟包括:
對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本;
分別對(duì)所述中文文本和英文文本進(jìn)行分詞處理,并獲得分詞結(jié)果。
[0010]優(yōu)選地,所述獲取每?jī)蓚€(gè)電子郵件之間的相似性的步驟具體為:通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。
[0011]優(yōu)選地,所述根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果的步驟包括:
通過(guò)K-means算法對(duì)所述電子郵件進(jìn)行聚類處理;
根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇,把相似的電子郵件歸在同一簇中。
[0012]優(yōu)選地,所述根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果的步驟包括:
通過(guò)K-means算法對(duì)所述電子郵件進(jìn)行聚類處理;
根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇,把相似的電子郵件歸在同一簇中。
[0013]相應(yīng)地,本發(fā)明還提供一種電子郵件分類裝置,所述裝置包括:
分詞模塊,用于對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果;
排序模塊,用于使用TF-1DF技術(shù)對(duì)所述分詞模塊所獲得的分詞結(jié)果進(jìn)行排序處理;
相似性獲取模塊,用于獲取每?jī)蓚€(gè)電子郵件之間的相似性;
聚類模塊,用于根據(jù)所述相似性獲取模塊所獲取的相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果;
顯示模塊,用于將所述聚類模塊所獲得的聚類結(jié)果進(jìn)行顯示。
[0014]優(yōu)選地,所述分詞模塊包括:
文本預(yù)處理單元,用于對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本;
分詞單元,用于分別對(duì)所述文本預(yù)處理單元所抽取的中文文本和英文文本進(jìn)行分詞處理,并獲得分詞結(jié)果。
[0015]優(yōu)選地,所述相似性獲取模塊還用于通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。
[0016]優(yōu)選地,所述聚類模塊包括:
聚類單元,用于通過(guò)K-means算法對(duì)所述電子郵件進(jìn)行聚類處理; 分簇單元,用于根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇,把相似的電子郵件歸在
同一簇中。
[0017]優(yōu)選地,所述裝置還包括:模式設(shè)定模塊,用于獲取任意一個(gè)簇中的電子郵件的數(shù)量,并根據(jù)所述電子郵件的數(shù)量設(shè)定該簇對(duì)應(yīng)的相似性的電子郵件模式。
[0018]實(shí)施本發(fā)明實(shí)施例,在用戶不希望對(duì)電子郵件進(jìn)行任何操作的情況下,可以智能地根據(jù)電子郵件的內(nèi)容對(duì)電子郵件進(jìn)行分類,可減少用戶的工作;在用戶對(duì)分類結(jié)果進(jìn)行干預(yù)時(shí),也可以根據(jù)用戶自己設(shè)定的規(guī)則進(jìn)行優(yōu)先級(jí)排序,提高了操作靈活性,提高了電子郵件用戶的體驗(yàn)性及便利性。
【專利附圖】
【附圖說(shuō)明】
[0019]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0020]圖1是本發(fā)明實(shí)施例的電子郵件分類方法的流程示意圖;
圖2是本發(fā)明實(shí)施例的電子郵件分類裝置的結(jié)構(gòu)組成示意圖。
【具體實(shí)施方式】
[0021]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0022]圖1是本發(fā)明實(shí)施例的電子郵件分類方法的流程示意圖,如圖1所示,該方法包括:
S101,對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果;
S102,使用TF-1DF技術(shù)對(duì)分詞結(jié)果進(jìn)行排序處理;
S103,獲取每?jī)蓚€(gè)電子郵件之間的相似性;
S104,根據(jù)相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果;
S105,將聚類結(jié)果進(jìn)行顯示。
[0023]其中,SlOl進(jìn)一步包括:
對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本;
分別對(duì)中文文本和英文文本進(jìn)行分詞處理,并獲得分詞結(jié)果。
[0024]具體實(shí)施中,首先獲取電子郵件,并對(duì)電子郵件中的文本進(jìn)行預(yù)處理。對(duì)于超文本標(biāo)記語(yǔ)言(Hypertext Markup Language, HTML)文檔,將其中的HTML標(biāo)記(tag)提取出來(lái)單獨(dú)處理;針對(duì)剩余的信息,將中文字符和英文字符分離出來(lái),轉(zhuǎn)換成只有英文字符的文本和只有中文字符的文本。對(duì)于英文文本,使用傳統(tǒng)的分詞方式(以標(biāo)點(diǎn)符號(hào)和空格分隔各個(gè)分詞);對(duì)于中文文本,則使用機(jī)械的排列組合方式從句子中分離出詞語(yǔ)。分離的方法如下:對(duì)于一個(gè)中文序列L ;掃描其中的每一個(gè)中文文字C,并將C后面步長(zhǎng)為S的文字逐個(gè)提取出來(lái),組成文字組合。比如句子:我是中國(guó)人,假定掃描步長(zhǎng)為3,分詞最大長(zhǎng)度為3的,則可能的分詞為:我、我是、我是中、是、是中、是中國(guó)、中、中國(guó)、中國(guó)人、國(guó)、國(guó)人、人。
[0025]使用此分詞方式的好處是無(wú)需中文詞典,由于中文的特性,使用此辦法分詞肯定可以覆蓋到絕大部分的中文詞語(yǔ)。另外可以處理帶有干擾信息的文本,比如:我a是a中a國(guó)a人的。
[0026]使用此分詞的劣勢(shì)是分詞的結(jié)果有很多對(duì)人來(lái)說(shuō)是沒(méi)有意義的詞組,但是后續(xù)通過(guò)S102的處理,會(huì)將這些分詞按照區(qū)分能力進(jìn)行排序,區(qū)分能力低的詞語(yǔ)會(huì)排到較后的位置。另外一些對(duì)于用戶來(lái)說(shuō)沒(méi)有意義的詞語(yǔ),實(shí)際上是對(duì)文本分類有較大作用的。比如“芙王”這個(gè)詞語(yǔ),經(jīng)過(guò)處理之后,可以發(fā)現(xiàn)這個(gè)詞語(yǔ)是垃圾郵件中一個(gè)有較大區(qū)分作用的分詞,經(jīng)驗(yàn)證,發(fā)現(xiàn)這個(gè)詞語(yǔ)來(lái)源于銷售假煙“芙蓉王”的垃圾郵件樣本,而“芙蓉”這個(gè)詞語(yǔ)可能會(huì)在其他正常郵件中經(jīng)常出現(xiàn),所以“芙蓉”這個(gè)詞語(yǔ)對(duì)于垃圾郵件的區(qū)分作用不如“芙王”。
[0027]在S102中,使用TF-1DF技術(shù)對(duì)SlOl中所獲得的分詞進(jìn)行排序處理。經(jīng)排序后,分詞結(jié)果會(huì)按照區(qū)分能力從高到低排序。具體實(shí)施中,排序后只保留排名靠前的50%分詞(50% 為經(jīng)驗(yàn)值)。TF-1DF 技術(shù)(term frequency -1nverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-1DF是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。
[0028]在S103中,獲取每?jī)蓚€(gè)電子郵件之間的相似性,具體是,通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。在實(shí)施過(guò)程中,O度角的余弦值是1,而其他任何角度的余弦值都不大于I;并且其最小值是-1。從而可以通過(guò)兩個(gè)向量之間的角度的余弦值確定兩個(gè)向量是否大致指向相同的方向。兩個(gè)向量有相同的指向時(shí),余弦相似度的值為I ;兩個(gè)向量夾角為90°時(shí),余弦相似度的值為O ;兩個(gè)向量指向完全相反的方向時(shí),余弦相似度的值為-1。在比較過(guò)程中,向量的規(guī)模大小不予考慮,僅僅考慮到向量的指向方向。余弦相似度通常用于兩個(gè)向量的夾角小于90°之內(nèi),因此余弦相似度的值為O到I之間。
[0029]進(jìn)一步地,S104包括:
通過(guò)K-means算法對(duì)電子郵件進(jìn)行聚類處理;
根據(jù)相似性將電子郵件分成兩個(gè)簇,把相似的電子郵件歸在同一簇中。
[0030]而在根據(jù)相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果過(guò)程中,聚類電子郵件通過(guò)K-means算法實(shí)現(xiàn)。在具體實(shí)施中,K-means算法的k為2,也就是聚類后電子郵件將會(huì)被分成兩個(gè)簇(即電子郵件將會(huì)被劃分成兩種類型)。假定兩個(gè)簇分別是A和B,實(shí)際上計(jì)算機(jī)并無(wú)法知道這么劃分的原因,單純是通過(guò)計(jì)算每?jī)蓚€(gè)電子郵件之間的相似性,把相似的電子郵件歸并在一起。由此,可以獲得簇A (互相之間比較相似的郵件)和簇B (除了簇A之外的郵件)。
[0031]在根據(jù)相似性將電子郵件分成兩個(gè)簇,把相似的電子郵件歸在同一簇中的步驟之后,還包括:獲取任意一個(gè)簇中的電子郵件的數(shù)量;并根據(jù)數(shù)量設(shè)定該簇對(duì)應(yīng)的相似性的電子郵件模式。
[0032]假如在S104過(guò)程中獲得簇A的電子郵件數(shù)量大于電子郵件總數(shù)的20% (20%是經(jīng)驗(yàn)值,即A/ (A+B) >0.2),則可以認(rèn)為分離出了一類比較相似的電子郵件模式,將簇A的聚類質(zhì)心點(diǎn)記錄下來(lái)(以后新到達(dá)的電子郵件如果靠近簇A的聚類質(zhì)心點(diǎn)的,將判定其屬于簇A)。將簇B作為S104的輸入,繼續(xù)嘗試獲取下一個(gè)電子郵件模式。
[0033]如果在S104過(guò)程中獲得簇A的電子郵件數(shù)量小于等于電子郵件總數(shù)的20%(即A/(Α+Β)〈=0.2),則可以認(rèn)為剩下的電子郵件互相之間沒(méi)有明顯的不同,則無(wú)法再獲取新的電子郵件模式。
[0034]在S105中,將聚類結(jié)果進(jìn)行顯示,呈現(xiàn)給用戶,由用戶自行排列每個(gè)聚類的呈現(xiàn)優(yōu)先關(guān)系(如果用戶不選擇的,則按照找到聚類的先后關(guān)系呈現(xiàn)電子郵件順序)。在這里,已經(jīng)幫用戶基于電子郵件內(nèi)容對(duì)電子郵件進(jìn)行分組,用戶只需要大致看一下已經(jīng)做好的分組,便可獲知這批電子郵件的分組原因以及安排優(yōu)先級(jí)。常見的分組原因可能是賬單郵件、訂閱的郵件列表、公司事務(wù)討論郵件等,用戶可對(duì)分類分配其顯示的優(yōu)先級(jí)即可。如果用戶不進(jìn)行相關(guān)操作,則會(huì)使用聚類發(fā)現(xiàn)的先后順序呈現(xiàn)電子郵件,結(jié)果將是聚類中電子郵件數(shù)量較多的,其聚類電子郵件優(yōu)先呈現(xiàn)。
[0035]具體實(shí)施中,還可以提取聚類中的發(fā)信人地址,如果聚類中的大部分電子郵件都是來(lái)自一個(gè)或者幾個(gè)發(fā)信人(最常見的就是賬單類郵件),則可以自動(dòng)提醒用戶是否添加一個(gè)規(guī)則,將這一個(gè)或者幾個(gè)發(fā)信人的電子郵件都標(biāo)記為這個(gè)聚類的電子郵件。
[0036]實(shí)施本發(fā)明實(shí)施例的方法,在用戶不希望對(duì)電子郵件進(jìn)行任何操作的情況下,可以智能地根據(jù)電子郵件的內(nèi)容對(duì)電子郵件進(jìn)行分類,可減少用戶的工作;在用戶對(duì)分類結(jié)果進(jìn)行干預(yù)時(shí),也可以根據(jù)用戶自己設(shè)定的規(guī)則進(jìn)行優(yōu)先級(jí)排序,提高了操作靈活性;并可以協(xié)助用戶在較少工作量的情況下,添加可將電子郵件自動(dòng)分類的規(guī)則,為電子郵件的用戶帶來(lái)極大的便利。
[0037]本發(fā)明實(shí)施例還提供了一種電子郵件分類裝置,如圖2所示,該裝置包括:
分詞模塊1,用于對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果;
排序模塊2,用于使用TF-1DF技術(shù)對(duì)分詞模塊I所獲得的分詞結(jié)果進(jìn)行排序處理;
相似性獲取模塊3,用于獲取每?jī)蓚€(gè)電子郵件之間的相似性;
聚類模塊4,用于根據(jù)相似性獲取模塊3所獲取的相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果;
顯示模塊5,用于將聚類模塊4所獲得的聚類結(jié)果進(jìn)行顯示。
[0038]進(jìn)一步地,分詞模塊I包括:
文本預(yù)處理單元,用于對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本;
分詞單元,用于分別對(duì)文本預(yù)處理單元所抽取的中文文本和英文文本進(jìn)行分詞處理,并獲得分詞結(jié)果。
[0039]而相似性獲取模塊3還用于通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。
[0040]聚類模塊4則進(jìn)一步包括:
聚類單元,用于通過(guò)K-means算法對(duì)電子郵件進(jìn)行聚類處理;
分簇單元,用于根據(jù)相似性將電子郵件分成兩個(gè)簇,把相似的電子郵件歸在同一簇中。
[0041]具體實(shí)施中,該裝置還可以包括模式設(shè)定模塊(圖中未示出),用于獲取任意一個(gè)簇中的電子郵件的數(shù)量,并根據(jù)電子郵件的數(shù)量設(shè)定該簇對(duì)應(yīng)的相似性的電子郵件模式。
[0042]本發(fā)明實(shí)施例中的電子郵件分類裝置的模塊功能原理可參見本發(fā)明的電子郵件分類方法的實(shí)現(xiàn)過(guò)程及原理的描述,這里不再贅述。[0043]實(shí)施本發(fā)明實(shí)施例的裝置,在用戶不希望對(duì)電子郵件進(jìn)行任何操作的情況下,可以智能地根據(jù)電子郵件的內(nèi)容對(duì)電子郵件進(jìn)行分類,可減少用戶的工作;在用戶對(duì)分類結(jié)果進(jìn)行干預(yù)時(shí),也可以根據(jù)用戶自己設(shè)定的規(guī)則進(jìn)行優(yōu)先級(jí)排序,提高了操作靈活性;并可以協(xié)助用戶在較少工作量的情況下,添加可將電子郵件自動(dòng)分類的規(guī)則,為電子郵件的用戶帶來(lái)極大的便利。
[0044]本發(fā)明的應(yīng)用包括但不限于服務(wù)器、個(gè)人計(jì)算機(jī)(Personal Computer,PC)以及移動(dòng)終端,包括手機(jī)、個(gè)人數(shù)字助理(Personal Digital Assistant, PDA)等。
[0045]本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:只讀存儲(chǔ)器(ROM,Read Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,RandomAccess Memory)、磁盤或光盤等。
[0046]另外,以上對(duì)本發(fā)明實(shí)施例所提供的基于短信的移動(dòng)互聯(lián)網(wǎng)搜索系統(tǒng)及實(shí)現(xiàn)方法進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種電子郵件分類方法,其特征在于,所述方法包括: 對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果; 使用TF-1DF技術(shù)對(duì)所述分詞結(jié)果進(jìn)行排序處理; 獲取每?jī)蓚€(gè)電子郵件之間的相似性; 根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果; 將所述聚類結(jié)果進(jìn)行顯示。
2.如權(quán)利要求1所述的電子郵件分類方法,其特征在于,所述對(duì)電子郵件中的文本進(jìn)行分詞處理的步驟包括: 對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本; 分別對(duì)所述中文文本和英文文本進(jìn)行分詞處理,并獲得分詞結(jié)果。
3.如權(quán)利要求1所述的電子郵件分類方法,其特征在于,所述獲取每?jī)蓚€(gè)電子郵件之間的相似性的步驟具體為:通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。
4.如權(quán)利要求1所述的電 子郵件分類方法,其特征在于,所述根據(jù)所述相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果的步驟包括: 通過(guò)K-means算法對(duì)所述電子郵件進(jìn)行聚類處理; 根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇,把相似的電子郵件歸在同一簇中。
5.如權(quán)利要求4所述的電子郵件分類方法,其特征在于,在所述根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇,把相似的電子郵件歸在同一簇中的步驟之后,還包括: 獲取任意一個(gè)簇中的電子郵件的數(shù)量; 根據(jù)所述數(shù)量設(shè)定該簇對(duì)應(yīng)的相似性的電子郵件模式。
6.一種電子郵件分類裝置,其特征在于,所述裝置包括: 分詞模塊,用于對(duì)電子郵件中的文本進(jìn)行分詞處理并獲得分詞結(jié)果; 排序模塊,用于使用TF-1DF技術(shù)對(duì)所述分詞模塊所獲得的分詞結(jié)果進(jìn)行排序處理; 相似性獲取模塊,用于獲取每?jī)蓚€(gè)電子郵件之間的相似性; 聚類模塊,用于根據(jù)所述相似性獲取模塊所獲取的相似性對(duì)電子郵件進(jìn)行聚類處理并獲得聚類結(jié)果; 顯示模塊,用于將所述聚類模塊所獲得的聚類結(jié)果進(jìn)行顯示。
7.如權(quán)利要求6所述的電子郵件分類裝置,其特征在于,所述分詞模塊包括: 文本預(yù)處理單元,用于對(duì)文本進(jìn)行預(yù)處理并抽取出中文文本和/或英文文本; 分詞單元,用于分別對(duì)所述文本預(yù)處理單元所抽取的中文文本和英文文本進(jìn)行分詞處理,并獲得分詞結(jié)果。
8.如權(quán)利要求6所述的電子郵件分類裝置,其特征在于,所述相似性獲取模塊還用于通過(guò)兩個(gè)電子郵件的分詞向量?jī)?nèi)積空間的夾角的余弦值來(lái)獲取兩個(gè)電子郵件之間的相似性。
9.如權(quán)利要求6所述的電子郵件分類裝置,其特征在于,所述聚類模塊包括: 聚類單元,用于通過(guò)K-means算法對(duì)所述電子郵件進(jìn)行聚類處理; 分簇單元,用于根據(jù)所述相似性將所述電子郵件分成兩個(gè)簇,把相似的電子郵件歸在同一簇中。
10.如權(quán)利要求6所述的電子郵件分類裝置,其特征在于,所述裝置還包括:模式設(shè)定模塊,用于獲取任意一個(gè)簇中的電子郵件的數(shù)量,并根據(jù)所述電子郵件的數(shù)量設(shè)定該簇對(duì)應(yīng)的相似性的電子郵件模式。.
【文檔編號(hào)】G06F17/27GK103473218SQ201310396635
【公開日】2013年12月25日 申請(qǐng)日期:2013年9月4日 優(yōu)先權(quán)日:2013年9月4日
【發(fā)明者】林延中, 潘慶峰 申請(qǐng)人:盈世信息科技(北京)有限公司