一種信息碎片關(guān)聯(lián)輸出的方法及系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種信息碎片關(guān)聯(lián)輸出的方法及系統(tǒng),包括:識(shí)別用戶(hù)選取的多個(gè)信息碎片的文本內(nèi)容,將得到的所有信息碎片的文本內(nèi)容進(jìn)行歸集存儲(chǔ);將每?jī)蓚€(gè)所述信息碎片的文本內(nèi)容進(jìn)行相似度計(jì)算,得到信息碎片與信息碎片的相似度;在用戶(hù)選取要查看的信息碎片后,建立文檔顯示該信息碎片的文本內(nèi)容,以及將其它信息碎片的文本內(nèi)容以所述相似度的大小順序在所述文檔中顯示。本發(fā)明通過(guò)識(shí)別信息碎片的同時(shí),自動(dòng)將識(shí)別出的信息碎片的文本內(nèi)容儲(chǔ)存,使復(fù)雜繁瑣的操作大大簡(jiǎn)化,并且通過(guò)為信息碎片之間建立關(guān)聯(lián),降低了以此用戶(hù)閱讀、識(shí)別帶來(lái)的思維精力損耗。
【專(zhuān)利說(shuō)明】一種信息碎片關(guān)聯(lián)輸出的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種信息碎片關(guān)聯(lián)輸出的方法及系統(tǒng)。
【背景技術(shù)】
[0002]當(dāng)前,隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),當(dāng)需要完成一個(gè)報(bào)告或者撰寫(xiě)一篇文檔的時(shí)候,往往要對(duì)信息進(jìn)行收集許多信息大多都以碎片的方式分散在不同的地方,找到后需要對(duì)整篇文稿進(jìn)行復(fù)制、粘貼等操作收集文本內(nèi)容,當(dāng)碎片信息通過(guò)系統(tǒng)收集后,帶來(lái)另一個(gè)問(wèn)題是這些大規(guī)模的信息碎片是凌亂的,我們需要把這些大量、凌亂的信息按一定規(guī)則進(jìn)行歸整,以此降低閱讀、識(shí)別帶來(lái)的思維精力損耗,進(jìn)一步提升碎片歸整的效率。
【發(fā)明內(nèi)容】
[0003]本發(fā)明旨在提供一種信息碎片關(guān)聯(lián)輸出的方法及系統(tǒng),以解決上述現(xiàn)有技術(shù)中選取的信息碎片不易整理的問(wèn)題。
[0004]本發(fā)明公開(kāi)了一種信息碎片關(guān)聯(lián)輸出的方法,包括:
[0005]識(shí)別用戶(hù)選取的多個(gè)信息碎片的文本內(nèi)容,將得到的所有信息碎片的文本內(nèi)容進(jìn)行歸集存儲(chǔ);
[0006]將任意兩個(gè)所述信息碎片的文本內(nèi)容進(jìn)行相似度計(jì)算,得到任意兩個(gè)信息碎片的相似度;
[0007]在用戶(hù)選取要查看的信息碎片后,建立文檔顯示該信息碎片的文本內(nèi)容,以及將其它信息碎片的文本內(nèi)容以所述相似度的大小順序在所述文檔中顯示。
[0008]優(yōu)選地,還包括:
[0009]在得到信息碎片與信息碎片的所述相似度后,對(duì)于每一個(gè)所述信息碎片篩選出與該信息碎片的所述相似度在預(yù)先設(shè)定的第一閾值范圍內(nèi)的其他信息碎片,將篩選出的其他信息碎片與該信息碎片關(guān)聯(lián);
[0010]在所述文檔中顯示所述用戶(hù)選取的信息碎片的文本內(nèi)容,以及將與該信息碎片關(guān)聯(lián)的其他信息碎片的文本內(nèi)容以所述相似度的大小順序在所述文檔中顯示。
[0011]優(yōu)選地,所述相似度計(jì)算的過(guò)程包括:
[0012]選取所述信息碎片中的第一信息碎片D1和第二信息碎片D2 ;
[0013]根據(jù)所述第一信息碎片的文本內(nèi)容和第二信息碎片的文本內(nèi)容,分別確定詞頻高于預(yù)先設(shè)定的第二閥值的關(guān)鍵字/詞作為特征項(xiàng);
[0014]建立所述第一信息碎片的第一特征集,如下:
[0015]D1= {Tn,W11; T12,W12;……;Tln, W1J ;
[0016]其中,Tln為D1的所述特征項(xiàng),Wln為根據(jù)詞頻確定的權(quán)重,η為第一特征集中特征項(xiàng)的序號(hào);
[0017]建立所述第二信息碎片的第二特征集,如下:[0018]D2 = {T21,W21 ;T22, W22 ;......;T2m, W2J ;
[0019]其中,Tlm為D2的所述特征項(xiàng),Wlm為根據(jù)詞頻確定的權(quán)重,η為第二特征集中特征項(xiàng)的序號(hào);
[0020]利用余弦公式計(jì)算得到兩個(gè)所述信息碎片的所述相似度,所述余弦公式如下:
【權(quán)利要求】
1.一種信息碎片關(guān)聯(lián)輸出的方法,其特征在于,包括: 識(shí)別用戶(hù)選取的多個(gè)信息碎片的文本內(nèi)容,將得到的所有信息碎片的文本內(nèi)容進(jìn)行歸集存儲(chǔ); 將任意兩個(gè)所述信息碎片的文本內(nèi)容進(jìn)行相似度計(jì)算,得到任意兩個(gè)信息碎片的相似度; 在用戶(hù)選取要查看的信息碎片后,建立文檔顯示該信息碎片的文本內(nèi)容,以及將其它信息碎片的文本內(nèi)容以所述相似度的大小順序在所述文檔中顯示。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 在得到信息碎片與信息碎片的所述相似度后,對(duì)于每一個(gè)所述信息碎片篩選出與該信息碎片的所述相似度在預(yù)先設(shè)定的第一閾值范圍內(nèi)的其他信息碎片,將篩選出的其他信息碎片與該信息碎片關(guān)聯(lián); 在所述文檔中顯示所述用戶(hù)選取的信息碎片的文本內(nèi)容,以及將與該信息碎片關(guān)聯(lián)的其他信息碎片的文本內(nèi)容以所述相似度的大小順序在所述文檔中顯示。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述相似度計(jì)算的過(guò)程包括: 選取所述信息碎片中的第一信息碎片D1和第二信息碎片D2 ; 根據(jù)所述第一信息碎片的文本內(nèi)容和第二信息碎片的文本內(nèi)容,分別確定詞頻高于預(yù)先設(shè)定的第二閥值的關(guān)鍵字/詞作為特征項(xiàng); 建立所述第一信息碎片的第一特征集,如下:`
D1= On,W11;T12,W12;……;Tln, W1J ; 其中,Tln為D1的所述特征項(xiàng),Wln為根據(jù)詞頻確定的權(quán)重,η為第一特征集中特征項(xiàng)的序號(hào); 建立所述第二信息碎片的第二特征集,如下:
— {T21,W21 ;T22,W22 ;......;T2m,W2m}; 其中,Tlffl為D2的所述特征項(xiàng),Wlffl為根據(jù)詞頻確定的權(quán)重,m為第二特征集中特征項(xiàng)的序號(hào); 利用余弦公式計(jì)算得到兩個(gè)所述信息碎片的所述相似度,所述余弦公式如下: Sim(D I, D ?) = cos Θ — f [k-1 w^ x w^k =;
N 其中,所述Sim(Dl,D2)為兩個(gè)所述信息碎片的所述相似度,k為特征項(xiàng)的序號(hào)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 為所述歸集存儲(chǔ)的所有信息碎片建立索引目錄; 所述用戶(hù)通過(guò)在所述索引目錄中選取所述要查看的信息碎片。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在用戶(hù)選取信息碎片后,識(shí)別每個(gè)信息碎片的信息來(lái)源; 每個(gè)所述信息碎片的文本內(nèi)容和信息來(lái)源具有映射關(guān)系; 在顯示所述信息碎片的文本內(nèi)容的同時(shí),顯示該信息碎片的信息來(lái)源。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述信息碎片包括:文本格式和圖片格式。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括: 通過(guò)用戶(hù)觸發(fā)的多個(gè)中的一個(gè)全局熱鍵,調(diào)用出相應(yīng)的選取功能,選取文本格式或圖片格式的所述信息碎片。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括 在識(shí)別用戶(hù)選取的多個(gè)信息碎片的文本內(nèi)容后,將每個(gè)所述信息碎片的文本內(nèi)容進(jìn)行對(duì)比,在檢測(cè)出文本內(nèi)容重復(fù)的情況下,提示用戶(hù)是否將文本內(nèi)容重復(fù)部分繼續(xù)進(jìn)行歸集處理; 并根據(jù)用戶(hù)的選擇,繼續(xù)進(jìn)行所述歸集處理或保留一份所述文本內(nèi)容重復(fù)部分進(jìn)行歸集處理。
9.一種信息碎片關(guān)聯(lián)輸出的系統(tǒng),其特征在于,包括: 信息識(shí)別模塊,用于識(shí)別用戶(hù)選取的信息碎片的文本內(nèi)容和信息來(lái)源,并將識(shí)別后的文本內(nèi)容和信息來(lái)源放入相應(yīng)的數(shù)據(jù)庫(kù)中進(jìn)行歸集存儲(chǔ); 所述數(shù)據(jù)庫(kù)包括:用于存儲(chǔ)信息碎片的文本內(nèi)容的第一數(shù)據(jù)庫(kù)和用于存儲(chǔ)信息碎片的信息來(lái)源的第二數(shù)據(jù)庫(kù);同一個(gè)信息碎片的文本內(nèi)容和信息來(lái)源在兩個(gè)數(shù)據(jù)庫(kù)中具有映射關(guān)系; 目錄索引模塊,用于為所述數(shù)據(jù)庫(kù)中的所有信息碎片建立索引目錄,供用戶(hù)選擇; 文檔關(guān)聯(lián)模塊,用于計(jì)算每?jī)蓚€(gè)信息碎片的相似度; 文檔輸出模塊,用于將用戶(hù)選擇的所述信息碎片的文本內(nèi)容和信息來(lái)源,以用戶(hù)選定的文檔格式顯示,以及將其它信息碎片的文本內(nèi)容以所述相似度的大小順序在所述文檔中顯不O
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,還包括: 解析模塊,用于識(shí)別用戶(hù)觸發(fā)的全局熱鍵,將識(shí)別出的全局熱鍵映射的控制指令發(fā)送給相應(yīng)的選取模塊,提供用戶(hù)相應(yīng)的選取功能; 信息查重模塊,用于將通過(guò)所述信息識(shí)別模塊識(shí)別出的文本內(nèi)容之間進(jìn)行比對(duì),在檢測(cè)出文本內(nèi)容重復(fù)的情況下,提示用戶(hù)是否將文本內(nèi)容重復(fù)部分繼續(xù)進(jìn)行歸集處理;并根據(jù)用戶(hù)的選擇,繼續(xù)進(jìn)行所述歸集處理或保留一份所述文本內(nèi)容重復(fù)部分進(jìn)行歸集處理。
【文檔編號(hào)】G06F17/30GK103729422SQ201310712337
【公開(kāi)日】2014年4月16日 申請(qǐng)日期:2013年12月23日 優(yōu)先權(quán)日:2013年12月23日
【發(fā)明者】江潮 申請(qǐng)人:武漢傳神信息技術(shù)有限公司