一種隱形編碼嵌入和檢測(cè)的方法

文檔序號(hào)：6646111閱讀：356來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種隱形編碼嵌入和檢測(cè)的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)通信安全領(lǐng)域，尤其涉及信息隱藏技術(shù)領(lǐng)域。
背景技術(shù)：
隨著計(jì)算機(jī)通信技術(shù)的普及，利用網(wǎng)絡(luò)傳送電子文件變得越來越普遍。然而，電子文件卻容易使他人輕而易舉地復(fù)制及傳播，甚至被篡改。因此，為了保障電子文件的安全傳輸，人們利用密碼學(xué)的加解密技術(shù)，通過軟件或者硬件加解密文檔，保護(hù)電子文件的安全性。但是加解密技術(shù)不能保證電子文件解密后的復(fù)制及傳播的問題。為了解決這個(gè)問題，1995年，人們提出了信息隱藏技術(shù)，即在文檔中隱藏某些不可見的、可以表明某些特性，如版權(quán)信息，使電子文檔在復(fù)制及傳播過程中得到保護(hù)及追蹤。其中，數(shù)字水印是近年來比較熱門的技術(shù)。
數(shù)字水印(Digital Watermark)技術(shù)是指用信號(hào)處理的方法在數(shù)字化的多媒體數(shù)據(jù)中嵌入隱蔽的標(biāo)記，這種標(biāo)記通常是不可見的，只有通過專用的檢測(cè)器或閱讀器才能提取。數(shù)字水印是信息隱藏技術(shù)的一個(gè)重要研究方向。
嵌入數(shù)字作品中的信息必須具有以下基本特性才能稱為數(shù)字水印隱蔽性在數(shù)字作品中嵌入數(shù)字水印不會(huì)引起明顯的降質(zhì)，并且不易被察覺。
隱藏位置的安全性水印信息隱藏于數(shù)據(jù)而非文件頭中，文件格式的變換不應(yīng)導(dǎo)致水印數(shù)據(jù)的丟失。
魯棒性所謂魯棒性是指在經(jīng)歷多種無意或有意的信號(hào)處理過程后，數(shù)字水印仍能保持完整性或仍能被準(zhǔn)確鑒別?？赡艿男盘?hào)處理過程包括信道噪聲、濾波、數(shù)/模與模/數(shù)轉(zhuǎn)換、重采樣、剪切、位移、尺度變化以及有損壓縮編碼等。
在數(shù)字水印技術(shù)中，水印的數(shù)據(jù)量和魯棒性構(gòu)成了一對(duì)基本矛盾。從主觀上講，理想的水印算法應(yīng)該既能隱藏大量數(shù)據(jù)，又可以抗各種信道噪聲和信號(hào)變形。然而在實(shí)際中，這兩個(gè)指標(biāo)往往不能同時(shí)實(shí)現(xiàn)，不過這并不會(huì)影響數(shù)字水印技術(shù)的應(yīng)用，因?yàn)閷?shí)際應(yīng)用一般只偏重其中的一個(gè)方面。如果是為了隱蔽通信，數(shù)據(jù)量顯然是最重要的，由于通信方式極為隱蔽，遭遇敵方篡改攻擊的可能性很小，因而對(duì)魯棒性要求不高。但對(duì)保證數(shù)據(jù)安全來說，情況恰恰相反，各種保密的數(shù)據(jù)隨時(shí)面臨著被盜取和篡改的危險(xiǎn)，所以魯棒性是十分重要的，此時(shí)，隱藏?cái)?shù)據(jù)量的要求居于次要地位。
目前，典型的數(shù)字水印算法是把目標(biāo)數(shù)據(jù)待嵌入信息都轉(zhuǎn)換為圖像來處理，下面列舉一些典型的數(shù)字水印算法1.最低有效位算法(LSB)是L.F.Turner和R.G.van Schyndel等人提出的第一種數(shù)字水印算法，是一種典型的空間域信息隱藏算法。特定的密鑰通過m序列發(fā)生器產(chǎn)生隨機(jī)信號(hào)，然后按一定的規(guī)則排列成2維水印信號(hào)，并逐一插入到原始圖像相應(yīng)像素值的最低幾位。由于水印信號(hào)隱藏在最低位，相當(dāng)于疊加了一個(gè)能量微弱的信號(hào)，因而在視覺和聽覺上很難察覺。LSB水印的檢測(cè)是通過待測(cè)圖像與水印圖像的相關(guān)運(yùn)算和統(tǒng)計(jì)決策實(shí)現(xiàn)的。Stego Dos、White Noise Storm、STools等早期數(shù)字水印算法都采用了LSB算法。LSB算法雖然可以隱藏較多的信息，但隱藏的信息可以被輕易移去，無法滿足數(shù)字水印對(duì)于魯棒性的要求，因此現(xiàn)在的數(shù)字水印軟件已經(jīng)很少采用LSB算法了。不過，作為一種大數(shù)據(jù)量的信息隱藏方法，LSB在隱蔽通信中仍占據(jù)著相當(dāng)重要的地位。
2.Patchwork算法是麻省理工學(xué)院媒體實(shí)驗(yàn)室Walter Bander等人提出的一種數(shù)字水印算法，主要用于打印票據(jù)的防偽。Patchwork數(shù)字水印隱藏在特定圖像區(qū)域的統(tǒng)計(jì)特性中，其魯棒性很強(qiáng)，可以有效地抵御剪切、灰度校正、有損壓縮等攻擊，其缺陷是數(shù)據(jù)量較低，對(duì)仿射變換敏感，對(duì)多拷貝平均攻擊的抵抗力較弱。
3.紋理塊映射編碼紋理塊映射將水印信息隱藏在圖像的隨機(jī)紋理區(qū)域中，利用紋理間的相似性掩蓋水印信息。該算法對(duì)濾波、壓縮和扭轉(zhuǎn)等操作具有抵抗能力，但需要人工干預(yù)。
4.DCT(離散余弦)變換域數(shù)字水印算法DCT變換域數(shù)字水印是目前研究最多的一種數(shù)字水印，它具有魯棒性強(qiáng)、隱蔽性好的特點(diǎn)。其主要思想是在圖像的DCT變換域上選擇中低頻系數(shù)疊加水印信息。之所以選擇中、低頻系數(shù)，是因?yàn)槿搜鄣母杏X主要集中在這一頻段，攻擊者在破壞水印的過程中，不可避免地會(huì)引起圖像質(zhì)量的嚴(yán)重下降，一般的圖像處理過程也不會(huì)改變這部分?jǐn)?shù)據(jù)。由于JPEG、MPEG等壓縮算法的核心是在DCT變換域上進(jìn)行數(shù)據(jù)量化，所以通過巧妙地融合水印過程與量化過程，就可以使水印抵御有損壓縮。此外，DCT變換域系數(shù)的統(tǒng)計(jì)分布有比較好的數(shù)學(xué)模型，可以從理論上估計(jì)水印的信息量。
5.直接序列擴(kuò)頻水印算法擴(kuò)頻水印算法是擴(kuò)頻通信技術(shù)在數(shù)字水印中的應(yīng)用。與傳統(tǒng)的窄帶調(diào)制通信方法不同，擴(kuò)頻通信將待傳遞的信息通過擴(kuò)頻碼調(diào)制后散布于非常寬的頻帶中，使其具有偽隨機(jī)特性。收信方通過相應(yīng)的擴(kuò)頻碼進(jìn)行解擴(kuò)，獲得真正的傳輸信息。擴(kuò)頻通信具有抗干擾性強(qiáng)、高度保密的特性，在軍事上應(yīng)用廣泛。事實(shí)上，擴(kuò)頻通信也可以看作是一種無線電密寫方法。拋開其信息論方面的理論依據(jù)不講，單從感知的角度考慮，擴(kuò)頻通信之所以具有保密性，就在于它將信息偽裝成信道噪聲，使人無法分辨。擴(kuò)頻水印方法與擴(kuò)頻通信類似，是將水印信息經(jīng)擴(kuò)頻調(diào)制后疊加在原始數(shù)據(jù)上。從頻域上看，水印信息散布于整個(gè)頻譜，無法通過一般的濾波手段恢復(fù)。如果要攻擊水印信息，則必須在所有頻段上加入大幅度噪聲，這無疑會(huì)嚴(yán)重?fù)p害原始數(shù)據(jù)的質(zhì)量。
6.其他變換域數(shù)字水印算法變換域數(shù)字水印并不局限于DCT變換域或傅立葉譜，只要能很好地隱藏水印信息，一切信號(hào)變換都是可行的。近年來，有很多學(xué)者嘗試用小波變換或其他時(shí)/頻分析的手段，在時(shí)間/尺度域或時(shí)/頻域中隱藏?cái)?shù)字水印信息，取得了比較好的效果。
評(píng)價(jià)一種數(shù)字水印算法優(yōu)劣的主要依據(jù)包括1.抗干擾能力(魯棒性)數(shù)字水印技術(shù)對(duì)于魯棒性有一定的的要求，即它可以抵抗第三方的攻擊或正常的、標(biāo)準(zhǔn)的數(shù)據(jù)操作和變換。換句話說，即使攻擊者知道傳遞的數(shù)據(jù)中包含隱藏的重要信息，但也無法將其提取出來，或在不嚴(yán)重?fù)p壞宿主數(shù)據(jù)的情況下難以將水印破壞掉。魯棒性測(cè)試實(shí)際上是一個(gè)主動(dòng)攻擊過程，主要測(cè)試數(shù)字水印對(duì)數(shù)據(jù)同步的依賴程度、抗各種線性和非線性濾波的能力，以及抵御幾何變換等其他攻擊的能力。
2.信息嵌入量能否在有限的原始信息數(shù)據(jù)中嵌入足夠的特定標(biāo)示信息。
3.信息隱藏度(對(duì)原始信息的干擾程度)數(shù)字水印的信息量與隱蔽性之間存在著矛盾，隨著水印信息量的增加，作品的質(zhì)量必然下降。隱蔽性測(cè)試需要對(duì)水印算法的信息量與能見度進(jìn)行評(píng)估，給出水印信息量與數(shù)據(jù)降質(zhì)之間的準(zhǔn)確關(guān)系。對(duì)于圖像、聲音等多媒體數(shù)據(jù)質(zhì)量的評(píng)估不能僅依據(jù)信噪比、峰值信噪比等信號(hào)處理中的指標(biāo)，必須依賴視覺和聽覺的生理模型，否則就不具有科學(xué)性，這不僅是數(shù)字水印也是數(shù)據(jù)壓縮的基本準(zhǔn)則之一4.安全性安全性測(cè)試主要是對(duì)破解水印算法的時(shí)間及復(fù)雜性進(jìn)行評(píng)估，以此作為水印安全性的指標(biāo)。
上面描述的幾種典型的數(shù)字水印技術(shù)，一般是把待標(biāo)識(shí)的信息，即水印信息，通過圖像處理的方法嵌入。比較適合應(yīng)用于將標(biāo)識(shí)信息嵌入圖像、視頻、音頻等媒體。這種技術(shù)把文件看作是一般性的流式媒體或者平面媒體，不區(qū)分文字信息和其他信息。處理的時(shí)候一般通過頻域變換，時(shí)域變換等做圖像處理。一般這些處理都是通過變換人眼不易覺察的圖像中的信息，如高頻信息，來達(dá)到嵌入水印的目的。這樣的方法類似于JPEG壓縮等算法。但是傳統(tǒng)數(shù)字水印方法沒有考慮特定類型文檔如電子文檔的特點(diǎn)，因此在應(yīng)用到特定領(lǐng)域的時(shí)候，就顯得抗干擾能力不夠強(qiáng)。比如對(duì)于電子公文傳輸來說，電子公文基本上是二值圖像，圖像沒有灰度等級(jí)。這種文檔如果采用普通的數(shù)字水印技術(shù)，會(huì)帶來兩個(gè)問題1.文檔輸出質(zhì)量會(huì)降低，二值圖像對(duì)頻域變換非常敏感，而電子公文類的文件要求文字清晰，白底黑字，不適合做整體的圖像變換。
2.打印輸出的電子公文在傳播過程中最容易通過復(fù)印來進(jìn)行，而基于圖像細(xì)節(jié)變換的數(shù)字水印技術(shù)對(duì)于復(fù)印和掃描產(chǎn)生的干擾非常敏感，這使得水印信息丟失嚴(yán)重，如果在傳播過程中再經(jīng)過污染，裁剪，浸泡等干擾之后，水印信息丟失會(huì)更嚴(yán)重，會(huì)造成水印不可識(shí)別，因此，傳統(tǒng)數(shù)字水印技術(shù)不適合在電子公文中應(yīng)用。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種隱形編碼嵌入方法，它使得隱形編碼能夠較好地嵌入包含文字的文檔中，并能很好地平衡隱形編碼的不可見性和魯棒性。
本發(fā)明的另一個(gè)目的在于提供一種對(duì)上述嵌入隱形編碼的文檔的檢測(cè)方法。當(dāng)嵌入隱形編碼的文檔經(jīng)過多次的干擾和轉(zhuǎn)移后，如復(fù)印、數(shù)碼相機(jī)拍攝等等，仍然可以從最后的文檔中提取隱藏的信息。
為了實(shí)現(xiàn)本發(fā)明的上述目的，根據(jù)本發(fā)明的一個(gè)方面，一種隱形編碼嵌入方法包括a)將一類的版式變形作為一個(gè)通道，選擇至少一個(gè)通道來表現(xiàn)要嵌入到文檔中的隱形編碼，每類版式變形包含N級(jí)變形，其中N為大于等于2的正整數(shù)，不同的版式變形級(jí)數(shù)N或相同或不同；b)確定隱形編碼對(duì)于各類版式變形的編碼序列，轉(zhuǎn)換后的編碼長度為M，其中M為正整數(shù)；c)從所述包含文字的文檔中選出需要進(jìn)行版式變形的K個(gè)字，其中K為正整數(shù)且K≥M；d)根據(jù)確定的編碼序列對(duì)所選的K個(gè)字進(jìn)行版式變形。
根據(jù)本發(fā)明的另一方面，一種隱形編碼檢測(cè)方法，包括A)對(duì)獲取的待檢測(cè)的包含文字的文檔的紙質(zhì)文件或其碎片即待識(shí)別文件進(jìn)行掃描，生成圖像文件；B)將在步驟A)中得到的待識(shí)別文件的圖像做OCR識(shí)別；C)將OCR識(shí)別結(jié)果與嵌入隱形編碼之前的原始文檔進(jìn)行匹配，得到待識(shí)別文件的每個(gè)字和原始文檔的每個(gè)字的對(duì)應(yīng)關(guān)系；D)對(duì)待識(shí)別文件中的每個(gè)字的版式變形進(jìn)行判別，標(biāo)記上每個(gè)字的變形編號(hào)，并確定所屬版式變形的種類，即確定所屬通道；E)對(duì)每一個(gè)通道，根據(jù)已知的編碼長度以及待識(shí)別文件中每個(gè)字與原文的對(duì)應(yīng)關(guān)系得到所述編碼的每一位的統(tǒng)計(jì)結(jié)果；F)對(duì)每一個(gè)通道，根據(jù)統(tǒng)計(jì)結(jié)果得到的編碼進(jìn)行解碼，得到待識(shí)別文件中的隱藏信息。
下面給出本發(fā)明中所涉及到的一些術(shù)語的含義。
版式文件通過描述文檔中可見元素(文字，圖形，圖像)的位置，大小，形狀等外觀信息來確定元素的顯示打印效果的格式文件。相對(duì)于排版文件，比如Word，書版，PPT，Excel，AutoCAD等來說，版式文件只記錄了版式信息，文檔更精簡，可以從各種可打印的排版類型文件轉(zhuǎn)換而來。
冗余編碼在數(shù)據(jù)之外增加冗余的數(shù)據(jù)，該數(shù)據(jù)是原數(shù)據(jù)的綜合的結(jié)果，當(dāng)原數(shù)據(jù)在傳輸過程中因?yàn)楦鞣N偶然因素發(fā)生損失或者變化時(shí)，可以通過驗(yàn)證冗余數(shù)據(jù)，或者利用冗余數(shù)據(jù)推算出原始數(shù)據(jù)的部分或者全部。
OCR光學(xué)文字識(shí)別技術(shù)，通過識(shí)別圖像中的文字部分，分析出文字的編碼和位置。
利用本發(fā)明隱藏信息，易操作且簡便。對(duì)以文字為主的電子文檔，利用該隱形編碼的嵌入和檢測(cè)方法可以有很好的抗干擾能力，對(duì)于各種常見的干擾方法，比如復(fù)印，掃描，揉搓，水泡，污漬，裁剪，數(shù)碼相機(jī)拍照等都有較好的容忍度。

圖1是本發(fā)明隱形編碼嵌入方法的概略圖；圖2是本發(fā)明隱形編碼檢測(cè)方法的概略圖；圖3是本發(fā)明隱形編碼嵌入方法的基本流程圖；圖4是本發(fā)明隱形編碼檢測(cè)方法的基本流程圖。
具體實(shí)施例方式
下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
進(jìn)一步詳細(xì)說明。
本發(fā)明主要是通過對(duì)含有文字的文檔中的文字的版式-----文字的尺寸、排版位置及字體----進(jìn)行細(xì)微的調(diào)整，從而將一部分額外的信息隱性地嵌入到文檔當(dāng)中。這些額外的信息可以是對(duì)文字(包括數(shù)字等)的細(xì)微調(diào)整。
所有的信息在嵌入到文檔之前都要被編碼，最終所有的信息都是以編碼的形式嵌入到文檔中。由于每種文字的版式變形都可以單獨(dú)地被利用而獨(dú)立地完成隱藏信息的工作，所以對(duì)于一份含有文字的文檔，每種版式變形都形成一種通道，所有的通道可以并行地嵌入信息。比如在一份文檔中要嵌入的信息是3個(gè)獨(dú)立的數(shù)字“9”、“8”、“7”，那么可以分別在文字尺寸變形的通道中嵌入“9”，在文字位置變形的通道中嵌入“8”，在文字字體變形的通道中嵌入“7”。也可以在3個(gè)通道中都嵌入“9”、“8”、“7”，從而利用各通道之間的相互驗(yàn)證，加強(qiáng)信息隱藏的穩(wěn)定性。
為了增加編碼的容錯(cuò)性和抗干擾性，上述編碼可以采用冗余編碼，如BCH算法或RS算法。
上述對(duì)文字的版式變形包括對(duì)文檔中文字個(gè)體的變形，包括，對(duì)文字的尺寸、文字的排版位置、字體的改變。其中所述文字的尺寸的改變包括在文字的高度、寬度或其組合上的變化；所述文字的排版位置的改變包括在文字的縱向位置、橫向位置或其組合上的變化；所述字體的變化包括在筆劃長短、筆劃形狀、筆劃之間相對(duì)位置、筆劃粗細(xì)、筆劃斜率或其組合上的變化。
由于通道的版式變形的級(jí)別根據(jù)需要會(huì)有所變化，所以每個(gè)通道采用的編碼的碼制會(huì)根據(jù)版式變形級(jí)別的不同而有所不同。比如，文字尺寸變形通道中，如果只采用文字變大和不變兩種級(jí)別，那么這個(gè)通道的編碼碼制就是二進(jìn)制；如果采用文字變大1/3英寸、1/5英寸、不變和縮小1/5英寸四種級(jí)別，那么這個(gè)通道的編碼碼制就是四進(jìn)制。如果某個(gè)通道采用二進(jìn)制編碼，要嵌入通道的信息是數(shù)字“9”，那么要嵌入通道的隱形編碼就是1001。也就是說文檔中至少要有4個(gè)文字才能保證信息的完整嵌入。
對(duì)于隱形編碼的檢測(cè)，一個(gè)基礎(chǔ)條件就是進(jìn)行隱形編碼檢測(cè)的這一方和把隱形編碼嵌入的那一方，都同樣知道隱形編碼的嵌入規(guī)則，特別是對(duì)于嵌入時(shí)使用的每個(gè)通道的版式變形級(jí)別以及每種特定碼制的編碼規(guī)則。比如一個(gè)通道的版式變形級(jí)別為兩級(jí)，那么此通道的編碼碼制為二進(jìn)制，同時(shí)確定編碼采用4位定長編碼，那么如果嵌入的信息是數(shù)字“9”，則其對(duì)應(yīng)的隱形編碼為1001；如果嵌入的信息是數(shù)字“2”，則其對(duì)應(yīng)的隱形編碼為0010。
在確定了嵌入與檢測(cè)雙方對(duì)嵌入規(guī)則有共同理解的基礎(chǔ)上，首先需要將獲得的待識(shí)別文件通過掃描和OCR識(shí)別后，將其轉(zhuǎn)換為與原始文檔相同格式的電子文檔。其中，待識(shí)別文件指的是需要識(shí)別的紙質(zhì)文件或者它的碎片。
在待識(shí)別文件轉(zhuǎn)換為與原始文檔相同格式后，將待識(shí)別文件的電子文檔與原始文檔做匹配，確定待識(shí)別文件中的每個(gè)文字對(duì)應(yīng)于原始文檔中的位置。比如原始文檔有1000個(gè)字，待識(shí)別文件是原始文檔的一部分碎片，只包含5個(gè)字“我們這一群”。那么就需要使用碎片匹配方式，來比對(duì)出“我們這一群”這5個(gè)字在原始文檔中出現(xiàn)的位置。比如“我們這一群”這5個(gè)字只在原始文檔中的第177到第181個(gè)字的位置得到了匹配，也就是說原始文檔中只有第177到第181個(gè)字的位置出現(xiàn)過“我們這一群”這5個(gè)連續(xù)的文字。
在確定了待識(shí)別文件中的文字與原始文檔的對(duì)應(yīng)位置關(guān)系后，就可以逐個(gè)地比對(duì)待識(shí)別文件中的每個(gè)字與原始文檔中的字之間在版式上的差別，并把每種辨識(shí)出來的差別做標(biāo)記。依然使用前面的例子，用待識(shí)別文件中“我們這一群”這5個(gè)字逐一與原始文檔中的第177到第181個(gè)字進(jìn)行比對(duì)。假設(shè)嵌入規(guī)則是文字尺寸變形通道，版式變形級(jí)別為兩級(jí)，即變大和不變，變大代表1，不變代表0，且編碼為4位長的定長編碼。通過計(jì)算機(jī)進(jìn)行對(duì)比，假設(shè)得出的對(duì)比結(jié)果依次是不變、不變、變大、變大、不變，那么從這5個(gè)字的對(duì)比結(jié)果可以檢測(cè)出的編碼序列是00110。根據(jù)嵌入規(guī)則，由于已知編碼的定長是4位，4×44＝176，所以可以計(jì)算出第177位是隱形編碼的開始位置，即5個(gè)字中的“我”字是隱形編碼的開始位置，所以可以知道嵌入的隱形編碼是0011。
在上述實(shí)施方式中，也可以通過人工方式判別待識(shí)別文檔的版式變形，確定字的變化編號(hào)；也可以通過計(jì)算機(jī)和人工結(jié)合的方式進(jìn)行判別，即，在通過計(jì)算機(jī)的方式進(jìn)行判別得到一個(gè)對(duì)比結(jié)果后，再通過人工方式進(jìn)行判別，對(duì)其中計(jì)算機(jī)判別可能存在錯(cuò)誤的地方進(jìn)行調(diào)整，如，在上面的例子中，當(dāng)通過計(jì)算機(jī)方式判別得到的結(jié)果是00111時(shí)，而通過人工方式判別認(rèn)為第5位的“1”是錯(cuò)誤的，則可以根據(jù)人工判別將第5位的“1”修改為“0”。
對(duì)于本發(fā)明，一種特殊的使用方法是，在一份包含文字的文檔的所有通道中，嵌入相同的信息----正整數(shù)。這種應(yīng)用主要用在對(duì)同一份文檔要打印出多份紙質(zhì)文件時(shí)，對(duì)每份打印出的文件嵌入一個(gè)隱形的標(biāo)識(shí)，用來追蹤確認(rèn)打印文件的出處從而防止文件的泄密。
下面以這種特殊應(yīng)用的具體實(shí)施例來詳細(xì)描述本發(fā)明。
圖1是本發(fā)明的隱形編碼嵌入方法的概略圖。本發(fā)明的隱形編碼算法技術(shù)包括嵌入隱形編碼和檢測(cè)隱形編碼兩個(gè)階段。嵌入隱形編碼階段的設(shè)計(jì)主要解決兩個(gè)問題一是隱形編碼的設(shè)計(jì)。這里所說的隱形編碼，就是指未來將要嵌入到電子文檔中的那段標(biāo)識(shí)。在本發(fā)明的算法中使用不同的整數(shù)作為標(biāo)識(shí)來辨識(shí)不同的個(gè)體，即對(duì)于每一文檔，嵌入的隱形編碼是一個(gè)整數(shù)，標(biāo)識(shí)了文檔對(duì)象的唯一。整數(shù)的最大位數(shù)為文檔可以支持的識(shí)別空間的大小，比如，嵌入的最大整數(shù)為65536，則表明可以從65536個(gè)不同變形的文檔中區(qū)分出特定一個(gè)文檔。其中標(biāo)識(shí)(也就是隱形編碼)的長度涉及到標(biāo)識(shí)在被嵌入的文檔中所占位的長度。被嵌入的標(biāo)識(shí)越長，則檢測(cè)標(biāo)識(shí)時(shí)從被嵌入的文檔中選取的信息(文字)就越多。二是嵌入方法，嵌入算法的目標(biāo)是使隱形編碼在不可見性和魯棒性之間找到一個(gè)較好的折中。也就是說，嵌入到文檔中的隱形編碼越簡單，則這個(gè)隱形編碼對(duì)文檔的影響越小，也就是它的可見性越小，但是由于隱形編碼簡單，它的抗干擾能力會(huì)越差，魯棒性越差；而相反，如果隱形編碼越復(fù)雜，則它的抗干擾性就越強(qiáng)，魯棒性越好，但是由于隱形編碼復(fù)雜，會(huì)對(duì)嵌入文檔產(chǎn)生更大的影響，使不可見性變差。在嵌入算法中，我們要做的主要是版式變形的選擇，參數(shù)的設(shè)定，編碼算法等設(shè)計(jì)，這將在后面詳細(xì)描述。
圖2是本發(fā)明隱形編碼檢測(cè)方法的概略圖。檢測(cè)隱形編碼階段主要是設(shè)計(jì)一個(gè)相應(yīng)于嵌入過程的檢測(cè)方法。檢測(cè)的結(jié)果或是原隱形編碼，即嵌入的標(biāo)識(shí)，或是基于統(tǒng)計(jì)原理的檢驗(yàn)結(jié)果，即在無法唯一確定的情況下，給出可能的標(biāo)識(shí)范圍，具體解釋見后面。檢測(cè)的目標(biāo)是使錯(cuò)判與漏判的概率盡量小。
圖3是隱形編碼嵌入方法的基本流程圖。
首先，步驟1，根據(jù)需要確定待嵌入隱形編碼的文件份數(shù)N，即區(qū)分的標(biāo)識(shí)的個(gè)體空間N。其中在每份文件中嵌入不同的標(biāo)識(shí)作為隱形編碼，以便能夠通過隱形編碼區(qū)別每份文件。
步驟2，選擇版式變形版式變形包括對(duì)文檔中文字個(gè)體的變形。將版式變形分成幾類，每類版式變形作為一個(gè)通道，其中每類版式變形存在多個(gè)級(jí)別，這些級(jí)別的多少即是嵌入算法中的參數(shù)的設(shè)定，如字體大小變換，如果變換為大中小三種，則此時(shí)的參數(shù)為3。
對(duì)文件中的文字個(gè)體可以采用如下的幾類版式變形(1)細(xì)微調(diào)節(jié)版式文件中的文字的大小，如，修改文字的尺寸，包括放大，縮小，錯(cuò)切等，在水平和垂直方向做不等比例放縮；(2)細(xì)微移動(dòng)文字的位置，如，修改文字的排版位置，包括水平移動(dòng)，垂直移動(dòng)，以及任意角度的移動(dòng)等；
(3)使用定制字體對(duì)文字變形，該定制字體和文字在文件中的原字體很接近，只有細(xì)微的差別，包括筆畫粗細(xì)的變化，筆畫角度的變化，筆畫連接關(guān)系的變化，部首間距的變化等；步驟3，選擇需要進(jìn)行版式變形的字及字?jǐn)?shù)，根據(jù)為每份文件選擇的標(biāo)識(shí)，對(duì)文字個(gè)體的版式變形進(jìn)行編碼。確定編碼方案后，利用編碼方案進(jìn)行文字變化編碼。當(dāng)版式變形只有一類，即只有一個(gè)通道，而需要辨別的空間有M種，即需要嵌入隱形編碼的文件有M份時(shí)，在不做冗余編碼的情況下，采用N進(jìn)制編碼，N為一種版式變形的子區(qū)分，比如字體變形，如果使用N種字體，即該類版式變形有N個(gè)級(jí)別，則編碼為N進(jìn)制。這時(shí)，原文檔中需要納入編碼變化的文字至少有[logN(M-1)]+1，即原文檔至少有[logN(M-1)]+1的字。當(dāng)每份需要嵌入隱形編碼的文件中共有K個(gè)文字，則可以采用[logN(M-1)]+1個(gè)編碼循環(huán)應(yīng)用到K個(gè)文字，總共可以嵌入K/{[logN(M-1)]+1}次，得到一份嵌入隱形編碼的文件。
例如，目前有1份文檔的9份復(fù)制件需要同時(shí)加入隱形編碼，采用2進(jìn)制進(jìn)行編碼(文字的變換方法有兩種)，即用0表示不變形，用1表示文字放大1/300英寸。那么M＝9，N＝2，[log2(9-1)]+1＝4，所以編碼的長度為4。也就是說，當(dāng)文字的變化方式只有兩種時(shí)，這份文檔的9份打印件要想唯一地被識(shí)別，那么文檔最少要有4個(gè)字?，F(xiàn)假設(shè)文檔中有8個(gè)文字，則隱形編碼總共可以被嵌入了2次，即8除以4等于2，即每次給4個(gè)字嵌入編碼，如果8個(gè)字都嵌入編碼，則需要循環(huán)2次，得到一份嵌入隱形編碼的文件。例如，當(dāng)前述嵌入隱形編碼的文件的編碼序列是01010101時(shí)，它表示對(duì)序列號(hào)為1，3，5，7的文字不做變形，對(duì)序號(hào)為2，4，6，8的文字做1/300英寸的放大。
前述編碼方案中，對(duì)每一種通道均可使用[logN(M-1)]+1這個(gè)公式來計(jì)算出編碼的長度，即文檔中至少有[logN(M-1)]+1的字。對(duì)于不同的通道，N取值可能不同，如文字大小變化通道，即將文字變大、不變，則N為2。而文字橫向偏移通道，即將文字左偏、不偏、右偏，則N為3。
在上面的步驟3中，可以采用多個(gè)通道對(duì)文字進(jìn)行編碼變化(每種編碼是對(duì)文字的一種變換而言，如文字變換大小是一種，而文字平移是另外一種變換)。同一類文字變形方法作為一個(gè)通道。多個(gè)通道，即多種類版式變形方法，可以應(yīng)用到一個(gè)文字上。比如可以同時(shí)放大一個(gè)文字，并改變字體為字體F2。兩種變化互相不影響的話，識(shí)別的時(shí)候也可以分離各個(gè)通道的信息。各個(gè)通道的識(shí)別結(jié)果可以通過求交集來縮小識(shí)別的結(jié)果范圍。不同類的版式變形，對(duì)不同的干擾的抵抗能力是不同的，例如，字體變化抗折疊干擾比較好，但是抗模糊處理比較差，而字體放縮抗折疊比較差，但抗模糊處理比較好。因此采用多通道的編碼(變形)方案，可以抵抗各種干擾。
為了在一定程度上糾正識(shí)別錯(cuò)誤，可以采用冗余編碼方案對(duì)編碼做冗余，如，利用目前通訊領(lǐng)域比較成熟的BCH算法和RS算法。這兩種算法都是在有效的數(shù)字標(biāo)識(shí)位后，添加幾位冗余編碼，這幾位冗余編碼中記錄了前面有效的數(shù)字的一些特性。在有效的數(shù)字標(biāo)識(shí)被干擾產(chǎn)生錯(cuò)誤時(shí)，可以根據(jù)冗余編碼中記錄的特性來重新恢復(fù)有效的數(shù)字標(biāo)識(shí)。其中，對(duì)于二值的編碼通道(即對(duì)于本通道，文字的變換只有兩種)，BCH比較理想。對(duì)于多值的編碼通道，RS比較理想。
經(jīng)過上述步驟，形成包含隱形編碼的電子文檔。
圖4為隱形編碼檢測(cè)方法的基本流程圖。如圖3所示，對(duì)根據(jù)圖2所示的方法嵌入隱形編碼的文檔進(jìn)行隱形編碼檢測(cè)的方法，包括如下步驟在步驟1，對(duì)獲取待識(shí)別文檔進(jìn)行掃描，生成一個(gè)圖像文件。
在步驟2，將原始文檔生成不變形的圖像后保存到內(nèi)存中，同時(shí)把在步驟1中得到的待識(shí)別文件也作為圖像，與原始文檔生成的圖像同時(shí)做OCR識(shí)別；其中OCR是光學(xué)文字識(shí)別技術(shù)，其通過識(shí)別圖像中的文字部分，分析出文字的編碼和位置。
在步驟3，對(duì)OCR識(shí)別結(jié)果用碎片匹配方法進(jìn)行處理，得到待識(shí)別文件的每個(gè)字和內(nèi)存圖像每個(gè)文字的對(duì)應(yīng)關(guān)系；碎片匹配算法主要的目的，是確定所得到的待識(shí)別文件中的內(nèi)容是原文件中的哪部分內(nèi)容，也就是用待識(shí)別文件與原始文檔作比對(duì)定位。
由于原始文檔在打印時(shí)所用的順序和OCR識(shí)別的順序不一定一致，所以采用與碎片匹配算法類似的方法得到原版式文件的每個(gè)字和內(nèi)存圖像每個(gè)字的對(duì)應(yīng)關(guān)系。如，當(dāng)出現(xiàn)多個(gè)待識(shí)別文件時(shí)，使用此方法分別定位每個(gè)待識(shí)別文件在原文件中的位置。這樣編碼時(shí)用到的原始文檔就和解碼時(shí)所用到的待識(shí)別文件的文字對(duì)應(yīng)上了。
在步驟4，對(duì)碎片中的每個(gè)字的版式變形進(jìn)行判別，標(biāo)記上每個(gè)字的變形編號(hào)，并確定所屬通道；例如，(1)對(duì)待識(shí)別文件中的每個(gè)字進(jìn)行橫向變形的判別，標(biāo)記上每個(gè)字的變形編號(hào)，確定為通道一；(2)對(duì)待識(shí)別文件中的每個(gè)字進(jìn)行縱向變形的判別，標(biāo)記上每個(gè)字的變形編號(hào)，確定為通道二；(3)對(duì)待識(shí)別文件中的每個(gè)字進(jìn)行OCR字模判別，標(biāo)記上每個(gè)字所使用的字模編號(hào)，確定為通道三；等等。
在步驟5，對(duì)每一個(gè)通道，根據(jù)已知的編碼長度以及碎片中每個(gè)字與原文的對(duì)應(yīng)關(guān)系得到所述編碼的每一位的統(tǒng)計(jì)結(jié)果；由于在編碼時(shí)，一段編碼可能會(huì)在整個(gè)文檔中被重復(fù)了多次(重復(fù)次數(shù)可以根據(jù)上述隱形編碼嵌入方法的步驟3中的公式進(jìn)行計(jì)算)，所以，可以得到這個(gè)編碼的每一位的統(tǒng)計(jì)結(jié)果；在步驟6，對(duì)每一個(gè)通道，對(duì)根據(jù)統(tǒng)計(jì)結(jié)果所得到的編碼進(jìn)行解碼，得出打印時(shí)的標(biāo)識(shí)ID；a)若從統(tǒng)計(jì)結(jié)果中得到的是一個(gè)完整編碼，則可將這個(gè)編碼進(jìn)行解碼，得出電子文檔打印時(shí)的標(biāo)識(shí)ID；b)若從統(tǒng)計(jì)結(jié)果中得到的不是一個(gè)完整編碼，但是所缺的編碼位數(shù)在糾錯(cuò)范圍內(nèi)，也可以直接進(jìn)行解碼，利用BCH或者RS編碼的糾錯(cuò)能力得到打印時(shí)的標(biāo)識(shí)ID；c)若從統(tǒng)計(jì)結(jié)果中得到的不是一個(gè)完整編碼，且所缺的編碼位數(shù)超過了糾錯(cuò)范圍，則枚舉缺失的編碼位的所有組合，形成可能的編碼集合，并通過糾錯(cuò)碼的篩選得出一個(gè)可能的標(biāo)識(shí)ID的集合。這是由于冗余編碼的糾錯(cuò)能力是有限的，只可以校驗(yàn)出L位有效數(shù)字中的S位(S＜L)，所以如果最終所得到的碎片中缺失的編碼位數(shù)大于S，就需要使用上述方法獲得一個(gè)可能的標(biāo)識(shí)ID的集合。
在步驟7，對(duì)各個(gè)通道計(jì)算出的標(biāo)識(shí)ID進(jìn)行匯總，以確定所獲取的待識(shí)別文件的打印時(shí)的標(biāo)識(shí)，從而識(shí)別該文件或碎片是多份打印文件中哪一份。
當(dāng)對(duì)一份文件的多個(gè)通道使用相同的標(biāo)識(shí)時(shí)，如果對(duì)多數(shù)的通道所計(jì)算出的標(biāo)識(shí)是同一個(gè)標(biāo)識(shí)ID，則此標(biāo)識(shí)ID就是打印時(shí)的標(biāo)識(shí)ID；若各通道計(jì)算出的標(biāo)識(shí)ID不相同，則將各通道計(jì)算出的標(biāo)識(shí)ID值列出來，由人工根據(jù)碎片所受干擾方式不同來決定標(biāo)識(shí)ID。
當(dāng)所有通道中沒有一個(gè)通道得到完整編碼，則從各個(gè)通道得出的可能ID的集合中取一個(gè)交集，該交集便是最有可能的ID的集合。當(dāng)懷疑通過上面的分析過程產(chǎn)生的文檔ID存在誤差時(shí)，可以進(jìn)入人工調(diào)整界面，人為地來設(shè)定一些字的變化編號(hào)，而不一定使用由計(jì)算機(jī)識(shí)別出來的文字變化編號(hào)，在人工調(diào)整完畢后，轉(zhuǎn)到步驟5繼續(xù)執(zhí)行，直到得到所述的標(biāo)識(shí)ID。
本發(fā)明可以根據(jù)需要，不同的通道可使用相同的標(biāo)識(shí)，也可以使用不同的標(biāo)識(shí)；一份文件可以只有一個(gè)標(biāo)識(shí)，也可以有不止一個(gè)標(biāo)識(shí)。
本發(fā)明把手工識(shí)別和自動(dòng)識(shí)別結(jié)合起來。對(duì)于軟件自動(dòng)識(shí)別中，軟件無法區(qū)分的某些文字變形，可以通過放大和對(duì)比來人工指認(rèn)單個(gè)文字是否變形和變形方法，從而糾正自動(dòng)識(shí)別的錯(cuò)誤，增加識(shí)別的可靠性。
下面通過一個(gè)具體實(shí)施例具體說明本發(fā)明的方法。
現(xiàn)在同一文檔，如電子公文，要復(fù)制9份，這9份文件中要加入隱形編碼從而加以區(qū)分。
目前我們使用3種對(duì)文字的微調(diào)變形方法，即對(duì)文字的橫向變形、縱向變形和字模變形，將它們作為3個(gè)編碼通道，分別形成隱形編碼共同作用于同一份文檔。也就是說，復(fù)制出來的同一個(gè)字可能會(huì)有橫向、縱向和字模三種變化。
第一通道為文字橫向變形，橫向變形存在3種變形一變大、不變、變??；第二通道為文字縱向，縱向變形存在2種變形一變大、不變；第三通道為字模變形，字模變形存在2種變形一宋體、仿宋。
因此，第一通道，即橫向編碼通道使用3進(jìn)制表示，第二和第三通道，即縱向和字模編碼通道都使用2進(jìn)制表示。
根據(jù)編碼方案公式[logN(M-1)]+1，則M＝9。因此，對(duì)于橫向通道N＝3，其編碼長度為[log3(9-1)+1＝2，即所述編碼方案最多可以嵌入32＝9份文件；對(duì)于縱向和字模通道N＝2，這兩個(gè)通道的編碼長度均為log2(9-1)+1＝4，即所述編碼方案最多可以嵌入24＝16＞9份文件。
因?yàn)樾枰度腚[形編碼的文檔份數(shù)為9，所以，橫向通道的編碼分別為3進(jìn)制00(十進(jìn)制整數(shù)0)，01(1)，02(2)，10(3)，11(4)，12(5)，20(6)，21(7)，22(8)；縱向通道和字模通道的編碼為二進(jìn)制0000(十進(jìn)制整數(shù)0)，0001(1)，0010(2)，0011(3)……1000(8)。其中，橫向通道中的編碼0表示不變，1表示變大，2表示變小，而22表示近鄰的兩個(gè)字，每個(gè)字在橫向上均變?。豢v向通道中的編碼0表示變大，1表示不變，而0010表示近鄰的四個(gè)字，在縱向上分別變大、變大、不變、變大；字模通道中的編碼0表示宋體，1表示仿宋，而0011表示近鄰的四個(gè)字，在字模上分別表示宋體、宋體、仿宋、仿宋。
假設(shè)這份文檔一共有16個(gè)字。由于我們采取冗余編碼，也就是在正常編碼后加入校驗(yàn)碼的形式。那么，第4份文檔嵌入的隱形編碼的標(biāo)識(shí)是十進(jìn)制整數(shù)3(第一份文檔的標(biāo)識(shí)或隱形編碼為十進(jìn)制整數(shù)0)，其在各通道的表現(xiàn)分別為(其中帶下劃線的數(shù)字為校驗(yàn)碼)橫向通道，1001100110011001縱向通道，0011110000111100字模通道，0011110000111100這三個(gè)通道的隱形編碼共同作用在第4份文檔上，最終形成一份嵌入好隱形編碼的紙質(zhì)文檔。
至此，隱形編碼嵌入完成。
下面，進(jìn)行隱形編碼檢測(cè)。
假設(shè)獲得了按前述隱形編碼嵌入方法嵌入了隱形編碼的9份紙質(zhì)文檔中的一份，而且只是文檔的一部分碎片(待識(shí)別文件)。
首先，將碎片的內(nèi)容掃描進(jìn)計(jì)算機(jī)。同時(shí)，找到嵌入隱形編碼前的原始的電子文檔。我們對(duì)碎片的內(nèi)容進(jìn)行OCR識(shí)別后，與原始文檔的內(nèi)容進(jìn)行比較，從而確定這份碎片是原始文檔的哪部分。
假設(shè)最終確定待識(shí)別文件中的內(nèi)容是原文檔中的第九個(gè)字至第十六個(gè)字。則對(duì)這八個(gè)字的橫向、縱向和字模進(jìn)行分析，從而識(shí)別出不同通道的編碼。
假設(shè)最后得到了每個(gè)通道的識(shí)別結(jié)果，分別是橫向通道不變、變大、變大、不變、不變、變大、變大、不變；縱向通道變大、變大、不變、變大、變大、變大、不變、不變；字模通道變大、不變、不變、不變、變大、變大、不變、不變。
所以通過對(duì)比識(shí)別出的各通道的編碼分別是橫向通道10011001；縱向通道00100011；字模通道01110011。
因?yàn)橹白R(shí)別出了碎片的文字內(nèi)容是第九個(gè)字到第十六個(gè)字，所以，根據(jù)最初各通道編碼的特性，可以確定目前各通道中編碼的特性和表示的含義(帶下劃線的數(shù)字為校驗(yàn)碼)橫向通道10 01 10 01；縱向通道0010 0011；字模通道0111 0011。
由于紙質(zhì)文檔在傳播中，可能被各種因素影響從而對(duì)隱形編碼產(chǎn)生干擾。所以，我們可以根據(jù)校驗(yàn)碼及識(shí)別出的編碼內(nèi)容，校驗(yàn)并恢復(fù)編碼的原始狀態(tài)。
在本例中，假設(shè)一種最簡單的校驗(yàn)碼和校驗(yàn)方法，即校驗(yàn)碼和原始編碼的每一位進(jìn)行異或運(yùn)算后結(jié)果均為‘1’。通過這種辦法，可知橫向通道的編碼是沒有問題的，縱向通道編碼的第四位和字模通道編碼的第二位均被干擾。
最后，我們得到了每個(gè)通道經(jīng)過校正的編碼，即橫向通道10(3進(jìn)制)----3(十進(jìn)制整數(shù))；縱向通道0011(2進(jìn)制)----3(十進(jìn)制整數(shù))；字模通道0011(2進(jìn)制)----3(十進(jìn)制整數(shù))。
通過三個(gè)通道得出的標(biāo)識(shí)，進(jìn)行匯總。可知三個(gè)通道得出的標(biāo)識(shí)(十進(jìn)制整數(shù)值)是一致的，即十進(jìn)制整數(shù)‘3’。
根據(jù)當(dāng)初分配的對(duì)不同文檔的不同標(biāo)識(shí)，可最終確定，這份碎片的內(nèi)容來源于復(fù)制出來的9份文檔中的第4份。
至此，隱形編碼的生成、嵌入、識(shí)別、分析過程完成。
運(yùn)用該方法生成的、嵌入在以文字為主要信息的、電子文檔中的隱形編碼，既能隱藏大量數(shù)據(jù)，又可以達(dá)到很好的魯棒性，安全性和數(shù)據(jù)容量。對(duì)以文字為主的電子文檔，該隱形編碼的嵌入和檢測(cè)方法可以有很好的抗干擾能力，對(duì)于各種常見的干擾方法，例如復(fù)印，掃描、揉搓，水泡，污漬，裁剪，數(shù)碼相機(jī)拍照等都有較好的容忍度。
上述內(nèi)容并非是用來限制本發(fā)明的具體實(shí)施方式
，只是本發(fā)明的一個(gè)特定的實(shí)施案例。凡根據(jù)本發(fā)明的主要發(fā)明構(gòu)思而進(jìn)行的修改和變動(dòng)或組合，均應(yīng)屬于本發(fā)明所要求的保護(hù)范圍。
權(quán)利要求
1.一種在包含文字的文檔中嵌入隱藏信息的方法，其特征在于，包括a)將一類的版式變形作為一個(gè)通道，選擇至少一個(gè)通道來表現(xiàn)要嵌入到文檔中的隱形編碼，每類版式變形包含N級(jí)變形，其中N為大于等于2的正整數(shù)，不同的版式變形級(jí)數(shù)N或相同或不同；b)確定隱形編碼對(duì)于各類版式變形的編碼序列，轉(zhuǎn)換后的編碼長度為M，其中M為正整數(shù)；c)從所述包含文字的文檔中選出需要進(jìn)行版式變形的K個(gè)字，其中K為正整數(shù)且K≥M；d)根據(jù)確定的編碼序列對(duì)所選的K個(gè)字進(jìn)行版式變形。
2.根據(jù)權(quán)利要求1所述的嵌入方法，其特征在于，所述步驟b)中的編碼為冗余編碼。
3.根據(jù)權(quán)利要求2所述的嵌入方法，其特征在于，所述的冗余編碼采用BCH算法或RS算法。
4.根據(jù)權(quán)利要求1-3中之一所述的嵌入方法，其特征在于，所述的版式變形包括對(duì)文檔中文字個(gè)體的變形。
5.根據(jù)權(quán)利要求4所述的嵌入方法，其特征在于，所述的對(duì)文檔中文字個(gè)體的變形包括對(duì)文字的尺寸、文字的排版位置、字體的改變。
6.根據(jù)權(quán)利要求5所述的嵌入方法，其特征在于，所述文字的尺寸的改變包括在文字的高度、寬度或其組合上的變化；所述文字的排版位置的改變包括在文字的縱向位置、橫向位置或其組合上的變化；所述字體的變化包括在筆劃長短、筆劃形狀、筆劃之間相對(duì)位置、筆劃粗細(xì)、筆劃斜率或其組合上的變化。
7.根據(jù)權(quán)利要求1-3中之一所述的嵌入方法，其特征在于，對(duì)于每份包含文字的文檔，不同的通道嵌入不同的隱形編碼。
8.根據(jù)權(quán)利要求1-3中之一所述的方法，其特征在于，對(duì)于每份包含文字的文檔，不同的通道嵌入相同的隱形編碼。
9.根據(jù)權(quán)利要求1-8中之一所述的嵌入方法，其特征在于，當(dāng)對(duì)包含文字的同一份文檔要打印多份紙質(zhì)文件時(shí)，對(duì)每份待打印的文件嵌入一個(gè)隱形標(biāo)識(shí)，將該隱形標(biāo)識(shí)轉(zhuǎn)換成隱形編碼，用于嵌入相應(yīng)的待打印的文件中。
10.一種隱形編碼檢測(cè)方法，其特征在于，包括A)對(duì)獲取的待檢測(cè)的包含文字的文檔的紙質(zhì)文件或其碎片即待識(shí)別文件進(jìn)行掃描，生成圖像文件；B)將在步驟A)中得到的待識(shí)別文件的圖像做OCR識(shí)別；C)將OCR識(shí)別結(jié)果與嵌入隱形編碼之前的原始文檔進(jìn)行匹配，得到待識(shí)別文件的每個(gè)字和原始文檔的每個(gè)字的對(duì)應(yīng)關(guān)系；D)對(duì)待識(shí)別文件中的每個(gè)字的版式變形進(jìn)行判別，標(biāo)記上每個(gè)字的變形編號(hào)，并確定所屬版式變形的種類，即確定所屬通道；E)對(duì)每一個(gè)通道，根據(jù)已知的編碼長度以及待識(shí)別文件中每個(gè)字與原文的對(duì)應(yīng)關(guān)系得到所述編碼的每一位的統(tǒng)計(jì)結(jié)果；F)對(duì)每一個(gè)通道，根據(jù)統(tǒng)計(jì)結(jié)果得到的編碼進(jìn)行解碼，得到待識(shí)別文件中的隱藏信息。
11.根據(jù)權(quán)利要求10所述的檢測(cè)方法，其特征在于，在所述步驟D)，通過人工方式進(jìn)行判別，確定字的變化編號(hào)。
12.根據(jù)權(quán)利要求10所述的檢測(cè)方法，其特征在于，在所述步驟D)，通過計(jì)算機(jī)和人工結(jié)合的方式進(jìn)行判別，確定字的變化編號(hào)。
13.根據(jù)權(quán)利要求10-12中之一所述的檢測(cè)方法，其特征在于，在所述步驟E)，當(dāng)從統(tǒng)計(jì)結(jié)果得到的不是一個(gè)完整編碼且所缺的編碼位數(shù)超過了糾錯(cuò)范圍時(shí)，則枚舉缺失的編碼位的所有組合，形成一個(gè)可能的編碼集合，然后再通過人工方式確定編碼。
14.根據(jù)權(quán)利要求10-12中之一所述的檢測(cè)方法，其特征在于，在所述步驟F)，當(dāng)所述紙質(zhì)文件或者文件碎片中的隱藏信息的各通道具有標(biāo)識(shí)時(shí)，則解碼得到各通道的標(biāo)識(shí)，以判斷出該紙質(zhì)文件或者文件碎片所使用的標(biāo)識(shí)。
15.根據(jù)權(quán)利要求10-12中之一所述的檢測(cè)方法，其特征在于，在所述步驟F)，當(dāng)所述紙質(zhì)文件或者文件碎片中的隱藏信息的各通道具有標(biāo)識(shí)時(shí)，當(dāng)從統(tǒng)計(jì)結(jié)果得到一個(gè)完整編碼或者不是一個(gè)完整編碼但所缺的編碼位數(shù)在糾錯(cuò)范圍內(nèi)時(shí)，直接將所得到的編碼進(jìn)行解碼，得到所述紙質(zhì)文件或者文件碎片的標(biāo)識(shí)；當(dāng)從統(tǒng)計(jì)結(jié)果得到的不是一個(gè)完整編碼且所缺的編碼位數(shù)超過了糾錯(cuò)范圍時(shí)，則枚舉缺失的編碼位的所有組合，形成一個(gè)可能的編碼集合，并通過糾錯(cuò)碼的篩選得出各通道的可能的標(biāo)識(shí)的集合，然后再通過人工方式確定標(biāo)識(shí)。
16.根據(jù)權(quán)利要求10-12中之一所述的檢測(cè)方法，其特征在于，在所述步驟F)中，當(dāng)所述紙質(zhì)文件或者文件碎片中的隱藏信息的各通道具有相同的標(biāo)識(shí)時(shí)，若有多數(shù)的通道計(jì)算出了同一個(gè)標(biāo)識(shí)，則此標(biāo)識(shí)就極有可能是打印時(shí)的標(biāo)識(shí)；若各通道計(jì)算出的標(biāo)識(shí)不相同，則將各通道計(jì)算出的標(biāo)識(shí)值列出來，由人工根據(jù)碎片所受干擾方式不同來決定哪個(gè)通道得出的標(biāo)識(shí)更加可信；若沒有一個(gè)通道得到完整編碼，則從各個(gè)通道得出的可能標(biāo)識(shí)的集合中取一個(gè)交集，將該交集作為最有可能的標(biāo)識(shí)的集合，然后再通過人工方式確定標(biāo)識(shí)。
全文摘要
本發(fā)明涉及一種隱藏信息嵌入及檢測(cè)方法，其在包含文字文檔中嵌入版式變形如文字個(gè)體的變形信息等形成的隱形編碼；在檢測(cè)文件的隱藏信息時(shí)，通過掃描獲取待檢測(cè)文件的電子文檔，將所獲取的電子文檔與所存儲(chǔ)的原始文檔進(jìn)行比對(duì)，得到一個(gè)統(tǒng)計(jì)結(jié)果，根據(jù)統(tǒng)計(jì)結(jié)果得出最可能的編碼，將該編碼進(jìn)行解碼，獲得待識(shí)別文件中的隱藏信息。當(dāng)計(jì)算機(jī)程序?qū)Π媸阶冃蔚姆治龃嬖谡`差時(shí)，可以采用人工調(diào)整方式，通過人工識(shí)別與自動(dòng)識(shí)別的結(jié)合來獲得編碼。運(yùn)用該方法生成的、嵌入在以文字為主要信息的電子文檔中的隱藏信息，可以達(dá)到很好的魯棒性、安全性、和數(shù)據(jù)容量。
文檔編號(hào)G06K9/00GK1933391SQ20051010322
公開日2007年3月21日申請(qǐng)日期2005年9月16日優(yōu)先權(quán)日2005年9月16日
發(fā)明者王東臨, 尹樹田, 張?jiān)婆? 劉寧勝, 梁源松, 劉昌偉, 歐陽德, 高鵬, 樓永植申請(qǐng)人:北京書生國際信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王東臨;尹樹田;張?jiān)婆?劉寧勝;梁源松;劉昌偉;歐陽德;高鵬;樓永植
技術(shù)所有人：北京書生國際信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：可編程通信轉(zhuǎn)換器的制作方法
上一篇：一種快速生成邏輯電路的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

嵌入式零樹編碼相關(guān)技術(shù)

墻壁嵌入式隱形壁柜相關(guān)技術(shù)

嵌入式圖像檢測(cè)技術(shù)相關(guān)技術(shù)

盲檢測(cè)水印嵌入matlab相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種隱形編碼嵌入和檢測(cè)的方法