国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種隱形編碼嵌入和檢測(cè)的方法

      文檔序號(hào):6646111閱讀:356來源:國知局
      專利名稱:一種隱形編碼嵌入和檢測(cè)的方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及計(jì)算機(jī)通信安全領(lǐng)域,尤其涉及信息隱藏技術(shù)領(lǐng)域。
      背景技術(shù)
      隨著計(jì)算機(jī)通信技術(shù)的普及,利用網(wǎng)絡(luò)傳送電子文件變得越來越普遍。然而,電子文件卻容易使他人輕而易舉地復(fù)制及傳播,甚至被篡改。因此,為了保障電子文件的安全傳輸,人們利用密碼學(xué)的加解密技術(shù),通過軟件或者硬件加解密文檔,保護(hù)電子文件的安全性。但是加解密技術(shù)不能保證電子文件解密后的復(fù)制及傳播的問題。為了解決這個(gè)問題,1995年,人們提出了信息隱藏技術(shù),即在文檔中隱藏某些不可見的、可以表明某些特性,如版權(quán)信息,使電子文檔在復(fù)制及傳播過程中得到保護(hù)及追蹤。其中,數(shù)字水印是近年來比較熱門的技術(shù)。
      數(shù)字水印(Digital Watermark)技術(shù)是指用信號(hào)處理的方法在數(shù)字化的多媒體數(shù)據(jù)中嵌入隱蔽的標(biāo)記,這種標(biāo)記通常是不可見的,只有通過專用的檢測(cè)器或閱讀器才能提取。數(shù)字水印是信息隱藏技術(shù)的一個(gè)重要研究方向。
      嵌入數(shù)字作品中的信息必須具有以下基本特性才能稱為數(shù)字水印隱蔽性在數(shù)字作品中嵌入數(shù)字水印不會(huì)引起明顯的降質(zhì),并且不易被察覺。
      隱藏位置的安全性水印信息隱藏于數(shù)據(jù)而非文件頭中,文件格式的變換不應(yīng)導(dǎo)致水印數(shù)據(jù)的丟失。
      魯棒性所謂魯棒性是指在經(jīng)歷多種無意或有意的信號(hào)處理過程后,數(shù)字水印仍能保持完整性或仍能被準(zhǔn)確鑒別??赡艿男盘?hào)處理過程包括信道噪聲、濾波、數(shù)/模與模/數(shù)轉(zhuǎn)換、重采樣、剪切、位移、尺度變化以及有損壓縮編碼等。
      在數(shù)字水印技術(shù)中,水印的數(shù)據(jù)量和魯棒性構(gòu)成了一對(duì)基本矛盾。從主觀上講,理想的水印算法應(yīng)該既能隱藏大量數(shù)據(jù),又可以抗各種信道噪聲和信號(hào)變形。然而在實(shí)際中,這兩個(gè)指標(biāo)往往不能同時(shí)實(shí)現(xiàn),不過這并不會(huì)影響數(shù)字水印技術(shù)的應(yīng)用,因?yàn)閷?shí)際應(yīng)用一般只偏重其中的一個(gè)方面。如果是為了隱蔽通信,數(shù)據(jù)量顯然是最重要的,由于通信方式極為隱蔽,遭遇敵方篡改攻擊的可能性很小,因而對(duì)魯棒性要求不高。但對(duì)保證數(shù)據(jù)安全來說,情況恰恰相反,各種保密的數(shù)據(jù)隨時(shí)面臨著被盜取和篡改的危險(xiǎn),所以魯棒性是十分重要的,此時(shí),隱藏?cái)?shù)據(jù)量的要求居于次要地位。
      目前,典型的數(shù)字水印算法是把目標(biāo)數(shù)據(jù)待嵌入信息都轉(zhuǎn)換為圖像來處理,下面列舉一些典型的數(shù)字水印算法1.最低有效位算法(LSB)是L.F.Turner和R.G.van Schyndel等人提出的第一種數(shù)字水印算法,是一種典型的空間域信息隱藏算法。特定的密鑰通過m序列發(fā)生器產(chǎn)生隨機(jī)信號(hào),然后按一定的規(guī)則排列成2維水印信號(hào),并逐一插入到原始圖像相應(yīng)像素值的最低幾位。由于水印信號(hào)隱藏在最低位,相當(dāng)于疊加了一個(gè)能量微弱的信號(hào),因而在視覺和聽覺上很難察覺。LSB水印的檢測(cè)是通過待測(cè)圖像與水印圖像的相關(guān)運(yùn)算和統(tǒng)計(jì)決策實(shí)現(xiàn)的。Stego Dos、White Noise Storm、STools等早期數(shù)字水印算法都采用了LSB算法。LSB算法雖然可以隱藏較多的信息,但隱藏的信息可以被輕易移去,無法滿足數(shù)字水印對(duì)于魯棒性的要求,因此現(xiàn)在的數(shù)字水印軟件已經(jīng)很少采用LSB算法了。不過,作為一種大數(shù)據(jù)量的信息隱藏方法,LSB在隱蔽通信中仍占據(jù)著相當(dāng)重要的地位。
      2.Patchwork算法是麻省理工學(xué)院媒體實(shí)驗(yàn)室Walter Bander等人提出的一種數(shù)字水印算法,主要用于打印票據(jù)的防偽。Patchwork數(shù)字水印隱藏在特定圖像區(qū)域的統(tǒng)計(jì)特性中,其魯棒性很強(qiáng),可以有效地抵御剪切、灰度校正、有損壓縮等攻擊,其缺陷是數(shù)據(jù)量較低,對(duì)仿射變換敏感,對(duì)多拷貝平均攻擊的抵抗力較弱。
      3.紋理塊映射編碼紋理塊映射將水印信息隱藏在圖像的隨機(jī)紋理區(qū)域中,利用紋理間的相似性掩蓋水印信息。該算法對(duì)濾波、壓縮和扭轉(zhuǎn)等操作具有抵抗能力,但需要人工干預(yù)。
      4.DCT(離散余弦)變換域數(shù)字水印算法DCT變換域數(shù)字水印是目前研究最多的一種數(shù)字水印,它具有魯棒性強(qiáng)、隱蔽性好的特點(diǎn)。其主要思想是在圖像的DCT變換域上選擇中低頻系數(shù)疊加水印信息。之所以選擇中、低頻系數(shù),是因?yàn)槿搜鄣母杏X主要集中在這一頻段,攻擊者在破壞水印的過程中,不可避免地會(huì)引起圖像質(zhì)量的嚴(yán)重下降,一般的圖像處理過程也不會(huì)改變這部分?jǐn)?shù)據(jù)。由于JPEG、MPEG等壓縮算法的核心是在DCT變換域上進(jìn)行數(shù)據(jù)量化,所以通過巧妙地融合水印過程與量化過程,就可以使水印抵御有損壓縮。此外,DCT變換域系數(shù)的統(tǒng)計(jì)分布有比較好的數(shù)學(xué)模型,可以從理論上估計(jì)水印的信息量。
      5.直接序列擴(kuò)頻水印算法擴(kuò)頻水印算法是擴(kuò)頻通信技術(shù)在數(shù)字水印中的應(yīng)用。與傳統(tǒng)的窄帶調(diào)制通信方法不同,擴(kuò)頻通信將待傳遞的信息通過擴(kuò)頻碼調(diào)制后散布于非常寬的頻帶中,使其具有偽隨機(jī)特性。收信方通過相應(yīng)的擴(kuò)頻碼進(jìn)行解擴(kuò),獲得真正的傳輸信息。擴(kuò)頻通信具有抗干擾性強(qiáng)、高度保密的特性,在軍事上應(yīng)用廣泛。事實(shí)上,擴(kuò)頻通信也可以看作是一種無線電密寫方法。拋開其信息論方面的理論依據(jù)不講,單從感知的角度考慮,擴(kuò)頻通信之所以具有保密性,就在于它將信息偽裝成信道噪聲,使人無法分辨。擴(kuò)頻水印方法與擴(kuò)頻通信類似,是將水印信息經(jīng)擴(kuò)頻調(diào)制后疊加在原始數(shù)據(jù)上。從頻域上看,水印信息散布于整個(gè)頻譜,無法通過一般的濾波手段恢復(fù)。如果要攻擊水印信息,則必須在所有頻段上加入大幅度噪聲,這無疑會(huì)嚴(yán)重?fù)p害原始數(shù)據(jù)的質(zhì)量。
      6.其他變換域數(shù)字水印算法變換域數(shù)字水印并不局限于DCT變換域或傅立葉譜,只要能很好地隱藏水印信息,一切信號(hào)變換都是可行的。近年來,有很多學(xué)者嘗試用小波變換或其他時(shí)/頻分析的手段,在時(shí)間/尺度域或時(shí)/頻域中隱藏?cái)?shù)字水印信息,取得了比較好的效果。
      評(píng)價(jià)一種數(shù)字水印算法優(yōu)劣的主要依據(jù)包括1.抗干擾能力(魯棒性)數(shù)字水印技術(shù)對(duì)于魯棒性有一定的的要求,即它可以抵抗第三方的攻擊或正常的、標(biāo)準(zhǔn)的數(shù)據(jù)操作和變換。換句話說,即使攻擊者知道傳遞的數(shù)據(jù)中包含隱藏的重要信息,但也無法將其提取出來,或在不嚴(yán)重?fù)p壞宿主數(shù)據(jù)的情況下難以將水印破壞掉。魯棒性測(cè)試實(shí)際上是一個(gè)主動(dòng)攻擊過程,主要測(cè)試數(shù)字水印對(duì)數(shù)據(jù)同步的依賴程度、抗各種線性和非線性濾波的能力,以及抵御幾何變換等其他攻擊的能力。
      2.信息嵌入量能否在有限的原始信息數(shù)據(jù)中嵌入足夠的特定標(biāo)示信息。
      3.信息隱藏度(對(duì)原始信息的干擾程度)數(shù)字水印的信息量與隱蔽性之間存在著矛盾,隨著水印信息量的增加,作品的質(zhì)量必然下降。隱蔽性測(cè)試需要對(duì)水印算法的信息量與能見度進(jìn)行評(píng)估,給出水印信息量與數(shù)據(jù)降質(zhì)之間的準(zhǔn)確關(guān)系。對(duì)于圖像、聲音等多媒體數(shù)據(jù)質(zhì)量的評(píng)估不能僅依據(jù)信噪比、峰值信噪比等信號(hào)處理中的指標(biāo),必須依賴視覺和聽覺的生理模型,否則就不具有科學(xué)性,這不僅是數(shù)字水印也是數(shù)據(jù)壓縮的基本準(zhǔn)則之一4.安全性安全性測(cè)試主要是對(duì)破解水印算法的時(shí)間及復(fù)雜性進(jìn)行評(píng)估,以此作為水印安全性的指標(biāo)。
      上面描述的幾種典型的數(shù)字水印技術(shù),一般是把待標(biāo)識(shí)的信息,即水印信息,通過圖像處理的方法嵌入。比較適合應(yīng)用于將標(biāo)識(shí)信息嵌入圖像、視頻、音頻等媒體。這種技術(shù)把文件看作是一般性的流式媒體或者平面媒體,不區(qū)分文字信息和其他信息。處理的時(shí)候一般通過頻域變換,時(shí)域變換等做圖像處理。一般這些處理都是通過變換人眼不易覺察的圖像中的信息,如高頻信息,來達(dá)到嵌入水印的目的。這樣的方法類似于JPEG壓縮等算法。但是傳統(tǒng)數(shù)字水印方法沒有考慮特定類型文檔如電子文檔的特點(diǎn),因此在應(yīng)用到特定領(lǐng)域的時(shí)候,就顯得抗干擾能力不夠強(qiáng)。比如對(duì)于電子公文傳輸來說,電子公文基本上是二值圖像,圖像沒有灰度等級(jí)。這種文檔如果采用普通的數(shù)字水印技術(shù),會(huì)帶來兩個(gè)問題1.文檔輸出質(zhì)量會(huì)降低,二值圖像對(duì)頻域變換非常敏感,而電子公文類的文件要求文字清晰,白底黑字,不適合做整體的圖像變換。
      2.打印輸出的電子公文在傳播過程中最容易通過復(fù)印來進(jìn)行,而基于圖像細(xì)節(jié)變換的數(shù)字水印技術(shù)對(duì)于復(fù)印和掃描產(chǎn)生的干擾非常敏感,這使得水印信息丟失嚴(yán)重,如果在傳播過程中再經(jīng)過污染,裁剪,浸泡等干擾之后,水印信息丟失會(huì)更嚴(yán)重,會(huì)造成水印不可識(shí)別,因此,傳統(tǒng)數(shù)字水印技術(shù)不適合在電子公文中應(yīng)用。

      發(fā)明內(nèi)容
      本發(fā)明的目的在于提供一種隱形編碼嵌入方法,它使得隱形編碼能夠較好地嵌入包含文字的文檔中,并能很好地平衡隱形編碼的不可見性和魯棒性。
      本發(fā)明的另一個(gè)目的在于提供一種對(duì)上述嵌入隱形編碼的文檔的檢測(cè)方法。當(dāng)嵌入隱形編碼的文檔經(jīng)過多次的干擾和轉(zhuǎn)移后,如復(fù)印、數(shù)碼相機(jī)拍攝等等,仍然可以從最后的文檔中提取隱藏的信息。
      為了實(shí)現(xiàn)本發(fā)明的上述目的,根據(jù)本發(fā)明的一個(gè)方面,一種隱形編碼嵌入方法包括a)將一類的版式變形作為一個(gè)通道,選擇至少一個(gè)通道來表現(xiàn)要嵌入到文檔中的隱形編碼,每類版式變形包含N級(jí)變形,其中N為大于等于2的正整數(shù),不同的版式變形級(jí)數(shù)N或相同或不同;b)確定隱形編碼對(duì)于各類版式變形的編碼序列,轉(zhuǎn)換后的編碼長度為M,其中M為正整數(shù);c)從所述包含文字的文檔中選出需要進(jìn)行版式變形的K個(gè)字,其中K為正整數(shù)且K≥M;d)根據(jù)確定的編碼序列對(duì)所選的K個(gè)字進(jìn)行版式變形。
      根據(jù)本發(fā)明的另一方面,一種隱形編碼檢測(cè)方法,包括A)對(duì)獲取的待檢測(cè)的包含文字的文檔的紙質(zhì)文件或其碎片即待識(shí)別文件進(jìn)行掃描,生成圖像文件;B)將在步驟A)中得到的待識(shí)別文件的圖像做OCR識(shí)別;C)將OCR識(shí)別結(jié)果與嵌入隱形編碼之前的原始文檔進(jìn)行匹配,得到待識(shí)別文件的每個(gè)字和原始文檔的每個(gè)字的對(duì)應(yīng)關(guān)系;D)對(duì)待識(shí)別文件中的每個(gè)字的版式變形進(jìn)行判別,標(biāo)記上每個(gè)字的變形編號(hào),并確定所屬版式變形的種類,即確定所屬通道;E)對(duì)每一個(gè)通道,根據(jù)已知的編碼長度以及待識(shí)別文件中每個(gè)字與原文的對(duì)應(yīng)關(guān)系得到所述編碼的每一位的統(tǒng)計(jì)結(jié)果;F)對(duì)每一個(gè)通道,根據(jù)統(tǒng)計(jì)結(jié)果得到的編碼進(jìn)行解碼,得到待識(shí)別文件中的隱藏信息。
      下面給出本發(fā)明中所涉及到的一些術(shù)語的含義。
      版式文件通過描述文檔中可見元素(文字,圖形,圖像)的位置,大小,形狀等外觀信息來確定元素的顯示打印效果的格式文件。相對(duì)于排版文件,比如Word,書版,PPT,Excel,AutoCAD等來說,版式文件只記錄了版式信息,文檔更精簡,可以從各種可打印的排版類型文件轉(zhuǎn)換而來。
      冗余編碼在數(shù)據(jù)之外增加冗余的數(shù)據(jù),該數(shù)據(jù)是原數(shù)據(jù)的綜合的結(jié)果,當(dāng)原數(shù)據(jù)在傳輸過程中因?yàn)楦鞣N偶然因素發(fā)生損失或者變化時(shí),可以通過驗(yàn)證冗余數(shù)據(jù),或者利用冗余數(shù)據(jù)推算出原始數(shù)據(jù)的部分或者全部。
      OCR光學(xué)文字識(shí)別技術(shù),通過識(shí)別圖像中的文字部分,分析出文字的編碼和位置。
      利用本發(fā)明隱藏信息,易操作且簡便。對(duì)以文字為主的電子文檔,利用該隱形編碼的嵌入和檢測(cè)方法可以有很好的抗干擾能力,對(duì)于各種常見的干擾方法,比如復(fù)印,掃描,揉搓,水泡,污漬,裁剪,數(shù)碼相機(jī)拍照等都有較好的容忍度。


      圖1是本發(fā)明隱形編碼嵌入方法的概略圖;圖2是本發(fā)明隱形編碼檢測(cè)方法的概略圖;圖3是本發(fā)明隱形編碼嵌入方法的基本流程圖;圖4是本發(fā)明隱形編碼檢測(cè)方法的基本流程圖。
      具體實(shí)施例方式
      下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式
      進(jìn)一步詳細(xì)說明。
      本發(fā)明主要是通過對(duì)含有文字的文檔中的文字的版式-----文字的尺寸、排版位置及字體----進(jìn)行細(xì)微的調(diào)整,從而將一部分額外的信息隱性地嵌入到文檔當(dāng)中。這些額外的信息可以是對(duì)文字(包括數(shù)字等)的細(xì)微調(diào)整。
      所有的信息在嵌入到文檔之前都要被編碼,最終所有的信息都是以編碼的形式嵌入到文檔中。由于每種文字的版式變形都可以單獨(dú)地被利用而獨(dú)立地完成隱藏信息的工作,所以對(duì)于一份含有文字的文檔,每種版式變形都形成一種通道,所有的通道可以并行地嵌入信息。比如在一份文檔中要嵌入的信息是3個(gè)獨(dú)立的數(shù)字“9”、“8”、“7”,那么可以分別在文字尺寸變形的通道中嵌入“9”,在文字位置變形的通道中嵌入“8”,在文字字體變形的通道中嵌入“7”。也可以在3個(gè)通道中都嵌入“9”、“8”、“7”,從而利用各通道之間的相互驗(yàn)證,加強(qiáng)信息隱藏的穩(wěn)定性。
      為了增加編碼的容錯(cuò)性和抗干擾性,上述編碼可以采用冗余編碼,如BCH算法或RS算法。
      上述對(duì)文字的版式變形包括對(duì)文檔中文字個(gè)體的變形,包括,對(duì)文字的尺寸、文字的排版位置、字體的改變。其中所述文字的尺寸的改變包括在文字的高度、寬度或其組合上的變化;所述文字的排版位置的改變包括在文字的縱向位置、橫向位置或其組合上的變化;所述字體的變化包括在筆劃長短、筆劃形狀、筆劃之間相對(duì)位置、筆劃粗細(xì)、筆劃斜率或其組合上的變化。
      由于通道的版式變形的級(jí)別根據(jù)需要會(huì)有所變化,所以每個(gè)通道采用的編碼的碼制會(huì)根據(jù)版式變形級(jí)別的不同而有所不同。比如,文字尺寸變形通道中,如果只采用文字變大和不變兩種級(jí)別,那么這個(gè)通道的編碼碼制就是二進(jìn)制;如果采用文字變大1/3英寸、1/5英寸、不變和縮小1/5英寸四種級(jí)別,那么這個(gè)通道的編碼碼制就是四進(jìn)制。如果某個(gè)通道采用二進(jìn)制編碼,要嵌入通道的信息是數(shù)字“9”,那么要嵌入通道的隱形編碼就是1001。也就是說文檔中至少要有4個(gè)文字才能保證信息的完整嵌入。
      對(duì)于隱形編碼的檢測(cè),一個(gè)基礎(chǔ)條件就是進(jìn)行隱形編碼檢測(cè)的這一方和把隱形編碼嵌入的那一方,都同樣知道隱形編碼的嵌入規(guī)則,特別是對(duì)于嵌入時(shí)使用的每個(gè)通道的版式變形級(jí)別以及每種特定碼制的編碼規(guī)則。比如一個(gè)通道的版式變形級(jí)別為兩級(jí),那么此通道的編碼碼制為二進(jìn)制,同時(shí)確定編碼采用4位定長編碼,那么如果嵌入的信息是數(shù)字“9”,則其對(duì)應(yīng)的隱形編碼為1001;如果嵌入的信息是數(shù)字“2”,則其對(duì)應(yīng)的隱形編碼為0010。
      在確定了嵌入與檢測(cè)雙方對(duì)嵌入規(guī)則有共同理解的基礎(chǔ)上,首先需要將獲得的待識(shí)別文件通過掃描和OCR識(shí)別后,將其轉(zhuǎn)換為與原始文檔相同格式的電子文檔。其中,待識(shí)別文件指的是需要識(shí)別的紙質(zhì)文件或者它的碎片。
      在待識(shí)別文件轉(zhuǎn)換為與原始文檔相同格式后,將待識(shí)別文件的電子文檔與原始文檔做匹配,確定待識(shí)別文件中的每個(gè)文字對(duì)應(yīng)于原始文檔中的位置。比如原始文檔有1000個(gè)字,待識(shí)別文件是原始文檔的一部分碎片,只包含5個(gè)字“我們這一群”。那么就需要使用碎片匹配方式,來比對(duì)出“我們這一群”這5個(gè)字在原始文檔中出現(xiàn)的位置。比如“我們這一群”這5個(gè)字只在原始文檔中的第177到第181個(gè)字的位置得到了匹配,也就是說原始文檔中只有第177到第181個(gè)字的位置出現(xiàn)過“我們這一群”這5個(gè)連續(xù)的文字。
      在確定了待識(shí)別文件中的文字與原始文檔的對(duì)應(yīng)位置關(guān)系后,就可以逐個(gè)地比對(duì)待識(shí)別文件中的每個(gè)字與原始文檔中的字之間在版式上的差別,并把每種辨識(shí)出來的差別做標(biāo)記。依然使用前面的例子,用待識(shí)別文件中“我們這一群”這5個(gè)字逐一與原始文檔中的第177到第181個(gè)字進(jìn)行比對(duì)。假設(shè)嵌入規(guī)則是文字尺寸變形通道,版式變形級(jí)別為兩級(jí),即變大和不變,變大代表1,不變代表0,且編碼為4位長的定長編碼。通過計(jì)算機(jī)進(jìn)行對(duì)比,假設(shè)得出的對(duì)比結(jié)果依次是不變、不變、變大、變大、不變,那么從這5個(gè)字的對(duì)比結(jié)果可以檢測(cè)出的編碼序列是00110。根據(jù)嵌入規(guī)則,由于已知編碼的定長是4位,4×44=176,所以可以計(jì)算出第177位是隱形編碼的開始位置,即5個(gè)字中的“我”字是隱形編碼的開始位置,所以可以知道嵌入的隱形編碼是0011。
      在上述實(shí)施方式中,也可以通過人工方式判別待識(shí)別文檔的版式變形,確定字的變化編號(hào);也可以通過計(jì)算機(jī)和人工結(jié)合的方式進(jìn)行判別,即,在通過計(jì)算機(jī)的方式進(jìn)行判別得到一個(gè)對(duì)比結(jié)果后,再通過人工方式進(jìn)行判別,對(duì)其中計(jì)算機(jī)判別可能存在錯(cuò)誤的地方進(jìn)行調(diào)整,如,在上面的例子中,當(dāng)通過計(jì)算機(jī)方式判別得到的結(jié)果是00111時(shí),而通過人工方式判別認(rèn)為第5位的“1”是錯(cuò)誤的,則可以根據(jù)人工判別將第5位的“1”修改為“0”。
      對(duì)于本發(fā)明,一種特殊的使用方法是,在一份包含文字的文檔的所有通道中,嵌入相同的信息----正整數(shù)。這種應(yīng)用主要用在對(duì)同一份文檔要打印出多份紙質(zhì)文件時(shí),對(duì)每份打印出的文件嵌入一個(gè)隱形的標(biāo)識(shí),用來追蹤確認(rèn)打印文件的出處從而防止文件的泄密。
      下面以這種特殊應(yīng)用的具體實(shí)施例來詳細(xì)描述本發(fā)明。
      圖1是本發(fā)明的隱形編碼嵌入方法的概略圖。本發(fā)明的隱形編碼算法技術(shù)包括嵌入隱形編碼和檢測(cè)隱形編碼兩個(gè)階段。嵌入隱形編碼階段的設(shè)計(jì)主要解決兩個(gè)問題一是隱形編碼的設(shè)計(jì)。這里所說的隱形編碼,就是指未來將要嵌入到電子文檔中的那段標(biāo)識(shí)。在本發(fā)明的算法中使用不同的整數(shù)作為標(biāo)識(shí)來辨識(shí)不同的個(gè)體,即對(duì)于每一文檔,嵌入的隱形編碼是一個(gè)整數(shù),標(biāo)識(shí)了文檔對(duì)象的唯一。整數(shù)的最大位數(shù)為文檔可以支持的識(shí)別空間的大小,比如,嵌入的最大整數(shù)為65536,則表明可以從65536個(gè)不同變形的文檔中區(qū)分出特定一個(gè)文檔。其中標(biāo)識(shí)(也就是隱形編碼)的長度涉及到標(biāo)識(shí)在被嵌入的文檔中所占位的長度。被嵌入的標(biāo)識(shí)越長,則檢測(cè)標(biāo)識(shí)時(shí)從被嵌入的文檔中選取的信息(文字)就越多。二是嵌入方法,嵌入算法的目標(biāo)是使隱形編碼在不可見性和魯棒性之間找到一個(gè)較好的折中。也就是說,嵌入到文檔中的隱形編碼越簡單,則這個(gè)隱形編碼對(duì)文檔的影響越小,也就是它的可見性越小,但是由于隱形編碼簡單,它的抗干擾能力會(huì)越差,魯棒性越差;而相反,如果隱形編碼越復(fù)雜,則它的抗干擾性就越強(qiáng),魯棒性越好,但是由于隱形編碼復(fù)雜,會(huì)對(duì)嵌入文檔產(chǎn)生更大的影響,使不可見性變差。在嵌入算法中,我們要做的主要是版式變形的選擇,參數(shù)的設(shè)定,編碼算法等設(shè)計(jì),這將在后面詳細(xì)描述。
      圖2是本發(fā)明隱形編碼檢測(cè)方法的概略圖。檢測(cè)隱形編碼階段主要是設(shè)計(jì)一個(gè)相應(yīng)于嵌入過程的檢測(cè)方法。檢測(cè)的結(jié)果或是原隱形編碼,即嵌入的標(biāo)識(shí),或是基于統(tǒng)計(jì)原理的檢驗(yàn)結(jié)果,即在無法唯一確定的情況下,給出可能的標(biāo)識(shí)范圍,具體解釋見后面。檢測(cè)的目標(biāo)是使錯(cuò)判與漏判的概率盡量小。
      圖3是隱形編碼嵌入方法的基本流程圖。
      首先,步驟1,根據(jù)需要確定待嵌入隱形編碼的文件份數(shù)N,即區(qū)分的標(biāo)識(shí)的個(gè)體空間N。其中在每份文件中嵌入不同的標(biāo)識(shí)作為隱形編碼,以便能夠通過隱形編碼區(qū)別每份文件。
      步驟2,選擇版式變形版式變形包括對(duì)文檔中文字個(gè)體的變形。將版式變形分成幾類,每類版式變形作為一個(gè)通道,其中每類版式變形存在多個(gè)級(jí)別,這些級(jí)別的多少即是嵌入算法中的參數(shù)的設(shè)定,如字體大小變換,如果變換為大中小三種,則此時(shí)的參數(shù)為3。
      對(duì)文件中的文字個(gè)體可以采用如下的幾類版式變形(1)細(xì)微調(diào)節(jié)版式文件中的文字的大小,如,修改文字的尺寸,包括放大,縮小,錯(cuò)切等,在水平和垂直方向做不等比例放縮;(2)細(xì)微移動(dòng)文字的位置,如,修改文字的排版位置,包括水平移動(dòng),垂直移動(dòng),以及任意角度的移動(dòng)等;
      (3)使用定制字體對(duì)文字變形,該定制字體和文字在文件中的原字體很接近,只有細(xì)微的差別,包括筆畫粗細(xì)的變化,筆畫角度的變化,筆畫連接關(guān)系的變化,部首間距的變化等;步驟3,選擇需要進(jìn)行版式變形的字及字?jǐn)?shù),根據(jù)為每份文件選擇的標(biāo)識(shí),對(duì)文字個(gè)體的版式變形進(jìn)行編碼。確定編碼方案后,利用編碼方案進(jìn)行文字變化編碼。當(dāng)版式變形只有一類,即只有一個(gè)通道,而需要辨別的空間有M種,即需要嵌入隱形編碼的文件有M份時(shí),在不做冗余編碼的情況下,采用N進(jìn)制編碼,N為一種版式變形的子區(qū)分,比如字體變形,如果使用N種字體,即該類版式變形有N個(gè)級(jí)別,則編碼為N進(jìn)制。這時(shí),原文檔中需要納入編碼變化的文字至少有[logN(M-1)]+1,即原文檔至少有[logN(M-1)]+1的字。當(dāng)每份需要嵌入隱形編碼的文件中共有K個(gè)文字,則可以采用[logN(M-1)]+1個(gè)編碼循環(huán)應(yīng)用到K個(gè)文字,總共可以嵌入K/{[logN(M-1)]+1}次,得到一份嵌入隱形編碼的文件。
      例如,目前有1份文檔的9份復(fù)制件需要同時(shí)加入隱形編碼,采用2進(jìn)制進(jìn)行編碼(文字的變換方法有兩種),即用0表示不變形,用1表示文字放大1/300英寸。那么M=9,N=2,[log2(9-1)]+1=4,所以編碼的長度為4。也就是說,當(dāng)文字的變化方式只有兩種時(shí),這份文檔的9份打印件要想唯一地被識(shí)別,那么文檔最少要有4個(gè)字?,F(xiàn)假設(shè)文檔中有8個(gè)文字,則隱形編碼總共可以被嵌入了2次,即8除以4等于2,即每次給4個(gè)字嵌入編碼,如果8個(gè)字都嵌入編碼,則需要循環(huán)2次,得到一份嵌入隱形編碼的文件。例如,當(dāng)前述嵌入隱形編碼的文件的編碼序列是01010101時(shí),它表示對(duì)序列號(hào)為1,3,5,7的文字不做變形,對(duì)序號(hào)為2,4,6,8的文字做1/300英寸的放大。
      前述編碼方案中,對(duì)每一種通道均可使用[logN(M-1)]+1這個(gè)公式來計(jì)算出編碼的長度,即文檔中至少有[logN(M-1)]+1的字。對(duì)于不同的通道,N取值可能不同,如文字大小變化通道,即將文字變大、不變,則N為2。而文字橫向偏移通道,即將文字左偏、不偏、右偏,則N為3。
      在上面的步驟3中,可以采用多個(gè)通道對(duì)文字進(jìn)行編碼變化(每種編碼是對(duì)文字的一種變換而言,如文字變換大小是一種,而文字平移是另外一種變換)。同一類文字變形方法作為一個(gè)通道。多個(gè)通道,即多種類版式變形方法,可以應(yīng)用到一個(gè)文字上。比如可以同時(shí)放大一個(gè)文字,并改變字體為字體F2。兩種變化互相不影響的話,識(shí)別的時(shí)候也可以分離各個(gè)通道的信息。各個(gè)通道的識(shí)別結(jié)果可以通過求交集來縮小識(shí)別的結(jié)果范圍。不同類的版式變形,對(duì)不同的干擾的抵抗能力是不同的,例如,字體變化抗折疊干擾比較好,但是抗模糊處理比較差,而字體放縮抗折疊比較差,但抗模糊處理比較好。因此采用多通道的編碼(變形)方案,可以抵抗各種干擾。
      為了在一定程度上糾正識(shí)別錯(cuò)誤,可以采用冗余編碼方案對(duì)編碼做冗余,如,利用目前通訊領(lǐng)域比較成熟的BCH算法和RS算法。這兩種算法都是在有效的數(shù)字標(biāo)識(shí)位后,添加幾位冗余編碼,這幾位冗余編碼中記錄了前面有效的數(shù)字的一些特性。在有效的數(shù)字標(biāo)識(shí)被干擾產(chǎn)生錯(cuò)誤時(shí),可以根據(jù)冗余編碼中記錄的特性來重新恢復(fù)有效的數(shù)字標(biāo)識(shí)。其中,對(duì)于二值的編碼通道(即對(duì)于本通道,文字的變換只有兩種),BCH比較理想。對(duì)于多值的編碼通道,RS比較理想。
      經(jīng)過上述步驟,形成包含隱形編碼的電子文檔。
      圖4為隱形編碼檢測(cè)方法的基本流程圖。如圖3所示,對(duì)根據(jù)圖2所示的方法嵌入隱形編碼的文檔進(jìn)行隱形編碼檢測(cè)的方法,包括如下步驟在步驟1,對(duì)獲取待識(shí)別文檔進(jìn)行掃描,生成一個(gè)圖像文件。
      在步驟2,將原始文檔生成不變形的圖像后保存到內(nèi)存中,同時(shí)把在步驟1中得到的待識(shí)別文件也作為圖像,與原始文檔生成的圖像同時(shí)做OCR識(shí)別;其中OCR是光學(xué)文字識(shí)別技術(shù),其通過識(shí)別圖像中的文字部分,分析出文字的編碼和位置。
      在步驟3,對(duì)OCR識(shí)別結(jié)果用碎片匹配方法進(jìn)行處理,得到待識(shí)別文件的每個(gè)字和內(nèi)存圖像每個(gè)文字的對(duì)應(yīng)關(guān)系;碎片匹配算法主要的目的,是確定所得到的待識(shí)別文件中的內(nèi)容是原文件中的哪部分內(nèi)容,也就是用待識(shí)別文件與原始文檔作比對(duì)定位。
      由于原始文檔在打印時(shí)所用的順序和OCR識(shí)別的順序不一定一致,所以采用與碎片匹配算法類似的方法得到原版式文件的每個(gè)字和內(nèi)存圖像每個(gè)字的對(duì)應(yīng)關(guān)系。如,當(dāng)出現(xiàn)多個(gè)待識(shí)別文件時(shí),使用此方法分別定位每個(gè)待識(shí)別文件在原文件中的位置。這樣編碼時(shí)用到的原始文檔就和解碼時(shí)所用到的待識(shí)別文件的文字對(duì)應(yīng)上了。
      在步驟4,對(duì)碎片中的每個(gè)字的版式變形進(jìn)行判別,標(biāo)記上每個(gè)字的變形編號(hào),并確定所屬通道;例如,(1)對(duì)待識(shí)別文件中的每個(gè)字進(jìn)行橫向變形的判別,標(biāo)記上每個(gè)字的變形編號(hào),確定為通道一;(2)對(duì)待識(shí)別文件中的每個(gè)字進(jìn)行縱向變形的判別,標(biāo)記上每個(gè)字的變形編號(hào),確定為通道二;(3)對(duì)待識(shí)別文件中的每個(gè)字進(jìn)行OCR字模判別,標(biāo)記上每個(gè)字所使用的字模編號(hào),確定為通道三;等等。
      在步驟5,對(duì)每一個(gè)通道,根據(jù)已知的編碼長度以及碎片中每個(gè)字與原文的對(duì)應(yīng)關(guān)系得到所述編碼的每一位的統(tǒng)計(jì)結(jié)果;由于在編碼時(shí),一段編碼可能會(huì)在整個(gè)文檔中被重復(fù)了多次(重復(fù)次數(shù)可以根據(jù)上述隱形編碼嵌入方法的步驟3中的公式進(jìn)行計(jì)算),所以,可以得到這個(gè)編碼的每一位的統(tǒng)計(jì)結(jié)果;在步驟6,對(duì)每一個(gè)通道,對(duì)根據(jù)統(tǒng)計(jì)結(jié)果所得到的編碼進(jìn)行解碼,得出打印時(shí)的標(biāo)識(shí)ID;a)若從統(tǒng)計(jì)結(jié)果中得到的是一個(gè)完整編碼,則可將這個(gè)編碼進(jìn)行解碼,得出電子文檔打印時(shí)的標(biāo)識(shí)ID;b)若從統(tǒng)計(jì)結(jié)果中得到的不是一個(gè)完整編碼,但是所缺的編碼位數(shù)在糾錯(cuò)范圍內(nèi),也可以直接進(jìn)行解碼,利用BCH或者RS編碼的糾錯(cuò)能力得到打印時(shí)的標(biāo)識(shí)ID;c)若從統(tǒng)計(jì)結(jié)果中得到的不是一個(gè)完整編碼,且所缺的編碼位數(shù)超過了糾錯(cuò)范圍,則枚舉缺失的編碼位的所有組合,形成可能的編碼集合,并通過糾錯(cuò)碼的篩選得出一個(gè)可能的標(biāo)識(shí)ID的集合。這是由于冗余編碼的糾錯(cuò)能力是有限的,只可以校驗(yàn)出L位有效數(shù)字中的S位(S<L),所以如果最終所得到的碎片中缺失的編碼位數(shù)大于S,就需要使用上述方法獲得一個(gè)可能的標(biāo)識(shí)ID的集合。
      在步驟7,對(duì)各個(gè)通道計(jì)算出的標(biāo)識(shí)ID進(jìn)行匯總,以確定所獲取的待識(shí)別文件的打印時(shí)的標(biāo)識(shí),從而識(shí)別該文件或碎片是多份打印文件中哪一份。
      當(dāng)對(duì)一份文件的多個(gè)通道使用相同的標(biāo)識(shí)時(shí),如果對(duì)多數(shù)的通道所計(jì)算出的標(biāo)識(shí)是同一個(gè)標(biāo)識(shí)ID,則此標(biāo)識(shí)ID就是打印時(shí)的標(biāo)識(shí)ID;若各通道計(jì)算出的標(biāo)識(shí)ID不相同,則將各通道計(jì)算出的標(biāo)識(shí)ID值列出來,由人工根據(jù)碎片所受干擾方式不同來決定標(biāo)識(shí)ID。
      當(dāng)所有通道中沒有一個(gè)通道得到完整編碼,則從各個(gè)通道得出的可能ID的集合中取一個(gè)交集,該交集便是最有可能的ID的集合。當(dāng)懷疑通過上面的分析過程產(chǎn)生的文檔ID存在誤差時(shí),可以進(jìn)入人工調(diào)整界面,人為地來設(shè)定一些字的變化編號(hào),而不一定使用由計(jì)算機(jī)識(shí)別出來的文字變化編號(hào),在人工調(diào)整完畢后,轉(zhuǎn)到步驟5繼續(xù)執(zhí)行,直到得到所述的標(biāo)識(shí)ID。
      本發(fā)明可以根據(jù)需要,不同的通道可使用相同的標(biāo)識(shí),也可以使用不同的標(biāo)識(shí);一份文件可以只有一個(gè)標(biāo)識(shí),也可以有不止一個(gè)標(biāo)識(shí)。
      本發(fā)明把手工識(shí)別和自動(dòng)識(shí)別結(jié)合起來。對(duì)于軟件自動(dòng)識(shí)別中,軟件無法區(qū)分的某些文字變形,可以通過放大和對(duì)比來人工指認(rèn)單個(gè)文字是否變形和變形方法,從而糾正自動(dòng)識(shí)別的錯(cuò)誤,增加識(shí)別的可靠性。
      下面通過一個(gè)具體實(shí)施例具體說明本發(fā)明的方法。
      現(xiàn)在同一文檔,如電子公文,要復(fù)制9份,這9份文件中要加入隱形編碼從而加以區(qū)分。
      目前我們使用3種對(duì)文字的微調(diào)變形方法,即對(duì)文字的橫向變形、縱向變形和字模變形,將它們作為3個(gè)編碼通道,分別形成隱形編碼共同作用于同一份文檔。也就是說,復(fù)制出來的同一個(gè)字可能會(huì)有橫向、縱向和字模三種變化。
      第一通道為文字橫向變形,橫向變形存在3種變形一變大、不變、變??;第二通道為文字縱向,縱向變形存在2種變形一變大、不變;第三通道為字模變形,字模變形存在2種變形一宋體、仿宋。
      因此,第一通道,即橫向編碼通道使用3進(jìn)制表示,第二和第三通道,即縱向和字模編碼通道都使用2進(jìn)制表示。
      根據(jù)編碼方案公式[logN(M-1)]+1,則M=9。因此,對(duì)于橫向通道N=3,其編碼長度為[log3(9-1)+1=2,即所述編碼方案最多可以嵌入32=9份文件;對(duì)于縱向和字模通道N=2,這兩個(gè)通道的編碼長度均為log2(9-1)+1=4,即所述編碼方案最多可以嵌入24=16>9份文件。
      因?yàn)樾枰度腚[形編碼的文檔份數(shù)為9,所以,橫向通道的編碼分別為3進(jìn)制00(十進(jìn)制整數(shù)0),01(1),02(2),10(3),11(4),12(5),20(6),21(7),22(8);縱向通道和字模通道的編碼為二進(jìn)制0000(十進(jìn)制整數(shù)0),0001(1),0010(2),0011(3)……1000(8)。其中,橫向通道中的編碼0表示不變,1表示變大,2表示變小,而22表示近鄰的兩個(gè)字,每個(gè)字在橫向上均變?。豢v向通道中的編碼0表示變大,1表示不變,而0010表示近鄰的四個(gè)字,在縱向上分別變大、變大、不變、變大;字模通道中的編碼0表示宋體,1表示仿宋,而0011表示近鄰的四個(gè)字,在字模上分別表示宋體、宋體、仿宋、仿宋。
      假設(shè)這份文檔一共有16個(gè)字。由于我們采取冗余編碼,也就是在正常編碼后加入校驗(yàn)碼的形式。那么,第4份文檔嵌入的隱形編碼的標(biāo)識(shí)是十進(jìn)制整數(shù)3(第一份文檔的標(biāo)識(shí)或隱形編碼為十進(jìn)制整數(shù)0),其在各通道的表現(xiàn)分別為(其中帶下劃線的數(shù)字為校驗(yàn)碼)橫向通道,1001100110011001縱向通道,0011110000111100字模通道,0011110000111100這三個(gè)通道的隱形編碼共同作用在第4份文檔上,最終形成一份嵌入好隱形編碼的紙質(zhì)文檔。
      至此,隱形編碼嵌入完成。
      下面,進(jìn)行隱形編碼檢測(cè)。
      假設(shè)獲得了按前述隱形編碼嵌入方法嵌入了隱形編碼的9份紙質(zhì)文檔中的一份,而且只是文檔的一部分碎片(待識(shí)別文件)。
      首先,將碎片的內(nèi)容掃描進(jìn)計(jì)算機(jī)。同時(shí),找到嵌入隱形編碼前的原始的電子文檔。我們對(duì)碎片的內(nèi)容進(jìn)行OCR識(shí)別后,與原始文檔的內(nèi)容進(jìn)行比較,從而確定這份碎片是原始文檔的哪部分。
      假設(shè)最終確定待識(shí)別文件中的內(nèi)容是原文檔中的第九個(gè)字至第十六個(gè)字。則對(duì)這八個(gè)字的橫向、縱向和字模進(jìn)行分析,從而識(shí)別出不同通道的編碼。
      假設(shè)最后得到了每個(gè)通道的識(shí)別結(jié)果,分別是橫向通道不變、變大、變大、不變、不變、變大、變大、不變;縱向通道變大、變大、不變、變大、變大、變大、不變、不變;字模通道變大、不變、不變、不變、變大、變大、不變、不變。
      所以通過對(duì)比識(shí)別出的各通道的編碼分別是橫向通道10011001;縱向通道00100011;字模通道01110011。
      因?yàn)橹白R(shí)別出了碎片的文字內(nèi)容是第九個(gè)字到第十六個(gè)字,所以,根據(jù)最初各通道編碼的特性,可以確定目前各通道中編碼的特性和表示的含義(帶下劃線的數(shù)字為校驗(yàn)碼)橫向通道10 01 10 01;縱向通道0010 0011;字模通道0111 0011。
      由于紙質(zhì)文檔在傳播中,可能被各種因素影響從而對(duì)隱形編碼產(chǎn)生干擾。所以,我們可以根據(jù)校驗(yàn)碼及識(shí)別出的編碼內(nèi)容,校驗(yàn)并恢復(fù)編碼的原始狀態(tài)。
      在本例中,假設(shè)一種最簡單的校驗(yàn)碼和校驗(yàn)方法,即校驗(yàn)碼和原始編碼的每一位進(jìn)行異或運(yùn)算后結(jié)果均為‘1’。通過這種辦法,可知橫向通道的編碼是沒有問題的,縱向通道編碼的第四位和字模通道編碼的第二位均被干擾。
      最后,我們得到了每個(gè)通道經(jīng)過校正的編碼,即橫向通道10(3進(jìn)制)----3(十進(jìn)制整數(shù));縱向通道0011(2進(jìn)制)----3(十進(jìn)制整數(shù));字模通道0011(2進(jìn)制)----3(十進(jìn)制整數(shù))。
      通過三個(gè)通道得出的標(biāo)識(shí),進(jìn)行匯總。可知三個(gè)通道得出的標(biāo)識(shí)(十進(jìn)制整數(shù)值)是一致的,即十進(jìn)制整數(shù)‘3’。
      根據(jù)當(dāng)初分配的對(duì)不同文檔的不同標(biāo)識(shí),可最終確定,這份碎片的內(nèi)容來源于復(fù)制出來的9份文檔中的第4份。
      至此,隱形編碼的生成、嵌入、識(shí)別、分析過程完成。
      運(yùn)用該方法生成的、嵌入在以文字為主要信息的、電子文檔中的隱形編碼,既能隱藏大量數(shù)據(jù),又可以達(dá)到很好的魯棒性,安全性和數(shù)據(jù)容量。對(duì)以文字為主的電子文檔,該隱形編碼的嵌入和檢測(cè)方法可以有很好的抗干擾能力,對(duì)于各種常見的干擾方法,例如復(fù)印,掃描、揉搓,水泡,污漬,裁剪,數(shù)碼相機(jī)拍照等都有較好的容忍度。
      上述內(nèi)容并非是用來限制本發(fā)明的具體實(shí)施方式
      ,只是本發(fā)明的一個(gè)特定的實(shí)施案例。凡根據(jù)本發(fā)明的主要發(fā)明構(gòu)思而進(jìn)行的修改和變動(dòng)或組合,均應(yīng)屬于本發(fā)明所要求的保護(hù)范圍。
      權(quán)利要求
      1.一種在包含文字的文檔中嵌入隱藏信息的方法,其特征在于,包括a)將一類的版式變形作為一個(gè)通道,選擇至少一個(gè)通道來表現(xiàn)要嵌入到文檔中的隱形編碼,每類版式變形包含N級(jí)變形,其中N為大于等于2的正整數(shù),不同的版式變形級(jí)數(shù)N或相同或不同;b)確定隱形編碼對(duì)于各類版式變形的編碼序列,轉(zhuǎn)換后的編碼長度為M,其中M為正整數(shù);c)從所述包含文字的文檔中選出需要進(jìn)行版式變形的K個(gè)字,其中K為正整數(shù)且K≥M;d)根據(jù)確定的編碼序列對(duì)所選的K個(gè)字進(jìn)行版式變形。
      2.根據(jù)權(quán)利要求1所述的嵌入方法,其特征在于,所述步驟b)中的編碼為冗余編碼。
      3.根據(jù)權(quán)利要求2所述的嵌入方法,其特征在于,所述的冗余編碼采用BCH算法或RS算法。
      4.根據(jù)權(quán)利要求1-3中之一所述的嵌入方法,其特征在于,所述的版式變形包括對(duì)文檔中文字個(gè)體的變形。
      5.根據(jù)權(quán)利要求4所述的嵌入方法,其特征在于,所述的對(duì)文檔中文字個(gè)體的變形包括對(duì)文字的尺寸、文字的排版位置、字體的改變。
      6.根據(jù)權(quán)利要求5所述的嵌入方法,其特征在于,所述文字的尺寸的改變包括在文字的高度、寬度或其組合上的變化;所述文字的排版位置的改變包括在文字的縱向位置、橫向位置或其組合上的變化;所述字體的變化包括在筆劃長短、筆劃形狀、筆劃之間相對(duì)位置、筆劃粗細(xì)、筆劃斜率或其組合上的變化。
      7.根據(jù)權(quán)利要求1-3中之一所述的嵌入方法,其特征在于,對(duì)于每份包含文字的文檔,不同的通道嵌入不同的隱形編碼。
      8.根據(jù)權(quán)利要求1-3中之一所述的方法,其特征在于,對(duì)于每份包含文字的文檔,不同的通道嵌入相同的隱形編碼。
      9.根據(jù)權(quán)利要求1-8中之一所述的嵌入方法,其特征在于,當(dāng)對(duì)包含文字的同一份文檔要打印多份紙質(zhì)文件時(shí),對(duì)每份待打印的文件嵌入一個(gè)隱形標(biāo)識(shí),將該隱形標(biāo)識(shí)轉(zhuǎn)換成隱形編碼,用于嵌入相應(yīng)的待打印的文件中。
      10.一種隱形編碼檢測(cè)方法,其特征在于,包括A)對(duì)獲取的待檢測(cè)的包含文字的文檔的紙質(zhì)文件或其碎片即待識(shí)別文件進(jìn)行掃描,生成圖像文件;B)將在步驟A)中得到的待識(shí)別文件的圖像做OCR識(shí)別;C)將OCR識(shí)別結(jié)果與嵌入隱形編碼之前的原始文檔進(jìn)行匹配,得到待識(shí)別文件的每個(gè)字和原始文檔的每個(gè)字的對(duì)應(yīng)關(guān)系;D)對(duì)待識(shí)別文件中的每個(gè)字的版式變形進(jìn)行判別,標(biāo)記上每個(gè)字的變形編號(hào),并確定所屬版式變形的種類,即確定所屬通道;E)對(duì)每一個(gè)通道,根據(jù)已知的編碼長度以及待識(shí)別文件中每個(gè)字與原文的對(duì)應(yīng)關(guān)系得到所述編碼的每一位的統(tǒng)計(jì)結(jié)果;F)對(duì)每一個(gè)通道,根據(jù)統(tǒng)計(jì)結(jié)果得到的編碼進(jìn)行解碼,得到待識(shí)別文件中的隱藏信息。
      11.根據(jù)權(quán)利要求10所述的檢測(cè)方法,其特征在于,在所述步驟D),通過人工方式進(jìn)行判別,確定字的變化編號(hào)。
      12.根據(jù)權(quán)利要求10所述的檢測(cè)方法,其特征在于,在所述步驟D),通過計(jì)算機(jī)和人工結(jié)合的方式進(jìn)行判別,確定字的變化編號(hào)。
      13.根據(jù)權(quán)利要求10-12中之一所述的檢測(cè)方法,其特征在于,在所述步驟E),當(dāng)從統(tǒng)計(jì)結(jié)果得到的不是一個(gè)完整編碼且所缺的編碼位數(shù)超過了糾錯(cuò)范圍時(shí),則枚舉缺失的編碼位的所有組合,形成一個(gè)可能的編碼集合,然后再通過人工方式確定編碼。
      14.根據(jù)權(quán)利要求10-12中之一所述的檢測(cè)方法,其特征在于,在所述步驟F),當(dāng)所述紙質(zhì)文件或者文件碎片中的隱藏信息的各通道具有標(biāo)識(shí)時(shí),則解碼得到各通道的標(biāo)識(shí),以判斷出該紙質(zhì)文件或者文件碎片所使用的標(biāo)識(shí)。
      15.根據(jù)權(quán)利要求10-12中之一所述的檢測(cè)方法,其特征在于,在所述步驟F),當(dāng)所述紙質(zhì)文件或者文件碎片中的隱藏信息的各通道具有標(biāo)識(shí)時(shí),當(dāng)從統(tǒng)計(jì)結(jié)果得到一個(gè)完整編碼或者不是一個(gè)完整編碼但所缺的編碼位數(shù)在糾錯(cuò)范圍內(nèi)時(shí),直接將所得到的編碼進(jìn)行解碼,得到所述紙質(zhì)文件或者文件碎片的標(biāo)識(shí);當(dāng)從統(tǒng)計(jì)結(jié)果得到的不是一個(gè)完整編碼且所缺的編碼位數(shù)超過了糾錯(cuò)范圍時(shí),則枚舉缺失的編碼位的所有組合,形成一個(gè)可能的編碼集合,并通過糾錯(cuò)碼的篩選得出各通道的可能的標(biāo)識(shí)的集合,然后再通過人工方式確定標(biāo)識(shí)。
      16.根據(jù)權(quán)利要求10-12中之一所述的檢測(cè)方法,其特征在于,在所述步驟F)中,當(dāng)所述紙質(zhì)文件或者文件碎片中的隱藏信息的各通道具有相同的標(biāo)識(shí)時(shí),若有多數(shù)的通道計(jì)算出了同一個(gè)標(biāo)識(shí),則此標(biāo)識(shí)就極有可能是打印時(shí)的標(biāo)識(shí);若各通道計(jì)算出的標(biāo)識(shí)不相同,則將各通道計(jì)算出的標(biāo)識(shí)值列出來,由人工根據(jù)碎片所受干擾方式不同來決定哪個(gè)通道得出的標(biāo)識(shí)更加可信;若沒有一個(gè)通道得到完整編碼,則從各個(gè)通道得出的可能標(biāo)識(shí)的集合中取一個(gè)交集,將該交集作為最有可能的標(biāo)識(shí)的集合,然后再通過人工方式確定標(biāo)識(shí)。
      全文摘要
      本發(fā)明涉及一種隱藏信息嵌入及檢測(cè)方法,其在包含文字文檔中嵌入版式變形如文字個(gè)體的變形信息等形成的隱形編碼;在檢測(cè)文件的隱藏信息時(shí),通過掃描獲取待檢測(cè)文件的電子文檔,將所獲取的電子文檔與所存儲(chǔ)的原始文檔進(jìn)行比對(duì),得到一個(gè)統(tǒng)計(jì)結(jié)果,根據(jù)統(tǒng)計(jì)結(jié)果得出最可能的編碼,將該編碼進(jìn)行解碼,獲得待識(shí)別文件中的隱藏信息。當(dāng)計(jì)算機(jī)程序?qū)Π媸阶冃蔚姆治龃嬖谡`差時(shí),可以采用人工調(diào)整方式,通過人工識(shí)別與自動(dòng)識(shí)別的結(jié)合來獲得編碼。運(yùn)用該方法生成的、嵌入在以文字為主要信息的電子文檔中的隱藏信息,可以達(dá)到很好的魯棒性、安全性、和數(shù)據(jù)容量。
      文檔編號(hào)G06K9/00GK1933391SQ20051010322
      公開日2007年3月21日 申請(qǐng)日期2005年9月16日 優(yōu)先權(quán)日2005年9月16日
      發(fā)明者王東臨, 尹樹田, 張?jiān)婆? 劉寧勝, 梁源松, 劉昌偉, 歐陽德, 高鵬, 樓永植 申請(qǐng)人:北京書生國際信息技術(shù)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1