本發(fā)明屬于文本信息處理技術(shù)領(lǐng)域,涉及一種多頁同類文檔碎片的分組方法。
背景技術(shù):
將來源于不同文檔頁的碎紙機碎片恢復(fù)成原始文檔是一個復(fù)雜的技術(shù)問題,來源不同、數(shù)量眾多的的碎片相互混雜,碎片難以辨別,這對文檔的恢復(fù)帶來極大的困難。碎片分組是將數(shù)量眾多的碎片按照其來源加以區(qū)別,劃分成若干個不同的組,以便在組內(nèi)進行碎片拼接,減小碎片搜索的難度,提高文檔恢復(fù)的準(zhǔn)確率。
在現(xiàn)實情況中,被粉碎的文件通常包含多頁文檔。由于這些文檔具有統(tǒng)一的頁面格式,他們在視覺上幾乎沒有差異,這些碎片被稱為同類碎片,同類碎片之間具有極高的相似性,現(xiàn)有碎片分組技術(shù)難以處理這類碎片。然而基于同類碎片在現(xiàn)實中存在的廣泛性,同類碎片的分組,對于文檔恢復(fù),特別是大規(guī)模文檔恢復(fù)具有十分重要的意義。碎紙機能夠產(chǎn)生條狀、塊狀等不同類型的碎片,目前在實際應(yīng)用中大多數(shù)的碎片為條狀碎片,因此,解決條狀碎片的分組問題,對破碎文檔的恢復(fù)具有重要的現(xiàn)實意義。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種多頁同類文檔碎片的分組方法,解決了現(xiàn)有技術(shù)中存在的同類文檔碎片分組困難、分組準(zhǔn)確率低的問題。
本發(fā)明所采用的技術(shù)方案是,多頁同類文檔碎片的分組方法,包括以下步驟:
步驟1、提取文檔的最左邊碎片和最右邊碎片,并確定碎片的分組數(shù)量;
步驟2、將文檔的最左邊碎片和最右邊碎片進行分組對應(yīng);
步驟3、將文檔的中間部分碎片劃分為密集碎片和非密集碎片;
步驟4、對非密集碎片進行分組;
步驟5、對密集碎片進行分組。
步驟1、提取文檔的最左邊碎片和最右邊碎片,并確定碎片的分組數(shù)量的具體過程為:
將碎片按行間距水平分割成若干個文字塊,將若干個文字塊劃分為5種抽象類型:x1類:空白,x2類:字符分布在左右兩邊,x3類:字符位于中間,x4類:字符位于右邊,x5類:字符位于左邊,設(shè)5種抽象類型的集合為c,c={x1,x2,x3,x4,x5,};
用貝葉斯分類器將每個文字塊轉(zhuǎn)化為5種抽象類型之一:將文字塊設(shè)為y,y={α1,α2,…,αn,},其中,αn表示文字塊中第n個灰度特征,根據(jù)貝葉斯定理,如公式(1)所示,分別計算文字塊為x1類的概率p(x1/y)、文字塊為x2類的概率p(x2/y)、文字塊為x3類的概率p(x3/y)、文字塊為x4類的概率p(x4/y)、文字塊為x5類的概率p(x5/y),由max{p(x1/y),p(x2/y),…,p(x5/y)}判斷出文字塊y的抽象類型,將每個碎片分別轉(zhuǎn)換成文字塊的抽象類型的集合;
其中,p(xi/y)表示文字塊為xi類的概率,xi∈c,p(y)表示文字塊出現(xiàn)的概率,p(y/xi)表示不同抽象類型下文字塊出現(xiàn)的條件概率,p(xi)表示不同抽象類型出現(xiàn)的概率,p(y/xi)·p(xi)的計算如下:
其中,αn表示文字塊中第n個灰度特征,p(αj/xi)表示xi類下文字塊的第j個灰度特征出現(xiàn)的條件概率;
計算每個碎片中x1類文字塊和x4類文字塊的數(shù)量之和占文字塊的總數(shù)量的比例q14:
計算每個碎片中x1類文字塊和x5類文字塊的數(shù)量之和占文字塊的總數(shù)量的比例q15:
式中,num表示每個碎片中文字塊的總數(shù)量,num1表示x1類文字塊的數(shù)量,num4表示x4類文字塊的數(shù)量,num5表示x5類文字塊的數(shù)量;
將文檔最左邊的碎片設(shè)為l,判斷一個碎片是否為l:
將文檔最右邊的碎片設(shè)為r,判斷一個碎片是否為r:
其中,qth是閾值,qth取值范圍是0.8~0.9;
統(tǒng)計文檔中l(wèi)的數(shù)量nl以及r的數(shù)量nr,碎片的分組數(shù)量為n,n=nl=nr。
步驟2、將文檔的最左邊碎片和最右邊碎片進行分組對應(yīng)的具體過程為:
將l中的文字塊和r中的文字塊劃分為四種類型:第ⅰ類:空白,第ⅱ類:漢字,第ⅲ類:含有句號,第ⅳ類:含有逗號;設(shè)r中某一行的文字塊的類型為i,l中該行下一行的文字塊的類型為j,統(tǒng)計r中某一行的文字塊與l中該行下一行的文字塊之間的相關(guān)度pji;
計算任意一個最右邊碎片ri與其他l之間的相關(guān)度scji:
其中,m表示每個碎片中含有的文字塊的總數(shù)量,pji(k+1,k)表示r中第k的行文字塊和l中第k+1的行文字塊之間的相關(guān)度;
最大的scji所對應(yīng)的l,即為與ri同組的l,按照公式(7),逐一將所有r和l進行分組對應(yīng)。
步驟3、將文檔的中間部分碎片劃分為密集碎片和非密集碎片的具體過程為:
對l和r以外的碎片中的文字塊進行空白塊識別:
其中,hei為文字塊中黑色像素點的個數(shù);
計算每個碎片中空白塊的數(shù)量占文字塊的總數(shù)量的比例α:
其中,m表示每個碎片中文字塊的總數(shù)量,n表示每個碎片中空白塊的數(shù)量;
根據(jù)α值的大小,將碎片劃分為密集碎片和非密集碎片:
其中,th是閾值,th取值范圍是0.1~0.2。
步驟4、對非密集碎片進行分組的具體步驟為:
步驟4.1、對文檔靠左部分的非密集碎片進行分組;
步驟4.2、對文檔靠右部分的非密集碎片進行分組。
步驟4.1、對文檔靠左部分的非密集碎片進行分組的具體過程為:
將任意一個最左邊碎片設(shè)為起始碎片kl,進行以kl為起點的右近鄰匹配:
首先,計算kl與待匹配的非密集碎片之間的匹配度集合s(k):
s(k)={sk,u,1,sk,u,2,...,sk,u,j,...,sk,u,n}(11)
式中,sk,u,j表示kl與第j個待測的非密集碎片之間的匹配度,1≤j≤n,n表示待匹配的非密集碎片的數(shù)量:
式中,m為每個碎片的文字行數(shù),即每個碎片的文字塊的總數(shù)量,ci為兩個碎片的第i行文字塊之間的匹配度;
最大匹配度對應(yīng)的非密集碎片即為與kl右近鄰的非密集碎片v:
v=argmaxs(k)(13)
其次,匹配出與v右近鄰的非密集碎片,進而,按照公式(11)、(12)、(13),逐一實現(xiàn)非密集碎片與其右近鄰的碎片的匹配,當(dāng)非密集碎片與一個密集碎片匹配上時,以kl為起點的右近鄰匹配的過程結(jié)束,該密集碎片即為文檔靠左部分的右邊界碎片,設(shè)為lr;
逐一實現(xiàn)以其他最左邊碎片為起點的右近鄰匹配,完成文檔靠左部分的非密集碎片的分組。
步驟4.2、對文檔靠右部分的非密集碎片進行分組的具體過程為:
將任意一個最右邊碎片設(shè)為起始碎片kr,在步驟4.1分組后剩下的非密集碎片中,找出所有非空白塊的位置與kr完全相同的非密集碎片,即為與kr同組的非密集碎片;將kr轉(zhuǎn)化為一個空白塊與非空白塊的集合kr',將每個與kr同組的非密集碎片分別轉(zhuǎn)化為一個空白塊與非空白塊的集合,將與kr'同組的空白塊與非空白塊的集合逐個和kr'進行異或運算:
wi表示任意一個與kr'同組的空白塊與非空白塊的集合,yh是異或運算的結(jié)果,最大的yh值對應(yīng)的碎片即為文檔靠右部分的左邊界碎片,設(shè)為rl:
rl=argmax(yh)(15)
按照公式(14)、(15),逐一找出與其他最右邊碎片同組的非密集碎片,實現(xiàn)文檔靠右部分的非密集碎片的分組。
步驟5、對密集碎片進行分組的具體過程為:
將文檔中的一對邊界碎片,即靠左部分的右邊界碎片lr和靠右部分的左邊界碎片rl,設(shè)為(lr,rl),文檔中所有的(lr,rl)構(gòu)成集合i:
i={(lr1,rl1),(lr2,rl2),...,(lri,rli),...,(lrn,rln)}(16)
其中,(lri,rli)表示第i對(lr,rl),n表示碎片的分組數(shù)量;
尋找并記錄每對(lr,rl)中位置相同的空白塊的具體位置和數(shù)量,將每對(lr,rl)按照空白塊的數(shù)量進行排序,將包含空白塊數(shù)量最多的(lr,rl)設(shè)為(lrj,rlj),從(lrj,rlj)開始分組,搜索與(lrj,rlj)具有相同位置及數(shù)量的空白塊的密集碎片,即為與(lrj,rlj)同組的密集碎片,逐一實現(xiàn)密集碎片的分組。
本發(fā)明的有益效果是,多頁同類文檔碎片的分組方法,與常見的丟棄文檔的最左邊與最右邊碎片估計文檔頁數(shù)量的方法不同,基于文檔最左邊碎片和最右邊碎片中文字的布局特性,能夠準(zhǔn)確獲得分組的數(shù)量;同時,根據(jù)段落文字的相關(guān)性,將最左邊碎片和最右邊碎片進行對應(yīng),并根據(jù)文字在文檔不同區(qū)域的特點,將碎片按照所處區(qū)域進行分組,與已有的不分區(qū)的分組方法不同,極大提高了多頁同類文檔碎片分組的準(zhǔn)確率,有利于減小多頁文檔碎片恢復(fù)的復(fù)雜度,提高單頁文檔碎片恢復(fù)的準(zhǔn)確率,并為大規(guī)模文檔碎片恢復(fù)的實現(xiàn)提供保障。
附圖說明
圖1是部分多頁同類文檔的碎片的示意圖;
圖2是文字塊對應(yīng)的5種抽象類型的示意圖;
圖3是文檔最左邊碎片中的文字塊和最右邊碎片中的文字塊對應(yīng)的4種類型的示意圖;
圖4是文檔最左邊碎片中的文字塊和最右邊碎片中的文字塊之間的相關(guān)度的分布表;
圖5是密集碎片和非密集碎片的示意圖。
具體實施方式
下面結(jié)合附圖和具體實施方式對本發(fā)明進行詳細說明。
本發(fā)明所處理的碎片,是指來源于同一份文件的不同文檔頁的碎片,而非常見的特征差異明顯的碎片,它們大多呈條狀,在視覺特征(紙張類型、紙張顏色、文字尺寸,文本行間距,文本行數(shù)量等)上沒有差異,如圖1所示,其中,(a)和(b)是第一頁的碎片,(c)和(d)是第二頁的碎片,(e)和(f)是第三頁的碎片,這類碎片廣泛存在于實際的碎紙機碎片中,其分組的準(zhǔn)確與否對于碎紙機碎片的有效恢復(fù)十分關(guān)鍵。
以sunwoodst9290型碎紙機對普通規(guī)格的文檔(紙張大小為a4,字號為小四,行間距為1.5倍)進行破碎,并對產(chǎn)生的碎片加以分組為例。
多頁同類文檔碎片的分組方法,包括以下步驟:
步驟1、提取文檔的最左邊碎片和最右邊碎片,并確定碎片的分組數(shù)量;
步驟2、將文檔的最左邊碎片和最右邊碎片進行分組對應(yīng);
步驟3、將文檔的中間部分碎片劃分為密集碎片和非密集碎片;
步驟4、對非密集碎片進行分組;
步驟5、對密集碎片進行分組。
步驟1、提取文檔的最左邊碎片和最右邊碎片,并確定碎片的分組數(shù)量的具體過程為:
將碎片按行間距水平分割成若干個文字塊,如圖2所示,若干個文字塊能夠被劃分為5種抽象類型:x1類:空白,x2類:字符分布在左右兩邊,x3類:字符位于中間,x4類:字符位于右邊,x5類:字符位于左邊,設(shè)5種抽象類型的集合為c,c={x1,x2,x3,x4,x5,},普通規(guī)格的文檔每頁大約產(chǎn)生47個條狀碎片(排除空白碎片),每個碎片的寬度為3mm,同時,每個碎片能分割成30個文字塊。
用貝葉斯分類器將每個文字塊轉(zhuǎn)化為5種抽象類型之一:
將文字塊設(shè)為y,y={α1,α2,…,αn,},其中,αn表示文字塊中第n個灰度特征,由于文字塊中各個灰度特征是條件獨立的,根據(jù)貝葉斯定理,如公式(1)所示,分母p(y)對于5種抽象類別而言都是常數(shù),將分子最大化,即可分別計算文字塊為x1類的概率p(x1/y)、文字塊為x2類的概率p(x2/y)、文字塊為x3類的概率p(x3/y)、文字塊為x4類的概率p(x4/y)、文字塊為x5類的概率p(x5/y),找出p(x1/y)、p(x2/y)、p(x3/y)、p(x4/y)、p(x5/y)中最大的那一項,其所對應(yīng)的類別就是判斷出的文字塊y的抽象類型,將每個碎片分別轉(zhuǎn)換成文字塊的抽象類型的集合;
其中,p(xi/y)表示文字塊為xi類的概率,xi∈c,p(y)表示文字塊出現(xiàn)的概率,p(y/xi)表示由訓(xùn)練集得到的不同抽象類型下文字塊出現(xiàn)的條件概率,p(xi)表示由訓(xùn)練集得到的不同抽象類型出現(xiàn)的概率,p(y/xi)·p(xi)的計算如下:
統(tǒng)計在每種抽象類型下不同灰度特征的條件概率:
x1類文字塊1-n灰度特征的條件概率:p(α1/x1),p(α2/x1),…,p(αn/x1);
x2類文字塊1-n灰度特征的條件概率:p(α1/x2),p(α2/x2),…,p(αn/x2);
x3類文字塊1-n灰度特征的條件概率:p(α1/x3),p(α2/x3),…,p(αn/x3);
x4類文字塊1-n灰度特征的條件概率:p(α1/x4),p(α2/x4),…,p(αn/x4);
x5類文字塊1-n灰度特征的條件概率:p(α1/x5),p(α2/x5),…,p(αn/x5);
其中,αn表示文字塊中第n個灰度特征,p(αj/xi)表示xi類下文字塊的第j個灰度特征出現(xiàn)的條件概率;
計算每個碎片中x1類文字塊和x4類文字塊的數(shù)量之和占文字塊的總數(shù)量的比例q14:
計算每個碎片中x1類文字塊和x5類文字塊的數(shù)量之和占文字塊的總數(shù)量的比例q15:
式中,num表示每個碎片中文字塊的總數(shù)量,num1表示x1類文字塊的數(shù)量,num4表示x4類文字塊的數(shù)量,num5表示x5類文字塊的數(shù)量;
將文檔最左邊的碎片設(shè)為l,判斷一個碎片是否為l:
將文檔最右邊的碎片設(shè)為r,判斷一個碎片是否為r:
其中,qth是閾值,qth取值范圍是0.8~0.9;
統(tǒng)計文檔中l(wèi)的數(shù)量nl以及r的數(shù)量nr,碎片的分組數(shù)量為n,由于一頁文檔只有一個l和一個r,因此n=nl=nr。
步驟2、將文檔的最左邊碎片和最右邊碎片進行分組對應(yīng)的具體過程為:
經(jīng)過步驟1處理后,文檔的l和r之間沒有建立相互對應(yīng)的關(guān)系,這將阻礙碎片的分組,因此,需要對它們進行分組對應(yīng),文檔某一行最右邊的字符與下一行最左邊的字符直接相關(guān),即:若文檔某一行最右邊為空白,則下一行最左邊也應(yīng)為空白;若文檔某一行最右邊為文字,則下一行最左邊也應(yīng)為文字;若文檔某一行最右邊為逗號,則下一行最左邊應(yīng)為文字;若文檔某一行最右邊為句號,則下一行最左邊既可能為文字也可能為空白。
如圖3所示,根據(jù)屬性,將l中的文字塊和r中的文字塊被劃分為四種類型:第ⅰ類:空白,參見圖3(a),第ⅱ類:漢字,參見圖3(b),第ⅲ類:含有句號,參見圖3(c)、(d),第ⅳ類:含有逗號,參見圖3(c)、(d);由于文檔每一行的第一個字符一定不會是逗號或句號,文檔每一行的末尾可能出現(xiàn)逗號或句號,因而,l中會出現(xiàn)第ⅰ,ⅱ類文字塊,r中會出現(xiàn)第ⅰ,ⅱ,ⅲ,ⅳ類文字塊;
考慮到文檔最左邊的字符和最右邊的字符之間存在相關(guān)性,根據(jù)不同文字塊在上下行之間的邏輯關(guān)系,得到l中的文字塊和r中的文字塊之間的相關(guān)度,如圖4所示,設(shè)r中某一行的文字塊的類型為i,l中該行下一行的文字塊的類型為j,統(tǒng)計r中某一行的文字塊與l中該行下一行的文字塊之間的相關(guān)度pji;
計算任意一個最右邊碎片ri與其他l之間的相關(guān)度scji:
其中,m表示每個碎片中含有的文字塊的數(shù)量,pji(k+1,k)表示r中第k的行文字塊和l中第k+1的行文字塊之間的相關(guān)度;
最大的scji所對應(yīng)的l,即為與ri同組的l,按照公式(7),逐一將所有r和l進行分組對應(yīng)。
步驟3、將文檔的中間部分碎片劃分為密集碎片和非密集碎片的具體過程為:
對l和r以外的碎片中的文字塊進行空白塊識別:
其中,hei為文字塊中黑色像素點的個數(shù);
計算每個碎片中空白塊的數(shù)量占文字塊的總數(shù)量的比例α:
其中,m表示每個碎片中文字塊的總數(shù)量,n表示每個碎片中空白塊的數(shù)量;
根據(jù)α值的大小,將碎片劃分為密集碎片和非密集碎片:
其中,th是閾值,th取值范圍是0.1~0.2;
如圖5所示,(a)代表密集碎片,(b)代表非密集碎片。
由于段落首行縮進處的空白,使得文檔靠左部分會有相對較多的空白塊;由于段落結(jié)尾處的空白,使得文檔靠右部分會有相對較多的空白塊,因此,非密集碎片位于文檔的靠左部分和靠右部分,密集碎片位于文檔的中間部分。
步驟4、對非密集碎片進行分組的具體步驟為:
步驟4.1、對文檔靠左部分的非密集碎片進行分組;
步驟4.2、對文檔靠右部分的非密集碎片進行分組。
步驟4.1、對文檔靠左部分的非密集碎片進行分組的具體過程為:
將任意一個最左邊碎片設(shè)為起始碎片kl,進行kl的右近鄰匹配:
將任意一個最左邊碎片設(shè)為起始碎片kl,進行以kl為起點的右近鄰匹配:
首先,計算kl與待匹配的非密集碎片之間的匹配度集合s(k):
s(k)={sk,u,1,sk,u,2,...,sk,u,j,...,sk,u,n}(11)
式中,sk,u,j表示kl與第j個待測的非密集碎片之間的匹配度,1≤j≤n,n表示待匹配的非密集碎片的數(shù)量:
式中,m為每個碎片的文字行數(shù),即每個碎片的文字塊的總數(shù)量,ci為兩個碎片的第i行文字塊之間的匹配度;
最大匹配度對應(yīng)的非密集碎片即為與kl右近鄰的非密集碎片v:
v=argmaxs(k)(13)
其次,匹配出與v右近鄰的非密集碎片,進而,按照公式(11)、(12)、(13)逐一實現(xiàn)非密集碎片與其右近鄰的碎片的匹配,當(dāng)非密集碎片與一個密集碎片匹配上時,以kl為起點的右近鄰匹配的過程結(jié)束,該密集碎片即為文檔靠左部分的右邊界碎片,設(shè)為lr;
由于首行縮進的存在,使得每頁文檔靠左部分大約為4個碎片,因此逐一實現(xiàn)以其他最左邊碎片為起點的右近鄰匹配,完成文檔靠左部分的非密集碎片的分組。
步驟4.2、對文檔靠右部分的非密集碎片進行分組的具體過程為:
由于文檔具體內(nèi)容不同,段落字數(shù)存在差異,因此段落結(jié)尾的位置是不確定的,即文檔靠右部分的碎片數(shù)量是不確定的,但是,通常每頁文檔靠右部分的非密集碎片比靠左部分的非密集碎片的數(shù)量要多;
將任意一個最右邊碎片設(shè)為起始碎片kr,在步驟4.1分組后剩下的非密集碎片中,找出所有非空白塊的位置與kr完全相同的非密集碎片,即為與kr同組的非密集碎片;將kr轉(zhuǎn)化為一個空白塊與非空白塊的集合kr',將每個與kr同組的非密集碎片分別轉(zhuǎn)化為一個空白塊與非空白塊的集合,將與kr'同組的空白塊與非空白塊的集合逐個和kr'進行異或運算:
wi表示任意一個與kr'同組的空白塊與非空白塊的集合,yh是異或運算的結(jié)果,最大的yh值對應(yīng)的碎片即為文檔靠右部分的左邊界碎片,設(shè)為rl:
rl=argmax(yh)(15)
按照公式(14)、(15),逐一找出與其他最右邊碎片同組的非密集碎片,實現(xiàn)文檔靠右部分的非密集碎片的分組。
步驟5、對密集碎片進行分組的具體過程為:
將文檔中的一對邊界碎片,即靠左部分的右邊界碎片lr和靠右部分的左邊界碎片rl,設(shè)為(lr,rl),文檔中所有的(lr,rl)構(gòu)成集合i:
i={(lr1,rl1),(lr2,rl2),...,(lri,rli),...,(lrn,rln)}(16)
其中,(lri,rli)表示第i對(lr,rl),n表示碎片的分組數(shù)量;
尋找并記錄每對(lr,rl)中位置相同的空白塊的具體位置和數(shù)量,將每對(lr,rl)按照空白塊的數(shù)量進行排序,將包含空白塊數(shù)量最多的(lr,rl)設(shè)為(lrj,rlj),從(lrj,rlj)開始分組,搜索與(lrj,rlj)具有相同位置及數(shù)量的空白塊的密集碎片,即為與(lrj,rlj)同組的密集碎片,從而,逐一實現(xiàn)密集碎片的分組。
綜上,完成了文檔靠左部分碎片、靠右部分碎片、中間部分碎片的分組對應(yīng),整個多頁同類文檔的分組也就完成了。
通過所述方式,多頁同類文檔碎片的分組方法,與常見的丟棄文檔的最左邊與最右邊碎片估計文檔頁數(shù)量的方法不同,基于文檔最左邊碎片和最右邊碎片中文字的布局特性,能夠準(zhǔn)確獲得分組的數(shù)量;同時,根據(jù)段落文字的相關(guān)性,將最左邊碎片和最右邊碎片進行對應(yīng),并根據(jù)文字在文檔不同區(qū)域的特點,將碎片按照所處區(qū)域進行分組,與已有的不分區(qū)的分組方法不同,極大提高了多頁同類文檔碎片分組的準(zhǔn)確率,有利于減小多頁文檔碎片恢復(fù)的復(fù)雜度,提高單頁文檔碎片恢復(fù)的準(zhǔn)確率,并為大規(guī)模文檔碎片恢復(fù)的實現(xiàn)提供保障。