專利名稱::電子文檔中文字信息處理、輸出和字符檢索的方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及電子文檔數(shù)據(jù)處理領(lǐng)域,尤其涉及一種電子文檔中文字信息處理、輸出和字符檢索的方法及裝置。
背景技術(shù):
:為了能夠原版原式的呈現(xiàn)文檔的內(nèi)容,目前在很多應(yīng)用中采用了版式文件技術(shù),下面筒稱版式技術(shù)。版式技術(shù)是可以將文字、圖形、圖像、音視頻、動畫等多種數(shù)字內(nèi)容對象按照一定的排版規(guī)則排版后進(jìn)行版面固化呈現(xiàn)的技術(shù)。在版式技術(shù)中最重要的一點就是要保證版面內(nèi)容的描述在具有設(shè)備無關(guān)性的同時,必須能精確定位每一個數(shù)字內(nèi)容對象,從而保證解析器可以精確還原數(shù)字內(nèi)容的定位信息。比如,在輸出一串文字的時候,僅定義首字符的起始坐標(biāo)是不夠精確的,因為這樣的話后續(xù)的每個字符位置將依賴于解析器和應(yīng)用系統(tǒng)的環(huán)境,如果當(dāng)前環(huán)境中沒有對應(yīng)的字體,解析器一般會進(jìn)行字體替換,而不同字體的字寬信息是可能不同的,這樣就會導(dǎo)致后續(xù)字符位置發(fā)生偏移。因此,現(xiàn)階段的排版輸出為了保證字符的精確定位,往往會采用單字符的輸出方式,也就是針對每個字符都保存一個字符節(jié)點,該字符節(jié)點存儲該字符、該字符的坐標(biāo)信息以及其它與輸出該字符相關(guān)的信息。在進(jìn)行字符串輸出時,需要按照字符串的字符排版順序,查找各字符對應(yīng)的字符節(jié)點,然后讀取該字符節(jié)點中存儲的字符和該字符的坐標(biāo)信息等,進(jìn)而按照讀取到的坐標(biāo)信息在對應(yīng)的位置輸出并顯示該字符。同樣的,在進(jìn)行字符檢索的時候,需要逐個讀取字符節(jié)點中的字符,將讀取到的字符與待;險索的字符進(jìn)行比對,若兩者一致,則4艮據(jù)該字符節(jié)點中的坐標(biāo)信息將該字符作為^r索結(jié)果輸出。9在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中存在以下技術(shù)問題現(xiàn)有技術(shù)中對于每個字符都要保存該字符的坐標(biāo)信息,需要占用系統(tǒng)較大的存儲資源,并且,在需要輸出字符串對字符串包含的字符進(jìn)行定位時,需要逐個讀取各字符對應(yīng)的字符節(jié)點中存儲的字符和該字符的坐標(biāo)信息,進(jìn)而才艮據(jù)坐標(biāo)信息輸出該字符,定位效率較低,進(jìn)而影響了字符串的輸出速度。
發(fā)明內(nèi)容本發(fā)明實施例提供一種電子文檔中文字信息處理、輸出和字符檢索的方法及裝置,用于節(jié)省字符串的定位信息所占用的存儲資源以及提高字符輸出和字符檢索效率。一種電子文檔的文字信息處理方法,該方法包括選取所述電子文檔中位于同一行或同一列的多個字符作為一個字符串,所述多個字符的字體和字號相同并且位置連續(xù);獲取所述字符串中第一個字符在所述電子文檔中的位置信息,并確定所述字符串的相鄰字符距離;將所述第一個字符在所述電子文檔中的位置信息和所述相鄰字符距離作為所述字符串的定位信息與所述字符串進(jìn)行關(guān)聯(lián)存儲。一種利用上述電子文檔的文字信息處理方法中存儲的信息進(jìn)行字符輸出的方法,該方法包4舌讀取存儲的字符串以及該字符串的定位信息;對于所述字符串中除第一個字符外其它各字符,根據(jù)所述定位信息確定該字符的輸出位置信息;根據(jù)確定的字符的輸出位置信息對該字符進(jìn)行輸出。一種利用上述電子文檔的文字信息處理方法中存儲的信息進(jìn)行字符檢索的方法,該方法包4舌讀取存儲的字符串以及該字符串的定位信息;將輸入的待檢索字符與讀取的字符串進(jìn)行匹配;根據(jù)所述字符串的定位信息,確定所述字符串中與所述待檢索字符匹配成功的字符的位置信息;根據(jù)所述字符的位置信息查找到該字符,并將該字符作為字符^r索結(jié)果返回。一種電子文檔的文字信息處理裝置,該裝置包括字符選取單元,用于選取所述電子文檔中位于同一行或同一列的多個字符作為一個字符串,所述多個字符的字體和字號相同并且位置連續(xù);位置獲取單元,用于獲取所述字符串中第一個字符在所述電子文檔中的位置信息;距離確定單元,用于確定所述字符串的相鄰字符距離;信息存儲單元,用于將所述第一個字符在所述電子文檔中的位置信息和所述相鄰字符距離作為所述字符串的定位信息與所述字符串進(jìn)行關(guān)聯(lián)存儲。一種利用電子文檔的文字信息處理裝置進(jìn)行字符輸出的裝置,該裝置包括信息讀取單元,用于讀取所述電子文檔的文字信息處理裝置存儲的字符串以及該字符串的定位信息;位置確定單元,用于對于所述字符串中除第一個字符外其它各字符,根據(jù)所述定位信息確定該字符的輸出位置信息;字符輸出單元,用于根據(jù)所述位置確定單元確定的字符的輸出位置信息對該字符進(jìn)行輸出。一種利用電子文檔的文字信息處理裝置進(jìn)行字符檢索的裝置,該裝置包括信息讀取單元,用于讀取存儲的字符串以及該字符串的定位信息;字符匹配單元,用于將輸入的待檢索字符與所述字符串進(jìn)行匹配;位置確定單元,用于才艮據(jù)所述字符串的定位信息,確定述字符串中與所述待檢索字符匹配成功的字符的位置信息;結(jié)果反饋單元,用于根據(jù)所述字符的位置信息查找到該字符,并將該字符作為字符檢索結(jié)果返回。本發(fā)明中,通過選取電子文檔中位于同一行或同一列、并且字體和字號相同、位置連續(xù)的多個字符作為一個字符串,確定該字符串的相鄰字符距離,將字符串中第一個字符在電子文檔中的位置信息和字符串的相鄰字符距離作為字符串的定位信息進(jìn)行關(guān)聯(lián)存儲,而不需要存儲每個字符的坐標(biāo)信息作為對應(yīng)字符的定位信息,能夠大大節(jié)省存儲字符的定位信息所需的存儲空間。本發(fā)明中,讀取存儲的字符串以及該字符串的定位信息,根據(jù)定位信息確定字符串中除第一個字符外其它各字符的輸出位置信息,并才艮據(jù)確定的字符的輸出位置信息對該字符進(jìn)行輸出,而不需要依次讀取字符串所包含的各字符的坐標(biāo)信息,來根據(jù)各字符的坐標(biāo)信息對相應(yīng)字符進(jìn)行輸出,可見本方案能夠有效提高字符位置解析的效率,進(jìn)而提高字符串輸出的速度。本發(fā)明中,讀取存儲的字符串以及該字符串的定位信息,將輸入的待檢索字符與讀取的字符串進(jìn)行匹配,根據(jù)讀取到的字符串的定位信息確定字符串中與待檢索字符匹配成功的字符的位置信息,然后根據(jù)確定的字符的位置信息查找到該字符,并將該字符作為字符檢索結(jié)果返回。而不需務(wù)農(nóng)次讀取存儲的字符串所包含的各字符,將各字符與待檢索字符進(jìn)行匹配,再依次讀取匹配成功的各字符的坐標(biāo)信息,來才艮據(jù)各字符的坐標(biāo)信息查找到該字符,可見本方案能夠有效提高字符檢索的效率。圖1為本發(fā)明實施例提供的方法流程示意圖;圖2為本發(fā)明實施例提供的另一方法流程示意圖;圖3為本發(fā)明實施例提供的又一方法流程示意圖;圖4A圖4J為本發(fā)明實施例中相關(guān)信息示意12圖5為本發(fā)明實施例提供的裝置結(jié)構(gòu)示意圖;圖6為本發(fā)明實施例提供的另一裝置結(jié)構(gòu)示意圖;圖7為本發(fā)明實施例提供的又一裝置結(jié)構(gòu)示意圖。具體實施例方式為了節(jié)省字符串的定位信息所占用的存儲資源,本發(fā)明實施例提供一種電子文檔的文字信息處理方法,本方法中,將字體和字號相同并且位置連續(xù)的字符作為一個字符串,并將字符串中第一個字符的位置信息和字符串的相鄰字符距離作為字符串的定位信息進(jìn)行存儲。參見圖1,本發(fā)明實施例提供的電子文檔的文字信息處理方法,具體包括以下步驟步驟10:選取電子文檔中位于同一行或同一列的多個字符作為一個字符串,選取的多個字符的字體和字號相同并且位置連續(xù);步驟ll:獲取所述字符串中第一個字符在電子文檔中的位置信息,并確定該字符串的相鄰字符距離;步驟12:將第一個字符在所述電子文檔中的位置信息和確定的相鄰字符距離作為所述字符串的定位信息與該字符串進(jìn)行關(guān)聯(lián)存儲。步驟10中,若電子文檔的排版方向為橫向排版方向,則選取電子文檔中位于同一行的多個字符作為一個字符串;若電子文檔的排版方向為縱向排版方向,則選取電子文檔中位于同一列的多個字符作為一個字符串。步驟11中,確定字符串的相鄰字符距離,其具體實現(xiàn)方式可以采用如下兩種第一種,可以適用于在字符串中的字符采用等寬字體的情況首先,對于字符串中除最后一個字符之外的其它每個字符,確定該字符的起始點到下一個字符的起始點的距離值;然后,從確定出的各距離值中選取一個出現(xiàn)次數(shù)最多的第一距離值,將該第一距離值確定為字符串的相鄰字符距離。采用本方式時,若距離值為浮點數(shù),則需要選取出現(xiàn)次數(shù)最多的、在允許誤差范圍(Delta)內(nèi)的距離值作為第一距離值,若出現(xiàn)次數(shù)最多的并在允許誤差范圍Delta內(nèi)的距離值為多個,則將這多個距離值的平均值作為第一距離值。換句話說,需要找到一個平均距離數(shù)據(jù)(Dm),在[Dm-Ddta,Dm+Delta]這個區(qū)間覆蓋了最多的距離數(shù)據(jù)。較佳的,為了提高定位信息的準(zhǔn)確性,對于確定出的各距離值中除第一距離值之外的其它距離值,計算該距離值與第一距離值的差值,并將該差值作為該距離值對應(yīng)的終止字符的字符間距修正信息與字符串的定位信息進(jìn)行關(guān)聯(lián)存儲。這里,距離值是某一字符的起始點到下一個字符的起始點的距離值,那么,該距離值對應(yīng)的終止字符則是指該下一個字符。當(dāng)然,還可以是從確定的各距離值中隨機選取一個距離值作為第一距離值;或者,直接計算確定的各距離值的平均值,將該平均值作為第一距離值;或者,從確定的各距離值中選取滿足一定條件的距離值作為第一距離值,例如,選取大于或小于某一設(shè)定距離門限值的距離值作為第一距離值等。任何根據(jù)確定的字符的起始點到下一個字符的起始點的距離值,來確定字符串的相鄰字符距離的方法均在本發(fā)明的保護(hù)范圍內(nèi)。第二種,可以適用于在字符串中的字符采用非等寬字體的情況首先,對于字符串中除最后一個字符之外的其它每個字符,確定該字符與下一個字符的字符間距值;從確定的各字符間距值中選取一個出現(xiàn)次數(shù)最多的第一字符間距值,將該第一字符間距值確定為字符串的相鄰字符距離。本方式中,確定某一字符與下一個字符的字符間距值,其具體方法可以為首先,確定該字符的起始點到下一個字符的起始點的距離值,然后,計算該距離值與該字符的字寬或字高的差值,將該差值即為該字符與下一個字符的字符間距值。同樣的,采用本方式時,若字符間距值為浮點數(shù),則需要選取出現(xiàn)次數(shù)最多的、在允許誤差范圍(Delta)內(nèi)的字符間距值作為第一字符間距值,若出現(xiàn)次數(shù)最多的并在允許誤差范圍Delta內(nèi)的字符間距值為多個,則將這多個字符間距值的平均值作為第一字符間距值。換句話說,需要找到一個平均字符間距數(shù)據(jù)(Dm),在[Dm-Delta,Dm+Delta]這個區(qū)間覆蓋了最多的字符間距數(shù)據(jù)。較佳的,為了提高定位信息的準(zhǔn)確性,對于確定出的各字符間距值中除第一字符間距值之外的其它字符間距值,計算該字符間距值與第一字符間距值的差值,并該差值作為該字符間距值對應(yīng)的終止字符的字符間距修正信息與字符串的定位信息進(jìn)行關(guān)聯(lián)存儲。這里,字符間距值是某一字符與下一個字符的字符間距值,那么,該字符間距值對應(yīng)的終止字符則是指該下一個字符。當(dāng)然,還可以是從確定的各字符間距值中隨機選取一個字符間距值作為字符串的字符間距;或者,直接計算確定的各字符間距值的平均值,將該平均值作為字符串的字符間距;或者,從確定的各字符間距值中選取滿足一定條件的距離值作為字符串的字符間距,例如,選取大于或小于某一設(shè)定間距門限值的字符間距值作為字符串的字符間距等。任何才艮據(jù)確定的字符與下一個字符的字符間距值,來確定字符串的字符間距的方法均在本發(fā)明的保護(hù)范圍內(nèi)。較佳的,為了進(jìn)一步提高定位信息的準(zhǔn)確性,在字符串中的多個字符位于同一行時,對多個字符中的各字符,判斷該字符的縱向位置相對于多個字符所在行的縱向位置是否存在偏移,若是,則將偏移的信息作為該字符的字符偏移信息與字符串的定位信息進(jìn)行關(guān)聯(lián)存儲。例如,多個字符所在行的縱向坐標(biāo)為y0,字符a的縱向坐標(biāo)為yl,那么,字符a相對于多個字符所在行的縱向位置的偏移為yl-y0。在字符串中的多個字符位于同一列時,對多個字符中的各字符,判斷該字符的橫向位置相對于多個字符所在列的橫向位置是否存在偏移,若是,則將偏移的信息作為該字符的字符偏移信息與字符串的定位信息進(jìn)行關(guān)聯(lián)存儲。例如,多個字符所在列的橫向坐標(biāo)為x0,字符a的縱向坐標(biāo)為xl,那么,字符a相對于多個字符所在列的橫向位置的偏移為xl-x0。參見圖2,本發(fā)明實施例還提供一種利用上述電子文檔的文字信息處理方法中存儲的信息進(jìn)行字符輸出的方法,具體包括以下步驟步驟20:讀取存儲的字符串以及該字符串的定位信息;步驟21:對于所述字符串中除第一個字符外其它各字符,根據(jù)讀取到的定位信息確定該字符的輸出位置信息;步驟22:根據(jù)確定的字符的輸出位置信息對該字符進(jìn)行輸出。步驟21中,4艮據(jù)定位信息確定字符的輸出位置信息,其具體實現(xiàn)可以采用以下兩種第一種,根據(jù)讀取到的定位信息中第一個字符在電子文檔中的位置信息和第一距離值,確定該字符的輸出位置信息。具體的,在字符串中的多個字符位于同一行時,第一個字符在電子文檔中的位置坐標(biāo)為(xl,yl),第一距離值為x0,在字符a之前有n個字符,則字符a的位置坐標(biāo)為(xl+n*xO,yl)。在字符串中的多個字符位于同一列時,第一個字符在電子文檔中的位置坐標(biāo)為(xl,yl),第一距離值為x0,在字符a之前有n個字符,則字符a的位置坐標(biāo)為(xl,yl+n*xO)。第二種,根據(jù)讀取到的定位信息中第一個字符在電子文檔中的位置信息、第一字符間距值和該字符之前各字符的字寬或字高,確定該字符的輸出位置信息。具體的,在字符串中的多個字符位于同一行時,第一個字符在電子文檔中的位置坐標(biāo)為(xl,yl),第一字符間距值為xO,在字符a之前有n個字符,則字符a的位置坐標(biāo)為(xl+n*xO+tWi,yl),其中Wj為第i個字符的字寬。在字符串中的多個字符位于同一列時,第一個字符在電子文檔中的位置坐標(biāo)為(xl,yl),第一字符間距值為xO,在字符a之前有n個字符,則字符a的位置坐標(biāo)為(xl,yl+n*xO+J;Wi),其中Wi為第i個字符的字高。較佳的,為了提高字符輸出位置的準(zhǔn)確性,在確定字符的輸出位置信息之后,若存儲有該字符的字符間距修正信息,則利用該字符間距修正信息對該字符的輸出位置信息進(jìn)行修正,將修正后的信息確定為該字符的輸出位置信息。例如,在字符串中的多個字符位于同一行時,確定的字符串中某一字符的位置坐標(biāo)為(Xm,ym),存儲的該字符的字符間距修正值為C,則修正后該字符的位置坐標(biāo)為(xm+C,ym)。在字符串中的多個字符位于同一列時,確定的字符串中某一字符的位置坐標(biāo)為(xm,ym),存儲的該字符的字符間距修正值為C,則修正后該字符的位置坐標(biāo)為(xm,ym+C)。較佳的,為了進(jìn)一步提高字符輸出位置的準(zhǔn)確性,在確定字符的輸出位置信息之后,若存儲有該字符的字符偏移信息,則利用該字符偏移信息對該字符的輸出位置信息進(jìn)行修正,將修正后的信息確定為該字符的輸出位置信息。例如,在字符串中的多個字符位于同一行時,確定的字符串中某一字符的位置坐標(biāo)為(xm,ym),存儲的該字符的字符偏移值為D,則修正后該字符的位置坐標(biāo)為(xm,ym+D)。在字符串中的多個字符位于同一列時,確定的字符串中某一字符的位置坐標(biāo)為(xm,ym),存儲的該字符的字符偏移值為D,則修正后該字符的位置坐標(biāo)為(xm+D,ym)。參見圖3,本發(fā)明實施例還提供一種利用上述電子文檔的文字信息處理方法中存儲的信息進(jìn)行字符檢索的方法,具體包括以下步驟步驟30:讀M儲的字符串以及該字符串的定位信息;步驟31:將輸入的待檢索字符與讀取的字符串進(jìn)行匹配;步驟32:根據(jù)所述字符串的定位信息,確定所述字符串中與所述待檢索字符匹配成功的字符的位置信息;步驟33:根據(jù)所述字符的位置信息查找到該字符,并將該字符作為字符4企索結(jié)果返回。步驟32的具體實現(xiàn)方法也可以采用以下兩種方式第一種,根據(jù)定位信息中第一個字符在電子文檔中的位置信息和第一距離值,確定字符串中與待檢索字符匹配成功的字符的位置信息;具體的,在字符串中的多個字符位于同一行時,第一個字符在電子文檔中的位置坐標(biāo)為(xl,yl),第一距離值為xO,在與待檢索字符匹配成功的字符a之前有n個字符,則字符a的位置坐標(biāo)為(xl+n*xO,yl)。在字符串中的多個字符位于同一列時,第一個字符在電子文檔中的位置坐標(biāo)為(xl,yl),第一距離值為xO,在與待檢索字符匹配成功的字符a之前有n個字符,則字符a的位置坐標(biāo)為(xl,yl+n*xO)。第二種,才艮據(jù)定位信息中第一個字符在電子文檔中的位置信息、第一字符間距值、以及與待檢索字符匹配成功的字符之前各字符的字寬或字高,確定字符串中與待檢索字符匹配成功的字符的位置信息。具體的,在字符串中的多個字符位于同一4亍時,第一個字符在電子文檔中的位置坐標(biāo)為(xl,yl),第一字符間距值為xO,在與待檢索字符匹配成功的字符a之前有n個字符,則字符a的位置坐標(biāo)為(xl+n*乂0+|>;,yl),其中Wi為第i個字符的字寬。在字符串中的多個字符位于同一列時,第一個字符在電子文檔中的位置坐標(biāo)為(xl,yl),第一字符間距值為xO,在與待;險索字符匹配成功的字符a之前有n個字符,則字符a的位置坐標(biāo)為(xl,yl+n*xO+tv^),其中w;為第i個字符的字高。較佳的,為了提高檢索結(jié)果的準(zhǔn)確性,在確定與待檢索字符匹配成功的字符的位置信息之后,若存儲有該字符的字符間距修正信息,則利用該字符間距修正信息對該字符的位置信息進(jìn)行修正,將修正后的信息確定為該字符的位置檸自例如,在字符串中的多個字符位于同一行時,確的字符串中與待檢索字符匹配成功的某一字符的位置坐標(biāo)為(xm,ym),存儲的該字符的字符間距修正值為C,則修正后該字符的位置坐標(biāo)為(xm+C,ym)。在字符串中的多個字符位于同一列時,確定的字符串中與待檢索字符匹配成功的某一字符的位置坐標(biāo)為(xm,ym),存儲的該字符的字符間距修正值為C,則修正后該字符的位置坐標(biāo)為(xm,ym+C)。較佳的,為了進(jìn)一步提高檢索結(jié)果的準(zhǔn)確性,在確定與待檢索字符匹配成功的字符的位置信息之后,若存儲有該字符的字符偏移信息,則利用該字符偏移信息對該字符的位置信息進(jìn)行修正,將修正后的信息確定為該字符的位置信息。例如,在字符串中的多個字符位于同一行時,確定的字符串中與待檢索字符匹配成功的某一字符的位置坐標(biāo)為(Xm,ym),存儲的該字符的字符偏移值為D,則修正后該字符的位置坐標(biāo)為(xm,ym+D)。在字符串中的多個字符位于同一列時,確定的字符串中與待^f企索字符匹配成功的某一字符的位置坐標(biāo)為(xm,ym),存儲的該字符的字符偏移值為D,則修正后該字符的位置坐標(biāo)為(xm+D,ym)。下面以具體實施例對本發(fā)明方法進(jìn)行說明本發(fā)明可應(yīng)用于各類版式文檔及其應(yīng)用系統(tǒng),下面以CEBX格式文檔中文字對象為例來進(jìn)一步說明本發(fā)明的實施方式(CEBX為方正技術(shù)研究院將于2009年發(fā)布的新一代版式文檔格式)。CEBX中頁面數(shù)據(jù)均采用XML語言進(jìn)行描述,其基J出數(shù)據(jù)類型說明見下表類型說明示例Bool布爾值,可取true或false。Integer整數(shù),在描述時可能會加上數(shù)值范圍限定。"10000"Float浮點數(shù),在描述時可能會加上數(shù)值范圍限定,最多具有八位有效小數(shù)位數(shù)。"ioo.r,HexData16進(jìn)制數(shù)據(jù),在描述時可能會加上數(shù)值范圍限定。"#FFFFFFFF,,String字符串,在描述時可能會加"abc"19<table>tableseeoriginaldocumentpage20</column></row><table>CEBX中字體對象中存儲了字寬表信息,見圖4A中的WidthTable部分,在文字對象中存儲了字送(即所述第一距離值)、字符間距信息(即所述第一字符間距值)以及編碼-字形變換,其中編碼-字形變換主要保存所述字符的字符間距修正信息和字符偏移信息,見圖4B中的CharDistance(字送)、CharSpace(字符間距信息)以及CGTransform節(jié)點(編碼-字形變換)。CGTransform節(jié)點詳細(xì)描述了字符編碼和字形索引之間的變換關(guān)系,該節(jié)點結(jié)構(gòu)如圖4C所示,具體說明見下表<table>tableseeoriginaldocumentpage21</column></row><table>例如,附圖4D所示的文字對象(即字符串)在CEBX中的描述如下:<TextID="2"Font='T'Size="48"><CGTransformCodePosition=,T,><AdvancedPosition></AdvancedPosition></CGTransform><TextCodex="100"y^'100"〉映射表〈/TextCode〉</Text>參見圖4E-4J,為上述初始字送、字符間距和字寬的含義示意圖。附圖4A中各節(jié)點的屬性信息可以參見下表:<table>tableseeoriginaldocumentpage22</column></row><table>TextCodeString文字內(nèi)容,也就是一段字符編碼串。字符編碼有兩種表現(xiàn)形式,一是使用Unicode編碼,一是直接使用字體中的字形索引,以十六進(jìn)制表示,空格位分隔符。4吏用哪種形式由Font中的UnicodeText屬性來確定。XFloat(可選)文字的x坐標(biāo),是TextCode內(nèi)包含文字的第一個字符在當(dāng)前坐標(biāo)系統(tǒng)下的坐標(biāo)。當(dāng)x不出現(xiàn)、y出現(xiàn)時,則采用上一個TextCode的x值。YFloat(可選)文字的y坐標(biāo),是TextCode內(nèi)包含文字的第一個字符在當(dāng)前坐標(biāo)系統(tǒng)下的坐標(biāo)。當(dāng)y不出現(xiàn)、x出現(xiàn)時,則采用上一個TextCode的y值。CharDistanceFloat(可選)從當(dāng)前字符的起始位置到下一個字符的起始位置的距離,采用當(dāng)前坐標(biāo)空間單位。此屬性主要用于等寬字體,如果沒有指定,則采用字體中的字寬數(shù)據(jù)和CharSpace來決定下個字符的起始位置。CharSpaceFloat(可選)字間距,默認(rèn)值為0,主要用于非等寬字體。當(dāng)CharDistance屬性出現(xiàn)時無效,此時下一個字符的起始位置完全由CharDistance決定。UnderlineBool(可選)標(biāo)識該段文字是否使用了下劃線,true代表繪制下劃線,false代表不繪制下劃線。不出現(xiàn)時認(rèn)為未使用下劃線。該屬性只是用于標(biāo)識,主要用于信息抽取,而不用于版式或其他形式的版面還原行為。DeleteLineBool(可選)標(biāo)識該段文字是否使用了刪除線,true代表繪制刪除線,false代表不繪制刪除線。不出現(xiàn)時認(rèn)為未使用刪除線。該屬性只是用于標(biāo)識,主要用于信息抽取,而不用于版式或其他形式的版面還原行為。下面以如何將PDF中采用單字符輸出的文字轉(zhuǎn)換為CEBX中的文字對象為例說明本發(fā)明所述的文字信息處理方法,這里假定PDF中均為橫排中文文字,采用等寬字體。第一步,解析PDF文件,獲取文字信息。第二步,找出字體字號相同且Y坐標(biāo)相同的一段文字序列,計算其每個字符起始點到下一個字符起始點的距離,然后在這些距離數(shù)據(jù)中挑出一個出現(xiàn)次數(shù)最多的距離作為初始字送。對于距離數(shù)據(jù)中和初始字送不同的數(shù)據(jù),計算其和初始字送之間的差值,作為字符間距修正。如果在文字行的垂直方向上字符有偏移,則把偏移距離作為字符偏移。第三步,將上述得到的初始字送寫入文字內(nèi)容(TextCode)中的CharDistance屬性,將上述得到的字符間距修正和字符偏移寫入CGTransform節(jié)點,然后將同一行中字體字號相同的這一段文字序列存儲于TextCode節(jié)點。第一步,根據(jù)TextCode中首字符的x、y坐標(biāo)以及CharDistance和CharSpace等信息計算出每個字符的起始點位置。如果CharDistance存在,則忽略CharSpace以及字體的WidthTable信息,否則4艮據(jù)CharSpace和字體的WidthTable信息來計算下一個字符的起始點位置。第二步,根據(jù)編碼-字形變換中的字符間距修正(PlacementAdjusting)對TextCode中每個字符的起始點位置進(jìn)行修正,需要注意的是根據(jù)TextCode中的字符順序進(jìn)行修正,每次修正均基于前面已經(jīng)處理之后的結(jié)果來進(jìn)行計算。第三步,根據(jù)編碼-字形變換中的XOffset和YOffset對每個字符的位置進(jìn)行修正,從而得到最終的輸出位置。當(dāng)文字進(jìn)行繪制時一般分為兩種情況一種是文字方向(CharDirection)與閱讀方向(ReadDirection)平行,即文字方向與閱讀方向的夾角為0或180度的時候,文字繪制位置以文字基線為基準(zhǔn),下一個字符位置以閱讀方向進(jìn)行偏移,偏移大小為字寬(橫排)與字符間距的和,即CharDistance。也即,字符的輸出位置為該字符的前一字符的輸出位置以文字基線為基準(zhǔn)、向閱讀方向偏移大小為前一字符的字寬與字符間距的和的距離后的位置。附圖4E4H展示了文字"流程圖"和"Get"在文字方向和閱讀方向平^f亍時的示意圖。一種是文字方向(CharDirection)與閱讀方向(ReadDirection)垂直,即文字方向與閱讀方向的夾角為卯或270度的時候,文字繪制位置以文字中心線為基準(zhǔn),下一個字符位置以閱讀方向進(jìn)行偏移,偏移大小為字寬(豎排)與字符間距的和,即VMetrics與CharSpace的和。也即,字符的輸出位置為該字符的前一字符的輸出位置以文字中心線為基準(zhǔn)、向閱讀方向偏移大小為前一字符的字寬與字符間距的和的距離后的位置。附圖4I4J展示了文字"流程圖"和"Get"在文字方向和閱讀方向垂直時的示意圖。CharDirection與ReadDirection身見定了文字顯示時的排列方向,CharDirection指定了單個文字繪制方向,也就是文字的基線方向,用從x軸正方向順時針到字形基線的角度表示,ReadDirection指定了閱讀方向,用從x軸正方向順時針到文字排列方向的角度表示。參見圖5,本發(fā)明實施例還提供一種電子文檔的文字信息處理裝置,該裝置包括字符選取單元50、位置獲取單元51、距離確定單元52和信息存儲單元53,其中字符選取單元50,用于選取所述電子文檔中位于同一行或同一列的多個字符作為一個字符串,所述多個字符的字體和字號相同并且位置連續(xù);位置獲取單元51,用于獲取所述字符串中第一個字符在所述電子文檔中的位置信息;距離確定單元52,用于確定所述字符串的相鄰字符距離;信息存儲單元53,用于將所述第一個字符在所述電子文檔中的位置信息和所述相鄰字符距離作為所述字符串的定位信息與所述字符串進(jìn)行關(guān)聯(lián)存儲。所述字符選取單元50用于在所述電子文檔的排版方向為橫向排版方向時,選取所述電子文檔中位于同一行的多個字符作為一個字符串;在所述電子文檔的排版方向為縱向排版方向時,選取所述電子文檔中位于同一列的多個字符作為一個字符串。所述距離確定單元52包括起始點距離確定單元和第一結(jié)果確定單元,其中起始點距離確定單元,用于在所述字符串中的字符采用等寬字體時,對于所述字符串中除最后一個字符之外的其它每個字符,確定該字符的起始點到下一個字符的起始點的距離值;第一結(jié)果確定單元,用于從所述起始點距離確定單元確定出的各距離值中選取一個出現(xiàn)次數(shù)最多的第一距離值,將該第一距離值確定為所述字符串的相鄰字符距離。所述距離確定單元52包括字符間距確定單元和第二結(jié)果確定單元,其中字符間距確定單元,用于在所述字符串中的字符采用非等寬字體時,對于所述字符串中除最后一個字符之外的其它每個字符,確定該字符與下一個字符的字符間距值;第二結(jié)果確定單元,用于從所述字符間距確定單元確定的各字符間距值中選取一個出現(xiàn)次數(shù)最多的第一字符間距值,將該第一字符間距值確定為所述字符串的相鄰字符距離。該裝置進(jìn)一步包括第一字符間距修正確定單元54,用于對于所述起始點距離確定單元確定出的各距離值中除所述第一距離值之外的其它距離值,計算該距離值與所述第一距離值的差值;相應(yīng)的,所述信息存儲單元53還用于將所述第一字符間距修正確定單元計算得到的差值作為該距離值對應(yīng)的終止字符的字符間距修正信息與所述定位信息進(jìn)行關(guān)聯(lián)存儲。該裝置進(jìn)一步包括第二字符間距修正確定單元55,用于對于所述字符間距確定單元確定出的各字符間距值中除所述第一字符間距值之外的其它字符間距值,計算該字符間距值與所述第一字符間距值的差值;相應(yīng)的,所述信息存儲單元53還用于將所述第二字符間距修正確定單元計算得到的差值作為該字符間距值對應(yīng)的終止字符的字符間距修正信息與所述定位信息進(jìn)行關(guān)聯(lián)存儲。該裝置進(jìn)一步包括字符偏移判斷單元56,用于在所述多個字符位于同一行時,判斷所述多個字符中每個字符的縱向位置相對于所述多個字符所在行的縱向位置是否存在偏移;在所述多個字符位于同一列時,判斷所述多個字符中每個字符的橫向位置相對于所述多個字符所在列的橫向位置是否存在偏移;相應(yīng)的,所述信息存儲單元53還用于在所述字符偏移判斷單元判斷為是時,將所述偏移的信息作為對應(yīng)字符的字符偏移信息與所述定位信息進(jìn)行關(guān)聯(lián)存儲。參見圖6,本發(fā)明實施例還提供一種利用上述電子文檔的文字信息處理裝置進(jìn)行字符輸出的裝置,該裝置包括信息讀取單元60位置確定單元61和字符輸出單元62,其中信息讀取單元60,用于讀取所述電子文檔的文字信息處理裝置存儲的字符串以及該字符串的定位信息;位置確定單元61,用于對于所述字符串中除第一個字符外其它各字符,才艮據(jù)所述定位信息確定該字符的輸出位置信息;字符輸出單元62,用于根據(jù)所述位置確定單元確定的字符的輸出位置信息對該字符進(jìn)行輸出。所述位置確定單元61包括第一位置確定單元和/或第二位置確定單元,其中所述第一位置確定單元,用于根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息和所述第一距離值,確定該字符的輸出位置信息;所述第二位置確定單元,用于根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息、所述第一字符間距值和該字符之前各字符的字寬或字高,確定該字符的輸出位置信息。該裝置進(jìn)一步包括第一位置修正單元63,用于在所述電子文檔的文字信息處理裝置存儲有字符的字符間距修正信息時,利用所述字符間距修正信息對該字符的輸出位置信息進(jìn)行修正,將修正后的信息確定為該字符的輸出位置信息。該裝置進(jìn)一步包括第二位置修正單元64,用于在所述電子文檔的文字信息處理裝置存儲有存儲有字符的字符偏移信息時,利用所述字符偏移信息對該字符的輸出位置信息進(jìn)行修正,將修正后的信息確定為該字符的輸出位置信息。參見圖7,本發(fā)明實施例還提供一種利用上述電子文檔的文字信息處理裝置進(jìn)行字符檢索的裝置,該裝置包括信息讀取單元70、字符匹配單元71、位置確定單元72和結(jié)果反饋單元73,其中信息讀取單元70,用于讀M儲的字符串以及該字符串的定位信息;字符匹配單元71,用于將輸入的待檢索字符與所述字符串進(jìn)行匹配;位置確定單元72,用于根據(jù)所述字符串的定位信息,確定所述字符串中與所述待檢索字符匹配成功的字符的位置信息;結(jié)果反饋單元73,用于才艮據(jù)所述字符的位置信息查找到該字符,并將該字符作為字符4全索結(jié)果返回。所述位置確定單元72包括第一位置確定單元和/或第二位置確定單元,其中所述第一位置確定單元,用于根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息和所述第一距離值,確定與所述待檢索字符匹配成功的字符的位置信息;所述第二位置確定單元,用于4艮據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息、所述第一字符間距值、以及與所述待檢索字符匹配成功的字符之前各字符的字寬或字高,確定與所述待檢索字符匹配成功的字符的位置信息。該裝置進(jìn)一步包括第一位置修正單元74,用于在所述電子文檔的文字信息處理裝置存儲有字符的字符間距修正信息時,利用該字符間距修正信息對該字符的位置信息進(jìn)行信息。第二位置修正單元75,用于在所述電子文檔的文字信息處理裝置存儲有該字符的字符偏移信息時,利用該字符偏移信息對該字符的位置信息進(jìn)行<務(wù)正,將修正后的信息確定為該字符的位置信息。綜上,本發(fā)明的有益效果包括本發(fā)明實施例提供的文字信息處理方案中,通過選取電子文檔中位于同一行或同一列、并且字體和字號相同、位置連續(xù)的多個字符作為一個字符串,確定該字符串的相鄰字符距離,將字符串中第一個字符在電子文檔中的位置信息和字符串的相鄰字符距離作為字符串的定位信息進(jìn)行關(guān)聯(lián)存儲,而不需要存儲每個字符的坐標(biāo)信息作為對應(yīng)字符的定位信息,能夠大大節(jié)省存儲字符的定位信息所需的存儲空間。本發(fā)明實施例提供的字符輸出方案中,讀取存儲的字符串以及該字符串的定位信息,根據(jù)定位信息確定字符串中除第一個字符外其它各字符的輸出位置信息,并根據(jù)確定的字符的輸出位置信息對該字符進(jìn)行輸出,而不需要依次讀取字符串所包含的各字符的坐標(biāo)信息,來根據(jù)各字符的坐標(biāo)信息對相應(yīng)字符進(jìn)行輸出,可見本方案能夠有效提高字符位置解析的效率,進(jìn)而提高字符串輸出的速度。本發(fā)明實施例提供的字符4企索方案中,讀取存儲的字符串以及該字符串的定位信息,將輸入的待檢索字符與讀取的字符串進(jìn)行匹配,根據(jù)讀取到的字符串的定位信息確定字符串中與待檢索字符匹配成功的字符的位置信息,然后根據(jù)確定的字符的位置信息查找到該字符,并將該字符作為字符檢索結(jié)果返回。而不需務(wù)農(nóng)次讀取存儲的字符串所包含的各字符,將各字符與待檢索字符進(jìn)行匹配,再依次讀取匹配成功的各字符的坐標(biāo)信息,來根據(jù)各字符的坐標(biāo)信息查找到該字符,可見本方案能夠有效提高字符檢索的效率。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。權(quán)利要求1、一種電子文檔的文字信息處理方法,其特征在于,該方法包括選取所述電子文檔中位于同一行或同一列的多個字符作為一個字符串,所述多個字符的字體和字號相同并且位置連續(xù);獲取所述字符串中第一個字符在所述電子文檔中的位置信息,并確定所述字符串的相鄰字符距離;將所述第一個字符在所述電子文檔中的位置信息和所述相鄰字符距離作為所述字符串的定位信息與所述字符串進(jìn)行關(guān)聯(lián)存儲。2、如權(quán)利要求1所述的方法,其特征在于,若所述電子文檔的排版方向為橫向排版方向,則選取所述電子文檔中位于同一行的多個字符作為一個字符串;若所述電子文檔的排版方向為縱向排版方向,則選取所述電子文檔中位于同一列的多個字符作為一個字符串。3、如權(quán)利要求1所述的方法,其特征在于,在所述字符串中的字符釆用等寬字體時,所述確定所述字符串的相鄰字符距離包括對于所述字符串中除最后一個字符之外的其它每個字符,確定該字符的起始點到下一個字符的起始點的距離值;從確定出的各距離值中選取一個出現(xiàn)次數(shù)最多的第一距離值,將該第一距離值確定為所述字符串的相鄰字符距離。4、如權(quán)利要求1所述的方法,其特征在于,在所述字符串中的字符采用非等寬字體時,所述確定所述字符串的相鄰字符距離包括對于所述字符串中除最后一個字符之外的其它每個字符,確定該字符與下一個字符的字符間距值;從確定的各字符間距值中選取一個出現(xiàn)次數(shù)最多的第一字符間距值,將該第一字符間距值確定為所述字符串的相鄰字符距離。5、如權(quán)利要求3所述的方法,其特征在于,該方法進(jìn)一步包括對于確定出的各距離值中除所述第一距離值之外的其它距離值,計算該距離值與所述第一距離值的差值,并將該差值作為該距離值對應(yīng)的終止字符的字符間距修正信息與所述定位信息進(jìn)行關(guān)聯(lián)存儲。6、如權(quán)利要求4所述的方法,其特征在于,該方法進(jìn)一步包括對于確定出的各字符間距值中除所述第一字符間距值之外的其它字符間距值,計算該字符間距值與所述第一字符間距值的差值,并該差值作為該字符間距值對應(yīng)的終止字符的字符間距修正信息與所述定位信息進(jìn)行關(guān)聯(lián)存儲。7、如權(quán)利要求l所述的方法,其特征在于,該方法進(jìn)一步包括若所述多個字符位于同一行,則判斷所述多個字符中每個字符的縱向位置相對于所述多個字符所在行的縱向位置是否存在偏移,若是,則將該偏移信息作為對應(yīng)字符的字符偏移信息與所述定位信息進(jìn)行關(guān)聯(lián)存儲;若所述多個字符位于同一列,則判斷所述多個字符中每個字符的橫向位置相對于所述多個字符所在列的橫向位置是否存在偏移,若是,則將偏移信息作為對應(yīng)字符的字符偏移信息與所述定位信息進(jìn)行關(guān)聯(lián)存儲。8、一種利用權(quán)利要求1-7中任一存儲的信息進(jìn)行字符輸出的方法,其特征在于,該方法包括讀取存儲的字符串以及該字符串的定位信息;對于所述字符串中除第一個字符外其它各字符,根據(jù)所述定位信息確定該字符的輸出位置信息;根據(jù)確定的字符的輸出位置信息對該字符進(jìn)行輸出。9、如權(quán)利要求8所述的方法,其特征在于,所述根據(jù)所述定位信息確定該字符的輸出位置信息包括根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息和所述第一距離值,確定該字符的輸出位置信息;或者,根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息、所述第一字符間距值和該字符之前各字符的字寬或字高,確定該字符的輸出位置信自10、如權(quán)利要求9所述的方法,其特征在于,所述根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息、所述第一字符間距值和該字符之前各字符的字寬,確定該字符的輸出位置信息包括在字符輸出采用文字方向與閱讀方向平行方式時,將該字符的前一字符的輸出位置以文字基線為基準(zhǔn)、向閱讀方向偏移大小為前一字符的字寬與字符間距的和的距離,將偏移后的位置確定為該字符的輸出位置信息;或者,在字符輸出采用文字方向與閱讀方向垂直方式時,將該字符的前一字符的輸出位置以文字中心線為基準(zhǔn)、向閱讀方向偏移大小為前一字符的字寬與字符間距的和的距離,將偏移后的位置確定為該字符的輸出位置信息。11、如權(quán)利要求9所述的方法,其特征在于,該方法進(jìn)一步包括在存儲有該字符的字符間距修正信息時,利用所述字符間距修正信息對該字符的輸出位置信息進(jìn)行修正,將修正后的信息確定為該字符的輸出位置信臺12、如權(quán)利要求9或11所述的方法,其特征在于,該方法進(jìn)一步包括在存儲有該字符的字符偏移信息時,利用所述字符偏移信息對該字符的輸出位置信息進(jìn)行修正,將修正后的信息確定為該字符的輸出位置信息。13、一種利用權(quán)利要求1-7中中任一存儲的信息進(jìn)行字符檢索的方法,其特征在于,該方法包括讀取存儲的字符串以及該字符串的定位信息;將輸入的待檢索字符與讀取的字符串進(jìn)行匹配;根據(jù)所述字符串的定位信息,確定所述字符串中與所述待才企索字符匹配成功的字符的位置信息;根據(jù)所述字符的位置信息查找到該字符,并將該字符作為字符檢索結(jié)果返回。14、如權(quán)利要求13所述的方法,其特征在于,所述根據(jù)所述字符串的定位信息,確定所述字符串中與所述待;險索字符匹配成功的字符的位置信息包括根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息和所述第一距離值,確定與所述待檢索字符匹配成功的字符的位置信息;或者,根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息、所述第一字符間距值、以及與所述待檢索字符匹配成功的字符之前各字符的字寬或字高,確定與所述待檢索字符匹配成功的字符的位置信息。15、一種電子文檔的文字信息處理裝置,其特征在于,該裝置包括字符選取單元,用于選取所述電子文檔中位于同一行或同一列的多個字符作為一個字符串,所述多個字符的字體和字號相同并iM立置連續(xù);位置獲取單元,用于獲取所述字符串中第一個字符在所述電子文檔中的位置信息;距離確定單元,用于確定所述字符串的相鄰字符距離;信息存儲單元,用于將所述第一個字符在所述電子文檔中的位置信息和所述相鄰字符距離作為所述字符串的定位信息與所述字符串進(jìn)行關(guān)聯(lián)存儲。16、如權(quán)利要求15所述的裝置,其特征在于,所述字符選取單元用于在所述電子文檔的排版方向為橫向排版方向時,選取所述電子文檔中位于同一行的多個字符作為一個字符串;在所述電子文檔的排版方向為縱向排版方向時,選取所述電子文檔中位于同一列的多個字符作為一個字符串。17、如權(quán)利要求15所述的裝置,其特征在于,所述距離確定單元包括起始點距離確定單元,用于在所述字符串中的字符采用等寬字體時,對于所述字符串中除最后一個字符之外的其它每個字符,確定該字符的起始點到下一個字符的起始點的距離值;第一結(jié)果確定單元,用于從所述起始點距離確定單元確定出的各距離值中選取一個出現(xiàn)次數(shù)最多的第一距離值,將該第一距離值確定為所述字符串的相鄰字符距離。18、如權(quán)利要求15所述的裝置,其特征在于,所述距離確定單元包括字符間距確定單元,用于在所述字符串中的字符采用非等寬字體時,對于所述字符串中除最后一個字符之外的其它每個字符,確定該字符與下一個字符的字符間距值;第二結(jié)果確定單元,用于從所述字符間距確定單元確定的各字符間距值中選取一個出現(xiàn)次數(shù)最多的第一字符間距值,將該第一字符間距值確定為所述字符串的相鄰字符距離。19、如權(quán)利要求15所述的裝置,其特征在于,該裝置進(jìn)一步包括第一字符間距修正確定單元,用于對于所述起始點距離確定單元確定出的各距離值中除所述第一距離值之外的其它距離值,計算該距離值與所述第一距離值的差值;所述信息存儲單元還用于將所述第一字符間距修正確定單元計算得到的差值作為該距離值對應(yīng)的終止字符的字符間距修正信息與所述定位信息進(jìn)行關(guān)聯(lián)存儲。20、如權(quán)利要求18所述的裝置,其特征在于,該裝置進(jìn)一步包括第二字符間距修正確定單元,用于對于所述字符間距確定單元確定出的各字符間距值中除所述第一字符間距值之外的其它字符間距值,計算該字符間距值與所述第一字符間距值的差值;所述信息存儲單元還用于將所述第二字符間距修正確定單元計算得到的差值作為該字符間距值對應(yīng)的終止字符的字符間距修正信息與所述定位信息進(jìn)行關(guān)聯(lián)存儲。21、如權(quán)利要求15所述的裝置,其特征在于,該裝置進(jìn)一步包括字符偏移判斷單元,用于在所述多個字符位于同一行時,判斷所述多個字符中每個字符的縱向位置相對于所述多個字符所在行的縱向位置是否存在偏移;在所述多個字符位于同一列時,判斷所述多個字符中每個字符的橫向位置相對于所述多個字符所在列的橫向位置是否存在偏移;所述信息存儲單元還用于在所述字符偏移判斷單元判斷為是時,將所述偏移的信息作為對應(yīng)字符的字符偏移信息與所述定位信息進(jìn)行關(guān)聯(lián)存儲。22、一種利用^又利要求15-21中任一所述的電子文檔的文字信息處理裝置進(jìn)行字符輸出的裝置,其特征在于,該裝置包括信息讀取單元,用于讀取所述電子文檔的文字信息處理裝置存儲的字符串以及該字符串的定位信息;位置確定單元,用于對于所述字符串中除第一個字符外其它各字符,根據(jù)所述定位信息確定該字符的輸出位置信息;字符輸出單元,用于沖艮據(jù)所述位置確定單元確定的字符的輸出位置信息對該字符進(jìn)行輸出。23、如權(quán)利要求22所述的裝置,其特征在于,所述位置確定單元包括第一位置確定單元和/或第二位置確定單元,其中所述第一位置確定單元,用于根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息和所述第一距離值,確定該字符的輸出位置信息;所述第二位置確定單元,用于根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息、所述第一字符間距值和該字符之前各字符的字寬或字高,確定該字符的輸出位置信息。24、如權(quán)利要求22所述的裝置,其特征在于,該裝置進(jìn)一步包括第一位置修正單元,用于在所述電子文檔的文字信息處理裝置存儲有字符的字符間距修正信息時,利用所述字符間距修正信息對該字符的輸出位置信息進(jìn)行修正,將修正后的信息確定為該字符的輸出位置信息。25、如權(quán)利要23或24所述的裝置,其特征在于,該裝置進(jìn)一步包括第二位置修正單元,用于在所述電子文檔的文字信息處理裝置存儲有存儲有字符的字符偏移信息時,利用所述字符偏移信息對該字符的輸出位置信息進(jìn)行修正,將修正后的信息確定為該字符的輸出位置信息。26、一種利用權(quán)利要求15-21中任一所述的電子文檔的文字信息處理裝置進(jìn)行字符檢索的裝置,其特征在于,該裝置包括信息讀取單元,用于讀取存儲的字符串以及該字符串的定位信息;字符匹配單元,用于將輸入的待檢索字符與所述字符串進(jìn)行匹配;位置確定單元,用于才艮據(jù)所述字符串的定位信息,確定所述字符串中與所述待檢索字符匹配成功的字符的位置信息;結(jié)果反饋單元,用于根據(jù)所述字符的位置信息查找到該字符,并將該字符作為字符^r索結(jié)果返回。27、如權(quán)利要求26所述的裝置,其特征在于,所述位置確定單元包括第一位置確定單元和/或第二位置確定單元,其中所述第一位置確定單元,用于根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息和所述第一距離值,確定與所述待檢索字符匹配成功的字符的位置信息;所述第二位置確定單元,用于根據(jù)所述定位信息中所述第一個字符在所述電子文檔中的位置信息、所述第一字符間距值、以及與所述待檢索字符匹配成功的字符之前各字符的字寬或字高,確定與所述待檢索字符匹配成功的字符的位置信息。全文摘要本發(fā)明實施例公開了一種電子文檔的文字信息處理方法,該方法為選取所述電子文檔中位于同一行或同一列的多個字符作為一個字符串,所述多個字符的字體和字號相同并且位置連續(xù);獲取所述字符串中第一個字符在所述電子文檔中的位置信息,并確定所述字符串的相鄰字符距離;將所述第一個字符在所述電子文檔中的位置信息和所述相鄰字符距離作為所述字符串的定位信息與所述字符串進(jìn)行關(guān)聯(lián)存儲。本發(fā)明實施例還公開了電子文檔的文字信息處理裝置、電子文檔的字符輸出方法、檢索方法及裝置。采用本發(fā)明,能夠有效節(jié)省存儲字符的定位信息所需的存儲空間、提高字符串輸出和字符檢索的效率。文檔編號G06F17/22GK101655835SQ20091009157公開日2010年2月24日申請日期2009年8月26日優(yōu)先權(quán)日2009年8月26日發(fā)明者力丁,磊張,毅王,王曉磊申請人:北大方正集團有限公司;北京北大方正技術(shù)研究院有限公司