專利名稱:中文古籍?dāng)?shù)字化及內(nèi)容檢索自動化方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及高速、且以內(nèi)容為其目的的中文古籍文獻數(shù)字化及在數(shù)字化古籍頁面圖象中直接實現(xiàn)內(nèi)容檢索的自動化方法和系統(tǒng)。
古籍作為人類文化遺產(chǎn)的重要組成部分,具有極高的學(xué)術(shù)研究和藝術(shù)欣賞價值。由于其珍奇、稀有的特點,古籍的上述價值無法在大范圍內(nèi)為公眾所利用,即使在嚴(yán)格限定的范圍內(nèi),古籍原件的安全性和可持續(xù)保藏性依然難以保障。對古籍文獻的發(fā)掘和有效利用已成為各國數(shù)字化圖書館(Digital Library)工程的主要目標(biāo)之一。迄今為止,提出的各種古籍?dāng)?shù)字化和數(shù)字化媒體的利用方式可歸納如下標(biāo)引加圖象瀏覽方式。首先以預(yù)定的分辨率掃描古籍頁面,消除噪聲后作為古籍頁面的數(shù)字化媒體(簡稱“頁面圖象”)保存于大容量存儲裝置(常用光盤)中。圖書館或博物館專業(yè)人員對頁面圖象標(biāo)引(如按部/類/屬/目分類、書名、著者時代、著者姓名、著作方式、出版年代、出版地、出版者、版式、行款、批校者、題跋者、藏印、封面、扉頁、序文、前/后添加頁、凡例、目錄、圖、附錄、跋等),作為頁面圖象的附加信息并建立相關(guān)索引,保存在存儲裝置中備查。檢索者利用數(shù)據(jù)輸入設(shè)備(鍵盤或鼠標(biāo)),通過系統(tǒng)提供的有限數(shù)量的檢索點(常見的是書號、部/類/屬/目分類、書名、著者時代、著者姓名)檢索古籍,然后瀏覽全書或部分頁面的頁面圖象,也可根據(jù)預(yù)先標(biāo)引信息瀏覽古籍的頁面圖象中的封面、前/后添加頁、扉頁、序文、凡例、目錄、圖、附錄、跋等。系統(tǒng)一般還提供了瀏覽過程中可控制頁面的進退和圖象放大/縮小等輔助功能。這種方式的主要問題在于標(biāo)引項目不會很多;檢索點不會多于標(biāo)引項目;標(biāo)引項目難以覆蓋檢索者的特定檢索目標(biāo);除檢索點外,頁面圖象中的大部分內(nèi)容只可瀏覽,不能達到古籍內(nèi)容檢索的效果。
附帶文本文件加文本文件全文檢索方式。首先根據(jù)古籍制作與之對應(yīng)的文本文件(如人工鍵盤錄入),然后應(yīng)用全文檢索技術(shù)對該附帶文本文件實現(xiàn)文字內(nèi)容檢索,最后再由對應(yīng)關(guān)系調(diào)出頁面圖象。這種間接方式在其必不可少的附帶正文文件的生成階段,正文文本與古籍原稿內(nèi)容的同一性判定、字符集規(guī)模、特殊符號處理、自動化程度等方面存在著圖書館或博物館業(yè)務(wù)無法接受的制約條件;這些問題致使中國專利申請公開說明書CN-1151558A中提出的基于文本文件形式的信息檢索方法和系統(tǒng)無法應(yīng)用于以圖象為其實質(zhì)的古籍頁面的內(nèi)容檢索應(yīng)用。另外,通假字在古籍中的廣泛使用,也使全文檢索技術(shù)對古籍內(nèi)容檢索缺乏必要的能力。
光學(xué)字符識別加文本文件全文檢索方式。該方式用光學(xué)字符識別(OCR)技術(shù)生成古籍對應(yīng)的文本文件和檢索對象,然后應(yīng)用全文檢索技術(shù)對該附帶文本文件實現(xiàn)文字內(nèi)容檢索,最后再由對應(yīng)關(guān)系調(diào)出頁面圖象。然而,由于古籍出版年代、版本形式不同,古籍用字差別巨大,無法建立包括所有古今字詞的詞典;更由于中文古籍中毛筆手書漢字筆畫模糊、不規(guī)范、筆畫間/部件間的相對位置不穩(wěn)定、筆畫傾角/相對長度不穩(wěn)定、書寫風(fēng)格差異、軟筆筆畫變形等諸多因素,難以完成軟筆手書字體的準(zhǔn)確識別。中國專利申請公開說明書CN-1165571A中提出了一種生成與檢索對象形狀相似的文字串(如“中間決算”與“牛間決算”)、對每種可能的變形分別應(yīng)用一次文本文件全文檢索的方法,以回避錯誤識別給檢索帶來的上述問題。但是,該方法對古籍而言是無能為力的。因為文字串的變形數(shù)是隨文字串長度以指數(shù)規(guī)律增長的。例如,設(shè)每個字的平均變形數(shù)為k,文字串長度為n,則可能的變形文字串總數(shù)為kn。因此,該方法在算法上缺乏可伸縮性(Scalability),反映到應(yīng)用中,是缺乏實用性。OCR作為附加文本文件生成工具的另一個重要缺陷是古籍文字/符號對象(以下簡稱“對象”)的語義在OCR識別階段已“凍結(jié)”,即對象的圖象已確定性地映射到一個文字。檢索者在檢索過程中沒有任何能力改變已被附加文本文件制作者凍結(jié)的語義映射。在以毛筆手書為主要特征的中文古籍作品中,手寫字體的變化、頁面紙質(zhì)的污損都不可避免地導(dǎo)致對象的語義無法唯一確定,需要檢索者根據(jù)工作目標(biāo)即時地做出選擇,例如確定查全率和查準(zhǔn)率的折中。這一要求無法被基于OCR的古籍內(nèi)容檢索方法所滿足。
總之,對于以毛筆手書漢字為其主要特征的中文古籍作品,其內(nèi)容檢索問題十分困難。目前尚無有效的、直接的內(nèi)容檢索方法和系統(tǒng)。
本發(fā)明的目的是提出一種直接在頁面圖象上自動完成的、基于視覺相似性的、任意檢索點的計算機古籍內(nèi)容檢索新方法。
本發(fā)明的又一目的是提出一種允許檢索者在檢索階段即時選擇對象形態(tài)至對象語義映射的動態(tài)調(diào)整方法。
本發(fā)明的另一目的是提出一種可以與目前圖書館常用的標(biāo)引方法配合使用的查詢/瀏覽相結(jié)合的古籍檢索工具。
本發(fā)明的再一目的是使用通用計算機及相關(guān)外部設(shè)備,建立能夠?qū)崿F(xiàn)上述方法技術(shù)效果的中文古籍?dāng)?shù)字化和內(nèi)容檢索系統(tǒng)。
本發(fā)明中,基于視覺相似性的計算機古籍內(nèi)容檢索方法,其特征在于,由特征空間組織和內(nèi)容檢索兩個相繼階段構(gòu)成;特征空間組織為古籍中的內(nèi)容(對象及其序列關(guān)系)生成其特征聚類,建立易于根據(jù)視覺相似性快速查找近似對象的索引結(jié)構(gòu);內(nèi)容檢索是利用該索引結(jié)構(gòu),自動地快速獲得所有與檢索者給定對象視覺內(nèi)容近似的其他對象;對于待處理的古籍,特征空間組織階段一次性地完成,而內(nèi)容檢索階段可根據(jù)檢索者的要求多次重復(fù)。
本發(fā)明中利用了圖象處理、特征提取、高維特征空間索引、任意檢索點標(biāo)定、特征快速匹配和約束驗證等技術(shù),其特征在于優(yōu)化組合這些技術(shù),利用通用的計算機和外部設(shè)備,實現(xiàn)直接在頁面圖象上自動完成的、基于視覺相似性的古籍內(nèi)容檢索;對從屬于優(yōu)化方法的按照古跡書寫規(guī)則所確定的對象線性序編號位置特征、頁面內(nèi)對象幾何布局的頁面特征、多級重心分劃區(qū)域筆畫因素累計值的對象形態(tài)特征定義和對這些特征提??;對任意檢索點標(biāo)定和對提高匹配精度的約束驗證;以及檢索者在檢索階段利用搜索精度控制參數(shù)權(quán)衡查全率與查準(zhǔn)率,實現(xiàn)即時選擇對象形態(tài)至對象語義映射的動態(tài)調(diào)整。
以上述特征和處理方法為核心,用通用計算機及相關(guān)外部設(shè)備,建立能夠?qū)崿F(xiàn)新技術(shù)效果的、軟/硬件合一的中文古籍?dāng)?shù)字化和內(nèi)容檢索系統(tǒng)。
本發(fā)明由檢索者在古籍頁面圖象上隨意地標(biāo)定檢索對象,可提供任意的檢索入口點,完全滿足檢索者的特定檢索目標(biāo)的需要;由于檢索對象直接出自于頁面圖象,無須考慮同一性判定、字符集規(guī)模、特殊符號處理、通假字、詞庫等問題,自動化程度高、操作簡便,易于圖書館工作人員使用;利用“近似匹配”的技術(shù)路線,擺脫了由“識別”方法引進的額外困難——即目前尚不能完全準(zhǔn)確的由對象形態(tài)到對象語義的抽象過程;利用搜索精度控制參數(shù)權(quán)衡查全率與查準(zhǔn)率的動態(tài)語義映射選擇機制適應(yīng)了中文手寫字體變化和古籍污損的工作環(huán)境;發(fā)明中提出的采用多級重心分劃區(qū)域筆畫因素累計值的對象形態(tài)特征,是一種特征提取的優(yōu)化實施方案,它正確體現(xiàn)了手寫文字的視覺內(nèi)容,即相對靈活的筆畫分布密度所表達的文字/符號。其中,以對象高度和寬度的最大值為單邊長的正方形位圖規(guī)格化方法較好地保持了對象的寬高比特征;依區(qū)域重心對位圖作多級分劃較好地解決了手寫文字里筆畫/部件間的相對位置偏移的問題;基于筆畫因素的特征構(gòu)成對軟筆手寫漢字筆畫不均勻、筆畫模糊、傾角/相對長度缺乏規(guī)律等現(xiàn)象,都有較強的容錯能力,也便于對古籍中的非文字符號對象的統(tǒng)一處理。本發(fā)明的方法還能夠與目前圖書館常用的標(biāo)引方法配合使用,形成查詢/瀏覽相結(jié)合的古籍檢索工具。
下面結(jié)合
本發(fā)明的實施例。
圖1是系統(tǒng)結(jié)構(gòu)和基本處理流程圖;圖2是系統(tǒng)硬件結(jié)構(gòu)的方框圖;圖3是檢索方法總體流程圖;圖4是特征空間組織流程圖;圖5是內(nèi)容檢索流程圖;圖6是流程圖中使用符號意義說明;圖7是二值位圖縱向投影示意圖;圖8是平滑用輔助柵格;圖9a和9b是加注分列標(biāo)記的頁面圖象;圖10a和10b是從列中劃分對象的處理結(jié)果;圖11是分劃出的對象例;圖12是圖11的細化位圖;圖13是圖12經(jīng)規(guī)格化后的位圖;圖14是圖13基于重心的一級和二級區(qū)域劃分例;圖15是橫、豎、撇、捺筆畫因素定義;圖16是一級區(qū)域和二級區(qū)域編號規(guī)則;圖17是圖14的撇、捺筆劃因素在一級劃分區(qū)域中的分布以及橫、豎筆劃因素在二級劃分區(qū)域中的分布圖;圖18是根據(jù)精度控制參數(shù)調(diào)整和確定搜索范圍的處理示意圖。
現(xiàn)參照圖1說明本發(fā)明的系統(tǒng)檢索方法的基本處理流程。應(yīng)注意圖1中的兩個處理單元標(biāo)定檢索樣本121和顯示/瀏覽檢索結(jié)果125作為程序文件單獨或整體存儲在圖2的硬盤204b中;其余各個方框圖表示的處理單元作為數(shù)據(jù)文件或程序文件單獨或整體存儲在圖2的硬盤204a中。
本發(fā)明中的檢索方法與技術(shù)由特征空間組織100和古籍內(nèi)容檢索120兩個相繼處理階段構(gòu)成,前者產(chǎn)生的數(shù)字化古籍庫110為后者提供基礎(chǔ)。特征空間組織階段100一次性完成,古籍內(nèi)容檢索階段120可根據(jù)檢索者的要求多次重復(fù)。
古籍經(jīng)過掃描和預(yù)處理模塊101,一方面產(chǎn)生頁面圖象存入頁面圖象庫111以備用戶瀏覽,另一方面頁面圖象中的對象通過骨架傳給后續(xù)的提取特征模塊102被分解為獨立圖象的有序集合。存入庫111中的頁面圖象可以是原始掃描結(jié)果(如彩色圖象或灰度圖象),保持古籍原有的視覺形象和風(fēng)格;也可以是經(jīng)過預(yù)處理加工后的清晰圖象,獲得較好的可讀性。對象有序集合又被提取特征模塊102分離成轉(zhuǎn)換為三類特征頁面特征、對象的全局位置特征和形態(tài)特征序列。這些特征保存在特征表112中。模塊102提取的全局位置特征和形態(tài)特征向量由高維空間索引特征模塊103加以良好的組織并保存于數(shù)據(jù)結(jié)構(gòu)特征空間索引模塊113中。除了對特征向量對象的數(shù)學(xué)表達的視覺相似性聚類之外,特征空間索引結(jié)構(gòu)113的另一個職能就是及時排除與檢索點不相似的文字/符號圖象,加速搜索查詢點的視覺相似的對象。這是古籍內(nèi)容檢索實現(xiàn)高速化的基礎(chǔ)。
內(nèi)容檢索階段120采用按示例查詢的工作方式。標(biāo)定檢索樣本模塊121支持檢索者在所瀏覽的頁面圖象上隨時、任意地標(biāo)定對象,記錄客戶端指示設(shè)備209b點擊頁面圖象時的頁面坐標(biāo)和該坐標(biāo)序列的順序,形成檢索者的檢索樣本。坐標(biāo)序列的順序作為約束條件傳給驗證約束條件模塊124。頁面坐標(biāo)序列本身被獲取特征模塊122用來作為條件從特征表112中確定頁面圖象中的具體對象,獲得與對象相應(yīng)的特征向量。查詢近似對象模塊123以得到的特征向量為參考點,在特征空間索引113中的尋找最近鄰元素,構(gòu)成參考點的相似對象集合。該模塊123同時將與檢索樣本中所有對象對應(yīng)的相似對象集合組合成全局位置特征集簇交給驗證約束條件模塊124。由模塊124根據(jù)得到的約束條件檢驗集簇元素的有效組合,形成檢索結(jié)果。這些結(jié)果由顯示/瀏覽檢索結(jié)果模塊125以醒目的方式顯現(xiàn)在檢索者的客戶機屏幕206b上。供用戶瀏覽和觀察其上下文。
檢索者可以通過調(diào)整精度控制參數(shù)的取值來獲得查全率與查準(zhǔn)率的權(quán)衡。精度控制參數(shù)僅僅是由用戶指定的系統(tǒng)給定的線性區(qū)間中的一個點。系統(tǒng)將其取值作為一個參數(shù),確定在特征空間索引結(jié)構(gòu)113中的搜索范圍,把范圍內(nèi)點(近似的候選對象)的全局位置特征返回。由于檢索者可以立即通過顯示/瀏覽檢索結(jié)果模塊125觀察反饋結(jié)果,并能夠再次對精度控制參數(shù)進行調(diào)整,重復(fù)古籍內(nèi)容檢索階段120的過程,觀察變化的效果,所以精度控制參數(shù)的具體取值既不要求準(zhǔn)確也不要求特殊技術(shù)和技巧。
現(xiàn)參照圖2,圖中例示了用以實施本發(fā)明的系統(tǒng)硬件結(jié)構(gòu)。它們是連接于網(wǎng)絡(luò)210的服務(wù)器200a和客戶機200b。服務(wù)器200a用于數(shù)據(jù)和頁面圖象的存儲、維護、管理、檢索以及檢索結(jié)果的傳輸。其硬件系統(tǒng)是由總線201a聯(lián)系在一起的通用計算機結(jié)構(gòu),包括具有運算和控制輸入輸出功能的中央處理機202a、保存程序和運算中間數(shù)據(jù)的隨機存取存儲器203a、永久性存儲計算機操作系統(tǒng)、檢索應(yīng)用軟件、頁面圖象、特征空間索引文件等內(nèi)容的硬盤204a、用以鍵入命令與參數(shù)的鍵盤205a和顯示命令反饋結(jié)果的顯示器206a、網(wǎng)絡(luò)連接設(shè)備207a、古籍頁面數(shù)字化的掃描儀208和功能選擇與輔助定位設(shè)備即指示設(shè)備209a;客戶機200b負責(zé)人機界面的操作、送出查詢?yōu)g覽需求及顯示瀏覽查詢結(jié)果。其硬件系統(tǒng)是由總線201b聯(lián)系在一起的通用計算機結(jié)構(gòu),其中包括具有運算和控制輸入輸出功能的中央處理機202b、保存程序和運算中間數(shù)據(jù)的主存儲器203b、永久性存儲計算機操作系統(tǒng)、檢索應(yīng)用軟件等內(nèi)容的硬盤204b1(或只讀存儲器204b2)、用以鍵入命令與參數(shù)的鍵盤205b、顯示頁面圖象和命令反饋結(jié)果的顯示器206b、網(wǎng)絡(luò)連接設(shè)備207b、幫助指定顯示器206b上屏幕位置的指示設(shè)備(如鼠標(biāo)器、手寫筆)209b;服務(wù)器和客戶機通過網(wǎng)絡(luò)連接設(shè)備207a、207b經(jīng)由網(wǎng)絡(luò)210聯(lián)系起來,互通信啟。
作為上述實施方案的另一種特例,網(wǎng)絡(luò)210可以是廣域網(wǎng)(WAN,如Internet)。在被稱作瀏覽器/服務(wù)器模式的系統(tǒng)結(jié)構(gòu)中,客戶機200a和服務(wù)器200b之間的通信遵循HTTP協(xié)議??蛻魴C200b通過指定服務(wù)器200a的統(tǒng)一資源定位器(URL)地址來指定某個Web頁,然后幫助檢索者準(zhǔn)備檢索/瀏覽請求,傳送請求至服務(wù)器200a,并接受服務(wù)器200a傳來的頁面圖象及相關(guān)信息(如JAVA小應(yīng)用程序);服務(wù)器200a存放以HTML語言編寫的超媒體文件,它有一個HTTP守護進程,它接收客戶機200b提出的請求并做出響應(yīng),每當(dāng)該進程接收到一個請求時,就創(chuàng)建一個新的子進程為該請求服務(wù),完成合法性檢查,針對客戶機的請求進行處理并制作數(shù)據(jù),包括使用CGI程序?qū)?shù)據(jù)進行前期和后期處理,然后,把處理好的頁面圖象等發(fā)送給提出請求的客戶機200b。
作為上述實施方案的又一種特例,網(wǎng)絡(luò)210可以是局域網(wǎng)(LAN)。
作為上述實施方案的又再一種特例,服務(wù)器200a和客戶機200b可以是同一臺機器,此時沒有網(wǎng)絡(luò)210、網(wǎng)絡(luò)連接設(shè)備207a、207b,采用loopback適配器;總線為20la、中央處理機為202a、隨機存取存儲器為203a、硬盤為204a、鍵盤為205a、顯示器為206b、掃描儀為208、指示設(shè)備為209a。
在另一實施方案中的客戶機,可以采用移動計算設(shè)備(如筆記本計算機、PDA等)。
服務(wù)器的操作系統(tǒng)可以是Windows95/Windows98(Microsoft商標(biāo))、MacOS(Apple商標(biāo))、Unix的各種實現(xiàn)版本如(IBM的AIX或自由軟件Linux),不要求多窗口和圖形人機界面,但應(yīng)支持HTTP訪問協(xié)議;客戶機可以采用上述任何一種操作系統(tǒng),但同時要求多窗口和圖形人機界面,以及支持HTTP訪問協(xié)議;當(dāng)采用客戶機/服務(wù)器在一臺計算機上的實施方案時,操作系統(tǒng)取客戶機端的配置;當(dāng)客戶機是PDA等手持設(shè)備時,該手持設(shè)備的操作系統(tǒng)或其等同物應(yīng)支持HTTP訪問協(xié)議。
下面進一步具體說明本發(fā)明檢索方法的流程特點和所采用的技術(shù)。
本發(fā)明的視覺相似性的計算機古籍內(nèi)容檢索方法由一系列的技術(shù)單元有機組合而成。各個技術(shù)單元可以采用公知的技術(shù)方案實現(xiàn),也可以用本發(fā)明提出的技術(shù)方案實現(xiàn),以換取較高的執(zhí)行效率。組合這些技術(shù)單元實現(xiàn)直接在頁面圖象上自動完成的、基于視覺相似性的古籍內(nèi)容檢索技術(shù)效果的檢索方法是本發(fā)明的主要內(nèi)容,從屬于檢索方法的一些關(guān)鍵技術(shù)是本發(fā)明的又一內(nèi)容。圖3是檢索方法的總體流程圖,圖4、圖5是圖3的詳細流程圖。圖6是流程圖中使用符號意義說明。
如前所述,檢索方法由特征空間組織100和古籍內(nèi)容檢索120兩個相繼處理階段構(gòu)成。特征空間組織階段100由古籍信息服務(wù)供應(yīng)商預(yù)先一次性完成。其生成結(jié)果,即圖1中的數(shù)字化古籍庫110保存在圖2中服務(wù)器端的硬盤或光盤204a中。古籍內(nèi)容檢索階段120可根據(jù)檢索者的要求多次重復(fù),它利用硬盤或光盤204a中存儲的數(shù)字化古籍庫。兩個階段301和302不必在時間上連續(xù),僅要求保證如圖3給出的順序即可。
現(xiàn)結(jié)合圖4進一步說明征空間組織階段。特征空間組織的目的如前所述是古籍中的內(nèi)容(對象及其序列關(guān)系)生成其特征聚類,建立易于根據(jù)視覺相似性快速查找近似對象的索引結(jié)構(gòu)。特征空間組織階段的基本步驟如下1.掃描古籍頁面101a通過可見光或其他光源按照古籍頁碼編號逐頁掃描古籍,得到其數(shù)字化彩色或灰度圖象。對保存完好的古籍,可采用普通平板式掃描儀,對于被火損或其他原因損壞的古籍,可用遠紅外或其他光源照射,顯現(xiàn)被遮掩的文字。
2.預(yù)處理101b為突出古籍內(nèi)容、克服掃描誤差、分離前景對象和背景噪聲、獲得對象,在正式構(gòu)造特征空間索引113之前,進行版面傾斜校正、噪聲消除、二值化和列/對象的分劃、對象細化等預(yù)處理工作??捎脴?biāo)準(zhǔn)的中文光學(xué)字符識別(OCR)技術(shù)的預(yù)處理手段或組合圖象處理的功能,必要時需少量的人工干預(yù)實現(xiàn)。以下給出一些實施例。
(1)色彩和灰度處理由掃描步驟101a得到的數(shù)字化古籍頁面圖象可以是彩色或灰度的。這樣做的目的是為了最大限度地保持古籍的原貌,便于用戶觀賞。為后續(xù)步驟的處理需要,供提取特征的頁面圖象應(yīng)該轉(zhuǎn)換為黑白兩色的,即所謂的二值圖象或位圖。供用戶觀賞的頁面圖象仍可保持原來的色彩或灰度。
彩色圖像一般表達為RGB或其他色彩空間(如YIQ)的點集。從圖象壓縮的角度來看,采用非RGB色彩空間的方案的情況更為普遍。因為這些方案將圖像的主要特征集中于空間中的某一個坐標(biāo)軸上,對該軸上的灰度圖象進行處理,能夠基本體現(xiàn)圖象形態(tài)。在中文古籍內(nèi)容檢索領(lǐng)域中,采用上述方案將彩色圖象轉(zhuǎn)變?yōu)榛叶葓D象仍能保持文字/符號對象的形態(tài)。
一種具體實施方案是將彩色圖象分解為Y、I、Q三個分量,再將其中的Y分量作為灰度圖像留作進一步的處理。Y分量包含了原始圖像的主要信息。YIQ與RGB間的轉(zhuǎn)換關(guān)系為YIQ=0.2990.5870.1140.596-0.275-0.3220.211-0.523-0.312RGB,RGB=1.01.1760.7631.0-0.411-0.6771.0-0.9641.487YIQ]]>灰度圖象經(jīng)過二值化成為二值位圖。二值化的關(guān)鍵是確定合適的閾值。一種選擇方法是根據(jù)灰度直方圖確定整體閾值。設(shè)灰度級數(shù)目為G,圖象的象素總數(shù)為n,第k級灰度(1≤k≤G)的象素數(shù)為nk,統(tǒng)計圖象在灰度級(k1≤k≤G)處的出現(xiàn)頻率p(k)=nkn,k=1,2,...G]]>并以p(k)為縱坐標(biāo),k為橫坐標(biāo)作圖,得到圖象的灰度直方圖。中文古籍的灰度直方圖一般是雙峰的,兩個尖峰分別代表了前景和背景象素?;叶乳撝悼扇≡陔p峰之間的波谷處,例如取值1≤g≤G。根據(jù)灰度閾值g將灰度圖象IMGg轉(zhuǎn)變?yōu)槎滴粓DIMGbIMGb(i,j)={0,IMGg(i,j)<g'j=1,2,...,C1,IMGg(i,j)≥gi=1,2,...,R]]>其中,R,C分別是圖象象素矩陣的行和列數(shù)。
對于多峰的灰度直方圖,可采用局部閾值二值化方法。
(2)版面校正掃描獲得的頁面圖象會因為古籍原稿置放角度的不準(zhǔn)而發(fā)生偏斜,影響后續(xù)處理。大多數(shù)情況下,偏斜的角度不會太大。設(shè)偏離正常位置(如垂向)的范圍是[-A,+A]。以a為增量,從-A起旋轉(zhuǎn)二值位圖,按下面方法計算投影密度,直至+A。記錄有最大投影密度的二值位圖作為校正圖。
參照圖7,首先,將某一旋轉(zhuǎn)后的位圖(圖7的上半部分)沿縱向投影,得到圖象前景象素的水平分布(圖7的下半部分)。令投影寬度為W,則平均線高度h=ΣiΣjIMGb(i,j)W.]]>在水平分布的平均線上計算投影密度ρ=ΣknkWk,]]>上式中,nk是平均線上的第k個連續(xù)段中高于h的點數(shù),Wk是這些點在平均線上的投影寬度。選擇平均線上的投影而不是所有水平分布的投影有助于減少頁面圖象上下橫線和邊界的影響。
(3)消除噪聲使用平滑技術(shù)消除二值位圖中殘留的孤立點,平滑筆劃邊沿。平滑過程是圖象處理技術(shù)中低通濾波的應(yīng)用。
一種簡單的實施方案是采用如圖8所示的3×3柵格決定象素x0的取值。若以x表示象素x取值為1(前景色),以~x表示象素x取值為0(背景色),則象素x0平滑后的結(jié)果是x′0=~x0[x3x7(x1+x5)+x1x5(x3+x7)]+x0~[~(x3+x7)(~(x4+x5+x6)+~(x1+x2+x8)+~(x1+x5)+(~(x6+x7+x8)+~(x2+x3+x4))](4)對象分割漢字OCR的行、字切分技術(shù)可以直接用于對象分割。以下是另外一種較為簡單的對象分割方法。它分為分列、分詞和調(diào)整三個接續(xù)步驟。如前所述,二值位圖IMGb的寬度為C,高度為R,在坐標(biāo)(i,j)處的象素記為IMGb(i,j),IMGb(i,j)=1表示該點為前景色。
A.分列令第j列上像素總數(shù)為Cj=Σi=1RIMGb(i,j),]]>Cj構(gòu)成的水平分布圖光滑后的結(jié)果記為Sj=1dΣd=0μ-1Cj+d,(j=0,...,C-μ).]]>其中,μ為光滑步長。Sj的最大值、最小值和兩者之差分別記以M=max{Sj},m=min{Sj},D=max-min再令Th=m+αD,其中α是閾值參數(shù),一般取0.1或0.2。求出Sj=Th的j值j0,j1,…,j2n-1, 這些值依序兩兩組對,即pk=(j2k+j2k+1)/2,0<k<n,可得到頁面的列分隔線序列pk。如圖9a中的虛線所示。為提取易于處理的對象列,在分詞之前還應(yīng)排除豎線。具體方法是計算平均列寬δ=(pn-1-p0)/(n-1),如果兩相鄰列分隔線(pk和pk+1)間距小于0.1δ,則認(rèn)為此兩相鄰列分隔線之間是古籍的列分隔豎線,當(dāng)將它們之間填為背景色并且用(pk+pk+1)/2替代這兩條列分隔線。圖9a經(jīng)過排除豎線后,得到圖9b中已分割開來的白色條塊。
B.分詞將得到的對象列視為原始頁面圖象,調(diào)換步驟A.中的行、列標(biāo)記??梢缘玫礁鱾€對象的基本劃分。具體結(jié)果見圖10a。
C.調(diào)整自動分割區(qū)域有時存在少量的誤判結(jié)果,分割技術(shù)應(yīng)提供圖像反饋,供處理人員手工調(diào)整分割區(qū)域。這是用圖1中服務(wù)器端的指示設(shè)備209a選擇刪除/增加功能,然后點擊相應(yīng)對象或位置。例如,刪除圖10a頂部由原古籍外邊框?qū)е碌囊粭l無用分割線后得到正確的對象分割,如圖10b所示。一個分割完成的對象圖例如圖11所示。
(5)細化將對象的二值位圖轉(zhuǎn)化為線寬為單象素的骨架圖象,以減少因筆畫寬度差異對特征提取的影響。細化算法如下i.I”=IMGb;ii.Doa.I=I”;b.掃描I中的所有象素,形成新位圖I’。對I中象素x0,考察其如圖8所示的鄰域,若C1成立,則I’中相應(yīng)位置置1;c.掃描I’中的所有象素,形成新位圖I”。對I’中象素x0,考察其如圖8所示的鄰域,若C2成立,則I”中相應(yīng)位置置1;Until I=I”;iii.返回I”。C1=x0~x1~x2~x3x4x5x6~x7~x8+x0~x1~x2x3~x4x5~x6~x7~x8+x0~x1~x2x3x4x5~x6~x7~x8+x0~x1~x2x3~x4x5x6~x7~x8+x0~x1~x2x3x4x5x6~x7~x8+x0~x1~x2~x3~x4x5~x6x7~x8+x0~x1~x2~x3x4x5~x6x7~x8+x0~x1~x2~x3~x4x5x6x7~x8+x0~x1~x2~x3x4x5x6x7~x8+x0~x1~x2x3~x4x5~x6x7~x8+x0~x1~x2x3x4x5~x6x7~x8+x0~x1~x2x3~x4x5x6x7~x8+x0~x1~x2x3x4x5x6x7~x8+x0~x1x2x3x4~x5~x6~x7~x8+x0~x1x2x3~x4x5~x6~x7~x8+x0~x1x2x3x4x5~x6~x7~x8+x0~x1x2x3~x4x5x6~xl~x8+x0~x1x2x3x4x5x6~x7~x8+x0~x1xlx3~x4x5~x6x7~x8+x0~x1x2x3x4x5~x6x7~x8+x0~x1x2x3~x4x5x6x7~x8+x0~x1x2x3x4x5x6x7~x8+x0~x1~x2~x3~x4x5~x6x7x8+x0~x1~x2~x3x4x5~x6x7x8+x0~x1~x2~x3~x4~x5x6x7x8+x0~x1~x2~x3~x4x5x6x7x8+x0~x1~x2~x3x4x5x6x7x8+x0~x1~x2x3~x4x5~x6x7x8+x0~x1~x2x3x4x5~x6x7x8+x0~x1~x2x3~x4x5x6x7x8+x0~x1~x2x3x4x5x6x7x8+x0x1~x2~x3~x4~x5~x6x7x8+x0x1~x2~x3~x4x5~x6x7x8+x0x1~x2~x3x4x5~x6x7x8+x0x1~x2~x3~x4~x5x6x7x8+x0x1~x2~x3~x4x5x6x7x8+x0x1~x2~x3x4x5x6x7x8算法結(jié)束時的位圖即為細化后的骨架圖象。算法中的條件C2=x0~x1~x2x3x4x5~x6~x7~x8+x0~x1x2x3x4~x5~x6~x7~x8+x0~x1x2x3x4x5~x6~x7~x8+x0x1~x2x3~x4~x5~x6~x7~x8+x0x1~x2x3x4~x5~x6~x7~x8+x0x1~x2x3x4x5~x6~x7~x8+x0x1~x2~x3~x4~x5~x6x7~x8+x0x1~x2~x3~x4~x5x6x7~x8+x0x1~x2x3~x4~x5~x6x7~x8+x0x1~x2x3x4~x5~x6x7~x8+x0x1~x2x3~x4~x5x6x7~x8+x0x1x2x3~x4~x5~x6~x7~x8+x0x1x2x3x4~x5~x6~x7~x8+x0x1x2x3x4x5~x6~x7~x8+x0x1x2~x3~x4~x5~x6x7~x8+x0x1x2~x3~x4~x5x6x7~x8+x0x1x2x3~x4~x5~x6x7~x8+x0x1x2x3x4~x5~x6x7~x8+x0x1x2x3~x4~x5x6x7~x8+x0~x1~x2~x3~x4~x5x6x7x8+x0x1~x2x3~x4~x5~x6~x7x8+x0x1~x2x3x4~x5~x6~x7x8+x0x1~x2x3x4x5~x6~x7x8+x0x1~x2~x3~x4~x5~x6x7x8+x0x1~x2~x3~x4~x5x6x7x8+x0x1~x2x3~x4~x5~x6x7x8+x0x1~x2x3x4~x5~x6x7x8+x0x1~x2x3~x4~x5x6x7x8+x0x1x2~x3~x4~x5~x6~x7x8+x0x1x2x3~x4~x5~x6~x7x8+x0x1x2x3x4~x5~x6~x7x8+x0x1x2x3x4x5~x6~x7x8+x0x1x2~x3~x4~x5~x6x7x8+x0x1x2~x3~x4~x5x6x7x8+x0x1x2x3~x4~x5~x6x7x8+x0x1x2x3x4~x5~x6x7x8+x0x1x2x3~x4~x5x6x7x8(6)規(guī)格化為消除手寫體對象尺寸和位置變化的影響,規(guī)格化各對象的骨架圖象。例如,圖13是圖12的骨架圖象的規(guī)格化位圖,外框表示新位圖的邊界。
規(guī)格化方法是選擇骨架圖象的高度和寬度的最大值作為單邊長,作一正方形位圖。然后將骨架圖象置于該正方形位圖正中。稱上述正方形為MBS(MinimalBounding Square)。與使用外接矩形MBB(Minimal Bounding Box)的常規(guī)規(guī)格化方法相比,這里的規(guī)格化方法保持了對象的寬高比。不易導(dǎo)致細長對象在特征提取時出現(xiàn)偏差。
3.特征提取102本方法針對單冊古籍定義和提取三類基本特征,即頁面特征、對象的全局位置特征和形態(tài)特征。如果將同一人謄寫的多卷古籍組合在一起處理,只需添加書籍標(biāo)識。上述特征描述了古籍內(nèi)容。
在模塊102中,每個對象已從頁面圖象中分離出來,每個對象都已具備明確的頁面內(nèi)幾何坐標(biāo)和尺寸范圍。下面具體定義所述三類基本特征及其提取方法。
定義1對象的全局位置特征(GLF)是該對象在一冊古籍的頁面中的線性序編號。
只要能保證對象與其全局位置特征是1-1對應(yīng)的,定義中的線性序可采取任意形式。例如,全局位置特征的提取方法可按照古籍的謄寫習(xí)慣(頁碼從小到大,頁內(nèi)從右向左、各列自上而下),獲得由掃描及預(yù)處理模塊得到的各對象的全局位置特征。對于復(fù)雜版面布局,全局位置特征的提取方法可先利用遞歸曲線如Hilbert或Piano曲線掃描版面區(qū)域,然后各區(qū)域內(nèi)部再按常規(guī)方式處理。
定義2古籍的頁面特征(PF)由頁面編號和頁面內(nèi)各對象的幾何坐標(biāo)構(gòu)成。
頁面特征描述了由頁面中對象的幾何布局關(guān)系。
對象的形態(tài)特征刻畫了對象的視覺語義。進而,除去多音字外,一個漢字的書寫唯一決定了該字的語言學(xué)語義。換言之,通過對漢字形態(tài)的比較,可以實現(xiàn)文字、符號語言學(xué)語義的近似匹配。任何中文OCR中的漢字特征提取技術(shù)均可作為對象形態(tài)特征的提取方法。
然而,在以毛筆手書漢字為特征的中文古籍中,存在很多可變因素影響漢字部件及其構(gòu)成筆劃的提取。例如,筆劃粗細不均勻、部分筆劃模糊或欠落、同一文字的多次出現(xiàn)時筆劃/部件間的相對位置偏移、筆劃傾角/相對長度變化等,都會影響對象在視覺意義上的匹配。需要開發(fā)容錯能力較強的特征提取技術(shù)。注意到“方塊漢字部件部位和比例的固定劃一是長期以來漢字書法藝術(shù)的結(jié)晶”這一事實,以下給出一種在多級質(zhì)心分劃區(qū)域中統(tǒng)計筆劃因素累計值的形態(tài)特征描述及其提取技術(shù)。它對中文古籍里存在的上述變化因素有較強的容錯能力。
定義3對象的形態(tài)特征(MF)是其圖象在多級質(zhì)心分劃區(qū)域中筆劃因素分量的累計值。
形態(tài)特征的提取方法如下
首先,根據(jù)對象的重心對其MBS作多層分劃。每個區(qū)域的分劃點定為該區(qū)域中對象前景點(附圖中的黑點集)的重心。深一層的分劃在淺一層的基礎(chǔ)上遞歸進行。圖13的一、二層分劃的具體方式如圖14所示。
然后,統(tǒng)計各區(qū)域中筆畫因素,分類累計后形成特征向量。所謂筆畫因素,是指可構(gòu)成橫,豎、撇、捺四種筆畫的基本元素,其點陣排列如圖15所示。相對于完整筆劃,基于筆劃因素的特征構(gòu)成對軟筆手寫漢字筆劃不均勻、筆劃模糊、傾角/相對長度缺乏規(guī)律等現(xiàn)象都具有較強的容錯能力,也便于對古籍中非文字符號對象的統(tǒng)一處理。從對象的位圖中提取筆劃因素方法簡便,存在多種實施方案。例如,分別以四種筆畫因素為結(jié)構(gòu)元素(Structure Elements),應(yīng)用數(shù)學(xué)形態(tài)學(xué)方法,對圖13的前景點(圖中方框內(nèi)的黑點)作腐蝕(Erosion)運算,得到四種筆畫因素在方框內(nèi)的分布。將筆劃因素的提取方法作用于圖14中,可得到分劃區(qū)域里的筆劃分布,再用區(qū)域中所有前景點的像素數(shù)除之,得到筆畫因素在各區(qū)域中的分布密度。注意到漢字中橫豎筆畫的出現(xiàn)頻度大大高于撇捺筆畫,同時為降低特征空間的維數(shù),提高索引及檢索的效率,對撇捺筆畫因素的統(tǒng)計可以較橫豎筆畫淺一個層次,即區(qū)域分劃中可少分解一層。一種具體方式為橫、豎筆畫因素均用二層區(qū)域分劃,撇、捺筆畫因素均用一層分劃。圖17中例示了兩層分劃區(qū)域中橫、豎筆劃分布和一層分劃區(qū)域中撇、捺筆劃分布。采用圖16的區(qū)域編號規(guī)則,古籍中所有對象的形態(tài)特征向量張成了16×2+4×2=40維特征空間。空間中的向量f由以下公式計算 上式中,p1(k)和p2(k)分別為特征提取前位圖一級和二級劃分區(qū)域k中的象素點數(shù),h(k)、s(k)、p(k)、n(k)分別為橫、豎、撇、捺筆劃因素在位圖區(qū)域k中的黑象素點數(shù)。
采用多級質(zhì)心分劃區(qū)域筆劃因素累計值的對象形態(tài)特征,較好地體現(xiàn)了手寫漢字的視覺內(nèi)容,能以相對靈活的筆劃分布密度來表達文字/符號。在特征空間中定義某種度量(或稱距離),可形成向量空間。一種度量是公知的歐氏距離。在形成的特征向量空間中,對象的形態(tài)特征向量構(gòu)成了特征空間中點的坐標(biāo)。因此,形態(tài)相似對象的特征點自然形成了聚類,而有差異的漢字的特征點間有較大的距離。
至此,古籍的特征已提取完畢,古籍頁面特征、對象的形態(tài)特征和全局位置特征保留至特征表112。即特征表由多個形如(頁面編號、頁內(nèi)幾何坐標(biāo)、全局位置特征、形態(tài)特征)的四元組組成,多個的數(shù)目是掃描預(yù)處理模塊101確定的對象個數(shù)。
4.特征空間索引113實際應(yīng)用中,生成的特征空間一般具有維數(shù)高、特征點數(shù)量多等特點。需要設(shè)計與應(yīng)用目標(biāo)對應(yīng)的空間索引結(jié)構(gòu),合理組織所有的特征點,以較小的存儲開銷換取快速的信息查詢。原理上講,所有的空間索引方法(如R-樹及其改進方法、X-樹、SR-樹、PK-樹等)都能成為特征空間索引結(jié)構(gòu)的實施方案。然而,部分索引算法的性能如R-樹會隨空間維數(shù)的增大而急劇下降。此處給出SR-樹的優(yōu)化實施方案。關(guān)于SR-樹內(nèi)部的實現(xiàn)及其性能分析,請參閱相關(guān)論文和軟件包說明。
A.數(shù)據(jù)結(jié)構(gòu)定義數(shù)據(jù)項Ei=(MFi,GLFi)=(fi,GLFI)。fi是特征空間中點i的坐標(biāo),也就是對象i的形態(tài)特征向量;GLFi是對象i的全局位置特征。
B.創(chuàng)建SR-樹調(diào)用函數(shù)new_HnSRTreeFilePath,Dimension,DataSize,BlockSize,SplitFactor,ReinsertFactor。生成一棵空SR-樹返回之,返回數(shù)據(jù)類型HnSRTreeFile。
調(diào)用中的輸入?yún)?shù)的意義和取值如下表參數(shù)名類型 參數(shù)意義 取值Path 字符串 保存SR-樹的數(shù)據(jù)文件名 古籍名.idxDimension 整數(shù)特征空間維數(shù) 40DataSize 整數(shù)特征點相關(guān)屬性GLF字節(jié)數(shù)2BlockSize 整數(shù)數(shù)據(jù)塊大小(字節(jié)) 8192(系統(tǒng)缺省值)SplitFactor 整數(shù)數(shù)據(jù)庫最小利用率(百分之) 40(系統(tǒng)缺省值)ReinsertFactor整數(shù)重新插入因子(百分之) 30(系統(tǒng)缺省值)C.插入數(shù)據(jù)項根據(jù)B.返回的SR-樹對象File,調(diào)用其方法Store(…)將數(shù)據(jù)項Ex=(fi,GLFI)插入SR-樹。具體步驟是HnSRTreeFile File;File.Store(Point,Data)。
其中的參數(shù)的意義和取值如下表參數(shù)名類型參數(shù)意義 取值PointHnPoint&特征空間中點坐標(biāo)的存放地址對象的形態(tài)特征向量fData HnData& 特征空間中點屬性的存放地址該對象的GLF5.處理流程控制古籍處理采用循環(huán)方式完成。在一幅頁面圖象中,對每個對象施行102至113的處理,一頁內(nèi)的對象是否處理完成在圖4的105中判斷。如果本頁還有其他對象,則重復(fù)上述過程,否則轉(zhuǎn)次頁處理。一冊古籍是否已完全轉(zhuǎn)化為數(shù)字化古籍庫110在圖4的106中判斷。
現(xiàn)結(jié)合圖5說明內(nèi)容檢索120處理階段。內(nèi)容檢索必須在被檢索古籍已完成特征空間組織100步驟之后進行。對于所建立的一套特征空間索引結(jié)構(gòu),檢索者可執(zhí)行任意次數(shù)的內(nèi)容檢索參見圖3。內(nèi)容檢索的目的,是利用特征空間組織所得到的索引結(jié)構(gòu),快速獲得所有與給定對象視覺內(nèi)容相似的其他對象。內(nèi)容檢索的基本步驟如下(1)讀取精度控制參數(shù)501檢索者通過人機交互方式調(diào)整檢索精度控制參數(shù)。此參數(shù)僅代表概念上的“嚴(yán)格”和“寬松”,取值的確定無需任何背靜知識。參數(shù)取值一般分為多級,各級所對應(yīng)的距離閾值可由發(fā)明實施人按由零到大單調(diào)增加方式任意設(shè)定。一種實施方式是設(shè)定11級,第0級規(guī)定距離閾值為零,表示嚴(yán)格匹配;第10級為最寬松的精度控制條件,規(guī)定距離閾值為1;其間按0.1的增量逐步增大距離閾值。由于內(nèi)容檢索可多次執(zhí)行,檢索者可參照上次檢索結(jié)果動態(tài)調(diào)整精度控制參數(shù),對下一次的查全率和查準(zhǔn)率給予新的權(quán)衡,滿足其需要。精度控制參數(shù)影響近似對象查詢123在特征空間索引113中的搜索范圍。
(2)打開啟始瀏覽頁面502檢索者可通過輸入任意的頁面編號調(diào)出相應(yīng)的頁面圖象或結(jié)合通用的標(biāo)引方法進入某個頁面。直接輸入頁面編號的方案最為簡單。與標(biāo)引方法配合使用的方案較為實用。這不僅與圖書館和古籍光盤庫現(xiàn)行的檢索方式協(xié)調(diào)一致,而且所形成的二級檢索模式更便于處理大量書寫風(fēng)格各異的古籍文獻。標(biāo)引方法提供的檢索點引導(dǎo)檢索者在數(shù)字圖書館或光盤庫發(fā)現(xiàn)候選的古籍卷宗,基于視覺相似性的內(nèi)容檢索方法進一步為檢索者在卷內(nèi)發(fā)現(xiàn)目標(biāo)提供幫助。
(3)標(biāo)定檢索對象121在顯示的頁面圖象上,檢索者利用指示設(shè)備209b如鼠標(biāo)或手寫筆點擊對象,設(shè)定或調(diào)整對象順序。標(biāo)定檢索樣本模塊121記錄指示設(shè)備給出的頁面編號、頁面內(nèi)幾何坐標(biāo)并根據(jù)檢索者設(shè)定的順序在頁面圖象上標(biāo)記代表該順序的自然數(shù)??膳浜蠟g覽控制機制,在多頁中標(biāo)定檢索對象。當(dāng)檢索者啟動檢索時,模塊121根據(jù)上述對象的頁面編號、頁面內(nèi)幾何坐標(biāo)序列和坐標(biāo)序列的順序形成檢索樣本。頁面編號和坐標(biāo)集合傳給獲取特征模塊122,坐標(biāo)序列的順序作為約束條件傳給驗證約束條件模塊124。之后對每個檢索樣本的成員對象實施122至123處理,在506步驟中進行后處理并判斷循環(huán)結(jié)束。
(4)獲取檢索樣本的形態(tài)特征向量122根據(jù)檢索樣本之成員對象的頁面標(biāo)號和頁面內(nèi)幾何坐標(biāo)從特征表中獲得該對象的形態(tài)特征向量。獲取方法取決于特征表之頁面內(nèi)幾何坐標(biāo)的組織方式。頁面圖象經(jīng)對象分割后,每個對象都有一個包含它的矩形(參見2(4))。如果對象的頁面內(nèi)幾何坐標(biāo)由該矩形的中點坐標(biāo)給出,則應(yīng)該在頁號相同的情況下,先在特征表中根據(jù)歐氏距離計算與樣本成員位置最接近的點,然后再從該表項獲得對象的形態(tài)特征向量;如果對象的頁面內(nèi)幾何坐標(biāo)由該矩形的對角點坐標(biāo)給出,則應(yīng)該在頁號相同的情況下,先在特征表中檢驗矩形是否包含樣本成員位置,然后再從包含樣本的表項中獲得對象的形態(tài)特征向量。前一種方法對每個對象節(jié)省一對坐標(biāo)的存儲空間,后一種方法在比較時可以避免乘除運算,執(zhí)行速度較快。在古籍內(nèi)對象數(shù)目較多或檢索樣本長度一般較短時,使用前一種方法有利。
(5)近似對象查詢123相對于某個樣本成員對象,在特征空間索引中依照最近鄰原則查找其視覺相似的對象集合。具體做法是,設(shè)由123得到的形態(tài)向量是v,由501讀取的搜索精度控制參數(shù)是r,則應(yīng)用以下的A~B得到相似對象的全局位置特征GLF的集合。
A.根據(jù)參數(shù)r設(shè)定范圍邊界。對特征空間的每一維,設(shè)其變動范圍是W,則首先設(shè)定檢索范圍寬度w={W×r/s0<r≤sϵr=0]]>其中,ε是一個十分小的數(shù),一般取值0.0001,對應(yīng)嚴(yán)格搜索的情況。s是r的最大取值。如果按照前述讀取精度控制參數(shù)步驟中所述,s=10。
然后,參照圖18調(diào)整檢索范圍的位置,得到在特征空間該維上一個包含檢索點x且位于W內(nèi)的區(qū)間w,使得x盡可能地位于的w中點。記w的邊界分別為ai和bi。
利用SR-樹程序包中HnRect的方法SetRange設(shè)定檢索范圍,即對第i維rect.SetRange(ai,HnRange∷INCLUSIVE,bi,HnRange∷INCLUSIVE,i).
其中,HnRange∷INCLUSIVE是軟件包中定義的常數(shù)。
B.范圍查找(Range Search)。
根據(jù)A.中設(shè)定的檢索范圍,逐個從特征空間索引113中返回相似對象的全局位置特征GLF,形成該樣本成員的相似對象集合。具體算法如下i)調(diào)用HnSRTreeFile對象File的GetFirst方法,返回第一個近似對象的GLF;ii)將該GLF并入結(jié)果集合iii)反復(fù)調(diào)用HnSRTreeFile對象File的GetNext方法,返回下一個近似對象的GLF。將該GLF并入結(jié)果集合,直至返回參數(shù)中Key.isValid()測試為假。
(6)處理查找結(jié)果123對檢索樣本的所有成員對象,它們的近似對象的GLF集合被匯集成一簇,傳給驗證約束條件模塊124。
(7)驗證約束條件124所謂約束條件,即是在121中檢索者所標(biāo)定對象元素的相對順序。具體驗證過程如下A.令檢索樣本包含M個成員對象,按其相對順序依次記以e1,e2,…,eM,從506得到的簇中的M個GLF表記以L1,L2,…,LMB.將L1作為L,用下標(biāo)i從2以增量1循環(huán)至M,執(zhí)行CC.對L中的每一個元素e,設(shè)其GLF為j,如果Li中不存在GLF為j+i-1的對象,則將e從L中刪去
D.循環(huán)結(jié)束時L中保留的結(jié)果就是檢索結(jié)果的第一個元素列表。
(8)在頁面圖象上標(biāo)記檢索結(jié)果508逐個從127的檢索結(jié)果中取出首元素的GLF,以此為索引,查找特征表112,確定檢索結(jié)果首元素的頁面編號和頁面內(nèi)坐標(biāo)。在頁面圖象上粘貼附加標(biāo)記如紅色圓點,標(biāo)示由此開始的連續(xù)M個對象。當(dāng)本頁從偏移量開始不足M個對象時,從次頁首部開始標(biāo)記剩余對象。
(9)頁面圖象顯示/瀏覽125設(shè)立首項標(biāo)記、前項標(biāo)記、后項標(biāo)記、末項標(biāo)記等跳轉(zhuǎn)按鈕,結(jié)合普通的首頁、前頁、后頁和末頁瀏覽按鈕,提供檢索者觀察檢索結(jié)果和觀察其上下文的功能。
權(quán)利要求
1.一種中文古籍?dāng)?shù)字化及內(nèi)容檢索的方法,其特征在于,它由一次性完成的特征空間組織(100)處理階段和可多次重復(fù)的相繼的古藉內(nèi)容檢索(120)處理階段組成;所述的特征空間組織處理(100)階段包括以下步驟通過掃描和預(yù)處理模塊(101)產(chǎn)生頁面圖和將它存入頁面圖象庫(111),同時通過骨架傳給后續(xù)的提取特征模塊(102)以將頁面圖象中的對象分解為獨立圖象的有序集合;通過提取特征模塊(102)將所述對象的有序集合分離成頁面特征,對象全局位置特征和形態(tài)特征向量并將這些特征保存在特征表(112)中;通過索引特征模塊(103)組織所述全局位置特征和形態(tài)特征向量并保存于數(shù)據(jù)結(jié)構(gòu)特征空間索引模塊(113);通過數(shù)據(jù)結(jié)構(gòu)特征空間索引模塊(113)對形態(tài)特征向量進行視覺相似性聚類以及排除與檢索點不相似的文字符號圖象以及通過調(diào)整精度控制參數(shù)確定特征空間索引模塊(113)中的搜索范周,以將其全局位置特征反饋;所述內(nèi)容檢索(120)階段包括以下步驟通過標(biāo)定檢索樣本模塊(121)設(shè)定頁面圖象的頁面坐標(biāo)和坐標(biāo)序列的順序以形成檢索樣本,并將座標(biāo)序列的順序作為約束條件傳給驗證約束條件模塊(124)通過獲取特征模塊(122)將頁面坐標(biāo)序列作為條件從特征表(112)中確定頁面圖象的具體對象,以獲得與對象相對應(yīng)的形態(tài)特征向量;通過近似查詢模塊(123)以形態(tài)特征向量為參考點尋找最近鄰元素以構(gòu)成參考點的相似對象集合;并將對應(yīng)的相似對象集合組成全局位置特征集簇傳遞給驗證約束條件模塊(124);由驗證約束條件模塊(124)根據(jù)所述約束條件檢驗集簇元素的有效組合,以形成檢索結(jié)果;以及通過顯示/瀏覽檢索結(jié)果模塊(125)將檢索結(jié)果顯現(xiàn)在檢索者的客戶機屏幕(206b)上并根據(jù)所述搜索范圍的全局位置特征反饋結(jié)果對精度控制參數(shù)調(diào)整。
2.一種實現(xiàn)如權(quán)利要求1所述的檢索方法的系統(tǒng),包括服務(wù)器(200a)和客戶機(200b);所述服務(wù)器包括中央處理機(202a)、隨機存儲器(203a)、硬盤(204a)、鍵盤(205a)、顯示器(206a)、網(wǎng)絡(luò)連接設(shè)備(207b),掃描儀(208)和指示設(shè)備(209a);所述客戶機包括中央處理器(202b)、主存儲器(203b)、硬盤或只讀存儲器(204b)、鍵盤(205b)、顯示器(206b)、網(wǎng)絡(luò)連接設(shè)備(207b)和指示設(shè)備(209b);其特征在于所述服務(wù)器(200a、200b)的硬盤(204b)含有永久性存儲計算機操作系統(tǒng)檢索應(yīng)用軟件、頁面圖象和特征空間索引文件;它們由下列模塊組成掃描和預(yù)處理模塊(101);提取特征模塊(102);索引特征模塊(103);數(shù)據(jù)結(jié)構(gòu)特征空間索引模塊(113);標(biāo)定檢索樣本模塊(121);獲取特征模塊(122);查詢近似模塊(123);驗證約束條件模塊(124);和顯示/瀏覽檢索結(jié)果模塊(125)。
3.如權(quán)利要求2所述的系統(tǒng),其特征在于所述的掃描儀(208)是一種數(shù)字化的掃描儀。
4.如權(quán)利要求2或3所述的系統(tǒng),其特征在于所述服務(wù)器(200a)和客戶機(200b)連接于網(wǎng)絡(luò)(210)。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于所述的網(wǎng)絡(luò)(210)是廣域網(wǎng)。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于所述客戶機(200a)與服務(wù)器之間的通信遵循HTTP協(xié)議。
7.如權(quán)利要求4所述的系統(tǒng),其特征在于所述網(wǎng)絡(luò)是局域網(wǎng)。
8.如權(quán)利要求2或3所述的系統(tǒng),其特征在于所述服務(wù)器(200a)和客戶機(200b)是同一臺機器;網(wǎng)絡(luò)連接設(shè)備(207a、207b)采用loopback適配器。
9.如權(quán)利要求2或3所述的系統(tǒng),其特征在于所述服務(wù)器的計算機操作系統(tǒng)是Windows95/Windows98(Microsoft商標(biāo))、MacOSC Apple商標(biāo))、Unix的各種版本之一。
全文摘要
本發(fā)明建立以視覺相似性為基礎(chǔ)的計算機古籍內(nèi)容檢索方法和檢索系統(tǒng)。設(shè)計按照古跡書寫規(guī)則所確定的對象線性序編號位置特征、頁面編號和頁面內(nèi)各對象的幾何坐標(biāo)構(gòu)成的頁面特征、多級重心分劃區(qū)域筆畫因素累計值形態(tài)特征和相應(yīng)的提取技術(shù);提出任意檢索點標(biāo)定方法和提高匹配精度的約束驗證技術(shù);創(chuàng)立以及允許檢索者在檢索階段利用搜索精度控制參數(shù)權(quán)衡查全率與查準(zhǔn)率,實現(xiàn)即時選擇對象形態(tài)至對象語義映射的動態(tài)調(diào)整方法。發(fā)明中優(yōu)化組合圖象處理、高維特征空間索引和上述技術(shù),用通用計算機及相關(guān)外部設(shè)備,實現(xiàn)軟/硬件合一的中文古籍?dāng)?shù)字化和內(nèi)容檢索系統(tǒng)。達到直接在頁面圖象上自動完成的、支持任意檢索點的計算機古籍內(nèi)容檢索技術(shù)效果。
文檔編號G06F17/30GK1336604SQ0011954
公開日2002年2月20日 申請日期2000年8月1日 優(yōu)先權(quán)日2000年8月1日
發(fā)明者施伯樂, 張亮, 王勇, 陳智峰, 印峻, 陳國梁, 舒韻宏, 焦宇翔 申請人:復(fù)旦大學(xué), 上海金鑫計算機系統(tǒng)工程有限公司