專利名稱:一種房產(chǎn)文檔圖像的分類檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種紙質(zhì)文檔電子化、數(shù)字化管理技術(shù),尤其涉及一種房產(chǎn)文檔圖像的分類檢索方法。
背景技術(shù):
房產(chǎn)文檔圖像是指以文字和圖 表為主要內(nèi)容的一類特殊圖像,主要是通過掃描儀等設(shè)備將房產(chǎn)紙質(zhì)檔案轉(zhuǎn)化而來的文檔圖像。一般房產(chǎn)文檔只有固定的幾種類別合同,發(fā)票,身份證復(fù)印件等。每一種類別都有相同的格式。這類圖像數(shù)據(jù)在內(nèi)容、特征提取和檢索目標(biāo)上都有別于一般的自然景物圖像。因此房產(chǎn)文檔圖像分 類與其他圖像分類的不同在于,房產(chǎn)文檔圖像分類不需要真正識別兩篇文檔的字符內(nèi)容,只從其頁面特征就可以判斷這兩篇文檔是否相似。另外,在選擇匹配特征方面也存在一定差異,比如顏色特征在圖像分類中是相當(dāng)流行的特征,而在文檔圖像分類中則很少使用顏色特征。文檔圖像檢索主要分為基于文檔內(nèi)容的檢索和基于文檔圖像特征的檢索。典型的基于特征的圖像檢索技術(shù)有基于文字特征的檢索方法;把文字和非文字分開處理的檢索方法;以及在文檔圖像數(shù)據(jù)庫中使用版面特征進(jìn)行檢索的方法。由于房產(chǎn)檔案自身的特殊性,使用以上幾種方法不能很好地表示房產(chǎn)檔案的段落,提取的特征不能很好地反映文檔本身,從而導(dǎo)致分類檢索結(jié)果不準(zhǔn)確。而且在掃描時,由于掃描的文檔不同,出來的圖像大小可能會不同,而且同樣的文檔在經(jīng)過不同的掃描后得到圖像大小也會不同,也會影響到分類檢索的準(zhǔn)確性。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種針對房產(chǎn)文檔圖像特點的、準(zhǔn)確性高的房產(chǎn)文檔圖像分類檢索方法。本發(fā)明的技術(shù)方案如下一種房產(chǎn)文檔圖像的分類檢索方法,其關(guān)鍵在于按如下步驟進(jìn)行(一 )對原始圖像進(jìn)行預(yù)處理,按以下步驟進(jìn)行步驟一對原始圖像進(jìn)行歸一化處理,得到歸一化圖像;歸一化處理按下式進(jìn)行
權(quán)利要求
1.一種房產(chǎn)文檔圖像的分類檢索方法,其特征在于按如下步驟進(jìn)行 (一)對原始圖像進(jìn)行預(yù)處理,按以下步驟進(jìn)行 步驟一對原始圖像進(jìn)行歸一化處理,得到歸一化圖像;歸一化處理按下式進(jìn)行
2.根據(jù)權(quán)利要求I所述的一種房產(chǎn)文檔圖像的分類檢索方法,其特征在于所述去噪處理采用NXN中值濾波器進(jìn)行,N=3,5,7,…。
全文摘要
本發(fā)明公開了一種房產(chǎn)文檔圖像的分類檢索方法,其特征在于按如下步驟進(jìn)行(一)對房產(chǎn)文檔圖像進(jìn)行預(yù)處理,包括歸一化、二值化、去噪、裁邊四種處理方式,得到預(yù)處理后圖像;(二)對預(yù)處理后圖像進(jìn)行膨脹、取反、細(xì)化處理后提取出段落特征,并結(jié)合局部像素特征,組成綜合特征來共同表征圖像特征;(三)利用SVM支持向量機(jī)對綜合特征進(jìn)行分類訓(xùn)練,得到分類模型,訓(xùn)練時采用RBF核函數(shù),分類算法為SMO算法;(四)利用分類模型對文檔圖像進(jìn)行分類檢索。本發(fā)明的有益效果是分類準(zhǔn)確性高,針對性強(qiáng)。
文檔編號G06K9/54GK102831244SQ20121033863
公開日2012年12月19日 申請日期2012年9月13日 優(yōu)先權(quán)日2012年9月13日
發(fā)明者馬文社, 余建橋, 郭加旋, 況遠(yuǎn)春 申請人:重慶立鼎科技有限公司