国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      掃描版文件在小屏幕設(shè)備智能分版的方法及裝置的制造方法

      文檔序號:9751298閱讀:286來源:國知局
      掃描版文件在小屏幕設(shè)備智能分版的方法及裝置的制造方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及一種計(jì)算機(jī)信息處理領(lǐng)域的模式識別和版面分析技術(shù),具體涉及一種掃描版文件在小屏幕設(shè)備智能分版的方法及裝置。
      【背景技術(shù)】
      [0002]目前,掃描版文件在小屏幕設(shè)備上進(jìn)行閱讀時(shí),由于可視區(qū)域較小而原始文檔版面較大,為了方便閱讀一般都采用OCR技術(shù)轉(zhuǎn)成流式文檔(比如EPub)后再進(jìn)行閱讀。但是將版式文檔轉(zhuǎn)成流式文檔的過程中會不可避免地發(fā)生信息丟失,而且一些排版比較復(fù)雜、嚴(yán)謹(jǐn)?shù)奈臋n在轉(zhuǎn)換過程信息丟失尤甚。
      [0003]如果只對版式文檔進(jìn)行放大再閱讀,則需要在閱讀過程中不斷左右上下拖動,閱讀體驗(yàn)很差,而且也不便于用戶積極讀取所需要的信息。

      【發(fā)明內(nèi)容】

      [0004]本發(fā)明是為了解決上述課題而進(jìn)行的,目的在于提供一種掃描版文件在小屏幕設(shè)備閱讀的方法及裝置。
      [0005]本發(fā)明提供了一種掃描版文件在小屏幕設(shè)備智能分版的方法,具有這樣的特征,包括以下步驟:(i)利用OCR技術(shù)從掃描版文件的版面中提取文件的基本內(nèi)容的信息;(ii)從信息中分別識別出文件中的版心信息、頁眉頁腳信息、頁碼信息以及分隔符信息,版心信息包括文本信息、圖像信息、表格信息以及公式信息;(iii)過濾掉頁眉頁腳信息、頁碼信息以及分隔符信息,保留版心信息;(iv)使用閱讀順序排序算法對版心信息進(jìn)行閱讀順序的排序;(V)版心信息為母信息,根據(jù)設(shè)定將母信息切割成子信息;(vi)將子信息進(jìn)行二次排序后輸出。
      [0006]在本發(fā)明提供的掃描版文件在小屏幕設(shè)備智能分版的方法中,還可以具有這樣的特征:其中,步驟(V)中,切割母信息的設(shè)定為:(a)識別出公式信息、圖像信息以及表格信息,并對其采取不切割處理;(b)對文本信息進(jìn)行切割:依照文本信息中的段落,切割文本信息,得到文本信息的段落子信息。
      [0007]在本發(fā)明提供的掃描版文件在小屏幕設(shè)備智能分版的方法中,還可以具有這樣的特征:其中,對文本信息的段落子信息還可進(jìn)行二次切割:對段落子信息中行的寬度超過設(shè)定閾值的文本信息依照順序進(jìn)行拆行、斷行處理,使其拆分后的寬度小于設(shè)定閾值。
      [0008]在本發(fā)明提供的掃描版文件在小屏幕設(shè)備智能分版的方法中,還可以具有這樣的特征:其中,設(shè)定閾值是人工設(shè)定或系統(tǒng)自動設(shè)定。
      [0009]本發(fā)明提供了一種在小屏幕設(shè)備使用掃描版文件的裝置,具有這樣的特征,包括:識別掃描版文件模塊,用于讀取掃描版文件所承載的信息;智能分版模塊,用于對掃描版文件進(jìn)行智能分版;閱讀終端,用于呈現(xiàn)智能分版模塊重新分版后的信息。其中,智能分版模塊對掃描版文件智能分版采用以上任意一種方法。
      [0010]發(fā)明的作用和效果
      [0011]本發(fā)明所涉及的掃描版文件在小屏幕設(shè)備智能分版的方法,因?yàn)橥ㄟ^分析掃描版文件中版面上內(nèi)容的位置和排版信息,重新對版面中的元素進(jìn)行切分和重組,快速高效的對版面進(jìn)行重排,所以,本發(fā)明的掃描版文件在小屏幕設(shè)備智能分版的方法保證了在小屏幕上閱讀掃描版文件既不遺失主要信息又提高閱讀體驗(yàn)的目的。
      【附圖說明】
      [0012]圖1是本發(fā)明的實(shí)施例的流程不意圖;
      [0013]圖2是本發(fā)明的實(shí)施例中掃描版文件圖;
      [0014]圖3是本發(fā)明的實(shí)施例中提取版心信息的示意圖;
      [0015]圖4是本發(fā)明的實(shí)施例中第一次切割版心信息的示意圖;
      [0016]圖5是本發(fā)明的實(shí)施例中第二次切割版心信息的示意圖;以及
      [0017]圖6(a)和圖6(b)是本發(fā)明的實(shí)施例中最后輸出的文件示意圖。
      【具體實(shí)施方式】
      [0018]為了使本發(fā)明實(shí)現(xiàn)的技術(shù)手段、創(chuàng)作特征、達(dá)成目的與功效易于明白了解,以下實(shí)施例結(jié)合附圖對本發(fā)明掃描版文件在小屏幕設(shè)備智能分版的方法及裝置作具體闡述。
      [0019]圖1是本實(shí)施例的流程不意圖。
      [0020]如圖1所示,本實(shí)施例包含以下步驟:
      [0021](i)利用OCR技術(shù)從掃描版文件的版面中提取文件的基本內(nèi)容的信息;
      [0022](ii)從信息中分別識別出文件中的版心信息、頁眉頁腳信息、頁碼信息以及分隔符信息,版心信息包括文本信息、圖像信息、表格信息以及公式信息;
      [0023](iii)過濾掉頁眉頁腳信息、頁碼信息以及分隔符信息,保留版心信息;
      [0024](iv)使用閱讀順序排序算法對版心信息進(jìn)行閱讀順序的排序;
      [0025](V)版心信息為母信息,根據(jù)設(shè)定將母信息切割成子信息:
      [0026](a)識別出所述公式信息、圖像信息以及表格信息,并對其采取不切割處理;
      [0027](b)對所述文本信息進(jìn)行切割:依照所述文本信息中的段落,切割所述文本信息,得到所述文本信息的段落子信息,然后對文本信息的段落子信息進(jìn)行二次切割,對段落子信息中行的寬度超過設(shè)定閾值的文本信息依照順序進(jìn)行拆行、斷行處理,使其拆分后的寬度小于設(shè)定閾值;
      [0028](vi)將子信息進(jìn)行二次排序后輸出。
      [0029]圖2是本實(shí)施例中掃描版文件圖;圖3是本實(shí)施例中提取版心彳g息的不意圖;圖4是本實(shí)施例中第一次切割版心信息的示意圖;圖5是本實(shí)施例中第二次切割版心信息的示意圖;以及圖6(a)和圖6(b)是本實(shí)施例中最后輸出的文件示意圖。
      [0030]如圖2?6所示,讀取掃描版文件的基本內(nèi)容的信息;
      [0031 ]利用OCR技術(shù)從信息中分別識別出文件中的版心信息、頁眉頁腳信息、頁碼信息以及分隔符信息,版心信息包括文本信息、圖像信息、表格信息以及公式信息;
      [0032]過濾掉頁眉頁腳信息、頁碼信息以及分隔符信息,保留版心信息;
      [0033]使用閱讀順序排序算法對版心信息進(jìn)行閱讀順序的排序;
      [0034]以版心信息為母信息,根據(jù)設(shè)定將母信息切割成子信息:
      [0035](a)識別出所述公式信息、圖像信息以及表格信息,并對其采取不切割處理;(b)對所述文本信息進(jìn)行切割:依照所述文本信息中的段落,切割所述文本信息,得到所述文本信息的段落子信息,然后對文本信息的段落子信息進(jìn)行二次切割,對段落子信息中行的寬度超過設(shè)定閾值的文本信息依照順序進(jìn)行拆行、斷行處理,使其拆分后的寬度小于設(shè)定閾值(設(shè)定閾值可以是系統(tǒng)自動設(shè)定,也可以是根據(jù)使用者的習(xí)慣人工設(shè)定,本實(shí)施例中設(shè)定的閾值為每行不超過19個(gè)字);將子信息進(jìn)行整合,二次排序后輸出。
      [0036]此外,本實(shí)施例的方法可以用在小屏幕設(shè)備使用掃描版文件的裝置上。該裝置包括:識別掃描版文件模塊,用于讀取掃描版文件所承載的信息;智能分版模塊,用于對掃描版文件進(jìn)行智能分版;閱讀終端,用于呈現(xiàn)智能分版模塊重新分版后的信息。智能分版模塊采用本實(shí)施例方法處理掃描版文件。
      [0037]實(shí)施例的作用與效果
      [0038]本實(shí)施例所涉及的掃描版文件在小屏幕設(shè)備智能分版的方法,因?yàn)橥ㄟ^分析掃描版文件中版面上內(nèi)容的位置和排版信息,重新對版面中的元素進(jìn)行切分和重組,快速高效的對版面進(jìn)行重排,所以,本實(shí)施例的掃描版文件在小屏幕設(shè)備智能分版的方法保證了在小屏幕上閱讀掃描版文件既不遺失主要信息又提高閱讀體驗(yàn)的目的。
      [0039]以上實(shí)施例僅為本發(fā)明構(gòu)思下的基本說明,不對本發(fā)明進(jìn)行限制。而依據(jù)本發(fā)明的技術(shù)方案所作的任何等效變換,均屬于本發(fā)明的保護(hù)范圍。
      【主權(quán)項(xiàng)】
      1.一種掃描版文件在小屏幕設(shè)備智能分版的方法,其特征在于,包括以下步驟: (i)利用OCR技術(shù)從所述掃描版文件的版面中提取文件的基本內(nèi)容的信息; (ii)從所述信息中分別識別出所述文件中的版心信息、頁眉頁腳信息、頁碼信息以及分隔符信息,所述版心信息包括文本信息、圖像信息、表格信息以及公式信息; (iii)過濾掉頁眉頁腳信息、頁碼信息以及分隔符信息,保留所述版心信息; (iv)使用閱讀順序排序算法對所述版心信息進(jìn)行閱讀順序的排序; (V)所述版心信息為母信息,根據(jù)設(shè)定將所述母信息切割成子信息; (vi)將所述子信息進(jìn)行二次排序后輸出。2.根據(jù)權(quán)利要求1所述的掃描版文件在小屏幕設(shè)備智能分版的方法,其特征在于: 其中,步驟(V)中,切割母信息的設(shè)定為: (a)識別出所述公式信息、圖像信息以及表格信息,并對其采取不切割處理; (b)對所述文本信息進(jìn)行切割:依照所述文本信息中的段落,切割所述文本信息,得到所述文本信息的段落子信息。3.根據(jù)權(quán)利要求2所述的掃描版文件在小屏幕設(shè)備智能分版的方法,其特征在于: 其中,對所述文本信息的段落子信息還可進(jìn)行二次切割:對所述段落子信息中行的寬度超過設(shè)定閾值的文本信息依照順序進(jìn)行拆行、斷行處理,使其拆分后的寬度小于設(shè)定閾值。4.根據(jù)權(quán)利要求3所述的掃描版文件在小屏幕設(shè)備智能分版的方法,其特征在于: 其中,所述設(shè)定閾值是人工設(shè)定或系統(tǒng)自動設(shè)定。5.—種在小屏幕設(shè)備使用掃描版文件的裝置,其特征在于,包括: 識別掃描版文件模塊,用于讀取所述掃描版文件所承載的信息; 智能分版模塊,用于對所述掃描版文件進(jìn)行智能分版; 閱讀終端,用于呈現(xiàn)所述智能分版模塊重新分版后的信息, 其中,所述智能分版模塊對所述掃描版文件智能分版采用權(quán)利要求1?4中任意一種方法。
      【專利摘要】本發(fā)明公開了一種掃描版文件在小屏幕設(shè)備閱讀的方法及裝置。通過分析掃描版文件中版面上內(nèi)容的位置和排版信息,重新對版面中的信息進(jìn)行切分和重組,能快速高效的對版面進(jìn)行重排,使重排后的版面更適合在小屏幕上閱讀。從宏觀上看整個(gè)文檔版面重排了,更適合小屏幕閱讀,從微觀上看,切出來的每一塊內(nèi)容都和原始版面一模一樣,避免了信息的丟失。這也為小屏幕設(shè)備上閱讀電子文檔提供了一種新的思路。
      【IPC分類】G06F17/25, G06K9/00
      【公開號】CN105512647
      【申請?zhí)枴緾N201610035391
      【發(fā)明人】張曉博, 張斌
      【申請人】同方知網(wǎng)(北京)技術(shù)有限公司, 《中國學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司, 同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司
      【公開日】2016年4月20日
      【申請日】2016年1月19日
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1