国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文檔處理裝置和文檔處理方法

      文檔序號:6539478閱讀:122來源:國知局
      文檔處理裝置和文檔處理方法
      【專利摘要】本發(fā)明提供一種文檔處理裝置和文檔處理方法。文檔處理裝置對于文檔圖像數(shù)據(jù)執(zhí)行圖像處理,從而提取字符信息并使用字符信息來分配文檔名稱。所述文檔處理裝置包括:獲取單元,用于獲取在顯示單元上可顯示的字符的字符碼;確定單元,用于從字符信息確定作為文檔名稱的基礎的文檔名稱字符串;形成單元,用于基于獲取的字符碼形成確定的文檔名稱字符串。
      【專利說明】文檔處理裝置和文檔處理方法
      [0001]相關(guān)申請的交叉參考
      [0002]本申請主張于2013年3月12日在日本遞交的日本專利申請N0.2013-049572的優(yōu)先權(quán)并且通過參考將其整個內(nèi)容合并于此。

      【技術(shù)領域】
      [0003]本發(fā)明涉及文檔處理裝置和文檔處理方法。

      【背景技術(shù)】
      [0004]使用如日期和序列號的自動生成的字符串來自動命名文檔的技術(shù),作為當存儲掃描的文檔圖像數(shù)據(jù)時執(zhí)行的自動文檔命名方法是眾所周知的。另一個現(xiàn)有命名技術(shù)是通過組合如日期和序列號的自動生成的字符串和由用戶預先指定的固定字符串,來命名文檔。然而由從日期或序列號自動生成字符串構(gòu)成的文檔名稱不能表示文檔的內(nèi)容并且除非實際觀看了文檔圖像數(shù)據(jù),否則難以知曉文檔的內(nèi)容。此外,使用用于命名文檔的固定字符串的技術(shù)需要提前輸入固定字符串的步驟。因此,為了掃描由大量文檔構(gòu)成的文檔,需要在每次掃描文檔時輸入固定字符串,這種操作是麻煩的。
      [0005]為解決前述問題,現(xiàn)有技術(shù)采用光學字符辨別(OCR)來從文檔圖像數(shù)據(jù)提取字符信息并隨后從字符信息提取標題(例如參見日本公開專利公告N0.2007-122403、日本公開專利公告N0.2008-077454以及日本公開專利公告N0.2002-297629),從而能夠分配表示文檔的內(nèi)容的文檔名稱。
      [0006]如果由命名文檔的設備使用的字符碼系統(tǒng)與顯示文檔名稱的設備的字符碼系統(tǒng)不同,當顯示文檔名稱時發(fā)生所謂的“字符損壞”,則結(jié)果導致不能正確地顯示文檔名稱的情形。當在文檔名稱中發(fā)生字符損壞時,不能獲得知曉文檔內(nèi)容的線索,這降低了當顯示時對于用戶的可用性。
      [0007]為了防止發(fā)生文檔名稱的字符損壞,用于命名的設備需要知曉用于顯示的設備的字符碼系統(tǒng)。但是經(jīng)常難以識別用于顯示的設備,例如當在便攜式記錄介質(zhì)中存儲文檔圖像數(shù)據(jù)時并將該文檔圖像數(shù)據(jù)用于另一個設備時。如果用于顯示的設備是提前可識別的,則用于命名的設備可以通過指定在命名文檔中使用的字符碼來處理這個問題。但是每次掃描文檔時,這種途徑需要指定字符碼的操作,這降低了用于命名的設備的可用性。
      [0008]鑒于前述情形,存在提供可以防止文檔名稱的字符損壞并提高對于用戶的可用性的文檔處理裝置和文檔處理方法的需要。


      【發(fā)明內(nèi)容】

      [0009]本發(fā)明的目的是至少部分地解決在傳統(tǒng)技術(shù)中的問題。
      [0010]一種文檔處理裝置,用于對文檔圖像數(shù)據(jù)執(zhí)行圖像處理從而提取字符信息并使用字符信息來分配文檔名稱,所述文檔處理裝置包括:獲取單元,用于獲取在顯示單元上可顯示的字符的字符碼;確定單元,用于從字符信息確定作為文檔名稱的基礎的文檔名稱字符勺另一個示例性的操作屏幕的圖示;
      3部配置的方框圖;
      9 ;
      I的流程圖;
      勺又一個示例性的操作屏幕的圖示;
      勺硬件配置的圖示;以及的系統(tǒng)配置的圖示。
      勺文檔處理裝置和文檔處理方法。實施例的的附圖標記來識別類似或?qū)牟糠帧?br> 里裝置1的示例性的主功能配置的方框圖;2、文檔饋送單元11、文檔掃描單元13、操作陽文檔掃描單元13輸入要被文檔處理單元列性的顯示單元。:取標題字符串的可能技術(shù)可以通過確定字該字符串在水平寫入格式下置于該頁圖像像內(nèi)頁的右端部分。另一個提取標題字符字符尺寸的要點來通過確定字符串是標題標題字符串具有最大的字符尺寸。此外,包?構(gòu)成的字符串更有用。因此可以使用在語尋離語法規(guī)則的字符串的技術(shù)。又一種可能素,如圖像內(nèi)的位置和語法分析結(jié)果,從而2符串。
      民創(chuàng)建要被用作文檔捆數(shù)據(jù)的名稱(文檔名:儲部6。.的文檔名稱并以文檔捆為單元在其中存儲即構(gòu)成文檔捆的頁的文檔圖像數(shù)據(jù)被存儲暖,這些步驟通過文檔饋送單元11、掃描文理的文檔處理單元2同時在文檔處理裝置符串的適合性以表示對應頁內(nèi)容并且排列候選。通過將每個標題字符串候選與其評價排名關(guān)聯(lián)起來在此后創(chuàng)建標題候選信息并且隨后將標題候選信息添加到OCR處理結(jié)果。
      [0038]當完成標題提取處理時,重新執(zhí)行步驟S10。如果在文檔臺上的所有文檔頁都已被掃描并且沒有更多要被掃描的文檔頁(在步驟SlO中的“否”),則執(zhí)行步驟S50。此時對構(gòu)成文檔捆的每個文檔頁已經(jīng)提取了用于標題字符串的多個候選。
      [0039]在步驟S50,文檔命名部5基于OCR處理結(jié)果的標題候選信息執(zhí)行文檔命名處理并創(chuàng)建文檔名。將隨后詳細描述文檔命名處理。例如,簡要地,在步驟S40從文檔捆的第一頁的文檔圖像數(shù)據(jù)提取的用于標題字符串的候選之中,將在評價排名中排名第一的文檔字符串候選選擇作為文檔名稱字符串,用于文檔名稱的基礎。
      [0040]此后文檔存儲部6執(zhí)行文檔存儲處理,來使用在步驟S50創(chuàng)建的文檔名稱將每個頁的文檔圖像數(shù)據(jù)與OCR處理結(jié)果一起存儲在其中作為文檔捆數(shù)據(jù)(步驟S60)。此時,在步驟S50創(chuàng)建的文檔名稱作為用于文檔捆數(shù)據(jù)的文件名稱使用。
      [0041]此處注意到如上所述文檔處理單元2從作為OCR處理結(jié)果所獲取的文本數(shù)據(jù)創(chuàng)建文檔名稱。這表明文檔名稱的字符碼是OCR處理結(jié)果的字符碼。例如,這涉及文檔名稱的字符碼(OCR處理結(jié)果的字符碼)和由其中顯示文檔名稱的計算機系統(tǒng)可顯示的字符碼之間不符的問題。尤其如果文檔名稱的字符碼與通過計算機系統(tǒng)可顯示的字符碼不同,則所謂“字符損壞”可能出現(xiàn)在文檔名稱中,以至于文檔名稱被現(xiàn)實為人類無法理解的無意義符號串。字符損壞不僅導致不能獲取知曉文檔內(nèi)容的線索,還由于顯示的無意義符號串看起來是荒謬的而很大地降低了可用性。
      [0042]例如,假設只能顯示歐洲語言的計算機系統(tǒng)顯示具有將日本SJIS碼設置為其字符碼的文檔名稱。以無意義的單字節(jié)符號串顯示每個以兩字節(jié)表示的字符。
      [0043]作為另一個例子,能顯示SJIS碼的計算機系統(tǒng)對于西班牙詞語“te’ le’ phone”(e’:具有尖音符的e)顯示“t駘駱hone”。這由于如下原因:具體地,“e’(0xE9) ”是跟隨有“ I (0x6C) ”或“ P (0x70) ”作為第二字節(jié)的第一字節(jié),這導致“ e ’ I (0xEg0x6C) ”和“e’ P (0xE90x70) ”分別符合日本漢字字符“駘”和“駱”。
      [0044]以這種方式,如果文檔名稱的字符碼與在顯示文檔名稱的設備上,如計算機系統(tǒng),可顯示的字符碼不同,則不能正確地顯示文檔名稱。這種現(xiàn)象不僅發(fā)生在執(zhí)行自動文檔命名處理的文檔處理裝置I上顯示文檔名稱的時侯,也發(fā)生在不同于文檔處理裝置I的設備中顯示文檔名稱的同時使用文件捆數(shù)據(jù)來瀏覽、編輯和進行其他任務的時候。
      [0045]在下面兩種代表性情況下,可能在另一個設備中使用在文檔處理裝置I的文檔存儲部6中存儲的文檔捆數(shù)據(jù):兩種情況具體為:(I)執(zhí)行郵件傳送,其中將文檔捆數(shù)據(jù)附加在電子郵件消息上作為附加文件并發(fā)送到另一個設備;以及(2)執(zhí)行文件夾傳送,其中使用例如SMB協(xié)議來將文檔捆數(shù)據(jù)寫入另一個設備的存儲設備。
      [0046]如上述情況(I)和(2)所代表的,當假設將文檔捆數(shù)據(jù)傳送到另一個設備并由另一個設備使用時,需要考慮到在目的地設備上可顯示的字符碼。如果在目的地的設備是固定的或另外已知時,提前設置在存疑的設備上可顯示的字符碼。如果在目的地的設備可以顯示日語,則例如可以使用SJIS碼??蛇x地,如果在目的地的設備可以顯示法語,則例如可以使用拉丁-1字符碼。
      [0047]與此相反,如果在目的地的設備可以是任何類型的設備并且未知,則難以提前知可能被設置為在文檔處理裝置1中的操作示字符碼”)并且在自身計算機環(huán)境下很可用于命名的設備的用戶與在目的地的設備司的相同部門。例如恰當理想的情況是,在1所獲取的文檔捆數(shù)據(jù)。在這種情況下,很對于屬于對應部門的所有雇員是都是滿意I相同的字符碼。
      ?碼的規(guī)則時,考慮操作顯示單元15的顯碼中反映用戶的喜好。例如,如果操作顯碼),則考慮用戶喜好文檔名稱的日語記法自動確定授權(quán)操作顯示單元15的顯示字符&改善用戶友好性。
      15上顯示的示例性的操作屏幕的圖示。圖為操作顯示單元15的顯示字符碼時示例性I字符碼(例如八XII碼)被設置為操作顯示操作單元字符碼獲取部分551、文件名稱禁含名生成部分553。字符串形成部55形成從字符串。
      I為操作顯示單元15的顯示字符碼的字符:碼類型輸出到操作單元字符碼適用的文檔部分553基于從操作單元字符碼獲取部分爾字符串確定部53向其輸入的文檔名稱字:新的文檔名稱字符串。將生成的文檔名稱
      ;一和第二字符碼限制與用于建立確定上述&用可打印八碼的方法對應。
      6單元15的顯示字符碼作為命名字符碼并于顯示字符碼的字符。當如通過第一字符第二字符碼限制將可轉(zhuǎn)換到授權(quán)的顯示字技術(shù)來自動生成如日期和序列號的字符串,從而創(chuàng)建新的文檔名稱字符串。如果留下部分或所有字符,則操作單元字符碼適用的文檔名稱生成部分553設置部分或所有的字符作為新的文檔名稱字符串。
      [0066]施加第二字符碼限制僅留下那些已經(jīng)被轉(zhuǎn)換到作為顯示字符碼類型的ASCII碼的字符。由此對于文件名稱字符串(a),操作單元字符碼適用的文檔名稱生成部分553轉(zhuǎn)換留下作為可以轉(zhuǎn)換到ASCII碼(單字節(jié))的字符的“Q&A”并且隨后生成如下(al)作為新的文檔名稱字符串。對于文件名稱字符串(b),操作單元字符碼適用的文檔名稱生成部分553轉(zhuǎn)換留下作為可以轉(zhuǎn)換到ASCII碼(單字節(jié))的字符的“177674”并且隨后生成如下(bl)作為新的文檔名稱字符串。
      [0067]Q&A…(al)
      [0068]177674…(bl)
      [0069]將如下描述第三字符碼限制。ASCII碼提供了用于ISO標準的基礎,7-比特字符碼IS0/IEC646。在8-比特字符碼IS0/IEC8859已經(jīng)在其后變成主流之后,全球使用的用于各種類型字符的許多編碼系統(tǒng)將其他字符分配為不用于ASCII碼的128和之前的碼值。在第三字符碼限制中使用的可打印ASCII碼字符構(gòu)成不包括控制碼的ASCII碼的字符集。具體地,可打印ASCII字符包括作為ASCII32 (十進制數(shù))的空字符以及單字節(jié)字母數(shù)字字符、標點符號和作為ASCII33 (十進制數(shù))至126 (十進制數(shù))的符號。如此可打印ASCII碼是在全球使用的所有字符碼中的最基本字符集。由此許多計算機系統(tǒng)可以顯示可打印的ASCII碼字符串。
      [0070]當假設通過多個計算機系統(tǒng)使用文檔捆數(shù)據(jù)時,優(yōu)選采用第三字符碼限制。甚至當假設單計算機系統(tǒng)使用文檔捆數(shù)據(jù)時,第三字符碼限制仍然是適合采用的。這是因為如下原因:即,通過計算機系統(tǒng)可顯示的字符碼不需要匹配在計算機系統(tǒng)中存儲的文檔捆數(shù)據(jù)中包括的文本數(shù)據(jù)的字符碼。由此,可能存在通過計算機系統(tǒng)可顯示的字符碼和文檔名稱字符串的字符碼不匹配,其中文檔名稱字符串是從在文檔捆數(shù)據(jù)中包括的文本數(shù)據(jù)提取的標題字符串候選之一。
      [0071]例如即使只能顯示英語,計算機系統(tǒng)也能可理解地在其中存儲具有日語內(nèi)容(以日語描述)的文檔捆數(shù)據(jù)。然而,如果文檔的內(nèi)容是日語,則以日語命名文檔,其導致當以后使用文檔時文檔名稱的字符損壞。在此種情況下以可打印的ASCII碼命名文檔可以避免文檔名稱的損壞并且不降低可用性。當處理以任何使用重音符號的語言描述的文檔捆時,該重音符號例如為德國元音變音,能避免在不支持重音符號的顯示的計算機系統(tǒng)中損壞文檔名稱。
      [0072]為施加授權(quán)可打印的ASCII碼的第三字符碼限制,操作單元字符碼適用的文檔名稱生成部分553從(a)的文檔名稱字符串轉(zhuǎn)換被留下為可被轉(zhuǎn)換為可打印ASCII碼(單個字節(jié))的“Q&A”,從而生成如下(a2)作為新的文檔名稱字符串。另外,操作單元字符碼適用的文檔名稱生成部分553從(b)的文檔名稱字符串轉(zhuǎn)換被留下位可被轉(zhuǎn)換為可打印ASCII碼(單個字節(jié))的“ 177674”,從而生成如下(b2)作為新的文檔名稱字符串。
      [0073]Q&A." (a2)
      [0074]177674…(b2)
      [0075]通過施加上述字符碼限制,如在(al)、(a2)和(bl)、(b2)中刪除通過文檔名稱字爾的禁止的字符替換為其他不禁止的字符。名稱的上限,則文件名稱禁止施加部分555稱字符串的尾端開始計數(shù)的多余字符的數(shù)?串形成為適于文件名稱的形式。
      稱禁止施加部分555向其輸入的文檔名稱
      3流程圖。文檔處理裝置1依據(jù)圖6所示的1通過與圖2中使用的那些相同的附圖標記輸入并且設置用于文檔捆數(shù)據(jù)的傳送條件5傳送的副本的數(shù)量之外,傳送條件包括文式類型和/或掃描尺寸。此外,操作顯示單符碼類型(步驟32〉。以后執(zhí)行在步驟310
      執(zhí)行了從步驟320到步驟340的所有處理圖7是示出了文檔命名處理的詳細步驟的名稱字符串。由此創(chuàng)建文檔名稱。例如這I設定為操作顯示單元15的顯示字符碼的方止顯示時文檔名稱的損壞,而不引起在命0卜命名文檔以便其是用戶最滿意的。用戶可以通過參考文檔名稱來簡單地選擇需要戶且可觀地改善了用戶的可用性。
      用戶恰當?shù)匦薷摹>唧w地,文檔處理單元2依據(jù)設置變化操作改變對操作顯示單元15守碼之后,設置用于命名字符碼的改變后的:體地,例如假設對操作顯示單元15設置的3法的情況。即便通過這些設置來掃描以任文檔捆,也可以將對操作顯示單元15設置的語目命名文檔。
      ?文檔捆數(shù)據(jù)傳送到外部設備的情況。盡管也在此種情況下授權(quán)操作顯示單元15的顯符碼(例如英語)不同。為了防止在目的地設備中損壞文件名稱,即使在如此情況下,系統(tǒng)需要酌情改變要被授權(quán)的命名字符碼的機制。
      [0092]此處將目的地的地址設置為傳送條件,以將文檔捆數(shù)據(jù)傳送到外部設備。如果要被授權(quán)的命名字符碼需要酌情改變,則可以進行如下布置:具體地,可以施加字符碼限制,該字符碼限制授權(quán)在描述目的地地址中使用的字符碼代替操作顯示單元15的顯示字符碼。
      [0093]在這種情況下,操作單元字符碼獲取部分551執(zhí)行獲取字符碼的類型的步驟來代替在圖7的步驟S53中的步驟,其中該字符碼是在描述目的地地址信息中所使用的字符碼(目的地地址字符碼),該目的地地址信息在圖6的步驟SI中被設置作為目的地地址。在步驟S54中,操作單元字符碼適用的文檔名稱生成部分553施加授權(quán)目的地地址字符碼作為命名字符碼的字符碼限制并執(zhí)行依據(jù)類型生成新的文檔名稱字符串的步驟。
      [0094]圖8是示出了在操作顯示單元15上顯示的又一個示例性的操作屏幕的圖示并且示出了用于設置傳送條件的設置屏幕。圖8中所示的設置屏幕,正如根據(jù)圖3和圖4描述的設置屏幕,用于設置文檔捆數(shù)據(jù)的目的地地址并且列出可選擇為文檔捆數(shù)據(jù)的目的地的目的地地址的信息。在圖8所示的目的地地址的信息的列表中,混合了日語記法的目的地地址的信息以及英語記法的目的地地址的信息。
      [0095]在此種修改的例子中,例如如果選擇描述為〃鈴木〃的目的地地址Al I的信息,則以日語命名對應的文檔(例如字符碼是SJIS碼)。如果選擇描述為“Suzuki”的目的地地址A13的信息,則以英語命名對應的文檔(例如字符碼是ASCII碼)。
      [0096]修改的例子允許依據(jù)選擇的目的地地址信息改變命名字符碼。這消除了每次選擇目的地地址時執(zhí)行手動改變字符碼的繁瑣操作的需要,以便可以簡單地并且恰當?shù)馗淖兠址a。因此除了選擇目的地地址信息以外,用戶不需要執(zhí)行指定命名字符碼的操作。用戶能在他或她選擇目的地地址信息的同時指定要用于命名文檔的字符碼。因為選擇目的地地址信息是需要執(zhí)行的步驟,前述并沒有增加用戶的負擔。
      [0097]此處注意到可以將在描述目的地地址信息的每個地址中要使用的字符碼布置為用戶可酌情改變。在此種情況下,文檔處理單元2作用為改變單元以接收指定目的地地址信息的目的地地址記法改變操作并且依據(jù)目的地地址記法改變操作來改變字符碼以描述對應的目的地地址信息。如此改變用于描述目的地地址信息的字符碼。當其后選擇特定的目的地地址信息時,將改變后的字符碼授權(quán)作為命名字符碼。
      [0098]依據(jù)在這以前描述的實施例也可以通過例如使如個人計算機或工作站的通用計算機與用于掃描文檔捆數(shù)據(jù)的掃描儀或多功能外圍設備連接來執(zhí)行預先準備的計算機程序(文檔控制程序)以獲得文檔處理裝置I。圖9是示出了上面情況中的文檔處理裝置(計算機)的示例性的硬件配置的圖示。在圖9中所示的文檔處理裝置包括CPU (處理器)71、如ROM的存儲器72、硬盤73、鍵盤74、顯示設備75 XD-ROM驅(qū)動器76、FD驅(qū)動器77和通信設備78,它們通過例如系統(tǒng)總線彼此連接以便能夠輸入和輸出數(shù)據(jù)。
      [0099]通過以可安裝格式或可執(zhí)行格式在計算機可讀記錄介質(zhì)上記錄來提供要通過計算機執(zhí)行的文檔處理程序。記錄介質(zhì)的不限定例子包括⑶-ROM、軟盤(FD)、⑶-R和數(shù)字通用光盤(DVD)。注意到還可以配置文檔處理程序以便將其存儲在與如互聯(lián)網(wǎng)的通信線路連接的計算機中并且經(jīng)由通信線路下載該文檔處理程序。也可以配置文檔處理程序以便將其;單元以及作為顯示單元的顯示設備75,則自動確定用于命名文檔的字符碼。
      「并且改善用戶的可用性的效果。
      制列描述了本發(fā)明,所附權(quán)利要求并不由此紀的所有變形和可選擇構(gòu)造,其完全落入在
      【權(quán)利要求】
      1.一種文檔處理裝置,用于對文檔圖像數(shù)據(jù)執(zhí)行圖像處理從而提取字符信息并使用字符信息來分配文檔名稱,所述文檔處理裝置包括: 獲取單元,用于獲取在顯示單元上可顯示的字符的字符碼; 確定單元,用于從字符信息確定作為文檔名稱的基礎的文檔名稱字符串; 形成單元,用于基于獲取的字符碼形成確定的文檔名稱字符串。
      2.根據(jù)權(quán)利要求1所述的文檔處理裝置,其中形成單元將提取的文檔名稱字符串中包括的字符轉(zhuǎn)換為獲取的字符碼的字符。
      3.根據(jù)權(quán)利要求1或2所述的文檔處理裝置,其中獲取單元獲取被設置為顯示單元的顯示字符碼的字符碼。
      4.根據(jù)權(quán)利要求3所述的文檔處理裝置,還包括: 改變單元,用于依據(jù)設置改變操作來改變被設置為顯示單元的顯示字符碼的字符碼的設置。
      5.根據(jù)權(quán)利要求1或2所述的文檔處理裝置,還包括: 傳送單元,用于使顯示單元顯示可選擇為文檔圖像數(shù)據(jù)的目的地的目的地地址的信息的列表,并且依據(jù)從列表中選擇的目的地地址信息將文檔圖像數(shù)據(jù)傳送到外部設備,其中 獲取單元獲取用于所選擇的目的地地址信息的記法的字符碼。
      6.根據(jù)權(quán)利要求5所述的文檔處理裝置,還包括: 改變單元,用于依據(jù)目的地地址記法改變操作來改變用于目的地地址信息的記法的字符碼。
      7.一種文檔處理方法,在文檔圖像數(shù)據(jù)上執(zhí)行圖像處理從而提取字符信息并使用字符信息來分配文檔名稱,所述文檔處理方法包括: 獲取在顯示單元上可顯示的字符的字符碼; 從字符信息確定作為文檔名稱的基礎的文檔名稱字符串; 基于獲取的字符碼形成確定的文檔名稱字符串。
      【文檔編號】G06F17/30GK104050211SQ201410077003
      【公開日】2014年9月17日 申請日期:2014年3月4日 優(yōu)先權(quán)日:2013年3月12日
      【發(fā)明者】大黑慶久 申請人:株式會社理光
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1