国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于驗證的文本識別的方法及裝置的制作方法

      文檔序號:6467123閱讀:128來源:國知局
      專利名稱:基于驗證的文本識別的方法及裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及圖像識別技術(shù),尤其涉及基于驗證的文本識別的方法及裝置。
      背景技術(shù)
      圖像識別技術(shù)包括對圖像中的文本特征進(jìn)行識別,這里將對圖像中文本 特征的識別稱為文本識別,文本特征包括文字、數(shù)字以及符號等。目前,常
      通過計算機(jī)進(jìn)行文本識別,其中又多采用光學(xué)字符識別(OCR, Optical Character Recognition )方法,OCR方法屬于圖型識另'J ( PR , Pattern Recognition)技術(shù)。
      參見圖1,為現(xiàn)有技術(shù)中OCR方法流程圖,該方法包括以下步驟
      步驟101,影像輸入。
      通過掃描儀對含有文本特征的印刷制品等文本圖像進(jìn)行掃描,將掃描后 的圖像輸入計算機(jī)。
      步驟102,計算機(jī)對圖像進(jìn)行影像前處理。
      影像前處理包括將圖像的尺寸調(diào)整為規(guī)范尺寸,以及對圖像進(jìn)行降噪處 理等。
      步驟103,計算機(jī)對圖像進(jìn)行文本特征抽取處理。 計算機(jī)從待識別的圖像中抽取出文本特征。 步驟104,對比識別。
      計算機(jī)將抽取出的文本特征與標(biāo)準(zhǔn)字庫中的文字、數(shù)字以及符號等進(jìn)行 比較,將匹配度最高的文字、數(shù)字以及符號作為抽取出的文本特征的識別結(jié) 果,同時,計算機(jī)還將提供每個識別結(jié)果的正確識別率。
      步驟105,字詞后處理。
      計算機(jī)將正確識別率不高的詞,與標(biāo)準(zhǔn)詞庫中的詞進(jìn)行比較,選擇出標(biāo) 準(zhǔn)詞庫中與該正確識別率不高的詞最能匹配的詞作為該詞的識別結(jié)果。在比
      較過程中,還可同時結(jié)合語法規(guī)則庫判斷與該正確識別率不高的詞最能匹配 的詞,語法規(guī)則庫中包括了字詞組合的規(guī)則。例如,步驟4識別出的"中華 人民共和國" 一詞中,"中華人民共和"的正確識別率為100%,"國"字的 正確識別率只有60%,本步驟根據(jù)標(biāo)準(zhǔn)詞庫和語法^見則庫獲知該正確識別 率為60%的字為"國"字的可能性最大,因此,確定該詞中正確識別率只 有60%的字為"國"。
      步驟106,人工校正。
      本步驟對步驟105得到的識別結(jié)果進(jìn)行人為調(diào)整。根據(jù)人為讀取的習(xí) 慣,調(diào)整步驟105中得到的識別結(jié)果中不準(zhǔn)確的字詞。 步驟107,將最后的識別結(jié)果輸出。
      現(xiàn)有的OCR方法存在以下缺點步驟104和105中涉及計算機(jī)對文本 特征的識別,由于計算機(jī)自身的特點,對某些文本特征無法正確識別,導(dǎo)致 最后的識別結(jié)果的正確識別率較低。

      發(fā)明內(nèi)容
      本發(fā)明提供一種基于驗證的文本識別的方法,該方法能夠提高識別結(jié)果 的正確識別率。
      本發(fā)明提供一種基于驗證的文本識別的裝置,該裝置能夠提高識別結(jié)果 的正確識別率。
      一種基于-瞼i正的文本識別的方法,該方法包括 接收驗證請求;
      將產(chǎn)生的驗證碼片段與待識別的包含文本特征的圖片片段拼合為驗證碼圖 片,傳送給終端;
      接收終端發(fā)送的用戶對驗證碼圖片識別后輸入的用戶識別信息,從用戶識
      別信息中取出圖片片段包含的文本特征,作為所述圖片片段的識別結(jié)果。
      一種基于驗證的文本識別的裝置,該裝置包括拼合模塊和提取模塊; 所述拼合沖莫塊,用于接收驗證請求,將產(chǎn)生的驗證碼片段與待識別的包含
      文本特征的圖片片段拼合為驗證碼圖片,傳送給終端;
      所述提取^t塊,用于接收終端發(fā)送的用戶對驗證碼圖片識別后輸入的用戶 識別信息,從用戶識別信息中取出圖片片段包含的文本特征,作為所述圖片片 段的識別結(jié)果。
      從上述方案可以看出,本發(fā)明在驗證碼驗證過程中,將待識別的圖片片段 包含在驗證碼圖片中,通過人眼進(jìn)行識別,這樣,在得到用戶輸入的驗證碼的 同時,也得到了用戶識別出的圖片片段中的文本特征,實現(xiàn)對待識別圖像中的 文本特征的提取,從而,提高了文本特征的正確識別率。


      圖1為現(xiàn)有技術(shù)中OCR方法流程圖2為現(xiàn)有技術(shù)中的驗證碼圖片實例;
      圖3為本發(fā)明基于驗證的文本識別的方法流程圖4為本發(fā)明基于驗證的文本識別的方法流程圖實例;
      圖5為本發(fā)明基于驗證的文本識別的裝置結(jié)構(gòu)示意圖。
      具體實施例方式
      為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面結(jié)合實施例和 附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。
      現(xiàn)有的OCR技術(shù)中采用計算機(jī)對圖像進(jìn)行識別,由于計算機(jī)自身的特 點,其正確識別率不高;而人眼卻能夠識別出OCR技術(shù)不能夠正確識別的 文本特征,尤其可體現(xiàn)在驗證碼驗證過程中。本發(fā)明將待識別的圖像包含在 驗證碼圖片中,由人眼識別出待識別的圖像中的文本特征,實現(xiàn)對待識別圖 像中的文本特征的提取,這樣,提高了文本特征的正確識別率
      下面首先對現(xiàn)有的驗證碼驗證方法進(jìn)行說明。驗證碼是攻擊_響應(yīng)
      (Challenge-response )的一種類型,用來確保產(chǎn)生的響應(yīng)不是計算機(jī)生成的, 通常的辦法是讓計算機(jī)通過驗證碼向用戶詢問 一個計算機(jī)能夠生成并能校 驗的簡單問題,由于其他計算機(jī)不能識別驗證碼,則輸入的正確答案被推定 為是人類產(chǎn)生的。通過驗證碼驗證正確響應(yīng)的產(chǎn)生者是人類的方法,發(fā)問者 是計算機(jī),回答者是人類,因此也被稱為反向圖靈測試(Reverse Turing Test) 法。驗證碼驗證過程包括網(wǎng)絡(luò)側(cè)接收終端發(fā)送的驗證請求;網(wǎng)絡(luò)側(cè)產(chǎn)生驗 證碼片段,驗證碼片段中包含驗證碼,由該驗證碼片段形成驗證碼圖片,該 驗證碼圖片中包含的驗證碼可能是對原始驗證碼加入信息噪聲之后的變形, 將驗證碼圖片傳送給終端,終端將驗證碼圖片展示給用戶;用戶通過肉眼識 別出驗證碼圖片中的驗證碼,將用戶識別出的驗證碼輸入終端,終端將用戶 識別出的驗證碼發(fā)送給網(wǎng)絡(luò)側(cè);網(wǎng)絡(luò)側(cè)將識別出的驗證碼與驗證碼片段中包 含的原始驗證碼進(jìn)行比較,如果兩者相同,則驗證通過,如果兩者不相同, 則-驗證失敗。
      計算機(jī)生成的驗證碼需要具備以下要求當(dāng)前的計算機(jī)軟件不能夠精確 識別;大多數(shù)用戶能夠通過人眼識別;沒有規(guī)律可尋,不能由邏輯分析得出 結(jié)果,因為如果有規(guī)律可尋,計算機(jī)便有可能分析出結(jié)果,發(fā)起進(jìn)攻。為了 加強(qiáng)驗證碼的安全性,常在驗證碼圖片中加入噪點、線段、顏色、圖形等信 息噪聲使驗證碼變形,圖2所示便為加入信息噪聲后的字母smwm。在驗證 碼圖片中加入信息噪聲增加了計算機(jī)進(jìn)行圖像識別的難度,從而進(jìn)一 步防止 了計算機(jī)的進(jìn)攻。
      本發(fā)明通過-驗證碼-瞼證過程實現(xiàn)對圖像中文本特征的識別,對含有文本 特征的印刷制品等通過掃描等手段獲得待識別的數(shù)字圖像,從待識別的圖像 中抽取包含文本特征的圖片區(qū)域,對圖片區(qū)域進(jìn)行分段及編號,得到各個待 識別的包含文本特征的圖片片段,在驗證碼驗證過程中,將待識別的圖片片 段包含在驗證碼圖片中,通過人眼對其進(jìn)行識別,由于人眼的正確識別率比 計算機(jī)高,從而,實現(xiàn)了高質(zhì)量的文本特征提取。下面通過圖3的流程對本
      發(fā)明基于驗證的文本識別的方法進(jìn)行說明,該流程包括以下步驟 步驟301,接收驗證請求。
      本發(fā)明中,由文本識別的裝置實現(xiàn)驗證碼驗證,文本識別的裝置接收驗 證請求后,觸發(fā)-瞼證碼-瞼證過程。
      步驟302,將產(chǎn)生的驗證碼片段與待識別的包含文本特征的圖片片段拼合為 驗證碼圖片,傳送給終端。
      驗證碼片段中包含了需要用戶識別的驗證碼,該驗證碼可能是加入信息 噪聲之后的變形,需要說明的是,驗證碼片段與圖片片段相互獨立,圖片片 段中的文本特征沒有經(jīng)過變形,是待識別圖像中的原始形式。待識別的包含 文本特征的圖片片段可以預(yù)先存儲在數(shù)據(jù)庫中,當(dāng)需要時從數(shù)據(jù)庫中提??;待 識別的包含文本特征的圖片片段也可以在驗證碼驗證過程中根據(jù)需要實時產(chǎn) 生,這種情況下,無需將待識別的包含文本特征的圖片片段預(yù)先存儲于數(shù)據(jù)庫 中。每個圖片片段對應(yīng)一個唯一的編號,圖片片段的設(shè)置方法為對含有文 本特征的印刷制品等通過掃描等手段獲得待識別的數(shù)字圖像,從待識別的圖 像中抽取包含文本特征的圖片區(qū)域,對圖片區(qū)域進(jìn)行分段及編號,得到各個包 含文本特征的圖片片段,存儲于數(shù)據(jù)庫中。需要識別的文本特征包括呈現(xiàn)于 圖像中的文字、數(shù)字及字符等。
      步驟303,接收終端發(fā)送的經(jīng)用戶對-險證碼圖片識別后輸入的用戶識別信 息,從用戶識別信息中取出圖片片段包含的文本特征,作為所述圖片片段的識 別結(jié)果。
      終端將接收的驗證碼圖片展示給用戶,用戶通過人眼識別后將識別結(jié)果 輸入終端,該識別結(jié)果便是所述的用戶識別信息,包括驗證碼信息和對圖片 片段進(jìn)行識別后的文本特征,終端再將用戶識別信息傳送給文本識別的裝置。
      參見圖4,為本發(fā)明基于驗證的文本識別的方法流程圖實例,本實施例 以注冊過程中的驗證碼驗證為例,該方法預(yù)先設(shè)置數(shù)據(jù)庫,從待識別的圖像 中抽取包含文本特征的圖片區(qū)域,對圖片區(qū)域進(jìn)行分段及編號,得到圖片片
      段,存儲于數(shù)據(jù)庫中。該方法包括以下步驟 步驟401,接收驗證請求。
      進(jìn)行注冊的過程中,需要防止計算機(jī)的攻擊,排除進(jìn)行注冊的主體是計 算機(jī)的情況,因此,可在用戶完成注冊表填寫之后,提交注冊表之前,進(jìn)行 驗證碼驗證操作,驗證請求的發(fā)起可通過點擊用戶界面的"提交"鍵實現(xiàn)。
      步驟402,從數(shù)據(jù)庫中抽取圖片片段,將驗證碼片段與抽取的圖片片段 拼合為驗證碼圖片。
      驗證碼片段中包含的驗證碼可能是被加入噪聲之后的變形,這里將原始 的驗證碼表示為A,將從數(shù)據(jù)庫中抽取的圖片片段所包含的真正的文本特征 表示為B。
      將驗證碼片段與抽取的圖片片段拼合為 一張驗證碼圖片時,可以按照固 定的位置順序進(jìn)行拼合,例如,按照驗證碼片段在左,圖片片段在右的位置 順序進(jìn)行拼合,或者按照驗證碼片段在右,圖片片段在左的位置順序進(jìn)行拼 合;為了防止用戶得知該固定的位置順序而隨意輸入對應(yīng)圖片片段的識別結(jié) 果而造成識別質(zhì)量下降,也可以按照隨機(jī)的位置順序進(jìn)行拼合。采用隨機(jī)的 位置順序進(jìn)行拼合,可進(jìn)一步提高識別質(zhì)量。
      在將驗證碼片段與抽取的圖片片段拼合為驗證碼圖片時,進(jìn)一步地,還 可以提取圖片片段的背景信息,根據(jù)該背景信息在驗證碼片段中加入信息噪 聲,然后,將圖片片段與加入信息噪聲后的驗證碼片段拼合為驗證碼圖片。 例如,圖片片段的背景為紅色,則將驗證碼片段的背景也設(shè)置為紅色,然后 再進(jìn)行拼合;再如,圖片片段的背景為條紋,則將驗證碼片段的背景也設(shè)置 為條紋,然后再進(jìn)行拼合。這樣,可減小圖片片段與驗證碼片段之間的背景 差別,防止用戶根據(jù)圖片片段與驗證碼片段之間的差別得知圖片片段而隨意 輸入對應(yīng)圖片片段的識別結(jié)果而造成識別結(jié)果下降,從而,可以進(jìn)一步提高 識別質(zhì)量。
      步驟403,將驗證碼圖片傳送給終端,由終端展示給用戶。 步驟404,接收終端傳送的用戶識別信息。
      將拼合的驗證碼圖片展示給用戶后,用戶通過肉眼識別出驗證碼片段和 圖片片段中的信息,將識別出的信息輸入終端,這里將用戶輸入終端的信息
      稱為用戶識別信息。用戶識別信息中包含用戶識別出的驗證碼,表示為a, 還包括除a外的文本特征,表示為非a,非a便是用戶對圖片片段進(jìn)行識別 后得到的文本特征。
      步驟405,從用戶識別信息中取出a,判斷a與A是否相同,如果相同, 則驗證成功,執(zhí)行步驟406,否則,驗證失敗,執(zhí)行步驟401。
      本步驟是為了進(jìn)一步提高識別率,為可選。
      步驟406,存儲用戶識別信息中的非a。
      至此,完成了對圖片片段的一次識別,得到的非a便是相應(yīng)圖片片段的 識別結(jié)果。為了進(jìn)一步提高識別率,可以對同一圖片片段進(jìn)行多次識別,從 多次識別后得到的識別結(jié)果中選取存在概率最大的非a ,作為最后的識別結(jié) 果,下面通過步驟407-408進(jìn)行說明。
      步驟407,判斷存儲的與步驟402中取出的圖片片段的編號對應(yīng)的非a 的數(shù)目是否大于或等于預(yù)先設(shè)置的設(shè)定值,如果是,則執(zhí)行步驟408,否則 執(zhí)行步驟401。
      存儲的與步驟402中取出的圖片片段的編號對應(yīng)的非a的數(shù)目,也就是 得到與步驟402中取出的圖片片段的編號對應(yīng)的非a的次數(shù)。 假設(shè)存儲的與某一圖片片段的編號對應(yīng)的非a信息包括 用戶Ul輸入的非a,為Bl, 用戶U2輸入的非a,為B2, 用戶U3輸入的非a,為Bl, 用戶U4輸入的非a,為Bl, 用戶U5輸入的非a,為Bl, 用戶U6輸入的非a ,為B3。
      與某一圖片片段的編號對應(yīng)的非a信息,也就是多個用戶識別同一編號 的圖片片段后輸入的非a信息。
      步驟408,從存儲的與步驟402中取出的圖片片段的編號對應(yīng)的非a信 息中,選取存在概率最大的非a,作為該編號的圖片片段的識別結(jié)果。
      以步驟407中存儲的與某一圖片片段的編號對應(yīng)的非a信息為例,六位 用戶識別出的非a信息中,用戶Ul、用戶U3、用戶U4和用戶U5這四位 用戶識別出的非a都為Bl,也就是B1的存在概率為4/6,只有用戶U2識 別出的非a為B2,也就是B2的存在概率為1/6,只有用戶U6識別出的非 a為B3,也就是B3的存在概率為1/6,可見,非a信息中,識別概率最大 的是B1。
      步驟407~408是為了進(jìn)一步提高識別率,為可選。
      從對同 一 圖片片段進(jìn)行多次識別后得到的識別結(jié)果中確定出最后的識 別結(jié)果,可以采用步驟407~408描述的方式,即從多次識別后得到的識別 結(jié)果中選取存在概率最大的非a,作為最后的識別結(jié)果;還可以采用如下方 式判斷得到同 一 圖片片段的同 一 識別結(jié)果的次數(shù)是否大于或等于設(shè)定值, 如果是,則將該同一識別結(jié)果作為該圖片片段的最終識別結(jié)果,判斷時機(jī)的 確定可以采用多種方法,例如,每接收一個識別結(jié)果就判斷一次,也可以隨 機(jī)地對識別結(jié)果進(jìn)行判斷。這里以步驟407中所舉的某一圖片片段的編號對 應(yīng)的非a信息的實際例子進(jìn)行說明,假設(shè)采用隨機(jī)對識別結(jié)果進(jìn)行判斷,且 設(shè)定值為4,如果在接收到4個識別結(jié)果時進(jìn)行判斷,此時用戶Ul、用戶 U2、用戶U3和用戶U4分別輸入了識別結(jié)果,判斷出得到Bl的次數(shù)為3, 得到B2的次數(shù)為1,可見,得到Bl和B2的次數(shù)都未達(dá)到設(shè)定值4,此時 還不能確定出最終的識別結(jié)果;如果在接收到6個識別結(jié)果時進(jìn)行判斷,判 斷出得到Bl的次數(shù)為4,得到B2的次數(shù)為1,得到B3的次數(shù)為1,可見, 得到Bl的次數(shù)已經(jīng)等于4,則將Bl作為最終的識別結(jié)果。
      按照步驟401至步驟408,逐一對數(shù)據(jù)庫中存儲的其他編號的圖片片段 進(jìn)行識別。
      最后,按照圖片片段的編號進(jìn)行組合,得到圖像的完整文本特征。 參見圖5,為本發(fā)明基于驗證的文本識別的裝置結(jié)構(gòu)示意圖,該裝置包
      括拼合模塊和提取模塊;
      所述拼合模塊,用于接收驗證請求,將產(chǎn)生的驗證碼片段與待識別的包含 文本特征的圖片片段拼合為驗證碼圖片,傳送給終端;
      所述提取模塊,用于接收終端發(fā)送的用戶對驗證碼圖片識別后輸入的用戶 識別信息,從用戶識別信息中取出圖片片段包含的文本特征,作為所述圖片片 段的識別結(jié)果。
      可選地,所述提取模塊中包括驗證碼驗證子模塊和識別結(jié)果提取子模塊; 所述驗證碼驗證子模塊,用于從用戶識別信息中取出驗證碼信息,判斷該 取出的驗證碼信息與所產(chǎn)生的驗證碼片段中的原始的驗證碼是否相同,如果相 同,則向識別結(jié)果提取子模塊發(fā)送啟動指定;
      所述識別結(jié)果提取子模塊,用于在接收到啟動指令后,從用戶識別信息中 取出圖片片段包含的文本特征,作為所述圖片片段的識別結(jié)果。 可選地,該裝置進(jìn)一步包括數(shù)據(jù)庫和圖片片段劃分模塊; 所述圖片片段劃分模塊,用于從待識別的圖像中抽取包含文本特征的圖片 區(qū)域,對圖片區(qū)域進(jìn)行分段及編號,得到各個待識別的包含文本特征的圖片片 段,存儲于數(shù)據(jù)庫中;
      所述拼合模塊從數(shù)據(jù)庫中獲取待識別的包含文本特征的圖片片段。 可選地,所述提取模塊進(jìn)一步用于從用戶識別信息中取出圖片片段包含的 文本特征,作為所述圖片片段的識別結(jié)果之后,判斷得到所述圖片片段的識別 結(jié)果的次數(shù)是否大于或等于設(shè)定值,如果是,則從各次得到的所述圖片片段的 識別結(jié)果中選取存在概率最大的識別結(jié)果,作為所述圖片片段的最終識別結(jié)果。 本發(fā)明在進(jìn)行驗證碼驗證時,驗證碼圖片不僅包括驗證碼片段還包括圖片 片段,這樣,在得到用戶輸入的驗證碼的同時,也得到了用戶識別出的圖片片 段中的文本特征,從而,實現(xiàn)對圖片片段中文本特征的提取。由于通過人眼能 夠識別出OCR技術(shù)不能正確識別的文本特征,從而,提高了正確識別率。
      進(jìn)一步地,進(jìn)行文本識別時,可統(tǒng)計多個用戶輸入的文本特征,也就是得 到多個用戶對圖片片段的解讀,從多個用戶輸入的文本特征中選取最多用戶輸
      入的相同的文本特征,作為這個圖片片段的識別信息,從而完成高質(zhì)量的文本 提取工作。
      以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn) 一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不 用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、 等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
      權(quán)利要求
      1、一種基于驗證的文本識別的方法,其特征在于,該方法包括接收驗證請求;將產(chǎn)生的驗證碼片段與待識別的包含文本特征的圖片片段拼合為驗證碼圖片,傳送給終端;接收終端發(fā)送的用戶對驗證碼圖片識別后輸入的用戶識別信息,從用戶識別信息中取出圖片片段包含的文本特征,作為所述圖片片段的識別結(jié)果。
      2、 如權(quán)利要求l所述的方法,其特征在于,所述從用戶識別信息中取出圖 片片段包含的文本特征,作為所述圖片片段的識別結(jié)果之后,該方法包括判斷得到所述圖片片段的識別結(jié)果的次數(shù)是否大于或等于設(shè)定值,如果是, 則從各次得到的所述圖片片段的識別結(jié)果中選取存在概率最大的識別結(jié)果,作 為所述圖片片段的最終識別結(jié)果。
      3、 如權(quán)利要求l所述的方法,其特征在于,所述從用戶識別信息中取出圖 片片段包含的文本特征,作為所述圖片片段的識別結(jié)果之后,該方法包括判斷得到所述圖片片段的同一識別結(jié)果的次數(shù)是否大于或等于設(shè)定值,如 果是,則將該同一識別結(jié)果作為所述圖片片段的最終識別結(jié)果。
      4、 如權(quán)利要求l所述的方法,其特征在于,所述將驗證碼片段與圖片片段 拼合為驗證碼圖片包括將驗證碼片段與圖片片段按照固定的位置順序或按照隨機(jī)的位置順序拼合 為馬全證碼圖片。
      5、 如權(quán)利要求l所述的方法,其特征在于,所述接收終端發(fā)送的用戶對驗 證碼圖片識別后輸入的用戶識別信息之后,該方法包括從用戶識別信息中取出驗證碼信息,判斷該取出的驗證碼信息與所產(chǎn)生的 驗證碼片段中的原始的驗證碼是否相同,如果相同,則執(zhí)行所述從用戶識別信 息中取出圖片片段包含的文本特征的步驟。
      6、 如權(quán)權(quán)利要求1所述的方法,其特征在于,所述將產(chǎn)生的驗證碼片段與待識別的包含文本特征的圖片片段拼合為驗證碼圖片包括提取所述圖片片段的背景信息,根據(jù)該背景信息在所述驗證碼片段中加入 信息噪聲,將所述圖片片段與加入信息噪聲后的驗證碼片段拼合為驗證碼圖片。
      7、 如權(quán)利要求1至6中任一項所述的方法,其特征在于,獲取所述待識別 的包含文本特征的圖片片段的方法包括從待識別的圖像中抽取包含文本特征 的圖片區(qū)域,對圖片區(qū)域進(jìn)行分段及編號,得到各個包含文本特征的圖片片段, 存儲于數(shù)據(jù)庫中,從數(shù)據(jù)庫中獲取待識別的包含文本特征的圖片片段。
      8、 如權(quán)利要求7所述的方法,其特征在于,所述從用戶識別信息中取出圖 片片段包含的文本特征,作為所述圖片片段的識別結(jié)果之后,該方法包括將一幅圖像的各個圖片片段的識別結(jié)果按照各個圖片片段的編號進(jìn)行組 合,得到該圖像的完整文本特征。
      9、 一種基于驗證的文本識別的裝置,其特征在于,該裝置包括拼合模塊和 提取模塊;所述拼合模塊,用于接收驗證請求,將產(chǎn)生的驗證碼片段與待識別的包含 文本特征的圖片片段拼合為驗證碼圖片,傳送給終端;所述提取模塊,用于接收終端發(fā)送的用戶對驗證碼圖片識別后輸入的,用戶 識別信息,從用戶識別信息中取出圖片片段包含的文本特征,作為所述圖片片 段的識別結(jié)果。
      10、 如權(quán)利要求9所述的裝置,其特征在于,所述提取模塊中包括驗證碼 驗證子模塊和識別結(jié)果提取子模塊;所述驗證碼驗證子模塊,用于從用戶識別信息中取出驗證碼信息,判斷該 取出的驗證碼信息與所產(chǎn)生的驗證碼片段中的原始的驗證碼是否相同,如果相 同,則向識別結(jié)果提取子模塊發(fā)送啟動指定;所述識別結(jié)果提取子模,用于在接收到啟動指令后,從用戶識別信息中取 出圖片片段包含的文本特征,作為所述圖片片段的識別結(jié)果。
      11、 如權(quán)利要求9或IO所述的裝置,其特征在于,該裝置進(jìn)一步包括數(shù)據(jù) 庫和圖片片段劃分模塊;所述圖片片段劃分模塊,用于從待識別的圖像中抽取包含文本特征的圖片 區(qū)域,對圖片區(qū)域進(jìn)行分段及編號,得到各個待識別的包含文本特征的圖片片段,存儲于數(shù)據(jù)庫中;所述拼合模塊從數(shù)據(jù)庫中獲取待識別的包含文本特征的圖片片段。 12、如權(quán)利要求9所述的裝置,其特征在于,所述提取模塊進(jìn)一步用于從 用戶識別信息中取出圖片片段包含的文本特征,作為所述圖片片段的識別結(jié)果 之后,判斷得到所述圖片片段的識別結(jié)果的次數(shù)是否大于或等于設(shè)定值,如果 是,則從各次得到的所述圖片片段的識別結(jié)果中選取存在概率最大的識別結(jié)果, 作為所述圖片片段的最終識別結(jié)果。
      全文摘要
      本發(fā)明公開了一種基于驗證的文本識別的方法及裝置,該方法包括接收驗證請求;將產(chǎn)生的驗證碼片段與待識別的包含文本特征的圖片片段拼合為驗證碼圖片,傳送給終端;接收終端發(fā)送的用戶對驗證碼圖片識別后輸入的用戶識別信息,從用戶識別信息中取出圖片片段包含的文本特征,作為所述圖片片段的識別結(jié)果。本發(fā)明方案提高了識別結(jié)果的正確識別率,解決了計算機(jī)識別的局限性。
      文檔編號G06K9/20GK101388078SQ20081016711
      公開日2009年3月18日 申請日期2008年9月27日 優(yōu)先權(quán)日2008年9月27日
      發(fā)明者程 張 申請人:騰訊科技(深圳)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1