專利名稱:自動提取地址并搜索地圖的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于文字識別技術(shù)領(lǐng)域,涉及一種搜索地圖的方法,尤其涉及一種自動提 取地址并搜索地圖的方法。
背景技術(shù):
目前攝像頭已經(jīng)在手機和微機中廣泛使用,利用圖像處理和光學(xué)字符識別(OCR, Optical Character Recognition)的原理,對相機拍攝或掃描儀掃描得到的圖像進行處理 和識別,獲取圖像中的文字的技術(shù)也已得到廣泛使用,典型的如用手機中自帶的相機拍攝 名片的圖像,通過圖像處理和OCR技術(shù)識別出其中的文字來,并提取其中包含的姓名,電話 等有用信息加入到地址簿中去。利用圖像處理和光學(xué)字符識別技術(shù)來拍攝識別文字一般會有錯誤,對掃描的圖 像,因為圖像很清楚錯誤會比較少,而對相機拍攝的圖像,由于環(huán)境光線,拍攝時的聚焦,抖 動等問題的存在不可避免地會造成圖像的質(zhì)量下降,進而造成OCR識別出來的文字中錯誤 會比掃描的圖像OCR出來的文字中錯誤多很多。而從光學(xué)字符技術(shù)的基本原理來說,對同 類的,或者說拍攝質(zhì)量相似的圖像而言,需要進行辨別的不同字符的數(shù)量越多,錯誤可能性 越大,比如說,在同樣的圖像上,如果只需要識別“0”到“9” 10個數(shù)字字符,其準確率會高 于需要識別包括“0”到“9” 10個數(shù)字字符和“A”到“Z”在內(nèi)的26個英文字符一共36個 字符的準確率。也就是說,如果我們事先知道需要用OCR技術(shù)進行識別的文字的類型,就可 以利用這個信息來限制需要OCR識別的字符個數(shù),從而提高識別的準確率,減少出錯的可 能。比如說,如果我們事先知道需要識別的就是電話號碼,那么我們在使用OCR技術(shù)進行識 別的時候就可以只識別能合法出現(xiàn)在電話號碼中的字符,從而提高識別的準確率。另一個 方面,由于OCR技術(shù)識別出來的文字不可避免地會存在錯誤,所以一般都會利用其他的信 息對識別的結(jié)果進行后處理,起到矯正錯誤的作用。這個方面常用的方法包括里利用英文 字典來校正英文OCR識別的結(jié)果,利用中文中的出現(xiàn)頻率較高的詞語,以及利用中文的上 下文關(guān)系來校正漢字OCR識別的結(jié)果。如果事先知道需要用OCR技術(shù)進行識別的文字的類 型,同樣可以提高對識別結(jié)果的后處理的準確率,比如說,如果我們事先知道需要識別的一 行文字是email或網(wǎng)址,就可以根據(jù)email或網(wǎng)址的構(gòu)成規(guī)則,常見字符串如“.com”等來對 OCR識別的結(jié)果進行校正,從而提高識別的準確率,如果我們事先知道需要識別的一行文字 是地址,就可以根據(jù)地址中的高頻詞語和上下文關(guān)系來提高識別的準確率。手機等各種電子設(shè)備上很多帶有電子地圖軟件,如有GPS導(dǎo)航功能的軟件,網(wǎng)上 的地圖如google map,丁丁地圖等也給人們的日常生活帶來了很多便利。目前要搜索這些 電子設(shè)備尚待有的或者網(wǎng)上的地圖有兩種方式,一種是利用GPS設(shè)備得到位置信息來查找 地圖,另一種是手工輸入要查找的位置信息進行查找。人們在日常生活中經(jīng)常會看到打印在紙張上的地址信息,如各種通知信件中的聯(lián) 系地址,廣告宣傳頁上印的地址等等。用戶看到這些文字描述的地址以后經(jīng)常需要查找地 圖來看所描述的地址具體在什么位置。而在目前的方式下,用戶只能先打開電子設(shè)備上自帶的地圖軟件,或者連接到地圖網(wǎng)站如google map,丁丁地圖等,然后再手工輸入地址信息 進行搜索。這給用戶帶來了不便。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種自動提取地址并搜索地圖的方法,可通 過拍攝地址來自動搜索電子地圖,從而提高了人們使用電子地圖的便利性。為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案一種自動提取地址并搜索地圖的方法,自動識別圖像中指定區(qū)域的文字;然后自 動判斷文字中是否有地址信息,如果有則自動打開地圖軟件,或者自動連接到地圖網(wǎng)站,并 自動搜索該地址,返回標注了該地址位置的地圖給用戶看。作為本發(fā)明的一種優(yōu)選方案,所述方法包括如下步驟步驟101,獲取圖像;步驟102,用戶指定圖像中特定區(qū)域;步驟103,分析并識別所指定圖像區(qū)域中的文字;步驟104,判斷所識別出來的文字中是否包含地址信息;如果答案為是,則轉(zhuǎn)到 步驟105 ;否則轉(zhuǎn)到步驟106 ;步驟105,自動搜索電子地圖,顯示標注有所述地址具體位置的地圖給用戶看;步驟106,結(jié)束。作為本發(fā)明的一種優(yōu)選方案,所述步驟101中,通過攝像單元拍攝或者掃描儀掃 描獲取圖像,或者通過存儲載體復(fù)制得到;或者通過攝像單元無需拍攝,僅獲取預(yù)覽圖像;所述步驟102中,用戶指定圖像中特定區(qū)域包括圖像本身的全部區(qū)域,或者包括 用戶選定的圖像的一部分;所述步驟103中,分析并識別所指定圖像區(qū)域中的文字,查找圖像區(qū)域中的文字, 并利用OCR技術(shù)進行識別。作為本發(fā)明的一種優(yōu)選方案,所述步驟102中,用戶指定圖像中特定區(qū)域包括圖 像本身的全部區(qū)域,或者包括用戶用一個矩形框限定的屬于圖像一部分的矩形區(qū)域。作為本發(fā)明的一種優(yōu)選方案,所述步驟104中,判斷所識別出來的文字中是否包 含地址信息的方法為首先針對常見的地址表示方式建立匹配的模版;對所識別出來的字 符串,檢查其中某個子字符串與某個表示地址的方式的模版是否相匹配;若匹配,返回答案 為是;否則返回答案為否;或者,所述步驟104的判斷方法為檢查字符串中包含了多少個表示地址的關(guān)鍵 字,以及包含了多少個數(shù)字;如果字符串中包含了至少一個表示地址的關(guān)鍵字并且包含了 至少一個數(shù)字,則認為該字符串表示地址。作為本發(fā)明的一種優(yōu)選方案,所述步驟105中,所述電子地圖包括電子設(shè)備上自 帶的電子地圖,和地圖網(wǎng)站上提供的地圖;搜索電子設(shè)備上自帶的電子地圖時,需要先自動打開該電子設(shè)備上自帶的電子地 圖,在搜索欄中自動填入所述的地址信息,并進行搜索得到搜索的結(jié)果;搜索網(wǎng)絡(luò)上的電子地圖時,先自動連接網(wǎng)絡(luò)并打開該電子地圖的網(wǎng)頁,在網(wǎng)頁的 搜索欄中自動填入所述的地址信息,并進行搜索得到搜索的結(jié)果;
如果在電子地圖中沒有找到所述的地址,則返回所搜索的電子設(shè)備自帶的電子地 圖或者地圖網(wǎng)站的搜索失敗的信息。一種自動提取地址并搜索地圖的方法,所述方法包括如下步驟步驟201,獲取圖像;步驟202,用戶指定圖像中特定區(qū)域;步驟203,分析并識別所指定圖像區(qū)域中的文字;步驟204,判斷所識別出來的文字中是否包含地址信息;如果答案為是,則轉(zhuǎn)到步 驟205 ;否則轉(zhuǎn)到步驟208 ;步驟205,提示用戶識別出來的文字中包含地址信息,由用戶選擇是否搜索地圖; 如果答案為是,則轉(zhuǎn)到步驟206,否則轉(zhuǎn)到步驟208 ;步驟206,已知需要識別的文字是地址,對所述指定圖像區(qū)域中的文字進行重新識 別;步驟207,自動搜索電子地圖,顯示標注有所述地址具體位置的地圖給用戶看;步驟208,結(jié)束。作為本發(fā)明的一種優(yōu)選方案,所述步驟201中,通過攝像單元拍攝或者掃描儀掃 描獲取圖像,或者通過存儲載體復(fù)制得到;或者通過攝像單元無需拍攝,僅獲取預(yù)覽圖像;所述步驟202中,用戶指定圖像中特定區(qū)域包括圖像本身的全部區(qū)域,或者包括 用戶選定的圖像的一部分;所述步驟203中,分析并識別所指定圖像區(qū)域中的文字,查找圖像區(qū)域中的文字, 并利用OCR技術(shù)進行識別。作為本發(fā)明的一種優(yōu)選方案,所述步驟204中,判斷所識別出來的文字中是否包 含地址信息的方法為首先針對常見的地址表示方式建立匹配的模版;對所識別出來的字 符串,檢查其中某個子字符串與某個表示地址的方式的模版是否相匹配;若匹配,返回答案 為是;否則返回答案為否;或者,所述步驟204的判斷方法為檢查字符串中包含了多少個表示地址的關(guān)鍵 字,以及包含了多少個數(shù)字;如果字符串中包含了至少一個表示地址的關(guān)鍵字并且包含了 至少一個數(shù)字,則認為該字符串表示地址。作為本發(fā)明的一種優(yōu)選方案,所述步驟207中,所述電子地圖包括電子設(shè)備上自 帶的電子地圖,和地圖網(wǎng)站上提供的地圖;搜索電子設(shè)備上自帶的電子地圖時,需要先自動打開該電子設(shè)備上自帶的電子地 圖,在搜索欄中自動填入所述的地址信息,并進行搜索得到搜索的結(jié)果;搜索網(wǎng)絡(luò)上的電子地圖時,先自動連接網(wǎng)絡(luò)并打開該電子地圖的網(wǎng)頁,在網(wǎng)頁的 搜索欄中自動填入所述的地址信息,并進行搜索得到搜索的結(jié)果;如果在電子地圖中沒有找到所述的地址,則返回所搜索的電子設(shè)備自帶的電子地 圖或者地圖網(wǎng)站的搜索失敗的信息。本發(fā)明的有益效果在于本發(fā)明提出的自動提取地址并搜索地圖的方法,使得用 戶可以通過拍攝打印在各種材料上的地址來自動搜索電子地圖。該方法提高了人們使用電 子地圖的便利性。
圖1為實施例一中本發(fā)明地圖搜索方法的流程圖。圖2為實施例二中本發(fā)明地圖搜索方法的流程圖。
具體實施例方式下面結(jié)合附圖詳細說明本發(fā)明的優(yōu)選實施例。實施例一請參閱圖1,本發(fā)明揭示了一種結(jié)合光學(xué)字符識別技術(shù)自動提取地址并搜索地圖 的方法,該方法的具體步驟如下步驟101獲取圖像??赏ㄟ^攝像單元拍攝或者掃描儀掃描獲取圖像,或者通過存儲載體復(fù)制得到;或 者通過攝像單元無需拍攝,僅獲取預(yù)覽圖像。步驟102用戶指定圖像中特定區(qū)域。其中,用戶指定圖像中特定區(qū)域包括圖像本身的全部區(qū)域;或者包括用戶用一個 矩形框限定的屬于圖像一部分的矩形區(qū)域,當然用戶選擇部分圖像的方式可以為其他方 式,不限于通過矩形框。步驟103分析并識別所指定圖像區(qū)域中的文字。查找圖像區(qū)域中的文字,并利用OCR技術(shù)進行識別,該方法為現(xiàn)有技術(shù)。步驟104判斷所識別出來的文字中是否包含地址信息?如果答案為是,則轉(zhuǎn)到 步驟105。否則轉(zhuǎn)到步驟106,結(jié)束。其中,判斷所識別出來的文字中是否包含地址信息的方法可以有兩種方法之一是首先針對常見的地址表示方式建立匹配的模版,例如,“地址 ******”,是以關(guān)鍵字“地址”表示的地址信息。對所識別出來的字符串,檢查其中某個子 字符串與某個表示地址的方式的模版是否相匹配。比如說對“地址浦東梅花路333號”這 個字符串,我們檢查到“地址”這個關(guān)鍵字,就可以確定這個字符串表示了地址信息。方法之二是,檢查字符串中包含了多少個表示地址的關(guān)鍵字,以及包含了多少個 數(shù)字,如果字符串中包含了至少一個表示地址的關(guān)鍵字并且包含了至少一個數(shù)字,則認為 該字符串表示地址。所述表示地址的關(guān)鍵字包括漢字“省”‘市”‘縣”‘區(qū)”‘路”‘號”‘室”‘樓” 等,英文單詞 “road”,” avenue,,,” No.,,,“Street,,,“room,,等。步驟105自動搜索電子地圖,顯示標注有所述地址具體位置的地圖給用戶看。所述電子地圖包括電子設(shè)備上自帶的電子地圖,和地圖網(wǎng)站上提供的地圖。為了搜索電子設(shè)備上自帶的電子地圖,需要先自動打開該電子設(shè)備上自帶的電子 地圖,在搜索欄中自動填入所述的地址信息,并進行搜索得到搜索的結(jié)果。為了搜索網(wǎng)絡(luò)上的電子地圖,需要先自動連接網(wǎng)絡(luò)并打開該電子地圖的網(wǎng)頁,在 網(wǎng)頁的搜索欄中自動填入所述的地址信息,并進行搜索得到搜索的結(jié)果。如果在電子地圖中沒有找到所述的地址,則返回所搜索的電子設(shè)備自帶的電子地 圖或者地圖網(wǎng)站的搜索失敗的信息。步驟106結(jié)束。實施例二
為了提高識別的準確率,本發(fā)明的另一種實現(xiàn)方式是通過用戶交互來對已知是地址的字符串進行重新識別,見圖2,具體步驟如下步驟201獲取圖像。步驟202用戶指定圖像中特定區(qū)域。步驟203分析并識別所指定圖像區(qū)域中的文字。步驟204判斷所識別出來的文字中是否包含地址信息?如果答案為是,則轉(zhuǎn)到 步驟205。否則轉(zhuǎn)到步驟208,結(jié)束。步驟205提示用戶識別出來的文字中包含地址信息,由用戶選擇是否搜索地 圖?如果答案為是,則轉(zhuǎn)到步驟206,否則轉(zhuǎn)到步驟208,結(jié)束。步驟206已知需要識別的文字是地址,對所述指定圖像區(qū)域中的文字進行重新 識別。步驟207自動搜索電子地圖,顯示標注有所述地址具體位置的地圖給用戶看。步驟208結(jié)束。上述步驟的具體實現(xiàn)方式可以參考實施例一中描述的方案。綜上所述,本發(fā)明提出的自動提取地址并搜索地圖的方法,使得用戶可以通過拍 攝打印在各種材料上(或從其他渠道獲取)的地址來自動搜索電子地圖。該方法提高了人 們使用電子地圖的便利性。這里本發(fā)明的描述和應(yīng)用是說明性的,并非想將本發(fā)明的范圍限制在上述實施例 中。這里所披露的實施例的變形和改變是可能的,對于那些本領(lǐng)域的普通技術(shù)人員來說實 施例的替換和等效的各種部件是公知的。本領(lǐng)域技術(shù)人員應(yīng)該清楚的是,在不脫離本發(fā)明 的精神或本質(zhì)特征的情況下,本發(fā)明可以以其它形式、結(jié)構(gòu)、布置、比例,以及用其它組件、 材料和部件來實現(xiàn)。在不脫離本發(fā)明范圍和精神的情況下,可以對這里所披露的實施例進 行其它變形和改變。
權(quán)利要求
一種自動提取地址并搜索地圖的方法,其特征在于自動識別圖像中指定區(qū)域的文字;然后自動判斷文字中是否有地址信息,如果有則自動打開地圖軟件,或者自動連接到地圖網(wǎng)站,并自動搜索該地址,返回標注了該地址位置的地圖給用戶看。
2.根據(jù)權(quán)利要求1所述的自動提取地址并搜索地圖的方法,其特征在于 所述方法包括如下步驟步驟101,獲取圖像;步驟102,用戶指定圖像中特定區(qū)域;步驟103,分析并識別所指定圖像區(qū)域中的文字;步驟104,判斷所識別出來的文字中是否包含地址信息;如果答案為是,則轉(zhuǎn)到步驟 105 ;否則轉(zhuǎn)到步驟106 ;步驟105,自動搜索電子地圖,顯示標注有所述地址具體位置的地圖給用戶看; 步驟106,結(jié)束。
3.根據(jù)權(quán)利要求2所述的自動提取地址并搜索地圖的方法,其特征在于所述步驟101中,通過攝像單元拍攝或者掃描儀掃描獲取圖像,或者通過存儲載體復(fù) 制得到;或者通過攝像單元無需拍攝,僅獲取預(yù)覽圖像;所述步驟102中,用戶指定圖像中特定區(qū)域包括圖像本身的全部區(qū)域,或者包括用戶 選定的圖像的一部分;所述步驟103中,分析并識別所指定圖像區(qū)域中的文字,查找圖像區(qū)域中的文字,并利 用OCR技術(shù)進行識別。
4.根據(jù)權(quán)利要求3所述的自動提取地址并搜索地圖的方法,其特征在于所述步驟102中,用戶指定圖像中特定區(qū)域包括圖像本身的全部區(qū)域,或者包括用戶 用一個矩形框限定的屬于圖像一部分的矩形區(qū)域。
5.根據(jù)權(quán)利要求2所述的自動提取地址并搜索地圖的方法,其特征在于所述步驟104中,判斷所識別出來的文字中是否包含地址信息的方法為首先針對常 見的地址表示方式建立匹配的模版;對所識別出來的字符串,檢查其中某個子字符串與某 個表示地址的方式的模版是否相匹配;若匹配,返回答案為是;否則返回答案為否;或者,所述步驟104的判斷方法為檢查字符串中包含了多少個表示地址的關(guān)鍵字,以 及包含了多少個數(shù)字;如果字符串中包含了至少一個表示地址的關(guān)鍵字并且包含了至少一 個數(shù)字,則認為該字符串表示地址。
6.根據(jù)權(quán)利要求2所述的自動提取地址并搜索地圖的方法,其特征在于所述步驟105中,所述電子地圖包括電子設(shè)備上自帶的電子地圖,和地圖網(wǎng)站上提供 的地圖;搜索電子設(shè)備上自帶的電子地圖時,需要先自動打開該電子設(shè)備上自帶的電子地圖, 在搜索欄中自動填入所述的地址信息,并進行搜索得到搜索的結(jié)果;搜索網(wǎng)絡(luò)上的電子地圖時,先自動連接網(wǎng)絡(luò)并打開該電子地圖的網(wǎng)頁,在網(wǎng)頁的搜索 欄中自動填入所述的地址信息,并進行搜索得到搜索的結(jié)果;如果在電子地圖中沒有找到所述的地址,則返回所搜索的電子設(shè)備自帶的電子地圖或 者地圖網(wǎng)站的搜索失敗的信息。
7.一種自動提取地址并搜索地圖的方法,其特征在于,所述方法包括如下步驟 步驟201,獲取圖像;步驟202,用戶指定圖像中特定區(qū)域; 步驟203,分析并識別所指定圖像區(qū)域中的文字;步驟204,判斷所識別出來的文字中是否包含地址信息;如果答案為是,則轉(zhuǎn)到步驟 205 ;否則轉(zhuǎn)到步驟208 ;步驟205,提示用戶識別出來的文字中包含地址信息,由用戶選擇是否搜索地圖;如果 答案為是,則轉(zhuǎn)到步驟206,否則轉(zhuǎn)到步驟208 ;步驟206,已知需要識別的文字是地址,對所述指定圖像區(qū)域中的文字進行重新識別; 步驟207,自動搜索電子地圖,顯示標注有所述地址具體位置的地圖給用戶看; 步驟208,結(jié)束。
8.根據(jù)權(quán)利要求7所述的自動提取地址并搜索地圖的方法,其特征在于所述步驟201中,通過攝像單元拍攝或者掃描儀掃描獲取圖像,或者通過存儲載體復(fù) 制得到;或者通過攝像單元無需拍攝,僅獲取預(yù)覽圖像;所述步驟202中,用戶指定圖像中特定區(qū)域包括圖像本身的全部區(qū)域,或者包括用戶 選定的圖像的一部分;所述步驟203中,分析并識別所指定圖像區(qū)域中的文字,查找圖像區(qū)域中的文字,并利 用OCR技術(shù)進行識別。
9.根據(jù)權(quán)利要求7所述的自動提取地址并搜索地圖的方法,其特征在于所述步驟204中,判斷所識別出來的文字中是否包含地址信息的方法為首先針對常 見的地址表示方式建立匹配的模版;對所識別出來的字符串,檢查其中某個子字符串與某 個表示地址的方式的模版是否相匹配;若匹配,返回答案為是;否則返回答案為否;或者,所述步驟204的判斷方法為檢查字符串中包含了多少個表示地址的關(guān)鍵字,以 及包含了多少個數(shù)字;如果字符串中包含了至少一個表示地址的關(guān)鍵字并且包含了至少一 個數(shù)字,則認為該字符串表示地址。
10.根據(jù)權(quán)利要求7所述的自動提取地址并搜索地圖的方法,其特征在于所述步驟207中,所述電子地圖包括電子設(shè)備上自帶的電子地圖,和地圖網(wǎng)站上提供 的地圖;搜索電子設(shè)備上自帶的電子地圖時,需要先自動打開該電子設(shè)備上自帶的電子地圖, 在搜索欄中自動填入所述的地址信息,并進行搜索得到搜索的結(jié)果;搜索網(wǎng)絡(luò)上的電子地圖時,先自動連接網(wǎng)絡(luò)并打開該電子地圖的網(wǎng)頁,在網(wǎng)頁的搜索 欄中自動填入所述的地址信息,并進行搜索得到搜索的結(jié)果;如果在電子地圖中沒有找到所述的地址,則返回所搜索的電子設(shè)備自帶的電子地圖或 者地圖網(wǎng)站的搜索失敗的信息。
全文摘要
本發(fā)明揭示了一種自動提取地址并搜索地圖的方法,自動識別圖像中指定區(qū)域的文字;然后自動判斷文字中是否有地址信息,如果有則自動打開地圖軟件,或者自動連接到地圖網(wǎng)站,并自動搜索該地址,返回標注了該地址位置的地圖給用戶看。本發(fā)明提出的自動提取地址并搜索地圖的方法,使得用戶可以通過拍攝打印在各種材料上的地址來自動搜索電子地圖。該方法提高了人們使用電子地圖的便利性。
文檔編號G06F17/30GK101996253SQ201010548158
公開日2011年3月30日 申請日期2010年11月17日 優(yōu)先權(quán)日2010年11月17日
發(fā)明者曹超陽, 羅希平, 鎮(zhèn)立新, 陳青山 申請人:上海合合信息科技發(fā)展有限公司