專利名稱:基于物體辨識的盲人生活輔助裝置的制作方法
技術領域:
本發(fā)明涉及一種信息技術領域的盲人生活輔助裝置,特別是一種基于物體辨識的盲人生活輔助裝置。
背景技術:
隨著計算機視覺、模式識別技術和多媒體技術的發(fā)展,人們開始嘗試用信息化的電子裝置輔助盲人的生活。在盲人生活輔助領域,一般采用聽覺或觸覺來代替視覺給盲人傳遞信息(即術語所稱的“感覺替代”)。但是由于人類的信息獲取極大依賴于視覺,人類80%以上的信息是通過視覺渠道獲取的,而聽覺和觸覺傳遞信息量很少,因此如何用聲音或觸覺合適地表示環(huán)境圖像中的信息,使盲人及時得到環(huán)境中最重要的信息成為一個日益重要的問題。針對感覺替代中的環(huán)境表示問題,典型的方法有基于像素對應的環(huán)境表示方法和基于物體辨識的環(huán)境表示方法兩種?;谙袼貙沫h(huán)境表示方法將環(huán)境圖像中每個像素的物理特征轉化為聲音后疊加。這樣的環(huán)境表示方法并不能使盲人理解環(huán)境中物體的種類?;谖矬w辨識的環(huán)境表示方法將環(huán)境圖像中的多種物體一一識別出來,以物體為單位將環(huán)境信息通過聲音告知盲人,使盲人真正理解環(huán)境中物體的意義。基于物體辨識的環(huán)境表示方法非常適用于幫助盲人取物的情況,因為盲人必須知道周圍的物體中是否有他需要的物體,才能伸手取物。
經對現有技術文獻的檢索發(fā)現,中國專利申請?zhí)?2143161.2,該專利公開的盲人步行用輔助裝置,雖然主要面向障礙物的識別,但在其實施方式中描述了利用一個物體識別元件來識別來自雙目(多目)攝像頭的圖像中的物體的構思。通過該裝置,盲人能夠知道周圍環(huán)境中障礙物的信息,甚至知道障礙物的種類,因此具有較大的實用價值。但是其主要問題在于第一,當環(huán)境中存在多種物體時,盲人將聽到環(huán)境中所有物體同時發(fā)出的聲音,使盲人很難分辨得到單個物體的聲音。第二,如果在實踐中使盲人聽到的聲音有一定的前后間隔以使盲人能有時間聽清每個聲音,則表示整個環(huán)境中的多個物體所用的時間將延長,這無疑降低了盲人獲得環(huán)境信息的速度。第三,當盲人位置的變化或是環(huán)境中物體的移動,環(huán)境圖像中出現了新的物體,但在上述發(fā)明中,由于各個物體識別后表示的方法是一致的,所以新識別出的物體很難與已經被識別出來的物體區(qū)別開。最后,當上述發(fā)明的物體檢測單元在環(huán)境圖像中檢測多個同類物體時出現假陰性錯誤時,盲人可能會將環(huán)境中已被識別出來的物體視為同一個物體,造成原有物體已經移動的假象。
現有技術的困難在于,雖然有辦法得到環(huán)境中物體的種類和位置,但由于聽覺的傳遞信息的量遠小于視覺,必須考慮如何用表示效率較高的方式告知盲人能夠知道周圍環(huán)境中障礙物的信息。要提高盲人理解環(huán)境的效率,一種方法是引入注意力機制,將每次新檢測的物體突出表示,將已被檢測到的物體弱化表示,使盲人對已被感知的物體能做到“熟視無睹”,而將注意力專注在新被感知的物體上。因此,結合了注意力的物體辨識的盲人生活輔助裝置能提高盲人認知環(huán)境的效率,方便盲人生活。
發(fā)明內容
本發(fā)明針對現有技術的不足與缺陷,提供一種基于物體辨識的盲人生活輔助裝置,使盲人通過該裝置能夠在得到環(huán)境中每個物體的種類和位置的同時,專注于環(huán)境圖像中新近出現的物體,更有效率地了解環(huán)境。
本發(fā)明是通過以下技術方案實現的。本發(fā)明包括物體信息緩沖單元、物體檢測單元、物體測距單元和感覺替代單元。物體檢測單元的輸入端連接到物體信息緩沖單元,其輸出端連接到物體信息緩沖單元;物體測距單元的輸入端連接到物體信息緩沖單元,其輸出端連接到物體信息緩沖單元;感覺替代單元的輸入端連接到物體信息緩沖單元。
物體信息緩沖單元中不但存儲通常具備的有已經被檢測到的每個物體的種類信息、在圖像中的位置坐標、相對盲人的三維位置信息,還存儲有物體在圖像中區(qū)域的灰度圖像和色調直方圖等物體的特征信息。物體的灰度圖像和物體的色調直方圖等物體特征信息是為了在以后得到的圖像中與新檢測到的物體比較而存儲的。
物體檢測單元負責檢測環(huán)境圖像中的物體,根據環(huán)境中的物體添加、更新物體信息緩沖單元中的內容。
物體檢測單元能夠得到環(huán)境圖像,利用多物體分類器檢測到環(huán)境圖像內是否有可以被檢測到的物體。在檢測完一幀圖像之后,物體檢測單元能夠根據檢測到的物體與已被檢測到的物體之間的相似性程度判斷檢測到的物體是否與物體信息緩沖單元中已有的物體是同一物體,如果檢測到的物體滿足相似性判據,則認為兩者是同一物體,于是更新物體信息緩沖單元中的已被檢測到的物體在圖像中的位置坐標和物體特征信息,并降低該物體的注意力等級。
以上操作的效果類似于不斷跟蹤已有的物體的最新位置。
當圖像中檢測到的物體與物體信息單元中的任何物體都不滿足相似性判據時,該物體在圖像中的位置坐標、物體的類別信息和物體的特征信息將被存入物體信息緩沖單元并被賦予最高的注意力等級,表示這是最新近檢測到的環(huán)境中的物體。在以后的圖像中,物體檢測單元將不斷跟蹤該物體的最新位置。
如果物體檢測單元多次檢測均沒有再次檢測到的某個物體,該物體的信息將在物體信息緩沖單元中被刪除。這樣,物體信息緩沖單元中的物體信息是被持續(xù)更新的。如果一個物體在一段時間內沒有被檢測到,則認為該物體不存在于圖像傳感器的探測范圍中,因此不能被感覺替代部分通過聲音或觸覺信號表示出來。
如果沒有新物體被檢測到,而沒有物體處于最高注意力等級時,則認為盲人在搜索已知的環(huán)境,物體檢測單元能夠給予處于盲人正前方的物體最高的注意力等級,方便盲人拿取該物體。
物體測距單元負責根據物體信息緩沖單元中的物體在圖像中的位置坐標得到并更新物體相對盲人的三維位置信息。
感覺替代單元負責根據物體信息緩沖單元中的物體信息發(fā)出與物體的類別和物體相對盲人的三維位置相適應的聲音,使盲人理解各個物體的種類和位置。在本發(fā)明中,物體信息緩沖單元中的信息被用來合成三維虛擬立體聲,通過立體聲的雙耳定位作用使盲人清楚地得到物體的位置。而且物體與聲音之間是很自然的一一對應的關系,不同的聲音使盲人清楚地感知物體的類別。
感覺替代單元根據物體的注意力等級來決定如何表示物體。如果物體是新近檢測到的物體,該物體將被優(yōu)先以與較低注意力級別的物體相異的方式告知盲人以方便盲人及時感知最需要關注的物體的位置。如果物體是已經被多次檢測到的物體,則物體對應的聲強降低,發(fā)聲優(yōu)先次序下降,表示該物體不是新近檢測到的,不必占用盲人更多的注意力分辨它。
當環(huán)境中沒有新被檢測到的物體時,裝置認為盲人在一個所有物體都已知的環(huán)境中,因此當物體處于盲人正前方并且處于伸手范圍之內時,該物體被賦予最高注意力級別。該物體被優(yōu)先以與較低注意力級別的物體相異的方式告知盲人,使盲人盡快知道處于可被取用范圍內的物體的種類和位置。
與現有技術相比,本發(fā)明的有益效果在于首先,本發(fā)明提高了盲人感知環(huán)境的效率。在一個多物體的環(huán)境中,由于多個聲音依次發(fā)出時,盲人必須用心辨別每個聲音對應的物體。使用本發(fā)明后,盲人聽到的第一個聲音就代表了環(huán)境中最需要關注的物體,而以后聽到的物體都是已被檢測到的物體,盲人可以不用關注。一般表示一個物體所用的語音(漢語中的一個雙音節(jié)名詞)所占用時間在0.5-0.8s左右,這意味著盲人可以在以上時間內得到環(huán)境中重要物體(新觀察到的物體)的信息。而在一個三個物體的場景中,盲人要用上1.5-2.4s時間用心聽完每個物體的聲音才能得到環(huán)境中重要物體的信息。
其次,由于本發(fā)明不斷地跟蹤已被檢測到的物體的位置,在每一幀環(huán)境圖像中,即使每個物體沒有被檢測出來,由于該物體的記錄始終存在,該物體仍然可以發(fā)聲。這樣做可以避免多物體檢測器容易出現的假陰性錯誤。同時由于物體檢測單元多次檢測均沒有再次檢測到的某個物體,該物體的信息將在物體信息緩沖單元中被刪除,這避免了裝置出現假陽性錯誤,因為假陽性錯誤必須連續(xù)多次出現才能導致錯誤的發(fā)聲。
圖1為本發(fā)明實施例的結構框2為本發(fā)明實施例的外觀3為本發(fā)明實施例使用過程中的例子圖
具體實施例方式
下面結合附圖對本發(fā)明的實施例作詳細說明本實施例在以本發(fā)明技術方案為前提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。
實施例如圖1和圖2所示,本實施例結合注意力排序和基于物體辨識的盲人生活輔助裝置(以下簡稱裝置)包括物體信息緩沖單元2、物體檢測單元3、物體測距單元4、感覺替代單元5,與上述單元配合的還有配置在盲人頭上的雙目攝像頭1和立體聲耳機6。雙目攝像頭1是物體檢測單元3和物體測距單元4共用的部件,既將雙目視覺圖像中的參考圖像(一般是右側圖像)提供物體檢測單元用于檢測的環(huán)境圖像,又將雙目視覺圖像提供給物體測距單元。這樣做的好處是物體的檢測和測距都在雙目視覺圖像的參考圖像中進行,簡化了圖像處理過程。本裝置正常工作時,被固定在盲人的頭頂。
物體檢測單元得到雙目攝像頭的參考圖像,并且利用多物體分類器檢查其中是否存在特定種類的物體。在檢測完一幀圖像之后,物體檢測單元能夠根據檢測到的物體與已被檢測到的物體之間的相似性程度判斷檢測到的物體是否與物體信息緩沖單元中已有的物體是同一物體。相似性判據由一組布爾判斷組成,構成布爾判斷的有檢測到的物體是否和已有物體屬于同一類型物體,檢測到的物體是否和已有物體的距離小于設定的閾值,檢測到的物體和已有物體在色調直方圖中的最大象素數目的色調值是否相同,檢測到的物體與已有物體的相關卷積是否大于設定的閾值,檢測到的物體與已有物體的SAD(象素深度差絕對值之和)是否小于設定的閾值。當檢測到的物體與已有物體滿足以上布爾判斷時,則認為兩者是同一物體,于是更新物體信息緩沖單元中的已被檢測到的物體在圖像中的位置坐標和物體特征信息,并降低該物體的注意力等級。當圖像中檢測到的物體與物體信息單元中的任何物體都不滿足相似性判據時,該物體在圖像中的位置坐標、物體的類別信息和物體的特征信息將被存入物體信息緩沖單元并被賦予最高的注意力等級,表示這是最新近檢測到的環(huán)境中的物體。在以后的圖像中,物體檢測單元將不斷跟蹤該物體的最新位置。
如果檢測到的物體與物體緩沖單元中所有的物體記錄都不符合相似性判據時,該檢測到的物體被認為是環(huán)境中新出現、需要被關注的物體,于是新檢測到的物體的種類信息、物體在圖像中的位置坐標,物體的特征信息將被作為檢測到的物體的信息寫入物體信息緩沖單元。同時該物體被賦予最高的注意力級別以保證此物體將優(yōu)先于其它物體傳達給盲人。
同時物體測距單元將雙目攝像頭中得到雙目圖像轉化為參考圖像的視差圖像,視差圖像的每一象素記錄了參考圖像對應坐標象素的視差值。當物體檢測單元在參考圖像中的檢測工作完成后,物體測距單元根據存放在物體信息緩沖單元的每個物體在參考圖像中的二維坐標,得到每個物體的視差,從而將每個物體相對立體攝像頭的三維位置求出。
圖3為本發(fā)明實施例使用過程中的例子圖,本實施例的感覺替代單元在表示盲人周圍環(huán)境中有兩類不同的物體屬于球(SA)類的A1、A2和屬于杯子(SB)類的B1的例子圖。本例中,當盲人的頭部自左向右移動時,物體檢測單元檢測到環(huán)境中依次出現新物體A2、B1、A1,并且由物體測距單元測得物體A1、A2、B1到相對盲人的三維位置信息。環(huán)境中最優(yōu)先的物體依次演變?yōu)锳2,B1,A1,而且最優(yōu)先出現的物體的聲強被加大,頻率被升高以引起盲人注意,這樣盲人能很方便知道前方出現了那些物體,物體是不是他需要的。
當盲人搜索完環(huán)境之后,決定取用一個SA類物體。此時由于沒有物體被新檢測到,裝置將盲人正前方的物體A1的注意力級別設為最高,方便盲人判斷A1的方位,拿取A1。如果盲人決定取用一個SB類物體,只需轉動頭部,當盲人正對著B1時,B1的注意力級別被設為最高,盲人能夠立刻知道到物體B1的位置在正前方,伸手可得之。
圖中整個場景的聲音信號是由場景中的每個物體都轉化的成的聲音疊加形成的。采用如下策略合成聲音式中,xi(i=(0,1,2…m))表示經過注意力排序的的物體信息緩沖單元內多個物體的信息,x0具有最高的注意力級別。xi包括物體的類型信息和相對盲人的物體的三維位置信息,可以由一個四元組<物體類型,到盲人水平的方位角,到盲人的豎直方位角,到盲人的距離>表示。c(xi)是由物體信息xi中的物體類型信息所確定的虛擬立體聲源序列,使不同類型的物體分配不同的聲音加以區(qū)別。c(xi)可以是與物體對應的語音,例如用語音“杯子”提示有水杯的存在,也可以是能夠表示物體特征的聲音,例如,利用喇叭或發(fā)動機的聲音代表汽車。h(xi)是由xi中的水平方位角,豎直方位角,距離信息所確定的信號處理過程,表示的是造成立體聲效果,使聲源的心理感受位置與xi中物體的位置信息(水平方位角,豎直方位角,距離)相一致所需要的信號處理過程。通常可以利用特定位置的HRTF(頭部相關傳遞函數)和虛擬立體聲源卷積的形式達到此目的。每個聲源經過位置變換之后成為具有立體聲效果的聲音序列,這時必須加以延時Δt在50ms到1s之間,使每個物體所對應的聲音在不同時刻發(fā)出的同時留給盲人足夠的時間分辨聲音的音高和方位。最后得到表示整個場景的雙聲道聲音序列P就是各個物體的聲音加入立體聲效果后延時的疊加。盲人聽到由聲音信號序列P得到的聲音就能知曉場景中有兩個SA類物體A1、A2和一個SB類物體B1,這些物體的位置“聽上去”分別在A1、A2、B所在的位置上。而且物體與聲音之間是很自然的一一對應的關系,不同的聲音使盲人清楚地感知物體的類別。
權利要求
1.一種基于物體辨識的盲人生活輔助裝置,包括物體信息緩沖單元、物體檢測單元、物體測距單元和感覺替代單元,其特征在于物體檢測單元的輸入端連接到物體信息緩沖單元,其輸出端連接到物體信息緩沖單元;物體測距單元的輸入端連接到物體信息緩沖單元,其輸出端連接到物體信息緩沖單元;感覺替代單元的輸入端連接到物體信息緩沖單元;所述物體信息緩沖單元存儲環(huán)境中已檢測出的每一個物體的種類信息、圖像中的位置坐標以及相對盲人的三維位置信息、特征信息和注意力等級;所述物體檢測單元檢測圖像傳感器的探測區(qū)域內是否有可以被檢測的物體,并結合物體信息緩沖單元中的內容更新物體信息緩沖單元內的內容;所述物體測距單元測量物體信息緩沖單元中每一個物體相對于盲人的三維位置信息;所述感覺替代單元將物體信息緩沖單元中的物體按盲人的要求轉換為聲音信號或觸覺信號,使盲人能感知環(huán)境中物體的存在。
2.如權利要求1所述的基于物體辨識的盲人生活輔助裝置,其特征是,所述物體檢測單元能夠判斷最新檢測到的物體是否是物體信息緩沖單元中已有記錄的物體,并更新的物體信息緩沖單元中的已有記錄的物體在圖像中的位置坐標,降低物體的注意力等級。
3.如權利要求2所述的基于物體辨識的盲人生活輔助裝置,其特征是,所述物體檢測單元能夠將最新檢測到并且在物體信息緩沖單元中沒有對應記錄的物體的類別信息、物體在圖像中的位置坐標和物體的特征信息存入物體信息緩沖單元,并給予最高的注意力等級。
4.如權利要求3所述的基于物體辨識的盲人生活輔助裝置,其特征是,當沒有物體處于最高注意力等級時,物體檢測單元能夠給予處于盲人正前方的物體最高的注意力等級,方便盲人拿取該物體。
5.如權利要求1至4中任意一條所述的基于物體辨識的盲人生活輔助裝置,其特征是,如果物體檢測單元多次檢測均沒有再次檢測到的某個物體,該物體的所有信息將在物體信息緩沖單元中被刪除。
6.如權利要求1所述的基于物體辨識的盲人生活輔助裝置,其特征是,所述物體測距單元能夠根據物體信息緩沖單元中的物體在圖像中的位置坐標得到并更新物體相對盲人的三維位置信息。
7.如權利要求1所述的基于物體辨識的盲人生活輔助裝置,其特征是,所述感覺替代單元能夠根據物體信息緩沖單元中的物體信息發(fā)出與物體的類別和物體相對盲人的三維位置相適應的聲音或觸覺信號,使盲人理解各個物體的種類和位置。
8.如權利要求1或7所述的基于物體辨識的盲人生活輔助裝置,其特征是,所述感覺替代單元能夠根據物體信息緩沖單元中物體的注意力等級將注意力等級較高的物體優(yōu)先于其它物體告知盲人。
9.如權利要求8所述的基于物體辨識的盲人生活輔助裝置,其特征是,注意力等級較高的物體對應的聲音或觸覺信號與注意力等級較低的物體對應的聲音或觸覺信號相比具有差異。
全文摘要
一種基于物體辨識的盲人生活輔助裝置,其中物體信息緩沖單元存儲環(huán)境中已檢測出的每一個物體的種類信息、圖像中的位置坐標,相對盲人的三維位置信息、特征信息和注意力等級;物體檢測單元檢測圖像傳感器的探測區(qū)域內是否有可以被檢測的物體,比對檢測到的物體是否是已有記錄的物體,并將新檢測到的物體在圖像中的位置坐標和物體的類別信息存入物體信息緩沖單元,并給予最高的注意力等級;物體測距單元測量物體信息緩沖單元中每一個物體相對于盲人的三維位置信息;感覺替代單元將物體信息緩沖單元中的物體按盲人的要求轉換為聲音信號或觸覺信號,使盲人能感知環(huán)境中物體的存在。本發(fā)明提高了盲人認知環(huán)境的效率。
文檔編號A61H3/00GK101040810SQ20071003963
公開日2007年9月26日 申請日期2007年4月19日 優(yōu)先權日2007年4月19日
發(fā)明者朱湘君, 謝青, 閆靜, 杜嘉, 童善保, 朱貽盛, 邱意弘 申請人:上海交通大學