專利名稱:一種面向視力殘疾人網頁內容無障礙訪問的圖片自動描述方法
技術領域:
本發(fā)明涉及圖片自動描述領域,特別是涉及一種面向視力殘疾人網頁內容無障礙訪問的圖片自動描述方法。
背景技術:
根據2006年4月第二次全國殘疾人抽樣調查,中國現(xiàn)有視力殘疾人1691萬,其中單項視力殘疾者1233萬,多重殘疾人中有視力殘疾者458萬。世界衛(wèi)生組織設在日內瓦的防盲和防聾規(guī)劃主任Thylefore博士指出中國是世界上盲人最多的國家,占全世界盲人的18%。每年在中國約有45萬人失明,幾乎每分鐘就會出現(xiàn)一例盲人。如果假設目前的趨勢繼續(xù)保持不變,到2020年預期中國盲人將增加4倍。當前視力殘疾人主要使用讀屏軟件訪問網頁內容,在網絡信息獲取方面,尤其是網頁圖片內容的獲取上存在著諸多困難I)讀屏軟件帶寬窄,只能支持順序信息訪問;2)缺乏視覺信息輔助,僅從圖片替代文本描述理解圖片內容本身就是一件困難的事情;3)很多網頁圖片缺乏替代文本,已有的替代文本描述中則往往缺乏有用的信息。現(xiàn)有的圖片自動標注技術,目的在于為圖片產生數個相關的標注詞,這些標注詞能有效輔助image分類、檢索,但是在幫助盲人理解圖片內容上的作用是有限的?,F(xiàn)有的圖片標注技術還無法實現(xiàn)直接從一般圖片內容中自動提取高層語義信息。但是我們通過對視力殘疾人上網情況調研發(fā)現(xiàn),視力殘疾人所經常訪問的網頁一般具有豐富的文本信息,與圖片相關的內容描述也往往蘊含在網頁的文本中。因此,根據視障人群的對圖片信息獲取的需求以及視力殘疾人上網過程中訪問網頁的特點,設計并開發(fā)出一種有效的網絡文本插圖自動描述方法,必將提高廣大視障人群的上網體驗,縮小與常人上網獲取信息的差距。
發(fā)明內容
本發(fā)明的目的在于提供一種面向視力殘疾人的網絡文本插圖自動描述方法,幫助視障人群為代表的用戶獲取網絡文本中的插圖信息。本發(fā)明解決其技術問題采用的技術方案如下I一種面向視力殘疾人網頁內容無障礙訪問的圖片自動描述方法,該方法的步驟如下I)抓取網絡上帶標簽的圖片作為已標注圖片的樣本庫;2)對已標注圖片樣本庫中的圖片標簽進行排序以實現(xiàn)標簽去噪;3)利用樣本庫中的相似圖片對文本中的插圖產生標簽推薦詞;4)結合標簽推薦詞在圖片所處文本位置的上下文中抽取句子以作為圖片的描述。
所述抓取網絡上帶標簽的圖片作為已標注圖片的樣本庫,是從當前一些圖片分享網站抓取圖片及其對應標簽,作為圖片標簽推薦的樣本庫。所述對已標注圖片樣本庫中的圖片標簽進行排序以實現(xiàn)標簽去噪,其步驟如下I)采用鄰居投票的方式對圖片標簽進行排序,作為排序初始結果;2)根據用戶、標簽和圖片三者之間的關系構建圖排序算法中的跳轉概率矩陣;3)把標簽排序初始結果作為圖排序過程中的標簽偏好(Preference),運用圖排序算法對初始排序結果進行排序精化。所述利用樣本庫中的相似圖片對文本中的插圖產生標簽推薦詞,是指從樣本庫中選取與文本插圖特征相似的圖片,采用相似圖片排序靠前的標簽作為推薦標簽的候選詞,為文本插圖產生推薦標簽。
所述結合標簽詞在圖片上下文中抽取句子以作為圖片的描述,其步驟如下I)對圖片上下文的文本進行分詞,提高名詞的權重,提高標簽推薦詞及其同義詞匹配詞匯的權重;2)對圖片上下文的句子進行權重計算,根據三個方面來確定句子的權重a)句子詞匯的權重總和,為避免句子過長,除以句子的詞匯數;b)句子所處位置,與圖片所處位置越近,句子權重系數越大;c)句子的線索詞,句子中包含與圖相關的線索詞,則句子權重系數越大;3)輸出權重最大的1-2個句子作為圖片描述。本發(fā)明與背景技術相比,具有的有益的效果是本發(fā)明是一種全新的面向視力殘疾人的網絡文本插圖自動描述方法。標簽排序、標簽推薦以及自動文摘技術,對圖片產生一段簡短扼要的描述,相對傳統(tǒng)的圖片自動標注技術只產生數個標注詞,能有效地提升視力殘疾人對網絡文本插圖的理解。
附圖I是本發(fā)明的系統(tǒng)架構圖。
具體實施例方式以下結合附圖和實施例對本發(fā)明作進一步的說明。I.抓取網絡上帶標簽的圖片作為已標注圖片的樣本庫從當前諸多圖片分享網站上抓取圖片和圖片對應標簽。常用的的圖片分享源包括=(I)Flickr,目前使用最廣泛的圖片分享網站,并提供了完善的下載API ;可以利用Flickr API抓取大量的圖片和對應標簽。(2)LabelMe,該圖片源提供了大量優(yōu)質標注圖片。2.對已標注圖片樣本庫中的圖片標簽進行排序以實現(xiàn)標簽去噪2. I)利用圖片顏色、紋理和形狀特征來衡量圖片之間的相似性,采用鄰居投票的方式對圖片標簽進行排序,作為排序初始結果;2. 2)根據用戶、標簽和圖片三者之間的關系構建圖排序算法中的跳轉概率矩陣;2. 3)把標簽排序初始結果作為圖排序過程中的標簽偏好(Preference),運用圖排序算法對初始排序結果進行排序精化。
3.利用樣本庫中的相似圖片對文本中的插圖產生標簽推薦詞利用顏色、紋理和形狀特征從樣本庫中選取與文本插圖特征相似的圖片,采用相似圖片排序靠前的標簽作為推薦標簽的候選詞,從候選詞中選取出現(xiàn)次數多的標簽,作為文本插圖的推薦標簽。4.結合標簽詞在圖片所處文本位置的上下文中抽取句子以作為圖片的描述4. I)對圖片上下文的文本進行分詞,提高名詞的權重,提高標簽推薦詞及其同義詞匹配詞匯的權重;4. 2)對圖片上下文的句子進行權重計算,根據三個方面來確定句子的權重a)句子詞匯的權重總和,為避免句子過長,除以句子的詞匯數;b)句子所處位置,與圖片所處位置越近,句子權重系數越大在實際操作中,加大圖片所處文本位置的上一段最后一句和下一段第一句的句子系數;c)句子的線索詞,句子中包含與圖相關的線索詞,則句子權重系數越大在實際操作中,加大包含“上圖”、“下圖”、“如圖”、“圖為”線索詞的句子權重。4. 3)最終生成的圖片描述要簡潔扼要并包含盡量完整的相關主題信息。最終描述由權重最大的2-3個句子組成。一般情況下,為保證圖片描述的簡潔性,字數控制在50個字以內。
出于示出本發(fā)明的功能和結構原理的目的示出和描述了這些實施例,并且在不脫離這樣的原理的情況下,可以對其進行修改。因此,本發(fā)明包括涵蓋在所附權利要求的精神和范圍內的所有修改。
權利要求
1.ー種面向視カ殘疾人網頁內容無障礙訪問的圖片自動描述方法,其特征在于該方法的步驟如下 1)抓取網絡上帶標簽的圖片作為已標注圖片的樣本庫; 2)對已標注圖片樣本庫中的圖片標簽進行排序以實現(xiàn)標簽去噪; 3)利用樣本庫中的相似圖片對文本中的插圖產生標簽推薦詞; 4)結合標簽推薦詞在圖片上下文中抽取句子以作為圖片的描述。
2.根據權利要求I所述的ー種面向視カ殘疾人網頁內容無障礙訪問的圖片自動描述方法,其特征在干所述抓取網絡上帶標簽的圖片作為已標注圖片的樣本庫,是從圖片分享網站抓取圖片及其對應標簽,作為圖片標簽推薦的樣本庫。
3.根據權利要求I所述的ー種面向視カ殘疾人網頁內容無障礙訪問的圖片自動描述方法,其特征在于對已標注圖片樣本庫中的圖片標簽進行排序以實現(xiàn)標簽去噪,其步驟如下 1)采用鄰居投票的方式對圖片標簽進行排序,作為排序初始結果; 2)利用用戶、標簽和圖片三者之間的關系,構建用戶和標簽、標簽和圖片之間的有向圖,該圖的邊分別代表著用戶對標簽的標注關系、標簽之間的相似度和圖片之間的相似度,根據相似度,得到該有向圖的矩陣表示W ; 3)將原始的標簽順序作為標簽偏好的初始值,利用隨機跳轉概率,對標簽排序結果進行排序精化,排序精化可以有以下三種選項 a)利用第二步得到的有向圖,使用圖排序算法進行排序精化,假設某一標簽的排序分數為Xi,則該排序分數可通過其近鄰計算加權平均得到,即ix = λ + Σ jWijXj,其中&代表近鄰標簽分數,λ是代表對該標簽排序分數的預估常數,為第二步得到的有向圖中定點之間的邊權重; b)利用圖片相似度信息,對圖片的標簽進行投票,即統(tǒng)計在相似圖片中某標簽出現(xiàn)的頻率,從而得到標簽的排序精化; c)使用概率模型對圖片和標簽之間的關系進行建摸,并最終對標簽進行排序精化;
4.根據權利要求I所述的ー種面向視カ殘疾人網頁內容無障礙訪問的圖片自動描述方法,其特征在干利用樣本庫中的相似圖片對文本中的插圖產生標簽推薦詞,是指從樣本庫中選取與文本插圖特征相似的圖片,采用相似圖片排序靠前的標簽作為推薦標簽的候選詞,為文本插圖產生推薦標簽。
5.根據權利要求I所述的ー種面向視カ殘疾人網頁內容無障礙訪問的圖片自動描述方法,其特征在于結合標簽詞在圖片上下文中抽取句子以作為圖片的描述,其步驟如下 1)對圖片上下文的文本進行分詞,提高名詞的權重,提高標簽推薦詞及其同義詞匹配詞匯的權重; 2)對圖片上下文的句子進行權重計算,根據三個方面來確定句子的權重 a)句子詞匯的權重總和,為避免句子過長,除以句子的詞匯數; b)句子所處位置,與圖片所處位置越近,句子權重系數越大; c)句子的線索詞,句子中包含與圖相關的線索詞,則句子權重系數越大; 3)輸出權重最大的1-2個句子作為圖片描述。
全文摘要
本發(fā)明公開了一種面向視力殘疾人網頁內容無障礙訪問的圖片自動描述方法。該方法的步驟如下抓取網絡上帶標簽的圖片作為已標注圖片的樣本庫;對已標注圖片樣本庫中的圖片標簽進行排序以實現(xiàn)標簽去噪;利用樣本庫中的相似圖片對網頁中的插圖產生標簽推薦詞;結合標簽詞在圖片所處網頁位置的上下文中抽取句子以作為圖片的描述。本發(fā)明綜合使用了標簽排序、標簽推薦以及網頁文檔摘要技術,對圖片產生一段簡短扼要的描述,改善視力殘疾人對網頁內容的無障礙訪問,從而提升他們的上網體驗。
文檔編號G06F17/30GK102662972SQ201210062709
公開日2012年9月12日 申請日期2012年3月9日 優(yōu)先權日2012年3月9日
發(fā)明者卜佳俊, 汪兆鵬, 王燦, 陳爭光, 陳純 申請人:浙江大學