一種基于人機(jī)交互的圖像高級語義解析的方法
【專利摘要】本發(fā)明實(shí)施例公開了一種基于人機(jī)交互的圖像高級語義解析的方法,包括:基于便攜式掃描設(shè)備掃描源圖像;對源圖像中的目標(biāo)進(jìn)行識別;將源圖像中的內(nèi)容進(jìn)行過濾和解析,并提煉出有效的知識;組織語義將圖像內(nèi)容用語音形式傳遞給用戶。實(shí)施本發(fā)明實(shí)施例針對視力障礙群體和自學(xué)能力較弱的群體,只需憑借簡單的掃描工作,無需借助視覺系統(tǒng)通過計(jì)算機(jī)描述圖像,能夠幫助這樣的弱勢群體體會另一個(gè)不同的世界,也可以作為娛樂生活的一部分。操作簡單,移植性良好。
【專利說明】一種基于人機(jī)交互的圖像高級語義解析的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人機(jī)交互【技術(shù)領(lǐng)域】,尤其涉一種基于人機(jī)交互的圖像高級語義解析的 方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及,存儲技術(shù)、多媒體技術(shù)和數(shù)據(jù)庫技術(shù)快速發(fā)展,人們在圖像應(yīng) 用上所提出的要求日益增長。物理學(xué)界認(rèn)為,人類特有的三種信息是語言、符號和圖像,信 息的傳播在很大程度上依賴于視覺,至少有80%的外界信息是通過視覺感知獲得的,視覺 是人和動物最重要的感覺。一幅圖像中包含的語義信息相當(dāng)豐富,但是不是任何群體都有 正常的視覺功能或有良好的理解能力,所以如何借助計(jì)算機(jī)自動解析圖像是一項(xiàng)有意義且 具有挑戰(zhàn)的任務(wù)。而最終得到準(zhǔn)確的語義解析與表達(dá)實(shí)現(xiàn)過程中需要借助計(jì)算機(jī)自動對圖 像進(jìn)行標(biāo)注。
[0003] 圖像語義的研宄主要集中在基于圖像各層語義的分類及檢索、低層語義特征 的提取、中層對象語義的描述等方面。進(jìn)入20世紀(jì)90年代后,基于內(nèi)容的圖像檢索 (Content-BasedImageRetrieval,CBIR)成為一個(gè)研宄熱點(diǎn),也成為多媒體數(shù)據(jù)庫、數(shù)字 圖書館等重大研宄項(xiàng)目中的關(guān)鍵技術(shù)。CBIR從一定程度上解決了基于文本的圖像檢索的 局限性,它通過計(jì)算圖像視覺特征(如顏色、紋理、形狀等)間的相似度來匹配圖像,以及運(yùn) 用可視化的查詢方式來代替基于文本的圖像檢索。實(shí)現(xiàn)了使用顏色、紋理、形狀及區(qū)域等圖 像視覺內(nèi)容特征的檢索和"以圖找圖"的檢索模式的飛躍。基于內(nèi)容的圖像檢索融合了圖 像理解、模式識別信息技術(shù)等領(lǐng)域知識,是多種高新技術(shù)的合成。一些研宄者重點(diǎn)對圖像底 層視覺特征提取及表示進(jìn)行研宄,并取得了一定的成果。然而,在實(shí)際應(yīng)用中,傳統(tǒng)的CBIR 系統(tǒng)的檢索結(jié)果往往難以令人滿意,不能滿足人們按照語義檢索圖像的需求,這主要因?yàn)?用戶往往對所需的圖像只存在有關(guān)圖像描述的對象、事件以及表達(dá)的情感等含義上的一些 高層概念(如度假、城市、肖像等),用戶需要的是圖像語義的查詢,而不是圖像的底層視覺 特征。這里提到的圖像的含義就是圖像的高層語義特征,它包含了人們對圖像內(nèi)容的理解, 這種理解要根據(jù)人的認(rèn)知知識來判斷,并不能夠直接從圖像的底層特征獲得。這就產(chǎn)生了 基于內(nèi)容的圖像檢索系統(tǒng)中存在的"語義鴻溝"問題,即人對圖像內(nèi)容的理解與計(jì)算機(jī)自動 提取的圖像視覺特征間存在的巨大的差異。進(jìn)入21世紀(jì),圖像檢索圍繞圖像語義(Image Semantic)這一熱點(diǎn)展開,其目的是使計(jì)算機(jī)檢索圖像的能力達(dá)到人的理解水平,實(shí)現(xiàn)更為 貼近用戶理解能力的自然而簡潔的查詢方式,并提高圖像檢索的精度?;谡Z義的圖像檢 索(Semantic-BasedImageRetrieval,SBIR)立足于圖像的語義特征,研宄如何將圖像的 底層視覺特征映射到圖像高層語義,以及如何描述這些高層語義。隨著2001年9月"多媒體 內(nèi)容描述接口"MPEG-7標(biāo)準(zhǔn)的推出和逐漸完善,數(shù)字化圖像將具有統(tǒng)一的視覺特征描述參 數(shù)和表達(dá)復(fù)雜語義關(guān)系的描述定義語言,這將有利于基于語義的圖像檢索技術(shù)取得突破性 進(jìn)展,并走向?qū)嵱没屯ㄓ没?。圖像語義自動標(biāo)注是基于語義的圖像檢索的關(guān)鍵環(huán)節(jié),已經(jīng) 成為圖像檢索中的研宄熱點(diǎn)。圖像語義的自動標(biāo)注就是為圖像添加關(guān)鍵字來表示圖像的語 義內(nèi)容,能夠?qū)D像的視覺特征轉(zhuǎn)化為圖像的標(biāo)注字信息,繼承了關(guān)鍵字檢索的高效率,也 克服了手工標(biāo)注費(fèi)時(shí)費(fèi)力的缺點(diǎn)。算法的步驟一般有兩個(gè)方面:首先對標(biāo)注了同一語義的 所有圖像底層特征組成的集合進(jìn)行統(tǒng)計(jì)學(xué)習(xí),得到該語義類的訓(xùn)練模型;其次對于一幅待 標(biāo)注的圖像,同樣提取圖像底層特征,根據(jù)已求得的語義類的訓(xùn)練模型,獲得屬于該圖像語 義的概率,因而可以求得在待標(biāo)注的圖像中,所有語義概念或者說文本關(guān)鍵字出現(xiàn)的概率。 對圖像的語義概率按序排列,選擇概率最高的若干個(gè)關(guān)鍵詞作為此圖像的語義標(biāo)簽。圖像 語義的自動標(biāo)注作為圖像檢索領(lǐng)域研宄的熱點(diǎn),具有廣泛的應(yīng)用前景,主要包括醫(yī)學(xué)圖像 分類、數(shù)字化圖書館的建立和管理、數(shù)碼照片的檢索和管理、視頻檢索、衛(wèi)星遙感圖像處理 等方面。
[0004] 在圖像語義描述中,圖像內(nèi)容描述具有"像素-區(qū)域-目標(biāo)-場景"的層次 包含關(guān)系,而語義描述的本質(zhì)就是采用合理的構(gòu)詞方式進(jìn)行詞匯編碼(Encoding)和 注解(Annotation)的過程。這種過程與圖像內(nèi)容的各層描述密切相關(guān),圖像像素和 區(qū)域信息源于中低層數(shù)據(jù)驅(qū)動,根據(jù)結(jié)構(gòu)型數(shù)據(jù)的相似特性對像素(區(qū)域)進(jìn)行"標(biāo) 記"(Labeling),可為高層語義編碼提供有效的低層實(shí)體對應(yīng)關(guān)系。目標(biāo)和場景的中層"分 類"(Categorization)特性也具有明顯的編碼特性,每一類別均可視為簡單的語義描述,為 多語義分析的拓展提供較好的原型描述。
[0005] 我們描述一幅圖像的不同屬性,例如這些底層特征,顏色、紋理、邊緣或形狀等,已 經(jīng)成為了計(jì)算機(jī)視覺領(lǐng)域中重要課題,識別出一幅圖像中的這些信息也許在大多數(shù)實(shí)踐應(yīng) 用中提供了有用的信息。但是,這絕對不是人類同這個(gè)視覺世界進(jìn)行交流的層次,也不是對 視力障礙群體所提供的描述方式。我們需要做的不僅是一幅場景中識別出許多單獨(dú)的目 標(biāo),還要分辨出不同的環(huán)境并感知進(jìn)行的復(fù)雜的活動和社交關(guān)系。這是圖像理解的高層語 義識別,圖1為圖像理解過程的示意圖。
[0006] 人機(jī)交互(human-computerinteraction,HCI)是一門研宄系統(tǒng)與用戶之間的交 互關(guān)系的學(xué)問。人與計(jì)算機(jī)系統(tǒng)相互溝通的平臺,是人機(jī)對話的接口。以人為中心、自然、高 效的交互是發(fā)展新一代人機(jī)交互技術(shù)的主要目標(biāo)。人機(jī)交互技術(shù)的發(fā)展經(jīng)歷了 3個(gè)階段, 其中,第3代人機(jī)交互界面一一多模態(tài)用戶界面,在多媒體界面的基礎(chǔ)上,采用語音識別、視 線跟蹤、手勢輸入等新技術(shù),使用戶可用多種形態(tài)或多個(gè)通道以自然、并行和協(xié)作的方式進(jìn) 行交互,系統(tǒng)通過整合多通道精確和非精確信息,快速捕捉用戶的意向,有效地提高人機(jī)交 互的自然性和效率。
[0007] 根據(jù)圖像標(biāo)注方法的發(fā)展進(jìn)程,目前文獻(xiàn)中用于解決"語義鴻溝"問題的方法按其 側(cè)重點(diǎn)大致可分為三類:基于機(jī)器學(xué)習(xí)的方法;基于相關(guān)反饋的方法;基于本體的方法。
[0008] (1)基于機(jī)器學(xué)習(xí)的方法
[0009] 目前采用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)模型學(xué)習(xí)進(jìn)行圖像自動語義標(biāo)注大體上可分為有監(jiān)督 語義標(biāo)注和無監(jiān)督語義標(biāo)注兩大類。有監(jiān)督的分類方法首先通過學(xué)習(xí)、訓(xùn)練事先給定的經(jīng) 過語義標(biāo)注的一組樣本圖像,獲得圖像語義分類器,然后利用分類器將未標(biāo)注或未歸類的 圖像歸并到某一語義類。最常用的有監(jiān)督學(xué)習(xí)技術(shù)有貝葉斯分類器和支持向量機(jī)(Support VectorMachine,SVM)技術(shù)。無監(jiān)督語義標(biāo)注根據(jù)圖像內(nèi)容將庫中圖像(或圖像區(qū)域)聚 類到某些有意義的集合,使得位于同一聚類內(nèi)的圖像的相似度盡可能大,而位于不同聚類 的圖像的相似度盡可能小。然后利用統(tǒng)計(jì)方法為每個(gè)聚類加一個(gè)類標(biāo)簽,以獲得各個(gè)圖像 聚類中的語義信息。簡單來說它的目標(biāo)在于對輸入數(shù)據(jù)進(jìn)行合理有效的組織或聚類。該方 法對于手工標(biāo)注的訓(xùn)練集要求較低,訓(xùn)練數(shù)據(jù)和語義概念具有可擴(kuò)展性。但是嚴(yán)格地說,單 純的圖像聚類并不能為一個(gè)新的圖像獲取顯式的語義標(biāo)簽,需要與其他技術(shù)結(jié)合使用來進(jìn) 行圖像的自動語義標(biāo)注,充分發(fā)揮其效率,并達(dá)到較高的檢索精度。
[0010] (2)基于相關(guān)反饋的方法
[0011] 相關(guān)反饋(RelevanceFeedback,RF)的基本思想是指在檢索過程中,用戶根據(jù)先 前檢索結(jié)果借助權(quán)重調(diào)整已有的查詢要求以給檢索系統(tǒng)提供更多更直接的信息,從而使系 統(tǒng)更好地滿足用戶的要求。簡單的說,反饋的過程是用戶和檢索系統(tǒng)之間的一個(gè)交互過程, 系統(tǒng)根據(jù)用戶對當(dāng)前檢索結(jié)果的評價(jià)來調(diào)整用戶的初始查詢以及匹配模型的參數(shù),從而達(dá) 到對檢索結(jié)果的優(yōu)化。相關(guān)反饋在本質(zhì)上還是一個(gè)學(xué)習(xí)過程,它的方法具有與人類學(xué)習(xí)方 法類似的思路,是一種很有價(jià)值的研宄語義映射的方法,在視覺特征層次和語義層次都能 獲得較好的檢索效果。其具有樣本數(shù)少、實(shí)時(shí)性要求強(qiáng)等特點(diǎn),但是有可能產(chǎn)生檢索時(shí)間過 長,結(jié)果振蕩等問題。
[0012] (3)基于對象本體的方法
[0013] 本體(Ontology)在文本信息檢索中有廣泛的應(yīng)用,但在圖像檢索領(lǐng)域起步較晚。 本體指的是特定領(lǐng)域公認(rèn)的關(guān)于該領(lǐng)域的對象(實(shí)際對象和邏輯對象)及其關(guān)系的概念化 表述。它指出圖像中不同的對象可以用簡單描述詞的集合來定義,如"天空"定義為"在上 方的、均勻的、藍(lán)色的"區(qū)域。通過將顏色、位置、大小和形狀等底層特征離散化后與映射到 這些簡單語義上,最終可以得到對象語義。對于類型比較單一的圖像庫,基于本體的方法能 得到較好的效果。而對大型圖像數(shù)據(jù)庫而言,這一方法效果不佳。下圖給出了一幅當(dāng)前通 過計(jì)算機(jī)自動實(shí)現(xiàn)標(biāo)注的示意圖,如圖2中所示。
[0014]目前,在計(jì)算機(jī)視覺領(lǐng)域,大多數(shù)研宄者將研宄工作集中在目標(biāo)識別和目標(biāo)分類 上,關(guān)于場景環(huán)境的分類也有許多模型被提出,但是一幅靜態(tài)的圖像中對事件的識別這類 研宄很少。而且大多數(shù)基于內(nèi)容檢索圖像、對圖像進(jìn)行標(biāo)注都是單一進(jìn)行的,沒有連貫性的 將這些工作結(jié)合起來。則將一幅圖像用計(jì)算機(jī)如何描述并用語言組織反饋給用戶有很好的 研宄價(jià)值。
【發(fā)明內(nèi)容】
[0015] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,本發(fā)明所提出的基于人機(jī)交互的圖像高 級語義解析的方法,能夠幫助這樣的弱勢群體體會另一個(gè)不同的世界,也可以作為娛樂生 活的一部分。
[0016] 為了解決上述問題,本發(fā)明提出了一種基于人機(jī)交互的圖像高級語義解析的方 法,包括:
[0017] 基于便攜式掃描設(shè)備掃描源圖像;
[0018] 對源圖像中的目標(biāo)進(jìn)行識別;
[0019] 將源圖像中的內(nèi)容進(jìn)行過濾和解析,并提煉出有效的知識;
[0020] 組織語義將圖像內(nèi)容用語音形式傳遞給用戶。
[0021] 所述基于便攜式掃描設(shè)備掃描源圖像包括:
[0022] 基于ARM的便攜式掃描設(shè)備掃描源圖像。
[0023] 所述對源圖像中的目標(biāo)進(jìn)行識別包括:
[0024] 對圖像的特征提取采用SIFT局部特征提取,同時(shí)結(jié)合HOG特征和GIST全局特征, 能夠更全面的獲取圖像信息。
[0025] 所述將源圖像中的內(nèi)容進(jìn)行過濾和解析,并提煉出有效的知識包括:
[0026] 采取詞袋模型圖像分類方法提煉出有效的知識。
[0027] 所述詞袋模型圖像分類方法包括:
[0028] 通過圖像分割或隨機(jī)采樣等方式檢測特征點(diǎn);
[0029] 對圖像提取局部特征,并生成描述符;
[0030] 將關(guān)于這些特征點(diǎn)的描述符利用聚類的方法,其中每一個(gè)聚類中心為一個(gè)視覺單 詞;
[0031] 將每個(gè)視覺單詞出現(xiàn)的頻率統(tǒng)計(jì)成視覺單詞直方圖。
[0032] 所述組織語義將圖像內(nèi)容用語音形式傳遞給用戶包括:
[0033] 采用潛在語義提取技術(shù)將圖像內(nèi)容用語音形式傳遞給用戶。
[0034] 實(shí)施本發(fā)明實(shí)施例,本發(fā)明主要是針對視力障礙群體和自學(xué)能力較弱的群體,只 需憑借簡單的掃描工作,無需借助視覺系統(tǒng)通過計(jì)算機(jī)描述圖像,能夠幫助這樣的弱勢群 體體會另一個(gè)不同的世界,也可以作為娛樂生活的一部分。操作簡單,移植性良好。
【專利附圖】
【附圖說明】
[0035] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其它的附圖。
[0036] 圖1是現(xiàn)有技術(shù)中的圖像處理過程流程圖;
[0037] 圖2是現(xiàn)有技術(shù)中的自動圖像標(biāo)注示例圖;
[0038] 圖3是本發(fā)明實(shí)施例中的基于人機(jī)交互的圖像高級語義解析的方法流程圖;
[0039] 圖4是本發(fā)明實(shí)施例中的描設(shè)備結(jié)構(gòu)原理圖。
【具體實(shí)施方式】
[0040] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0041] 本發(fā)明針對任意一幅圖像(彩色圖像或黑白圖),借助一個(gè)手持便攜式的掃描設(shè) 備進(jìn)行整體掃描,使得源圖像信息錄入該系統(tǒng),系統(tǒng)對圖像中的目標(biāo)進(jìn)行識別,并將其內(nèi)容 進(jìn)行過濾和解析,提煉出有效知識,組織語義將圖像內(nèi)容用語音形式傳遞給用戶。例如:一 幅水上劃船的圖像,通過系統(tǒng)識別出一個(gè)人,一條船,一片湖,一根魚竿,天空,樹木等目標(biāo), 系統(tǒng)進(jìn)行目標(biāo)分析及圖像語義的組織,最后將用語音設(shè)備輸出信息:人在湖上釣魚。該系統(tǒng) 發(fā)明主要目的在于幫助有視力障礙的患者(弱視,盲人等)或不識字的老人以及學(xué)前兒童 在無人力協(xié)助情況下有效的識別圖像內(nèi)容,讓該群體去了解不能接觸的外界。這種基于人 機(jī)交互的高級語義解析系統(tǒng)具有很好的兼容性及移植性,操作便捷。系統(tǒng)的工作流程圖如 圖3中所示。
[0042] (1)基于ARM的便攜式掃描設(shè)備(硬件)
[0043] 硬件層主要由系統(tǒng)核心部分、掃描部分和人機(jī)接口部分組成。另外,為了擴(kuò)充其功 能及適應(yīng)多種應(yīng)用場合,預(yù)留了一些擴(kuò)展接口。微處理器選用目前常見的三星S3C2410X芯 片,芯片內(nèi)核是帶16KB數(shù)據(jù)Cache和16KB指令Cache的ARM9TDMI核,工作頻率203MHz。 存貯器采用64MB的NANDFlash和64MB的SDRAM。掃描部分采用SDIO掌上型掃描卡?;?于微線性CMOS映像技術(shù)的此款SDIOISC掃描卡,可掃描所有主流的線性條碼。人機(jī)接口 部分用三星公司的LTV350QV-F05型3. 5寸TFT觸摸屏,配以觸摸板,可同時(shí)實(shí)現(xiàn)顯示及鍵 盤功能,有利于減小設(shè)備的體積。以太網(wǎng)口用于數(shù)據(jù)的傳輸和下載。預(yù)留USB、RS232等接 口以方便該設(shè)備的功能擴(kuò)充。
[0044] (2)特征提取技術(shù)
[0045] 由于SIFT特征對光照、尺度等具有不變性,對圖像的特征提取采用SIFT局部特征 提取,同時(shí)結(jié)合HOG特征和GIST全局特征,能夠更全面的獲取圖像信息。
[0046] (3)BOW模型描述
[0047] 隨著局部特征在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,基于局部特征的圖像分類識別方 法也得到了更為廣泛的關(guān)注。由于局部特征在提取吋,每幅圖像檢測得到的特征點(diǎn)數(shù)目不 統(tǒng)一,使得在機(jī)器訓(xùn)練時(shí)無法入手,并且這些方法都是基于特征點(diǎn)來進(jìn)行匹配,其計(jì)算量 大的缺點(diǎn)凸顯而無法滿足日益增大的圖像數(shù)據(jù)庫的需求。為了克服這些問題,美國斯坦福 大學(xué)的Ll-feifei等學(xué)者首先將詞袋模型作為一種特征表示應(yīng)用到計(jì)算機(jī)圖像處理領(lǐng)域。 詞袋模型圖像分類方法不僅能很好的解決圖像局部特征不統(tǒng)一的問題,而且表示方法也 比較簡單,訓(xùn)練分類快速,得到了極大的發(fā)展。受文本檢索方法的啟示,詞袋模型由于其 高性能受到國內(nèi)外的學(xué)者越來越多的關(guān)注。詞袋模型已經(jīng)被廣泛地應(yīng)用于圖像分類和檢索 中:
[0048] 詞袋模型生成主要步驟為:
[0049] ①通過圖像分割或隨機(jī)采樣等方式檢測特征點(diǎn)。
[0050] ②對圖像提取局部特征(SIFT),并生成描述符。
[0051] ③將關(guān)于這些特征點(diǎn)的描述符利用聚類的方法(通常采用K-means聚類)形成視 覺詞典(VisualVocabulary),其中每一個(gè)聚類中心為一個(gè)視覺單詞。
[0052] ④將每個(gè)視覺單詞出現(xiàn)的頻率統(tǒng)計(jì)成視覺單詞直方圖。
[0053] (4)潛在語義提取技術(shù)
[0054] 自然語言處理(NLP)的很多應(yīng)用都需要探宄隱藏在字、詞背后的涵義,簡單的字 面匹配絕難奏效,關(guān)鍵在于同義詞和一詞多義的把握.潛在語義分析(LSA)為此提供了 部分解決問題的方法,即利用奇異值分解(SVD)將高維度的詞匯-文檔共現(xiàn)矩陣映射到 低維度的潛在語義空間,使得表面毫不相關(guān)的詞體現(xiàn)出深層次的聯(lián)系。概率潛在語義分析 (PLSA)作為潛在語義分析(LSA)的變種,擁有更堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)及易于利用的數(shù)據(jù)生成模 型,且已被證實(shí)能夠?yàn)樾畔⑻崛√峁└玫脑~匯匹配。給定一個(gè)文檔集合D= {dl,d2,··· ,dM}和一個(gè)詞集合W= {wl,w2,…,wN}以及一個(gè)文檔和詞的共現(xiàn)頻率矩陣N=(nij), n(di,wj)表示詞wj在文檔dj中出現(xiàn)的頻率。使用Z= {zl,z2,…,zK}表示潛在語義的 集合,K為人工指定的一個(gè)常數(shù)。概率潛在語義分析假設(shè)"文檔一詞"對之間是條件獨(dú)立的, 并且潛在語義在文檔或詞上分布也是條件獨(dú)立的.在上面假設(shè)的前提下,可使用下列公式 來表示"文檔一詞"的條件概率:
[0055]
【權(quán)利要求】
1. 一種基于人機(jī)交互的圖像高級語義解析的方法,其特征在于,包括: 基于便攜式掃描設(shè)備掃描源圖像; 對源圖像中的目標(biāo)進(jìn)行識別; 將源圖像中的內(nèi)容進(jìn)行過濾和解析,并提煉出有效的知識; 組織語義將圖像內(nèi)容用語音形式傳遞給用戶。
2. 如權(quán)利要求1所述的基于人機(jī)交互的圖像高級語義解析的方法,其特征在于,所述 基于便攜式掃描設(shè)備掃描源圖像包括: 基于ARM的便攜式掃描設(shè)備掃描源圖像。
3. 如權(quán)利要求2所述的基于人機(jī)交互的圖像高級語義解析的方法,其特征在于,所述 對源圖像中的目標(biāo)進(jìn)行識別包括: 對圖像的特征提取采用SIFT局部特征提取,同時(shí)結(jié)合HOG特征和GIST全局特征,能夠 更全面的獲取圖像信息。
4. 如權(quán)利要求3所述的基于人機(jī)交互的圖像高級語義解析的方法,其特征在于,所述 將源圖像中的內(nèi)容進(jìn)行過濾和解析,并提煉出有效的知識包括: 采取詞袋模型圖像分類方法提煉出有效的知識。
5. 如權(quán)利要求4所述的基于人機(jī)交互的圖像高級語義解析的方法,其特征在于,所述 詞袋模型圖像分類方法包括: 通過圖像分割或隨機(jī)采樣等方式檢測特征點(diǎn); 對圖像提取局部特征,并生成描述符; 將關(guān)于這些特征點(diǎn)的描述符利用聚類的方法,其中每一個(gè)聚類中心為一個(gè)視覺單詞; 將每個(gè)視覺單詞出現(xiàn)的頻率統(tǒng)計(jì)成視覺單詞直方圖。
6. 如權(quán)利要求5所述的基于人機(jī)交互的圖像高級語義解析的方法,其特征在于,所述 組織語義將圖像內(nèi)容用語音形式傳遞給用戶包括: 采用潛在語義提取技術(shù)將圖像內(nèi)容用語音形式傳遞給用戶。
【文檔編號】G06K9/62GK104484666SQ201410790684
【公開日】2015年4月1日 申請日期:2014年12月17日 優(yōu)先權(quán)日:2014年12月17日
【發(fā)明者】林格, 羅甜, 羅笑南 申請人:中山大學(xué)