一種基于人機(jī)交互的圖像高級語義解析的方法

文檔序號：6639252閱讀：220來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于人機(jī)交互的圖像高級語義解析的方法
【專利摘要】本發(fā)明實(shí)施例公開了一種基于人機(jī)交互的圖像高級語義解析的方法，包括：基于便攜式掃描設(shè)備掃描源圖像；對源圖像中的目標(biāo)進(jìn)行識別；將源圖像中的內(nèi)容進(jìn)行過濾和解析，并提煉出有效的知識；組織語義將圖像內(nèi)容用語音形式傳遞給用戶。實(shí)施本發(fā)明實(shí)施例針對視力障礙群體和自學(xué)能力較弱的群體，只需憑借簡單的掃描工作，無需借助視覺系統(tǒng)通過計(jì)算機(jī)描述圖像，能夠幫助這樣的弱勢群體體會另一個(gè)不同的世界，也可以作為娛樂生活的一部分。操作簡單，移植性良好。
【專利說明】一種基于人機(jī)交互的圖像高級語義解析的方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人機(jī)交互【技術(shù)領(lǐng)域】，尤其涉一種基于人機(jī)交互的圖像高級語義解析的方法。

【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及，存儲技術(shù)、多媒體技術(shù)和數(shù)據(jù)庫技術(shù)快速發(fā)展，人們在圖像應(yīng) 用上所提出的要求日益增長。物理學(xué)界認(rèn)為，人類特有的三種信息是語言、符號和圖像，信息的傳播在很大程度上依賴于視覺，至少有80%的外界信息是通過視覺感知獲得的，視覺是人和動物最重要的感覺。一幅圖像中包含的語義信息相當(dāng)豐富，但是不是任何群體都有正常的視覺功能或有良好的理解能力，所以如何借助計(jì)算機(jī)自動解析圖像是一項(xiàng)有意義且具有挑戰(zhàn)的任務(wù)。而最終得到準(zhǔn)確的語義解析與表達(dá)實(shí)現(xiàn)過程中需要借助計(jì)算機(jī)自動對圖像進(jìn)行標(biāo)注。
[0003] 圖像語義的研宄主要集中在基于圖像各層語義的分類及檢索、低層語義特征的提取、中層對象語義的描述等方面。進(jìn)入20世紀(jì)90年代后，基于內(nèi)容的圖像檢索 (Content-BasedImageRetrieval，CBIR)成為一個(gè)研宄熱點(diǎn)，也成為多媒體數(shù)據(jù)庫、數(shù)字圖書館等重大研宄項(xiàng)目中的關(guān)鍵技術(shù)。CBIR從一定程度上解決了基于文本的圖像檢索的局限性，它通過計(jì)算圖像視覺特征（如顏色、紋理、形狀等）間的相似度來匹配圖像，以及運(yùn) 用可視化的查詢方式來代替基于文本的圖像檢索。實(shí)現(xiàn)了使用顏色、紋理、形狀及區(qū)域等圖像視覺內(nèi)容特征的檢索和"以圖找圖"的檢索模式的飛躍。基于內(nèi)容的圖像檢索融合了圖像理解、模式識別信息技術(shù)等領(lǐng)域知識，是多種高新技術(shù)的合成。一些研宄者重點(diǎn)對圖像底層視覺特征提取及表示進(jìn)行研宄，并取得了一定的成果。然而，在實(shí)際應(yīng)用中，傳統(tǒng)的CBIR 系統(tǒng)的檢索結(jié)果往往難以令人滿意，不能滿足人們按照語義檢索圖像的需求，這主要因?yàn)?用戶往往對所需的圖像只存在有關(guān)圖像描述的對象、事件以及表達(dá)的情感等含義上的一些高層概念（如度假、城市、肖像等），用戶需要的是圖像語義的查詢，而不是圖像的底層視覺特征。這里提到的圖像的含義就是圖像的高層語義特征，它包含了人們對圖像內(nèi)容的理解，這種理解要根據(jù)人的認(rèn)知知識來判斷，并不能夠直接從圖像的底層特征獲得。這就產(chǎn)生了基于內(nèi)容的圖像檢索系統(tǒng)中存在的"語義鴻溝"問題，即人對圖像內(nèi)容的理解與計(jì)算機(jī)自動提取的圖像視覺特征間存在的巨大的差異。進(jìn)入21世紀(jì)，圖像檢索圍繞圖像語義（Image Semantic)這一熱點(diǎn)展開，其目的是使計(jì)算機(jī)檢索圖像的能力達(dá)到人的理解水平，實(shí)現(xiàn)更為貼近用戶理解能力的自然而簡潔的查詢方式，并提高圖像檢索的精度?；谡Z義的圖像檢索（Semantic-BasedImageRetrieval，SBIR)立足于圖像的語義特征，研宄如何將圖像的底層視覺特征映射到圖像高層語義，以及如何描述這些高層語義。隨著2001年9月"多媒體內(nèi)容描述接口"MPEG-7標(biāo)準(zhǔn)的推出和逐漸完善，數(shù)字化圖像將具有統(tǒng)一的視覺特征描述參數(shù)和表達(dá)復(fù)雜語義關(guān)系的描述定義語言，這將有利于基于語義的圖像檢索技術(shù)取得突破性進(jìn)展，并走向?qū)嵱没屯ㄓ没?。圖像語義自動標(biāo)注是基于語義的圖像檢索的關(guān)鍵環(huán)節(jié)，已經(jīng) 成為圖像檢索中的研宄熱點(diǎn)。圖像語義的自動標(biāo)注就是為圖像添加關(guān)鍵字來表示圖像的語義內(nèi)容，能夠?qū)D像的視覺特征轉(zhuǎn)化為圖像的標(biāo)注字信息，繼承了關(guān)鍵字檢索的高效率，也克服了手工標(biāo)注費(fèi)時(shí)費(fèi)力的缺點(diǎn)。算法的步驟一般有兩個(gè)方面：首先對標(biāo)注了同一語義的所有圖像底層特征組成的集合進(jìn)行統(tǒng)計(jì)學(xué)習(xí)，得到該語義類的訓(xùn)練模型；其次對于一幅待標(biāo)注的圖像，同樣提取圖像底層特征，根據(jù)已求得的語義類的訓(xùn)練模型，獲得屬于該圖像語義的概率，因而可以求得在待標(biāo)注的圖像中，所有語義概念或者說文本關(guān)鍵字出現(xiàn)的概率。對圖像的語義概率按序排列，選擇概率最高的若干個(gè)關(guān)鍵詞作為此圖像的語義標(biāo)簽。圖像語義的自動標(biāo)注作為圖像檢索領(lǐng)域研宄的熱點(diǎn)，具有廣泛的應(yīng)用前景，主要包括醫(yī)學(xué)圖像分類、數(shù)字化圖書館的建立和管理、數(shù)碼照片的檢索和管理、視頻檢索、衛(wèi)星遙感圖像處理等方面。
[0004] 在圖像語義描述中，圖像內(nèi)容描述具有"像素-區(qū)域-目標(biāo)-場景"的層次包含關(guān)系，而語義描述的本質(zhì)就是采用合理的構(gòu)詞方式進(jìn)行詞匯編碼（Encoding)和注解（Annotation)的過程。這種過程與圖像內(nèi)容的各層描述密切相關(guān)，圖像像素和區(qū)域信息源于中低層數(shù)據(jù)驅(qū)動，根據(jù)結(jié)構(gòu)型數(shù)據(jù)的相似特性對像素（區(qū)域）進(jìn)行"標(biāo) 記"（Labeling)，可為高層語義編碼提供有效的低層實(shí)體對應(yīng)關(guān)系。目標(biāo)和場景的中層"分類"(Categorization)特性也具有明顯的編碼特性，每一類別均可視為簡單的語義描述，為多語義分析的拓展提供較好的原型描述。
[0005] 我們描述一幅圖像的不同屬性，例如這些底層特征，顏色、紋理、邊緣或形狀等，已經(jīng)成為了計(jì)算機(jī)視覺領(lǐng)域中重要課題，識別出一幅圖像中的這些信息也許在大多數(shù)實(shí)踐應(yīng) 用中提供了有用的信息。但是，這絕對不是人類同這個(gè)視覺世界進(jìn)行交流的層次，也不是對視力障礙群體所提供的描述方式。我們需要做的不僅是一幅場景中識別出許多單獨(dú)的目標(biāo)，還要分辨出不同的環(huán)境并感知進(jìn)行的復(fù)雜的活動和社交關(guān)系。這是圖像理解的高層語義識別，圖1為圖像理解過程的示意圖。
[0006] 人機(jī)交互（human-computerinteraction,HCI)是一門研宄系統(tǒng)與用戶之間的交互關(guān)系的學(xué)問。人與計(jì)算機(jī)系統(tǒng)相互溝通的平臺，是人機(jī)對話的接口。以人為中心、自然、高效的交互是發(fā)展新一代人機(jī)交互技術(shù)的主要目標(biāo)。人機(jī)交互技術(shù)的發(fā)展經(jīng)歷了 3個(gè)階段，其中，第3代人機(jī)交互界面一一多模態(tài)用戶界面，在多媒體界面的基礎(chǔ)上，采用語音識別、視線跟蹤、手勢輸入等新技術(shù)，使用戶可用多種形態(tài)或多個(gè)通道以自然、并行和協(xié)作的方式進(jìn) 行交互，系統(tǒng)通過整合多通道精確和非精確信息，快速捕捉用戶的意向，有效地提高人機(jī)交互的自然性和效率。
[0007] 根據(jù)圖像標(biāo)注方法的發(fā)展進(jìn)程，目前文獻(xiàn)中用于解決"語義鴻溝"問題的方法按其側(cè)重點(diǎn)大致可分為三類：基于機(jī)器學(xué)習(xí)的方法；基于相關(guān)反饋的方法；基于本體的方法。
[0008] (1)基于機(jī)器學(xué)習(xí)的方法
[0009] 目前采用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)模型學(xué)習(xí)進(jìn)行圖像自動語義標(biāo)注大體上可分為有監(jiān)督語義標(biāo)注和無監(jiān)督語義標(biāo)注兩大類。有監(jiān)督的分類方法首先通過學(xué)習(xí)、訓(xùn)練事先給定的經(jīng) 過語義標(biāo)注的一組樣本圖像，獲得圖像語義分類器，然后利用分類器將未標(biāo)注或未歸類的圖像歸并到某一語義類。最常用的有監(jiān)督學(xué)習(xí)技術(shù)有貝葉斯分類器和支持向量機(jī)（Support VectorMachine，SVM)技術(shù)。無監(jiān)督語義標(biāo)注根據(jù)圖像內(nèi)容將庫中圖像（或圖像區(qū)域）聚類到某些有意義的集合，使得位于同一聚類內(nèi)的圖像的相似度盡可能大，而位于不同聚類的圖像的相似度盡可能小。然后利用統(tǒng)計(jì)方法為每個(gè)聚類加一個(gè)類標(biāo)簽，以獲得各個(gè)圖像聚類中的語義信息。簡單來說它的目標(biāo)在于對輸入數(shù)據(jù)進(jìn)行合理有效的組織或聚類。該方法對于手工標(biāo)注的訓(xùn)練集要求較低，訓(xùn)練數(shù)據(jù)和語義概念具有可擴(kuò)展性。但是嚴(yán)格地說，單純的圖像聚類并不能為一個(gè)新的圖像獲取顯式的語義標(biāo)簽，需要與其他技術(shù)結(jié)合使用來進(jìn) 行圖像的自動語義標(biāo)注，充分發(fā)揮其效率，并達(dá)到較高的檢索精度。
[0010] (2)基于相關(guān)反饋的方法
[0011] 相關(guān)反饋（RelevanceFeedback,RF)的基本思想是指在檢索過程中，用戶根據(jù)先前檢索結(jié)果借助權(quán)重調(diào)整已有的查詢要求以給檢索系統(tǒng)提供更多更直接的信息，從而使系統(tǒng)更好地滿足用戶的要求。簡單的說，反饋的過程是用戶和檢索系統(tǒng)之間的一個(gè)交互過程，系統(tǒng)根據(jù)用戶對當(dāng)前檢索結(jié)果的評價(jià)來調(diào)整用戶的初始查詢以及匹配模型的參數(shù)，從而達(dá) 到對檢索結(jié)果的優(yōu)化。相關(guān)反饋在本質(zhì)上還是一個(gè)學(xué)習(xí)過程，它的方法具有與人類學(xué)習(xí)方法類似的思路，是一種很有價(jià)值的研宄語義映射的方法，在視覺特征層次和語義層次都能獲得較好的檢索效果。其具有樣本數(shù)少、實(shí)時(shí)性要求強(qiáng)等特點(diǎn)，但是有可能產(chǎn)生檢索時(shí)間過長，結(jié)果振蕩等問題。
[0012] (3)基于對象本體的方法
[0013] 本體（Ontology)在文本信息檢索中有廣泛的應(yīng)用，但在圖像檢索領(lǐng)域起步較晚。本體指的是特定領(lǐng)域公認(rèn)的關(guān)于該領(lǐng)域的對象（實(shí)際對象和邏輯對象）及其關(guān)系的概念化表述。它指出圖像中不同的對象可以用簡單描述詞的集合來定義，如"天空"定義為"在上方的、均勻的、藍(lán)色的"區(qū)域。通過將顏色、位置、大小和形狀等底層特征離散化后與映射到這些簡單語義上，最終可以得到對象語義。對于類型比較單一的圖像庫，基于本體的方法能得到較好的效果。而對大型圖像數(shù)據(jù)庫而言，這一方法效果不佳。下圖給出了一幅當(dāng)前通過計(jì)算機(jī)自動實(shí)現(xiàn)標(biāo)注的示意圖，如圖2中所示。
[0014]目前，在計(jì)算機(jī)視覺領(lǐng)域，大多數(shù)研宄者將研宄工作集中在目標(biāo)識別和目標(biāo)分類上，關(guān)于場景環(huán)境的分類也有許多模型被提出，但是一幅靜態(tài)的圖像中對事件的識別這類研宄很少。而且大多數(shù)基于內(nèi)容檢索圖像、對圖像進(jìn)行標(biāo)注都是單一進(jìn)行的，沒有連貫性的將這些工作結(jié)合起來。則將一幅圖像用計(jì)算機(jī)如何描述并用語言組織反饋給用戶有很好的研宄價(jià)值。

【發(fā)明內(nèi)容】

[0015] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，本發(fā)明所提出的基于人機(jī)交互的圖像高級語義解析的方法，能夠幫助這樣的弱勢群體體會另一個(gè)不同的世界，也可以作為娛樂生活的一部分。
[0016] 為了解決上述問題，本發(fā)明提出了一種基于人機(jī)交互的圖像高級語義解析的方法，包括：
[0017] 基于便攜式掃描設(shè)備掃描源圖像；
[0018] 對源圖像中的目標(biāo)進(jìn)行識別；
[0019] 將源圖像中的內(nèi)容進(jìn)行過濾和解析，并提煉出有效的知識；
[0020] 組織語義將圖像內(nèi)容用語音形式傳遞給用戶。
[0021] 所述基于便攜式掃描設(shè)備掃描源圖像包括：
[0022] 基于ARM的便攜式掃描設(shè)備掃描源圖像。
[0023] 所述對源圖像中的目標(biāo)進(jìn)行識別包括：
[0024] 對圖像的特征提取采用SIFT局部特征提取，同時(shí)結(jié)合HOG特征和GIST全局特征，能夠更全面的獲取圖像信息。
[0025] 所述將源圖像中的內(nèi)容進(jìn)行過濾和解析，并提煉出有效的知識包括：
[0026] 采取詞袋模型圖像分類方法提煉出有效的知識。
[0027] 所述詞袋模型圖像分類方法包括：
[0028] 通過圖像分割或隨機(jī)采樣等方式檢測特征點(diǎn)；
[0029] 對圖像提取局部特征，并生成描述符；
[0030] 將關(guān)于這些特征點(diǎn)的描述符利用聚類的方法，其中每一個(gè)聚類中心為一個(gè)視覺單詞；
[0031] 將每個(gè)視覺單詞出現(xiàn)的頻率統(tǒng)計(jì)成視覺單詞直方圖。
[0032] 所述組織語義將圖像內(nèi)容用語音形式傳遞給用戶包括：
[0033] 采用潛在語義提取技術(shù)將圖像內(nèi)容用語音形式傳遞給用戶。
[0034] 實(shí)施本發(fā)明實(shí)施例，本發(fā)明主要是針對視力障礙群體和自學(xué)能力較弱的群體，只需憑借簡單的掃描工作，無需借助視覺系統(tǒng)通過計(jì)算機(jī)描述圖像，能夠幫助這樣的弱勢群體體會另一個(gè)不同的世界，也可以作為娛樂生活的一部分。操作簡單，移植性良好。

【專利附圖】

【附圖說明】
[0035] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其它的附圖。
[0036] 圖1是現(xiàn)有技術(shù)中的圖像處理過程流程圖；
[0037] 圖2是現(xiàn)有技術(shù)中的自動圖像標(biāo)注示例圖；
[0038] 圖3是本發(fā)明實(shí)施例中的基于人機(jī)交互的圖像高級語義解析的方法流程圖；
[0039] 圖4是本發(fā)明實(shí)施例中的描設(shè)備結(jié)構(gòu)原理圖。

【具體實(shí)施方式】
[0040] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；?本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。
[0041] 本發(fā)明針對任意一幅圖像（彩色圖像或黑白圖），借助一個(gè)手持便攜式的掃描設(shè) 備進(jìn)行整體掃描，使得源圖像信息錄入該系統(tǒng)，系統(tǒng)對圖像中的目標(biāo)進(jìn)行識別，并將其內(nèi)容進(jìn)行過濾和解析，提煉出有效知識，組織語義將圖像內(nèi)容用語音形式傳遞給用戶。例如：一幅水上劃船的圖像，通過系統(tǒng)識別出一個(gè)人，一條船，一片湖，一根魚竿，天空，樹木等目標(biāo)，系統(tǒng)進(jìn)行目標(biāo)分析及圖像語義的組織，最后將用語音設(shè)備輸出信息：人在湖上釣魚。該系統(tǒng) 發(fā)明主要目的在于幫助有視力障礙的患者（弱視，盲人等）或不識字的老人以及學(xué)前兒童在無人力協(xié)助情況下有效的識別圖像內(nèi)容，讓該群體去了解不能接觸的外界。這種基于人機(jī)交互的高級語義解析系統(tǒng)具有很好的兼容性及移植性，操作便捷。系統(tǒng)的工作流程圖如圖3中所示。
[0042] (1)基于ARM的便攜式掃描設(shè)備（硬件）
[0043] 硬件層主要由系統(tǒng)核心部分、掃描部分和人機(jī)接口部分組成。另外，為了擴(kuò)充其功能及適應(yīng)多種應(yīng)用場合，預(yù)留了一些擴(kuò)展接口。微處理器選用目前常見的三星S3C2410X芯片，芯片內(nèi)核是帶16KB數(shù)據(jù)Cache和16KB指令Cache的ARM9TDMI核，工作頻率203MHz。存貯器采用64MB的NANDFlash和64MB的SDRAM。掃描部分采用SDIO掌上型掃描卡?；?于微線性CMOS映像技術(shù)的此款SDIOISC掃描卡，可掃描所有主流的線性條碼。人機(jī)接口部分用三星公司的LTV350QV-F05型3. 5寸TFT觸摸屏，配以觸摸板，可同時(shí)實(shí)現(xiàn)顯示及鍵盤功能，有利于減小設(shè)備的體積。以太網(wǎng)口用于數(shù)據(jù)的傳輸和下載。預(yù)留USB、RS232等接口以方便該設(shè)備的功能擴(kuò)充。
[0044] (2)特征提取技術(shù)
[0045] 由于SIFT特征對光照、尺度等具有不變性，對圖像的特征提取采用SIFT局部特征提取，同時(shí)結(jié)合HOG特征和GIST全局特征，能夠更全面的獲取圖像信息。
[0046] (3)BOW模型描述
[0047] 隨著局部特征在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用，基于局部特征的圖像分類識別方法也得到了更為廣泛的關(guān)注。由于局部特征在提取吋，每幅圖像檢測得到的特征點(diǎn)數(shù)目不統(tǒng)一，使得在機(jī)器訓(xùn)練時(shí)無法入手，并且這些方法都是基于特征點(diǎn)來進(jìn)行匹配，其計(jì)算量大的缺點(diǎn)凸顯而無法滿足日益增大的圖像數(shù)據(jù)庫的需求。為了克服這些問題，美國斯坦福大學(xué)的Ll-feifei等學(xué)者首先將詞袋模型作為一種特征表示應(yīng)用到計(jì)算機(jī)圖像處理領(lǐng)域。詞袋模型圖像分類方法不僅能很好的解決圖像局部特征不統(tǒng)一的問題，而且表示方法也比較簡單，訓(xùn)練分類快速，得到了極大的發(fā)展。受文本檢索方法的啟示，詞袋模型由于其高性能受到國內(nèi)外的學(xué)者越來越多的關(guān)注。詞袋模型已經(jīng)被廣泛地應(yīng)用于圖像分類和檢索中：
[0048] 詞袋模型生成主要步驟為：
[0049] ①通過圖像分割或隨機(jī)采樣等方式檢測特征點(diǎn)。
[0050] ②對圖像提取局部特征（SIFT)，并生成描述符。
[0051] ③將關(guān)于這些特征點(diǎn)的描述符利用聚類的方法（通常采用K-means聚類）形成視覺詞典（VisualVocabulary)，其中每一個(gè)聚類中心為一個(gè)視覺單詞。
[0052] ④將每個(gè)視覺單詞出現(xiàn)的頻率統(tǒng)計(jì)成視覺單詞直方圖。
[0053] (4)潛在語義提取技術(shù)
[0054] 自然語言處理（NLP)的很多應(yīng)用都需要探宄隱藏在字、詞背后的涵義，簡單的字面匹配絕難奏效，關(guān)鍵在于同義詞和一詞多義的把握.潛在語義分析（LSA)為此提供了部分解決問題的方法，即利用奇異值分解（SVD)將高維度的詞匯-文檔共現(xiàn)矩陣映射到低維度的潛在語義空間，使得表面毫不相關(guān)的詞體現(xiàn)出深層次的聯(lián)系。概率潛在語義分析 (PLSA)作為潛在語義分析（LSA)的變種，擁有更堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)及易于利用的數(shù)據(jù)生成模型，且已被證實(shí)能夠?yàn)樾畔⑻崛√峁└玫脑~匯匹配。給定一個(gè)文檔集合D= {dl，d2，··· ，dM}和一個(gè)詞集合W= {wl,w2,…，wN}以及一個(gè)文檔和詞的共現(xiàn)頻率矩陣N=(nij)， n(di,wj)表示詞wj在文檔dj中出現(xiàn)的頻率。使用Z= {zl,z2,…，zK}表示潛在語義的集合，K為人工指定的一個(gè)常數(shù)。概率潛在語義分析假設(shè)"文檔一詞"對之間是條件獨(dú)立的，并且潛在語義在文檔或詞上分布也是條件獨(dú)立的.在上面假設(shè)的前提下，可使用下列公式來表示"文檔一詞"的條件概率：
[0055]

【權(quán)利要求】
1. 一種基于人機(jī)交互的圖像高級語義解析的方法，其特征在于，包括：基于便攜式掃描設(shè)備掃描源圖像；對源圖像中的目標(biāo)進(jìn)行識別；將源圖像中的內(nèi)容進(jìn)行過濾和解析，并提煉出有效的知識；組織語義將圖像內(nèi)容用語音形式傳遞給用戶。
2. 如權(quán)利要求1所述的基于人機(jī)交互的圖像高級語義解析的方法，其特征在于，所述基于便攜式掃描設(shè)備掃描源圖像包括：基于ARM的便攜式掃描設(shè)備掃描源圖像。
3. 如權(quán)利要求2所述的基于人機(jī)交互的圖像高級語義解析的方法，其特征在于，所述對源圖像中的目標(biāo)進(jìn)行識別包括：對圖像的特征提取采用SIFT局部特征提取，同時(shí)結(jié)合HOG特征和GIST全局特征，能夠更全面的獲取圖像信息。
4. 如權(quán)利要求3所述的基于人機(jī)交互的圖像高級語義解析的方法，其特征在于，所述將源圖像中的內(nèi)容進(jìn)行過濾和解析，并提煉出有效的知識包括：采取詞袋模型圖像分類方法提煉出有效的知識。
5. 如權(quán)利要求4所述的基于人機(jī)交互的圖像高級語義解析的方法，其特征在于，所述詞袋模型圖像分類方法包括：通過圖像分割或隨機(jī)采樣等方式檢測特征點(diǎn)；對圖像提取局部特征，并生成描述符；將關(guān)于這些特征點(diǎn)的描述符利用聚類的方法，其中每一個(gè)聚類中心為一個(gè)視覺單詞；將每個(gè)視覺單詞出現(xiàn)的頻率統(tǒng)計(jì)成視覺單詞直方圖。
6. 如權(quán)利要求5所述的基于人機(jī)交互的圖像高級語義解析的方法，其特征在于，所述組織語義將圖像內(nèi)容用語音形式傳遞給用戶包括：采用潛在語義提取技術(shù)將圖像內(nèi)容用語音形式傳遞給用戶。
【文檔編號】G06K9/62GK104484666SQ201410790684
【公開日】2015年4月1日申請日期:2014年12月17日優(yōu)先權(quán)日:2014年12月17日
【發(fā)明者】林格, 羅甜, 羅笑南申請人:中山大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林格;羅甜;羅笑南;
技術(shù)所有人：中山大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

語義交互相關(guān)技術(shù)

人機(jī)交互相關(guān)技術(shù)

人機(jī)交互技術(shù)相關(guān)技術(shù)

人機(jī)交互界面相關(guān)技術(shù)

人機(jī)交互界面設(shè)計(jì)案例相關(guān)技術(shù)

人機(jī)交互專業(yè)相關(guān)技術(shù)

人機(jī)交互系統(tǒng)相關(guān)技術(shù)

ios人機(jī)交互指南相關(guān)技術(shù)

人機(jī)交互界面設(shè)計(jì)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種基于人機(jī)交互的圖像高級語義解析的方法