国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于語音輸入的圖像信息提取分析方法及裝置的制作方法

      文檔序號:6385321閱讀:186來源:國知局
      專利名稱:一種基于語音輸入的圖像信息提取分析方法及裝置的制作方法
      一種基于語音輸入的圖像信息提取分析方法及裝置
      技術(shù)領(lǐng)域
      本發(fā)明涉及圖像信息提取技術(shù),尤其涉及一種基于語音輸入的圖像信息提取分析方法及裝置。
      背景技術(shù)
      隨著圖像識別技術(shù)以及移動互聯(lián)網(wǎng)的廣泛應(yīng)用,大量的圖像信息提取軟件應(yīng)運(yùn)而生,能夠讓用戶隨時隨地查詢指定圖像中的相關(guān)信息?,F(xiàn)有的圖像信息提取軟件通常都是針對不同類別的用戶需求而設(shè)計的,例如,文字信息提取類的應(yīng)用軟件可以提取并識別圖像中的文字,特定商品元素提取類的應(yīng)用軟件可以提取并識別圖像中商品的二維碼或者商品的Logo,臉部識別類的應(yīng)用軟件可以識別圖像中人臉。然而,諸如此類的應(yīng)用軟件只能實(shí)現(xiàn)某一類別的圖像信息提取,同時需要基于用戶的明確操作指令,隨著應(yīng)用種類的增多,用戶的交互負(fù)擔(dān)也越來越大,為多種圖像信息提取應(yīng)用提供便捷的一站式交互服務(wù)是一個亟待有效解決的問題。
      發(fā)明內(nèi)容有鑒于此,本發(fā)明提供了一種基于語音輸入的圖像信息提取分析方法及裝置,能夠基于用戶輸入的語音,自動提取目標(biāo)圖像中的對應(yīng)信息并處理。具體技術(shù)方案如下一種基于語音輸入的圖像信息提取分析方法,圖像信息提取場景庫中的圖像信息提取場景設(shè)置有對應(yīng)的文字描述標(biāo)簽,該方法包括S1、根據(jù)用戶輸入的語音,獲取用戶的信息提取意圖;S2、根據(jù)所述用戶的信息提取意圖查詢圖像信息提取場景庫,與各文字描述標(biāo)簽進(jìn)行匹配,并獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景;S3、根據(jù)所獲取的圖像信息提取場景對目標(biāo)圖像進(jìn)行目標(biāo)對象識別,將識別結(jié)果返回給用戶。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述獲取用戶的信息提取意圖具體包括將所述用戶輸入的語音通過語音識別轉(zhuǎn)換為文字信息,并將該文字信息或者從該文字信息中提取的關(guān)鍵詞組作為用戶的信息提取意圖。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟S2中獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景具體包括依據(jù)所述用戶的信息提取意圖與文字描述標(biāo)簽的匹配度確定各文字描述標(biāo)簽對應(yīng)的圖像信息提取場景的場景權(quán)重值,獲取場景權(quán)重值高于預(yù)設(shè)場景閾值的一個或多個圖像息提取場景;或者,依據(jù)場景特征分類模塊對目標(biāo)圖像進(jìn)行特征提取以及分類后,得到的目標(biāo)圖像與各圖像信息提取場景的匹配度,確定各圖像信息提取場景的特征權(quán)重值,利用各圖像信息提取場景的特征權(quán)重值和場景權(quán)重值得到各圖像信息提取場景的綜合權(quán)重值,獲取綜合權(quán)重值高于預(yù)設(shè)綜合閾值的一個或多個圖像信息提取場景。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S2中進(jìn)一步包括將獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景反饋給用戶;如果獲取到用戶的確認(rèn)信息,則繼續(xù)執(zhí)行所述步驟S3 ;如果獲取到用戶的舍棄信息,則不繼續(xù)執(zhí)行所述步驟S3,等待用戶重新輸入語音后執(zhí)行步驟SI ;如果獲取到用戶選擇其中的一個或多個圖像信息提取場景,則根據(jù)用戶的選擇繼續(xù)執(zhí)行所述步驟S3。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟S3進(jìn)一步包括抓取所述識別結(jié)果對應(yīng)的擴(kuò)展知識信息,并將所述擴(kuò)展知識信息返回給用戶。一種基于語音輸入的圖像信息提取分析裝置,圖像信息提取場景庫中的圖像信息提取場景設(shè)置有對應(yīng)的文字描述標(biāo)簽,該裝置包括預(yù)處理單元,用于根據(jù)用戶輸入的語音,獲取用戶的信息提取意圖;匹配單元,用于根據(jù)所述預(yù)處理單元獲取的用戶的信息提取意圖查詢圖像信息提取場景庫,與各文字描述標(biāo)簽進(jìn)行匹配,并獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景;分析單元,用于根據(jù)所述匹配單元獲取的圖像信息提取場景對目標(biāo)圖像進(jìn)行目標(biāo)對象識別,將識別結(jié)果返回給用戶。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述預(yù)處理單元獲取用戶的信息提取意圖時,具體執(zhí)行將所述用戶輸入的語音通過語音識別轉(zhuǎn)換為文字信息,并將該文字信息或者從該文字信息中提取的關(guān)鍵詞組作為用戶的信息提取意圖。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述匹配單元獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景時,具體執(zhí)行依據(jù)所述用戶的信息提取意圖與文字描述標(biāo)簽的匹配度確定各文字描述標(biāo)簽對應(yīng)的圖像信息提取場景的場景權(quán)重值,獲取場景權(quán)重值高于預(yù)設(shè)場景閾值的一個或多個圖像息提取場景;或者,依據(jù)場景特征分類模塊對目標(biāo)圖像進(jìn)行特征提取以及分類后,得到的目標(biāo)圖像與各圖像信息提取場景的匹配度,確定各圖像信息提取場景的特征權(quán)重值,利用各圖像信息提取場景的特征權(quán)重值和場景權(quán)重值得到各圖像信息提取場景的綜合權(quán)重值,獲取綜合權(quán)重值高于預(yù)設(shè)綜合閾值的一個或多個圖像信息提取場景。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述匹配單元進(jìn)一步執(zhí)行將獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景反饋給用戶;如果獲取到用戶的確認(rèn)信息,則觸發(fā)所述分析單元;如果獲取到用戶的舍棄信息,則不觸發(fā)所述分析單元,等待用戶重新輸入語音后觸發(fā)所述預(yù)處理單元;如果獲取到用戶選擇其中的一個或多個圖像信息提取場景,則根據(jù)用戶的選擇觸發(fā)所述分析單元。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述分析單元進(jìn)一步執(zhí)行抓取所述識別結(jié)果對應(yīng)的擴(kuò)展知識信息,并將所述擴(kuò)展知識信息返回給用戶。由以上技術(shù)方案可以看出,本發(fā)明通過預(yù)先建立圖像信息提取場景庫,根據(jù)用戶輸入的語音,獲取匹配的圖像信息提取場景,并利用所獲取的圖像信息提取場景提取目標(biāo)圖像中的對應(yīng)信息并進(jìn)行對應(yīng)的分析處理。本發(fā)明能夠綜合各種不同類別的圖像信息提取軟件所具有的功能,同時,能夠根據(jù)用戶輸入的語音,智能地提取目標(biāo)圖像中的對應(yīng)信息并進(jìn)行分析處理,顯著減少了用戶的交互負(fù)擔(dān)。

      圖1為本發(fā)明實(shí)施例一所提供的基于語音輸入的圖像信息提取分析方法流程圖;圖2為本發(fā)明實(shí)施例一所提供的根據(jù)文字描述標(biāo)簽和場景特征分類模塊匹配圖像信息提取場景的方法示意圖;圖3為本發(fā)明實(shí)施例二所提供的基于語音輸入的圖像信息提取分析裝置示意圖。
      具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。本發(fā)明能夠識別用戶輸入的語音,并進(jìn)一步分析出用戶的意圖,從而在目標(biāo)圖像中提取對應(yīng)的信息并處理。為了實(shí)現(xiàn)這一目的,需要先建立圖像信息提取場景庫來保存圖像信息提取場景,不同的圖像信息提取場景可以實(shí)現(xiàn)對于目標(biāo)圖像的不同類別的信息提取以及相應(yīng)的分析處理,例如,對應(yīng)于星座識別的圖像信息提取場景能夠提取目標(biāo)圖像中含有的星座圖像并識別出是哪一個星座。同時,可以設(shè)定不同的文字描述標(biāo)簽來對應(yīng)不同的圖像信息提取場景,文字描述標(biāo)簽用于表征其對應(yīng)的圖像信息提取場景所執(zhí)行的操作及能夠?qū)崿F(xiàn)的功能,例如,某一圖像信息提取場景可以識別目標(biāo)圖像中商品的Logo,則其文字描述標(biāo)簽可以設(shè)定為“商標(biāo),Logo,識別”。為了能夠根據(jù)用戶輸入的語音,通過文字描述標(biāo)簽獲取匹配度最高的圖像信息提取場景,可以根據(jù)實(shí)際需求以及用戶的輸入習(xí)慣來設(shè)定每個圖像信息提取場景的文字描述標(biāo)簽。需要說明的是,對于Logo識別、人臉識別等圖像信息提取場景,還需要預(yù)先建立對應(yīng)Logo數(shù)據(jù)庫、人臉數(shù)據(jù)庫等來實(shí)現(xiàn)相應(yīng)的識別功能,這一部分為現(xiàn)有技術(shù),在此不再贅述。更進(jìn)一步地,還可以為每一個圖像信息提取場景設(shè)定一個場景特征分類模塊來與其對應(yīng),場景特征分類模塊 用于提取目標(biāo)圖像的特征,同時基于所獲取的目標(biāo)圖像的特征和經(jīng)過訓(xùn)練的預(yù)設(shè)分類器獲得目標(biāo)圖像與當(dāng)前圖像信息提取場景匹配的可能性,可以將該可能性以數(shù)值化的形式表示后,作為目標(biāo)圖像與圖像信息提取場景的匹配度,匹配度越高,表示目標(biāo)圖像越有可能與當(dāng)前圖像信息提取場景匹配。場景特征分類模塊可以使用SIFT算法、HOG算法等現(xiàn)有特征提取算法來提取目標(biāo)圖像的特征,可以使用SVM算法、Adaboost算法等現(xiàn)有分類算法作為預(yù)設(shè)的分類器來進(jìn)行分類。這些分類算法的目標(biāo)函數(shù)易于轉(zhuǎn)化為描述目標(biāo)圖像與圖像信息提取場景的匹配度的數(shù)值化形式,此處不進(jìn)行詳細(xì)闡述。匹配度描述場景特征分類模塊可以用下述方法來進(jìn)行預(yù)設(shè)分類器訓(xùn)練預(yù)先利用與圖像信息提取場景匹配的圖像作為正樣本、與圖像信息提取場景不匹配的圖像作為負(fù)樣本進(jìn)行訓(xùn)練,例如,對于人臉識別的圖像信息提取場景,可以利用大量人臉的圖像作為正樣本、不含人臉的圖像作為負(fù)樣本來訓(xùn)練其對應(yīng)的場景特征分類模塊,對于文字提取和識別的圖像信息提取場景,可以利用大量文字的圖像作為正樣本、不含文字的圖像作為負(fù)樣本來訓(xùn)練其對應(yīng)的場景特征分類模塊。對于不同圖像信息提取場景的場景特征分類模塊,可以根據(jù)其特點(diǎn),使用不同的特征提取算法和分類算法。通過上述方法設(shè)定的場景特征分類模塊可以直接根據(jù)目標(biāo)圖像分析用戶潛在的信息提取意圖,例如,目標(biāo)圖像中有大量的文字,經(jīng)過文字識別場景特征分類模塊提取特征并分類后,得到目標(biāo)圖像與對應(yīng)于文字識別的圖像信息提取場景的匹配度較高,即認(rèn)為用戶的信息提取意圖可能為提取并識別目標(biāo)圖像中的文字。需要說明的是,一個目標(biāo)圖像可能存在多個匹配度較高的圖像信息提取場景??梢岳斫獾氖牵鲜雠e例僅出于示例的目的,本發(fā)明的實(shí)施例不限于此。實(shí)施例一圖1為本發(fā)明實(shí)施例一所提供的基于語音輸入的圖像信息提取分析方法流程圖,如圖1所示,該方法包括SlOU根據(jù)用戶輸入的語音,獲取用戶的信息提取意圖。利用聲學(xué)傳感器,獲取用戶輸入的語音,之后,通過語音識別技術(shù)將所獲取的用戶輸入的語音轉(zhuǎn)換為對應(yīng)的文字信息,并將所得到的文字信息作為用戶的信息提取意圖。更進(jìn)一步地,為了能夠更為準(zhǔn)確地獲取匹配的圖像信息提取場景,可以對語音識別之后得到的文字信息進(jìn)行進(jìn)一步處理,具體可以包括對語音識別后得到的文字信息進(jìn)行分詞處理,之后進(jìn)行語義分析,提取其中的關(guān)鍵詞組,如“商品”、“誰”、“什么”等,而過濾其中的介詞、助詞等對語義信息影響較小的詞,如“很”、“非常”、“ 了”等,最后,將分詞和語義分析后所得到關(guān)鍵詞組作為用戶的信息提取意圖。分詞和語義分析均為現(xiàn)有技術(shù),在此不再贅述。S102、根據(jù)所述用戶的信息提取意圖查詢圖像信息提取場景庫,獲取與用戶的信息提取意圖匹配的圖像信息提取場景。根據(jù)所獲取的用戶的信息提取意圖查詢圖像信息提取場景庫,并從圖像信息提取場景庫中獲取一個或多個對應(yīng)的圖像信息提取場景。具體的查詢方法可以是查詢圖像信息提取場景庫中文字描述標(biāo)簽與所獲取的用戶的信息提取意圖匹配的圖像信息提取場景,在查詢過程中為每一個圖像信息提取場景設(shè)定場景權(quán)重值,圖像信息提取場景的文字描述標(biāo)簽與所獲取的用戶的信息提取意圖的匹配程度越高,那么該圖像信息提取場景的場景權(quán)重值也就越高,之后,將場景權(quán)重值高于某一預(yù)先設(shè)定數(shù)值的一個或多個圖像信息提取場景作為與用戶的信息提取意圖匹配的圖像信息提取場景。更進(jìn)一步地,本步驟還可以結(jié)合圖像信息提取場景的場景特征分類模塊來完成,如圖2所示,具體可以通過下述方法實(shí)現(xiàn)用各個場景特征分類模塊對目標(biāo)圖像進(jìn)行特征提取,并進(jìn)行分類,得到目標(biāo)圖像與各個圖像信息提取場景的匹配度,根據(jù)該匹配度為圖像信息提取場景設(shè)定特征權(quán)重,匹配度越高的圖像信息提取場景特征權(quán)重值也就越高。最后,綜合通過文字描述標(biāo)簽匹配與通過場景特征分類模塊匹配的結(jié)果,選取一個或多個圖像信息提取場景作為與用戶的信息提取意圖匹配的圖像信息提取場景,具體綜合上述兩者匹配結(jié)果的方法可以為將通過文字描述標(biāo)簽匹配得到的圖像信息提取場景的場景權(quán)重值與通過場景特征分類模塊匹配得到的圖像信息提取場景的特征權(quán)重值相加,得到圖像信息提取場景的綜合權(quán)重值;或者,將通過文字描述標(biāo)簽匹配得到的圖像信息提取場景的場景權(quán)重值與通過場景特征分類模塊匹配得到的圖像信息提取場景的特征權(quán)重值分別乘以預(yù)先設(shè)定的系數(shù)后再相加,得到圖像信息提取場景的綜合權(quán)重值,選取綜合權(quán)重值高于某一預(yù)先設(shè)定數(shù)值的一個或多個圖像信息提取場景作為與用戶的信息提取意圖匹配的圖像信息提取場景。
      結(jié)合特征分類模塊能夠更為準(zhǔn)確地獲取與用戶的信息提取意圖匹配的圖像信息提取場景,同時,特征分類模塊也可以在用戶輸入的語音無效的情況下單獨(dú)工作,獲取與目標(biāo)圖像匹配的圖像信息提取場景。更進(jìn)一步地,可以將所匹配得到的一個或多個圖像信息提取場景以文字或者語音的形式反饋給用戶,由用戶進(jìn)行確認(rèn)或舍棄,若得到用戶的確認(rèn),則選取該一個或多個圖像信息提取場景進(jìn)入后續(xù)的信息提取分析步驟;若用戶選擇舍棄,則忽略本次所匹配得到的一個或多個圖像信息提取場景,等待用戶重新輸入語音,并進(jìn)行再次匹配?;蛘?,當(dāng)匹配得到多個圖像信息提取場景時,可以以文字或者語音的形式反饋給用戶,由用戶選擇其中的一個或多個圖像信息提取場景進(jìn)入后續(xù)信息提取分析步驟。需要說明的是,用戶反饋的步驟并不是本發(fā)明的必須步驟,具體實(shí)施時可以直接基于匹配得到的圖像信息提取場景進(jìn)入后續(xù)信息提取分析步驟。S103、根據(jù)所述與用戶的信息提取意圖匹配的圖像信息提取場景提取目標(biāo)圖像中的對應(yīng)信息并進(jìn)行分析識別,將分析識別結(jié)果返回給用戶。根據(jù)步驟S102中所獲取的與用戶的信息提取意圖匹配的圖像信息提取場景,提取目標(biāo)圖像中的對應(yīng)信息并進(jìn)行相應(yīng)分析。不同的圖像信息提取場景可以實(shí)現(xiàn)對于目標(biāo)圖像的不同類別的信息提取以及相應(yīng)的分析識別,例如,對應(yīng)于文字翻譯的圖像信息提取場景可以提取目標(biāo)圖像中的文字信息并進(jìn)行分析,翻譯為對應(yīng)的語言,對應(yīng)于Logo識別的圖像信息提取場景可以提取目標(biāo)圖像中的Logo并進(jìn)行識別,識別是什么Logo,對應(yīng)于明星識別的圖像信息提取場景可以提取目標(biāo)圖像中的人物并進(jìn)行識別,識別是哪一個明星。最后,將分析結(jié)果返回給用戶??梢岳斫獾氖?,上述舉例僅出于示例的目的,本發(fā)明的實(shí)施例不限于此。當(dāng)在步驟S102中獲取到多個與用戶的信息提取意圖匹配的圖像信息提取場景時,可以根據(jù)該多個圖像信息提取場景提取目標(biāo)圖像中的對應(yīng)信息并進(jìn)行相應(yīng)的分析識另IJ,之后將分析識別結(jié)果分別返回給用戶。更進(jìn)一步地,在得到分析結(jié)果后,可以擴(kuò)展所得分析結(jié)果的相關(guān)信息并返回給用戶,例如,對應(yīng)于Logo識別的圖像信息提取場景在識別出目標(biāo)圖像中的Logo后,可以進(jìn)一步在互聯(lián)網(wǎng)抓取該Logo的介紹資訊等相關(guān)信息返回給用戶,對應(yīng)于明星識別的圖像信息提取場景在識別出目標(biāo)圖像中的人物是哪一個明星后,可以進(jìn)一步在互聯(lián)網(wǎng)抓取該明星的簡介等相關(guān)信息返回給用戶??梢岳斫獾氖牵鲜雠e例僅出于示例的目的,本發(fā)明的實(shí)施例不限于此。通過上述對本發(fā)明所提供的方法的描述可以看出,本發(fā)明通過預(yù)先建立圖像信息提取場景庫,能夠根據(jù)用戶輸入的語音,獲取匹配的圖像信息提取場景,來提取目標(biāo)圖像中的對應(yīng)信息并進(jìn)行對應(yīng)的分析處理。通過本發(fā)明所提供的方法,可以綜合目前已有的不同類別的圖像信息提取軟件的功能,同時,在需要擴(kuò)展功能時,也只需要在圖像信息提取場景庫中增加圖像信息提取場景即可,大大增強(qiáng)了可擴(kuò)展性。實(shí)施例二圖3為本發(fā)明實(shí)施例二所提供的基于語音輸入的圖像信息提取分析裝置示意圖,如圖3所示,該裝置包括預(yù)處理單元10、匹配單元20、分析單元30。預(yù)處理單元10,用于根據(jù)用戶輸入的語音,獲取用戶的信息提取意圖。
      預(yù)處理單元10利用聲學(xué)傳感器,獲取用戶輸入的語音,之后,通過語音識別技術(shù)將所獲取的用戶輸入的語音轉(zhuǎn)換為對應(yīng)的文字信息,并將所得到的文字信息作為用戶的信息提取意圖。更進(jìn)一步地,為了能夠更為準(zhǔn)確地獲取匹配的圖像信息提取場景,預(yù)處理單元10可以對語音識別之后得到的文字信息進(jìn)行進(jìn)一步處理,具體可以包括對語音識別后得到的文字信息進(jìn)行分詞處理,之后進(jìn)行語義分析,提取其中的關(guān)鍵詞組,如“商品”、“誰”、“什么”等,而過濾其中的介詞、助詞等對語義信息影響較小的詞,如“很”、“非?!?、“ 了”等,最后,將分詞和語義分析后所得到關(guān)鍵詞組作為用戶的信息提取意圖。分詞和語義分析均為現(xiàn)有技術(shù),在此不再贅述。匹配單元20,用于根據(jù)所述預(yù)處理單元獲取的用戶的信息提取意圖查詢圖像信息提取場景庫,與各文字描述標(biāo)簽進(jìn)行匹配,并獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景。匹配單元20根據(jù)所獲取的用戶的信息提取意圖查詢圖像信息提取場景庫,并從圖像信息提取場景庫中獲取一個或多個對應(yīng)的圖像信息提取場景。具體的查詢可以執(zhí)行下述操作查詢圖像信息提取場景庫中文字描述標(biāo)簽與所獲取的用戶的信息提取意圖匹配的圖像信息提取場景,在查詢過程中為每一個圖像信息提取場景設(shè)定場景權(quán)重值,圖像信息提取場景的文字描述標(biāo)簽與所獲取的用戶的信息提取意圖的匹配程度越高,那么該圖像信息提取場景的場景權(quán)重值也就越高,之后,將權(quán)重值高于某一預(yù)先設(shè)定數(shù)值的一個或多個圖像信息提取場景作為與用戶的信息提取意圖匹配的圖像信息提取場景。更進(jìn)一步地,匹配單元20還可以結(jié)合圖像信息提取場景的場景特征分類模塊來執(zhí)行本操作,具體可以執(zhí)行用各個場景特征分類模塊對目標(biāo)圖像進(jìn)行特征提取,并進(jìn)行分類,得到目標(biāo)圖像與各個圖像信息提取場景的匹配度,根據(jù)該匹配度為圖像信息提取場景設(shè)定特征權(quán)重,匹配度越高的圖像信息提取場景的特征權(quán)重值也就越高。最后,綜合通過文字描述標(biāo)簽匹配與通過場景特征分類模塊匹配的結(jié)果,選取一個或多個圖像信息提取場景作為與用戶的信息提取意圖匹配的圖像信息提取場景,具體綜合上述兩者匹配結(jié)果的方法可以為將通過文字描述標(biāo)簽匹配得到的圖像信息提取場景的場景權(quán)重值與通過場景特征分類模塊匹配得到的圖像信息提取場景的特征權(quán)重值相加,得到圖像信息提取場景的綜合權(quán)重值;或者,將通過文字描述標(biāo)簽匹配得到的圖像信息提取場景的場景權(quán)重值與通過場景特征分類模塊匹配得到的圖像信息提取場景的特征權(quán)重值分別乘以預(yù)先設(shè)定的系數(shù)后再相加,得到圖像信息提取場景的綜合權(quán)重值,選取綜合權(quán)重值高于某一預(yù)先設(shè)定數(shù)值的一個或多個圖像信息提取場景作為與用戶的信息提取意圖匹配的圖像信息提取場景。結(jié)合特征分類模塊能夠更為準(zhǔn)確地獲取與用戶的信息提取意圖匹配的圖像信息提取場景,同時,特征分類模塊也可以在用戶輸入的語音無效的情況下單獨(dú)工作,獲取與目標(biāo)圖像匹配的圖像信息提取場景。更進(jìn)一步地,匹配單元20可以將所匹配得到的一個或多個圖像信息提取場景以文字或者語音的形式反饋給用戶,由用戶進(jìn)行確認(rèn)或舍棄,若得到用戶的確認(rèn),則選取該一個或多個圖像信息提取場景進(jìn)入后續(xù)的信息提取分析步驟;若用戶選擇舍棄,則忽略本次所匹配得到的一個或多個圖像信息提取場景,等待用戶重新輸入語音,并進(jìn)行再次匹配?;蛘?,當(dāng)匹配得到多個圖像信息提取場景時,可以以文字或者語音的形式反饋給用戶,由用戶選擇其中的一個或多個圖像信息提取場景進(jìn)入后續(xù)信息提取分析步驟。分析單元30,用于根據(jù)所述匹配單元獲取的圖像信息提取場景對目標(biāo)圖像進(jìn)行目標(biāo)對象識別,將識別結(jié)果返回給用戶。分析單元30根據(jù)匹配單元20所獲取的與用戶的信息提取意圖匹配的圖像信息提取場景,提取目標(biāo)圖像中的對應(yīng)信息并進(jìn)行相應(yīng)分析。不同的圖像信息提取場景可以實(shí)現(xiàn)對于目標(biāo)圖像的不同類別的信息提取以及相應(yīng)的分析識別,例如,對應(yīng)于文字翻譯的圖像信息提取場景可以提取目標(biāo)圖像中的文字信息并進(jìn)行分析,翻譯為對應(yīng)的語言,對應(yīng)于Logo識別的圖像信息提取場景可以提取目標(biāo)圖像中的Logo并進(jìn)行識別,識別是什么Logo,對應(yīng)于明星識別的圖像信息提取場景可以提取目標(biāo)圖像中的人物并進(jìn)行識別,識別是哪一個明星。最后,將分析結(jié)果返回給用戶。可以理解的是,上述舉例僅出于示例的目的,本發(fā)明的實(shí)施例不限于此。更進(jìn)一步地,在得到分析結(jié)果后,可以擴(kuò)展所得分析結(jié)果的相關(guān)信息并返回給用戶,例如,對應(yīng)于Logo識別的圖像信息提取場景在識別出目標(biāo)圖像中的Logo后,可以進(jìn)一步在互聯(lián)網(wǎng)抓取該Logo的介紹資訊等相關(guān)信息返回給用戶,對應(yīng)于明星識別的圖像信息提取場景在識別出目標(biāo)圖像中的人物是哪一個明星后,可以進(jìn)一步在互聯(lián)網(wǎng)抓取該明星的簡介等相關(guān)信息返回給用戶??梢岳斫獾氖?,上述舉例僅出于示例的目的,本發(fā)明的實(shí)施例不限于此。當(dāng)分析單元30獲取到多個與用戶的信息提取意圖匹配的圖像信息提取場景時,可以根據(jù)該多個圖像信息提取場景提取目標(biāo)圖像中的對應(yīng)信息并進(jìn)行相應(yīng)的分析識別,之后將分析識別結(jié)果分別返回給用戶。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
      權(quán)利要求
      1.一種基于語音輸入的圖像信息提取分析方法,其特征在于,圖像信息提取場景庫中的圖像信息提取場景設(shè)置有對應(yīng)的文字描述標(biāo)簽,該方法包括 51、根據(jù)用戶輸入的語音,獲取用戶的信息提取意圖; 52、根據(jù)所述用戶的信息提取意圖查詢圖像信息提取場景庫,與各文字描述標(biāo)簽進(jìn)行匹配,并獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景; 53、根據(jù)所獲取的圖像信息提取場景對目標(biāo)圖像進(jìn)行目標(biāo)對象識別,將識別結(jié)果返回給用戶。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取用戶的信息提取意圖具體包括將所述用戶輸入的語音通過語音識別轉(zhuǎn)換為文字信息,并將該文字信息或者從該文字信息中提取的關(guān)鍵詞組作為用戶的信息提取意圖。
      3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2中獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景具體包括 依據(jù)所述用戶的信息提取意圖與文字描述標(biāo)簽的匹配度確定各文字描述標(biāo)簽對應(yīng)的圖像信息提取場景的場景權(quán)重值,獲取場景權(quán)重值高于預(yù)設(shè)場景閾值的一個或多個圖像信息提取場景;或者, 依據(jù)場景特征分類模塊對目標(biāo)圖像進(jìn)行特征提取以及分類后,得到的目標(biāo)圖像與各圖像信息提取場景的匹配度,確定各圖像信息提取場景的特征權(quán)重值,利用各圖像信息提取場景的特征權(quán)重值和場景權(quán)重值得到各圖像信息提取場景的綜合權(quán)重值,獲取綜合權(quán)重值高于預(yù)設(shè)綜合閾值的一個或多個圖像信息提取場景。
      4.根據(jù)權(quán)利要求1或3所述的方法,其特征在于,在所述步驟S2中進(jìn)一步包括將獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景反饋給用戶; 如果獲取到用戶的確認(rèn)信息,則繼續(xù)執(zhí)行所述步驟S3 ;如果獲取到用戶的舍棄信息,則不繼續(xù)執(zhí)行所述步驟S3,等待用戶重新輸入語音后執(zhí)行步驟SI ;如果獲取到用戶選擇其中的一個或多個圖像信息提取場景,則根據(jù)用戶的選擇繼續(xù)執(zhí)行所述步驟S3。
      5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3進(jìn)一步包括抓取所述識別結(jié)果對應(yīng)的擴(kuò)展知識信息,并將所述擴(kuò)展知識信息返回給用戶。
      6.一種基于語音輸入的圖像信息提取分析裝置,其特征在于,圖像信息提取場景庫中的圖像信息提取場景設(shè)置有對應(yīng)的文字描述標(biāo)簽,該裝置包括 預(yù)處理單元,用于根據(jù)用戶輸入的語音,獲取用戶的信息提取意圖; 匹配單元,用于根據(jù)所述預(yù)處理單元獲取的用戶的信息提取意圖查詢圖像信息提取場景庫,與各文字描述標(biāo)簽進(jìn)行匹配,并獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景; 分析單元,用于根據(jù)所述匹配單元獲取的圖像信息提取場景對目標(biāo)圖像進(jìn)行目標(biāo)對象識別,將識別結(jié)果返回給用戶。
      7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述預(yù)處理單元獲取用戶的信息提取意圖時,具體執(zhí)行將所述用戶輸入的語音通過語音識別轉(zhuǎn)換為文字信息,并將該文字信息或者從該文字信息中提取的關(guān)鍵詞組作為用戶的信息提取意圖。
      8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述匹配單元獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景時,具體執(zhí)行依據(jù)所述用戶的信息提取意圖與文字描述標(biāo)簽的匹配度確定各文字描述標(biāo)簽對應(yīng)的圖像信息提取場景的場景權(quán)重值,獲取場景權(quán)重值高于預(yù)設(shè)場景閾值的一個或多個圖像信息提取場景;或者, 依據(jù)場景特征分類模塊對目標(biāo)圖像進(jìn)行特征提取以及分類后,得到的目標(biāo)圖像與各圖像信息提取場景的匹配度,確定各圖像信息提取場景的特征權(quán)重值,利用各圖像信息提取場景的特征權(quán)重值和場景權(quán)重值得到各圖像信息提取場景的綜合權(quán)重值,獲取綜合權(quán)重值高于預(yù)設(shè)綜合閾值的一個或多個圖像信息提取場景。
      9.根據(jù)權(quán)利要求6或8所述的裝置,其特征在于,所述匹配單元進(jìn)一步執(zhí)行將獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景反饋給用戶; 如果獲取到用戶的確認(rèn)信息,則觸發(fā)所述分析單元;如果獲取到用戶的舍棄信息,則不觸發(fā)所述分析單元,等待用戶重新輸入語音后觸發(fā)所述預(yù)處理單元;如果獲取到用戶選擇其中的一個或多個圖像信息提取場景,則根據(jù)用戶的選擇觸發(fā)所述分析單元。
      10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述分析單元進(jìn)一步執(zhí)行抓取所述識別結(jié)果對應(yīng)的擴(kuò)展知識信息,并將所述擴(kuò)展知識信息返回給用戶。
      全文摘要
      本發(fā)明提供了一種基于語音輸入的圖像信息提取分析方法及裝置,其中,方法包括預(yù)先建立像信息提取場景庫;S1、根據(jù)用戶輸入的語音,獲取用戶的信息提取意圖;S2、根據(jù)所述用戶的信息提取意圖查詢圖像信息提取場景庫,與各文字描述標(biāo)簽進(jìn)行匹配,并獲取匹配得到的文字描述標(biāo)簽對應(yīng)的圖像信息提取場景;S3、根據(jù)所獲取的圖像信息提取場景對目標(biāo)圖像進(jìn)行目標(biāo)對象識別,將識別結(jié)果返回給用戶。本發(fā)明能夠綜合各種不同類別的圖像信息提取軟件所具有的功能,同時,能夠根據(jù)用戶輸入的語音,智能地提取目標(biāo)圖像中的對應(yīng)信息并進(jìn)行分析處理,顯著減少了用戶的交互負(fù)擔(dān)。
      文檔編號G06F17/30GK103064936SQ20121056873
      公開日2013年4月24日 申請日期2012年12月24日 優(yōu)先權(quán)日2012年12月24日
      發(fā)明者韓鈞宇 申請人:北京百度網(wǎng)訊科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1