1.一種改進(jìn)對(duì)問(wèn)題輸入生成的答案的準(zhǔn)確性的計(jì)算機(jī)實(shí)施的方法,其中,所述問(wèn)題輸入與圖像輸入相關(guān),所述方法包括:
接收所述圖像輸入;
接收與所述圖像輸入相關(guān)的所述問(wèn)題輸入;
將所述問(wèn)題輸入和所述圖像輸入輸入到基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架中以生成答案,所述基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架包括:
圖像特征圖提取組件,包括從所述圖像輸入提取圖像特征圖的卷積神經(jīng)網(wǎng)絡(luò);
語(yǔ)義問(wèn)題嵌入組件,從所述問(wèn)題輸入獲得問(wèn)題嵌入;
經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖生成組件,接收所述圖像特征圖和所述問(wèn)題嵌入,并且獲得集中于所述問(wèn)題輸入所詢(xún)問(wèn)的區(qū)域或多個(gè)區(qū)域的經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖;以及
答案生成組件,通過(guò)使用所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖加權(quán)所述圖像特征圖,獲得經(jīng)關(guān)注加權(quán)的圖像特征圖,并且基于所述圖像特征圖、所述問(wèn)題嵌入和所述經(jīng)關(guān)注加權(quán)的圖像特征圖的融合來(lái)生成答案。
2.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述語(yǔ)義問(wèn)題嵌入組件包括長(zhǎng)短期存儲(chǔ)器層以生成所述問(wèn)題嵌入來(lái)表征所述問(wèn)題輸入的語(yǔ)義含義。
3.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖生成組件包括可配置的卷積內(nèi)核,所述可配置的卷積內(nèi)核通過(guò)將所述問(wèn)題嵌入從語(yǔ)義空間投影到視覺(jué)空間而產(chǎn)生,并用于與所述圖像特征圖卷積以產(chǎn)生所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖。
4.如權(quán)利要求3所述的計(jì)算機(jī)實(shí)施的方法,其中,所述卷積內(nèi)核具有與所述圖像特征圖相同數(shù)量的通道。
5.如權(quán)利要求3所述的計(jì)算機(jī)實(shí)施的方法,其中,所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖具有與所述圖像特征圖相同的大小。
6.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述圖像特征圖通過(guò)將所述圖像輸入分成多個(gè)網(wǎng)格并在所述網(wǎng)格的每個(gè)單元中提取D維特征向量來(lái)提取。
7.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述圖像特征圖被所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖在空間上加權(quán),以獲得所述經(jīng)關(guān)注加權(quán)的圖像特征圖。
8.如權(quán)利要求7所述的計(jì)算機(jī)實(shí)施的方法,其中,所述在空間上加權(quán)通過(guò)在所述圖像特征圖和所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖的每個(gè)通道之間的按元素的乘積實(shí)現(xiàn)。
9.如權(quán)利要求8所述的計(jì)算機(jī)實(shí)施的方法,其中,所述在空間上加權(quán)還通過(guò)用于空間上的關(guān)注分布的Softmax歸一化來(lái)限定。
10.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架利用隨機(jī)梯度下降以端對(duì)端的方式來(lái)預(yù)訓(xùn)練。
11.如權(quán)利要求10所述的計(jì)算機(jī)實(shí)施的方法,其中,所述基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架具有初始權(quán)重,所述初始權(quán)重預(yù)訓(xùn)練期間被隨機(jī)地調(diào)整為確保所述基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架內(nèi)所有層的激活的每個(gè)維度具有0均值和一個(gè)標(biāo)準(zhǔn)導(dǎo)數(shù)。
12.一種對(duì)圖像相關(guān)的問(wèn)題生成答案的計(jì)算機(jī)實(shí)施的方法,所述方法包括以下步驟:
使用深層卷積神經(jīng)網(wǎng)絡(luò)從包括多個(gè)像素的輸入圖像提取圖像特征圖;
使用長(zhǎng)短期存儲(chǔ)器層從與所述輸入圖像相關(guān)的輸入問(wèn)題中獲得密集問(wèn)題嵌入;
通過(guò)將所述密集問(wèn)題嵌入從語(yǔ)義空間投影到視覺(jué)空間來(lái)產(chǎn)生多個(gè)經(jīng)問(wèn)題配置的內(nèi)核;
將所述經(jīng)問(wèn)題配置的內(nèi)核與所述圖像特征圖卷積以生成經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖;
通過(guò)使用所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖在空間上加權(quán)所述圖像特征圖,在多類(lèi)別分類(lèi)器處獲得經(jīng)關(guān)注加權(quán)的圖像特征圖,所述經(jīng)關(guān)注加權(quán)的圖像特征圖降低與所述輸入問(wèn)題不相關(guān)的區(qū)域的權(quán)重;以及
基于所述圖像特征圖、所述密集問(wèn)題嵌入和所述經(jīng)關(guān)注加權(quán)的圖像特征圖的融合對(duì)所述輸入問(wèn)題生成答案。
13.如權(quán)利要求12所述的方法,其中,所述在空間上加權(quán)通過(guò)在所述圖像特征圖和所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖的每個(gè)通道之間的按元素的乘積實(shí)現(xiàn)。
14.如權(quán)利要求12所述的方法,其中,所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖根據(jù)所述輸入問(wèn)題適應(yīng)性地表示每個(gè)像素的關(guān)注度。
15.如權(quán)利要求12所述的方法,其中,所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖通過(guò)將所述經(jīng)問(wèn)題配置的內(nèi)核應(yīng)用于所述圖像特征圖上來(lái)獲得。
16.如權(quán)利要求12所述的方法,其中,所述圖像特征圖、所述密集問(wèn)題嵌入和所述經(jīng)關(guān)注加權(quán)的圖像特征圖通過(guò)非線性投影融合。
17.如權(quán)利要求16所述的方法,其中,所述非線性投影是按元素逐個(gè)標(biāo)定的雙曲正切函數(shù)。
18.一種改進(jìn)對(duì)問(wèn)題輸入生成的答案的準(zhǔn)確性的裝置,包括:
響應(yīng)于接收問(wèn)題輸入提取所述問(wèn)題輸入的密集問(wèn)題嵌入的裝置;
響應(yīng)于接收與所述問(wèn)題輸入相關(guān)的圖像輸入生成圖像特征圖的裝置;
至少基于所述圖像特征圖和所述密集問(wèn)題嵌入生成經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖的裝置,所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖選擇性地集中于所述問(wèn)題輸入所詢(xún)問(wèn)的區(qū)域上;
使用所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖在空間上加權(quán)所述圖像特征圖以獲得經(jīng)關(guān)注加權(quán)的圖像特征圖的裝置;以及
將語(yǔ)義信息、所述圖像特征圖和所述經(jīng)關(guān)注加權(quán)的圖像特征圖融合以對(duì)所述問(wèn)題輸入生成答案的裝置。
19.如權(quán)利要求18所述的改進(jìn)對(duì)問(wèn)題輸入生成的答案的準(zhǔn)確性的裝置,其中,生成經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖的裝置還操作為對(duì)所述關(guān)注圖的空間上的關(guān)注分布進(jìn)行Softmax歸一化。
20.如權(quán)利要求19所述的改進(jìn)對(duì)問(wèn)題輸入生成的答案的準(zhǔn)確性的裝置,其中,生成經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖的裝置操作為根據(jù)所述密集問(wèn)題嵌入配置一組卷積內(nèi)核,并且將所述卷積內(nèi)核應(yīng)用于所述圖像特征圖上,以生成所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖。