本發(fā)明涉及圖像處理裝置、顯示裝置、動畫生成方法以及動畫顯示方法。
背景技術:
以往,已知一種影像輸出裝置,通過向形成為內容的輪廓的形狀的屏幕投影內容,由此能夠對閱覽者加深印象(參照專利文獻1)。例如,通過向人形狀的屏幕投影人對商品等進行說明的動畫內容,由此能夠得到好像人站立在那里那樣的具有存在感的投影像。
此外,近年來,利用了基于1張面部圖像和語音數(shù)據來生成與語音相匹配地使面部圖像的嘴活動的唇音同步動畫的技術。在唇音同步動畫中,例如,根據所發(fā)音的聲音的母音使嘴的形狀變化。
專利文獻1:日本特開2011-150221號公報
然而,如專利文獻1所記載的那樣,在使用人形狀的屏幕的情況下,優(yōu)選根據1張面部圖像來生成唇音同步動畫,并將其作為內容進行顯示。其原因在于,在使用對人物進行攝影而得到的動態(tài)圖像作為內容的情況下,當在攝影時人活動了時,人物像不會收到屏幕中、需要進行繁瑣的調整。
然而,唇音同步動畫僅根據聲音使嘴活動,因此存在缺乏表現(xiàn)力這樣的問題。
技術實現(xiàn)要素:
本發(fā)明的目的在于,提高基于面部圖像生成的動畫的表現(xiàn)力。
為了實現(xiàn)上述的目的,本發(fā)明的圖像處理裝置,具備:
表情附加部,對于與語音的輸出一起顯示的面部圖像附加與上述語音對應的表情;以及
生成部,生成使附加有上述表情的面部圖像中包含的嘴根據上述語音活動的動畫。
發(fā)明的效果
根據本發(fā)明,能夠提高基于面部圖像生成的動畫的表現(xiàn)力。
附圖說明
圖1是表示圖像處理裝置的功能的構成的框圖。
圖2是表示由圖1的控制部執(zhí)行的動畫生成處理的流程圖。
符號的說明
10顯示裝置
11控制部
12操作部
13顯示部
14語音輸出部
15通信部
16存儲器
17存儲部
a語音數(shù)據
b文本數(shù)據
c詞語(wordorphrase)數(shù)據組
d詞語表情數(shù)據組
e語句表情數(shù)據組
f面部圖像數(shù)據
g翻譯語句數(shù)據組
h1影像數(shù)據
h2影像數(shù)據
i表情參數(shù)
p程序
t1詞語·表情對應表
具體實施方式
以下,參照附圖對本發(fā)明的實施方式進行說明。在以下的實施方式中,以將本發(fā)明的圖像處理裝置以及顯示裝置應用于顯示裝置10的情況為例進行說明。此外,本發(fā)明不限定于圖示例。
[顯示裝置10的構成]
圖1是表示本實施方式的顯示裝置10的功能的構成的框圖。
顯示裝置10具備控制部11、操作部12、顯示部13、語音輸出部14、通信部15、存儲器16、以及存儲部17,各部經由總線18連接。顯示裝置10構成為包括能夠進行影像加工的圖像處理裝置。
控制部11由執(zhí)行存儲部17所存儲的各種程序而進行規(guī)定的計算、各部的控制的cpu(centralprocessingunit:中央處理單元)構成??刂撇?1通過與存儲部17所存儲的程序p的協(xié)作,來執(zhí)行圖2所示的動畫生成處理,基于所生成的動畫的影像數(shù)據h1或者h2,使顯示部13顯示動畫。控制部11作為表情附加單元、生成單元、以及翻譯單元起作用。
操作部12構成為具備鍵盤以及鼠標等指示設備,該鍵盤具備光標鍵、文字輸入鍵、數(shù)字鍵以及各種功能鍵等,將通過對于鍵盤的鍵操作、鼠標操作而輸入的指示信號向控制部11輸出。
顯示部13由lcd(liquidcrystaldisplay:液晶顯示器)等監(jiān)視器構成,根據從控制部11輸入的顯示信號的指示,顯示各種畫面。
語音輸出部14具備揚聲器、d/a轉換電路等,根據來自控制部11的控制而輸出語音。
通信部15由調制解調器、路由器、網卡等構成,與連接于通信網絡的外部設備進行通信。
存儲器16由dram(dynamicrandomaccessmemory:動態(tài)隨機存取存儲器)等半導體存儲器等構成,暫時存儲由顯示裝置10的各部處理的數(shù)據等。
存儲部17由hdd(harddiskdrive:硬盤驅動器)、非易失性的半導體存儲器等構成。在存儲部17存儲有以程序p為首的、控制部11執(zhí)行各種處理所用的各種程序、執(zhí)行這些程序所需要的數(shù)據等。
例如,在存儲部17存儲有成為生成動畫的基礎的語音數(shù)據a以及面部圖像數(shù)據f。
語音數(shù)據a是對人發(fā)出的語音進行錄音而取得的數(shù)據,被用作想要進行唇音同步的角色(也包括人物)的語音。作為語音數(shù)據a,設為不包含語音以外的聲音(噪聲、bgm等)。此外,在本實施方式中,語音數(shù)據a附加有包含該語音的語言的信息的頭信息。
面部圖像數(shù)據f是包含想要進行唇音同步的角色的面部在內的圖像的數(shù)據,例如是二維的靜止圖像數(shù)據或者三維的多邊形數(shù)據。
此外,在存儲部17中存儲有在動畫生成處理中生成的影像數(shù)據h1、h2。影像數(shù)據h1、h2由構成動態(tài)圖像(動畫)的一系列的幀圖像、以及與各幀圖像對應的語音數(shù)據構成。
此外,在存儲部17中存儲有表情參數(shù)i。表情參數(shù)i是表示每個表情(例如,笑臉、怒臉、哭臉、…)的眼、嘴、眉毛等特征點的位置的參數(shù)?;谂c所希望的表情相對應的表情參數(shù)i,對面部圖像上的眼、嘴、眉毛等的形狀進行調整,由此能夠生成附加了所希望的表情的面部圖像。
此外,在存儲部17中存儲有詞語·表情對應表t1,該詞語·表情對應表t1將詞語與根據該詞語想象的表情的信息建立對應地存儲。
[顯示裝置10的動作]
接下來,對顯示裝置10的動作進行說明。
圖2是表示在顯示裝置10中執(zhí)行的動畫生成處理的流程圖。動畫生成處理,在通過操作部12指定了在動畫的生成中使用的語音數(shù)據a、面部圖像數(shù)據f以及要生成的動畫的語言、并指示了動畫的生成時,通過控制部11與存儲部17所存儲的程序p的協(xié)作來執(zhí)行。此外,作為語言,能夠從預先設定的多個語言中指定。所指定的語音數(shù)據a、面部圖像數(shù)據f以及語言,作為設定信息而存儲于存儲器16。
首先,控制部11從存儲部17讀出通過操作部12指定的語音數(shù)據a,對語音數(shù)據a進行文本轉換而生成文本數(shù)據b(步驟s1)。
文本轉換使用現(xiàn)有的語音識別技術。例如,控制部11將“ご來店ありがとうございます?!边@樣的語音數(shù)據a轉換為“ご來店ありがとうございます?!边@樣的文本數(shù)據b??刂撇?1使所生成的文本數(shù)據b存儲于存儲器16。
接著,控制部11從文本數(shù)據b中檢測詞語,并生成詞語數(shù)據組c(步驟s2)。
詞語的檢測例如使用形態(tài)分析等現(xiàn)有的詞語檢測技術。例如,控制部11從“ご來店ありがとうございます。”這樣的文本數(shù)據b中檢測到“ご來店”、“ありがとう”、“ございます”這3個詞語??刂撇?1使所生成的詞語數(shù)據組c存儲于存儲器16。
接著,控制部11按照詞語數(shù)據組c所包括的每個詞語,取得與該詞語對應的表情的信息,生成表示與各詞語對應的表情的詞語表情數(shù)據組d(步驟s3)。
例如,控制部11將詞語數(shù)據組c所包括的詞語數(shù)據從最初的詞語開始依次讀入,并按照每個詞語,取得在存儲部17所存儲的詞語·表情對應表t1中與該詞語建立對應地存儲的表情的信息,而生成詞語表情數(shù)據組d。例如,作為與“ご來店”對應的表情而取得“根據語境”,作為與“ありがとう”對應的表情而取得“笑臉”,作為與“ございます”對應的表情而取得“根據語境”。在此,所謂“根據語境”是表示與語境相匹配的表情??刂撇?1使所生成的詞語表情數(shù)據組d存儲于存儲器16。
接著,控制部11基于詞語表情數(shù)據組d,決定與文本數(shù)據b所包含的各語句(由標點符號劃分)相對應的表情,并生成表示與各語句對應的表情的語句表情數(shù)據組e(步驟s4)。
例如,控制部11參照詞語表情數(shù)據組d,將與相同語句內的詞語對應的表情中最多的表情決定為該語句的表情。例如,在上述“ご來店ありがとうございます。”的情況下,與各詞語對應的表情為,“ご來店”→“根據語境”、“ありがとう”→“笑臉”、“ございます”→“根據語境”?!案鶕Z境”是與語境相匹配的表情,因此忽略,將“笑臉”決定為該語句的表情??刂撇?1使所生成的語句表情數(shù)據組e存儲于存儲器16。
接著,控制部11判斷是否以與語音數(shù)據a相同的語言來生成動畫(步驟s5)。例如,控制部11基于存儲器16所存儲的設定信息,判斷是否以與語音數(shù)據a相同的語言來生成動畫。
在判斷為以與語音數(shù)據a相同的語言來生成動畫的情況下(步驟s5;相同語言),控制部11基于語音數(shù)據a、語句表情數(shù)據組e以及所指定的面部圖像數(shù)據f,來生成附加了表情的唇音同步動畫,使其數(shù)據即影像數(shù)據h1存儲于存儲部17(步驟s6),使動畫生成處理結束。
在步驟s6中,控制部11首先基于語音數(shù)據a和面部圖像數(shù)據f,生成構成動畫的各幀的嘴的形狀數(shù)據。
例如,控制部11首先取得面部圖像數(shù)據f中的嘴的特征點。例如,通過圖像識別從面部圖像數(shù)據f中提取嘴的輪廓,取得輪廓上的特征點的坐標。接著,控制部11從語音數(shù)據a的先頭依次取得與1幀相當?shù)臅r間的語音數(shù)據at。在此,當將所生成的動畫的幀率設為pf(幀/秒)、將語音數(shù)據a的再生時間設為t(秒)時,每次1/pf(秒/幀)地取得語音數(shù)據at。接著,控制部11對各語音數(shù)據at進行分析而取得母音,將與母音對應的嘴的形狀決定為與該語音數(shù)據at相對應的幀的嘴的形狀。然后,以成為所決定的嘴的形狀的方式,使面部圖像數(shù)據f的嘴的各特征點的位置變化,將該變化后的各特征點的坐標,作為與該語音數(shù)據at對應的幀的嘴的形狀數(shù)據,與幀編號建立對應地存儲于存儲器16。
接著,控制部11基于面部圖像數(shù)據f以及語句表情數(shù)據組e,生成附加了與各幀的語音對應的表情的面部圖像數(shù)據。
首先,控制部11決定對各幀的面部圖像附加的表情。例如,控制部11確定與各幀的語音數(shù)據at對應的語句,基于語句表情數(shù)據組e來確定與所確定的語句對應的表情,將所確定的表情決定為對各幀的面部圖像附加的表情。接著,控制部11基于對各幀決定的表情以及存儲部17所存儲的表情參數(shù)i,對面部圖像數(shù)據f附加表情而生成各幀的面部圖像數(shù)據,并存儲于存儲器16。然后,控制部11使各幀的面部圖像數(shù)據的嘴基于各幀的嘴的形狀數(shù)據進行變形,由此生成各幀的靜止圖像,將所生成的各幀的靜止圖像結合而生成動畫,對所生成的動畫結合語音數(shù)據a而生成影像數(shù)據h1,使影像數(shù)據h1存儲于存儲部17。
另一方面,在步驟s5中,在判斷為以與語音數(shù)據a不同的語言生成動畫的情況下(步驟s5;不同語言),控制部11通過翻譯引擎將文本數(shù)據b所包括的每個語句的文本數(shù)據翻譯為所指定的語言,生成由每個語句的翻譯數(shù)據(文本數(shù)據)構成的翻譯語句數(shù)據組g(步驟s7)??刂撇?1使所生成的翻譯語句數(shù)據組g存儲于存儲器16。
然后,控制部11基于翻譯語句數(shù)據組g、語句表情數(shù)據組e以及所指定的面部圖像數(shù)據f來生成附加了表情的唇音同步動畫,使其數(shù)據即影像數(shù)據h2存儲于存儲部17(步驟s8),使動畫生成處理結束。
在步驟s8中,控制部11首先生成構成所指定的語言的動畫的各幀的嘴的形狀數(shù)據,將各幀的嘴的各特征點的坐標作為嘴的形狀數(shù)據而與幀編號建立對應地存儲于存儲器16。
例如,控制部11基于翻譯后的文本數(shù)據即翻譯語句數(shù)據組g,生成所指定的語言的語音數(shù)據(稱為語音數(shù)據j),基于語音數(shù)據j和面部圖像數(shù)據f,通過與在步驟s6中說明了的方法同樣的方法(僅將語音數(shù)據a置換為語音數(shù)據j之處不同),生成構成動畫的各幀的嘴的形狀數(shù)據。此外,將各幀的語音數(shù)據設為語音數(shù)據jt。
接著,控制部11生成附加了與各幀的語音對應的表情的面部圖像數(shù)據。
首先,控制部11決定對各幀的面部圖像附加的表情。例如,控制部11確定與各幀的語音數(shù)據jt對應的語句(翻譯后的文本語句),基于語句表情數(shù)據組e來確定與所確定的語句的翻譯前的語句相對應的表情,將所確定的表情決定為對各幀的面部圖像附加的表情。接著,控制部11基于對各幀決定的表情和存儲部17所存儲的表情參數(shù)i,對面部圖像數(shù)據f附加表情而生成各幀的面部圖像數(shù)據,并存儲于存儲器16。然后,控制部11基于各幀的嘴的形狀數(shù)據使各幀的面部圖像數(shù)據的嘴進行變形,由此生成各幀的靜止圖像,將所生成的各幀的靜止圖像結合而生成動畫,對所生成的動畫結合語音數(shù)據j而生成影像數(shù)據h2,使影像數(shù)據h2存儲于存儲部17。
控制部11在上述動畫生成處理的執(zhí)行后,基于所生成的影像數(shù)據h1或者h2,使顯示部13顯示動畫,并且,通過語音輸出部14輸出與各幀對應的語音。
如以上說明的方式,根據顯示裝置10,控制部11基于對語音數(shù)據a進行了文本轉換的文本數(shù)據b,對與該文本數(shù)據b所對應的語音的輸出一起顯示的面部圖像附加與語音對應的表情,生成使附加了表情的面部圖像所包含的嘴根據語音活動的動畫。
例如,控制部11從文本數(shù)據b中檢測詞語,參照詞語·表情對應表t1取得預先與構成文本數(shù)據b所包括的各語句的詞語建立對應的表情的信息,基于所取得的信息,決定與文本數(shù)據b所包括的各語句相對應的表情。然后,將所決定的表情附加到與該語句所對應的語音的輸出一起顯示的面部圖像,生成使附加了表情的面部圖像所包含的嘴根據語音活動的動畫。
因此,根據1張面部圖像自動地生成根據語音使表情改變、根據語音使嘴活動的動畫,因此能夠提高基于面部圖像生成的唇音同步動畫的表現(xiàn)力。此外,例如,不需要進行用戶在用耳朵聽語音的同時判斷在哪個定時附加哪個表情而手動地進行調整等繁瑣的操作,能夠容易地生成附加了與語音對應的表情的唇音同步動畫。
此外,控制部11將文本數(shù)據b所包括的各語句翻譯為其他語言的文本數(shù)據,將對翻譯前的文本數(shù)據b所包括的各語句決定的表情,附加到與翻譯后的對應的各語句所對應的語音的輸出一起顯示的面部圖像,生成使附加了表情的面部圖像所包含的嘴根據與翻譯后的文本數(shù)據相對應的語音而活動的動畫。
因此,能夠根據1張面部圖像自動地生成根據與原來的語言不同的語言(例如,外國語)的語音而使表情改變、并對應于該語音使嘴活動的動畫,因此即使并不能理解語音的語言,也能夠容易地生成附加了與語音對應的表情的唇音同步動畫。
此外,上述實施方式的記載內容為本發(fā)明的顯示裝置10的優(yōu)選的一個例子,并不限定于此。
例如,在上述實施方式中,將語音數(shù)據a的語言的例子設為日語來進行了說明,但不限定于日語,也可以是外國語。
此外,在上述實施方式中,以基于語音數(shù)據a和面部圖像數(shù)據f來生成影像數(shù)據的情況為例進行了說明,但在基于用于讀出語音的文本數(shù)據和面部圖像數(shù)據來生成影像數(shù)據的情況下,也能夠應用本發(fā)明。
此外,在上述實施方式中,公開了作為儲存了用于執(zhí)行各處理的程序的計算機可讀取的介質而使用了hdd、非易失性的半導體存儲器的例子,但不限定于該例子。作為其他的計算機可讀取的介質,還能夠應用cdrom等可移動式記錄介質。此外,作為經由通信線路提供程序的數(shù)據的介質,也可以應用載波(輸送波)。
此外,關于顯示裝置10的細節(jié)構成以及細節(jié)動作,在不脫離發(fā)明的主旨的范圍內能夠適當?shù)刈兏?/p>
對本發(fā)明的實施方式進行了說明,但本發(fā)明的范圍不限定于上述實施方式,包括專利請求范圍所記載的發(fā)明范圍及其等同的范圍。