基于聲音和/或面部辨識的服務(wù)提供的制作方法
【技術(shù)領(lǐng)域】
[0001]本公開內(nèi)容涉及數(shù)據(jù)處理領(lǐng)域,特別涉及與基于聲音和/或面部辨識的服務(wù)提供相關(guān)聯(lián)的裝置、方法和存儲介質(zhì)。
【背景技術(shù)】
[0002]在此所提供的背景描述為了大體上呈現(xiàn)本公開內(nèi)容的上下文的目的。除非在此另外指出,此部分中所描述的材料對于此申請中的權(quán)利要求而言不是現(xiàn)有技術(shù),并且所述材料并不由于包括在此部分中而被承認(rèn)是現(xiàn)有技術(shù)。
[0003]計算、聯(lián)網(wǎng)和相關(guān)技術(shù)的進(jìn)展已經(jīng)導(dǎo)致在線服務(wù)的使用激增,從多媒體內(nèi)容的消費(fèi)到電子商務(wù)和金融服務(wù),僅舉幾個例子。用戶常常更喜歡利用相同的客戶端設(shè)備來接入大量的服務(wù)。然而,從范圍的一端,像在線觀看視頻文件,至另一端,像在線實(shí)施銀行交易,安全要求在不同的服務(wù)之間常常大大地改變。當(dāng)前現(xiàn)有技術(shù)缺乏相干的用戶友好的提供,該提供能夠可靠地滿足不同在線服務(wù)的大范圍的安全要求。
【附圖說明】
[0004]結(jié)合附圖通過以下詳細(xì)描述將容易理解實(shí)施例。為了促進(jìn)此描述,同樣的附圖標(biāo)記指明同樣的結(jié)構(gòu)元件。在附圖中的各圖中,通過示例而不是通過限制來說明實(shí)施例。
[0005]圖1說明依據(jù)各種實(shí)施例的包括適合于實(shí)踐本公開內(nèi)容的客戶端設(shè)備的計算環(huán)境的概觀。
[0006]圖2說明依據(jù)各種實(shí)施例的基于聲音和/或面部辨識的服務(wù)提供的示例過程。
[0007]圖3說明依據(jù)各種實(shí)施例的適合用作客戶端設(shè)備的示例計算環(huán)境。
[0008]圖4說明依據(jù)各種實(shí)施例的具有指令的示例存儲介質(zhì),所述指令被配置成使裝置能夠?qū)嵺`本公開內(nèi)容的過程。
【具體實(shí)施方式】
[0009]在此公開了與基于聲音和/或面部辨識的服務(wù)提供相關(guān)聯(lián)的裝置、方法和存儲介質(zhì)。在實(shí)施例中,例如機(jī)頂盒或計算平板電腦的裝置可以包括聲音辨識引擎和面部辨識引擎,所述聲音辨識引擎和面部辨識引擎被配置成單獨(dú)地或彼此合作地以多個識別級別提供對用戶的識別。該裝置還可以包括服務(wù)代理,該服務(wù)代理被配置成在用戶已經(jīng)至少以接收服務(wù)所要求的識別級別被識別之后向該裝置的用戶提供服務(wù)。服務(wù)代理的示例可以包括用于消費(fèi)多媒體內(nèi)容的增強(qiáng)型媒體播放器,或者用于實(shí)施電子商務(wù)或在線金融交易的增強(qiáng)型瀏覽器。
[0010]在以下詳細(xì)描述中參考形成其一部分的附圖,其中在各處同樣的附圖標(biāo)記指明同樣的部分,以及在附圖中通過說明示出了可以被實(shí)踐的實(shí)施例。應(yīng)當(dāng)理解,可以利用其它實(shí)施例以及在不偏離本公開內(nèi)容的范圍的情況下可以進(jìn)行結(jié)構(gòu)或邏輯改變。因此,以下詳細(xì)說明不應(yīng)在限制意義上來理解,并且實(shí)施例的范圍由所附權(quán)利要求書及其等同物來限定。
[0011]可以以在理解所要求保護(hù)的主題方面最有幫助的方式將各種操作依次描述為多個分離動作或操作。然而,描述的次序不應(yīng)當(dāng)被解釋為暗示這些操作必然是次序相關(guān)的。特別地,這些操作可以不按呈現(xiàn)的次序來執(zhí)行。所描述的操作可以按與所描述的實(shí)施例不同的次序來執(zhí)行。各種附加操作可以被執(zhí)行和/或所描述的操作在附加實(shí)施例中可以被省略。
[0012]為了本公開內(nèi)容的目的,短語“A和/或B”意味著(A)、(B)或(A和B)。為了本公開內(nèi)容的目的,短語“A、B和/或C”意味著(A)、(B)、(C)、(A和B)、(A和C)、(B和C)、或(A、B 和 C)。
[0013]該描述可以使用短語“在一實(shí)施例中”或“在實(shí)施例中”,它們可以各自指代相同的或不同的實(shí)施例中的一個或更多個。此外,如關(guān)于本公開內(nèi)容的實(shí)施例所使用的術(shù)語“包括”、“包含”、“具有”等等是同義的。
[0014]如在此所使用的,術(shù)語“模塊”可以指代下列項(xiàng)的一部分或者包括下列項(xiàng):專用集成電路(“ASIC”)、電子電路、執(zhí)行一個或更多個軟件或固件程序的處理器(共享、專用或組)和/或存儲器(共享、專用或組)、組合邏輯電路、和/或提供所描述功能性的其它合適的部件。
[0015]現(xiàn)在參考圖1,其中說明了依據(jù)各種實(shí)施例的用于實(shí)踐本公開內(nèi)容的包括客戶端設(shè)備的計算環(huán)境。如所示的,在實(shí)施例中,環(huán)境100可以包括多個客戶端設(shè)備102,其經(jīng)由網(wǎng)絡(luò)106耦合到在線服務(wù)提供商的多個服務(wù)器104。服務(wù)器104可以被配置成提供具有不同用戶識別要求的大量的在線服務(wù)。這樣的在線服務(wù)及它們的提供商的示例可以包括但不限于由內(nèi)容分發(fā)商提供的用戶定制多媒體內(nèi)容服務(wù),諸如有線電視提供商或在線多媒體內(nèi)容提供商,像Youtube、Netflix等;由宿主促進(jìn)的電子商務(wù),諸如Ebay、Best Buy等;或由金融機(jī)構(gòu)提供的金融服務(wù),諸如美國銀行、電子貿(mào)易(Etrade)等。如下面將更詳細(xì)地描述的,在實(shí)施例中,客戶端設(shè)備102可以被配置成潛在地提供更相干的、用戶友好且可靠的方法以提供各種用戶識別級別來滿足不同在線服務(wù)的不同用戶識別要求。
[0016]在實(shí)施例中,一些在線服務(wù)可以僅要求基于用戶的聲音特性的用戶的聲音辨識。其它在線服務(wù)可以僅要求基于用戶的面部特征的用戶的面部辨識。還有其它在線服務(wù)可以要求早先描述的用戶的聲音和面部辨識這二者,以及潛在地要在下面更充分地描述的甚至其它更復(fù)雜的聲音和/或面部辨識識別。
[0017]在實(shí)施例中,如所示的,客戶端設(shè)備102可以包括如所示出的那樣彼此耦合的聲音和面部辨識引擎204a和204b、以及多個服務(wù)代理206。此外,在實(shí)施例中,客戶端設(shè)備102可以包括彼此耦合的呈現(xiàn)引擎134、用戶接口引擎136、顯示器124和用戶輸入設(shè)備126,引擎204a和204b和代理206,如所示出的。在實(shí)施例中,為了促進(jìn)聲音和面部辨識引擎204a和204b的合作使用,客戶端設(shè)備102還可以包括至引擎204a和204b的公用接口(未示出)。在實(shí)施例中,聲音和面部辨識引擎204a和204b可以被配置成單獨(dú)地或與彼此合作地以多個識別級別提供用戶識別。在實(shí)施例中,聲音辨識引擎204a可以被配置成基于用戶聲音的聲音特性提供對用戶的識別,而面部辨識引擎204b可以被配置成基于用戶面部特征提供對用戶的識別。在實(shí)施例中,聲音辨識引擎204a和面部辨識引擎204b可以協(xié)作來提供上面的識別。例如,在一些實(shí)施例中,可以首先采用聲音辨識引擎204a將用戶的識別縮小到多個潛在識別,并且然后可以采用面部辨識引擎204b基于縮小的潛在識別列表進(jìn)行最終識別。在其它實(shí)施例中,合作可以被反向,也就是說,可以首先采用面部辨識引擎204b將用戶的識別縮小到多個潛在識別,并且然后可以采用聲音辨識引擎204a基于縮小的潛在識別列表進(jìn)行最終識別。因而,對于這些合作實(shí)施例,對于首先采用的辨識引擎可以實(shí)施不太精確的(以及典型地計算不太密集的)技術(shù),以及通過較后采用的辨識引擎可以實(shí)施更精確的(以及典型地計算更密集的)技術(shù)。總共,合作方法可以產(chǎn)生更準(zhǔn)確的識別,但是利用總體更少的計算,并且因而更高效以及更有效率。
[0018]因而,根據(jù)實(shí)施例,聲音辨識引擎204a可以實(shí)施大量的聲音辨識技術(shù)中的任何一個或更多個來將用戶的聲音輸入和多個聲音模板進(jìn)行比較以識別用戶。大量的聲音辨識技術(shù)可以包括但不限于頻率估計技術(shù)、馬爾可夫(Markov)模型技術(shù)、高斯混合模型技術(shù)、模式匹配技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)、矩陣表示技術(shù)、向量量化技術(shù)或決策樹技術(shù)。類似地,面部辨識引擎204b可以實(shí)施大量的面部辨識技術(shù)中的任何一個或更多個來將用戶的圖像輸入和多個參考圖像進(jìn)行比較。大量的聲音辨識技術(shù)可以包括但不限于眼睛、鼻子、頰骨或下巴的相對位置、大小或形狀的分析。
[0019]在實(shí)施例中,聲音辨識引擎204a還可以被配置成識別聲音輸入的語義內(nèi)容以使得例如所要求的通行碼能夠經(jīng)由聲音輸入登錄到要提供的在線服務(wù)。在其它實(shí)施例中,聲音和面部辨識引擎204a和204b還可以被配置成進(jìn)行合作以識別聲音輸入是否與如利用伴隨的一系列圖像輸入所看到的嘴唇運(yùn)動衰減同步。同步的識別可以通過至兩個引擎204a和204b的公用接口基于這兩個引擎204a和204b的分析來提供。在其它實(shí)施例中,聲音和面部辨識引擎204a和204b還可以被配置成進(jìn)行合作以識別聲音輸入是否與伴隨圖像輸入位置同步,也