国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于多用戶和系統(tǒng)的通信接口設(shè)備和方法

      文檔序號(hào):6351222閱讀:161來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):用于多用戶和系統(tǒng)的通信接口設(shè)備和方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種系統(tǒng)與用戶之間的語(yǔ)音接口。
      背景技術(shù)
      隨著裝置性能在家庭環(huán)境中得到提高并且提供與所述性能相關(guān)的多種服務(wù)變得普遍,除了現(xiàn)有的按鈕輸入方法之外,已經(jīng)引入了各種各樣的用戶接口。最近典型的用戶接口是利用語(yǔ)音識(shí)別的用戶接口。為了實(shí)現(xiàn)這種基于語(yǔ)音識(shí)別的用戶接口,從輸入信號(hào)檢測(cè)用戶的語(yǔ)音部分的語(yǔ)音活動(dòng)檢測(cè)(VAD)能力的改進(jìn)應(yīng)該占有優(yōu)先地位。

      具體地講,對(duì)于家庭環(huán)境中的語(yǔ)音接口,多個(gè)用戶和系統(tǒng)之間的交互被期望,并且從輸入信號(hào)檢測(cè)的用戶的講話是用于向系統(tǒng)指示特定任務(wù)的語(yǔ)音還是與另一用戶通信的講話應(yīng)該是必要的。因此,VAD能力的改進(jìn)被強(qiáng)調(diào)。然而,現(xiàn)有的VAD假定僅來(lái)自單個(gè)講話者的輸入,并且通常具有在輸入信號(hào)中從噪聲識(shí)別講話的目的。因此,對(duì)于多個(gè)用戶和系統(tǒng)之間的語(yǔ)音接口,現(xiàn)有的VAD技術(shù)具有局限性。

      發(fā)明內(nèi)容
      本發(fā)明提供一種用于系統(tǒng)和多個(gè)用戶的通信接口設(shè)備,包括第一處理單元,被構(gòu)造為從一個(gè)或多個(gè)用戶接收語(yǔ)音信息和臉部信息,并基于與各接收的語(yǔ)音信息和臉部信息相應(yīng)的用戶模型來(lái)確定接收的語(yǔ)音信息是否是多個(gè)注冊(cè)用戶之一的語(yǔ)音信息;第二處理單元,被構(gòu)造為接收臉部信息,并基于接收的臉部信息來(lái)確定用戶的注意力是否在所述系統(tǒng)上;以及第三處理單元,被構(gòu)造為接收語(yǔ)音信息,分析接收的語(yǔ)音信息,并基于以情境為基礎(chǔ)表示會(huì)話流的對(duì)話模型來(lái)確定接收的語(yǔ)音信息是否對(duì)所述系統(tǒng)具有實(shí)際意義。在一個(gè)總的方面,提供了一種用于系統(tǒng)和多個(gè)用戶的通信接口設(shè)備,包括第一處理單元,被構(gòu)造為從一個(gè)或多個(gè)用戶接收語(yǔ)音信息和臉部信息,并基于與各接收的語(yǔ)音信息和臉部信息相應(yīng)的用戶模型來(lái)確定接收的語(yǔ)音信息是否是多個(gè)注冊(cè)用戶之一的語(yǔ)音信息;第二處理單元,被構(gòu)造為接收臉部信息,并基于接收的臉部信息來(lái)確定用戶的注意力是否在所述系統(tǒng)上;以及第三處理單元,被構(gòu)造為接收語(yǔ)音信息,分析接收的語(yǔ)音信息,并基于以情境為基礎(chǔ)表示會(huì)話流的對(duì)話模型來(lái)確定接收的語(yǔ)音信息是否對(duì)所述系統(tǒng)具有實(shí)際意義。第一處理單元還可被構(gòu)造為通過(guò)將接收的語(yǔ)音信息與用戶模型比較來(lái)計(jì)算用戶是注冊(cè)用戶的第一概率,通過(guò)將接收的臉部信息與用戶模型比較來(lái)計(jì)算用戶是注冊(cè)用戶的第二概率,并基于計(jì)算的第一概率和第二概率來(lái)確定接收的語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息。第二處理單元還可被構(gòu)造為從臉部信息中提取用戶的眼睛和用戶的臉部的方向的信息,并基于提取的眼睛或臉部的方向的信息來(lái)確定注意力是否在所述系統(tǒng)上。第三處理單元還可被構(gòu)造為當(dāng)接收的語(yǔ)音信息的含義對(duì)應(yīng)于通信樹(shù)時(shí)確定接收的語(yǔ)音信息對(duì)所述系統(tǒng)具有實(shí)際意義。在另一總體方面,提供了一種用于系統(tǒng)和多個(gè)用戶的通信接口方法,包括從一個(gè)或多個(gè)用戶接收多條語(yǔ)音信息和臉部信息,并基于與各接收的語(yǔ)音信息和臉部信息相應(yīng)的用戶模型來(lái)確定接收的語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息;基于接收的臉部信息來(lái)確定用戶的注意力是否在所述系統(tǒng)上;以及分析接收的語(yǔ)音信息的含義,并基于以情境為基礎(chǔ)表示會(huì)話流的對(duì)話模型來(lái)確定接收的語(yǔ)音信息是否對(duì)所述系統(tǒng)具有實(shí)際意義。本發(fā)明的另外的特點(diǎn)將在以下描述中被闡明,并且部分從以下描述中將是清楚的,或者可通過(guò)實(shí)施本發(fā)明而被了解。


      被包括以提供對(duì)本發(fā)明的進(jìn)一步理解并且與本說(shuō)明書(shū)結(jié)合并構(gòu)成本說(shuō)明書(shū)一部分的附圖示出了本發(fā)明的實(shí)施例,并且與以下描述一起用來(lái)解釋本發(fā)明的原理。圖I是示出通信接口設(shè)備的示例的示圖。圖2是詳細(xì)示出通信接口設(shè)備的示例的示圖。圖3是示出圖2的第一處理單元的操作過(guò)程的示例的流程圖。圖4是示出圖2的第二處理單元的操作過(guò)程的示例的流程圖。圖5是示出圖2的第三處理單元的操作過(guò)程的示例的流程圖。圖6是示出對(duì)話模型的示例的示圖。圖7是不出通彳目接口方法的不例的流程圖。圖8是示出如何使用通信接口設(shè)備的示例的示圖。
      具體實(shí)施例方式提供以下描述以幫助讀者全面理解這里描述的方法、設(shè)備和/或系統(tǒng)。因此,這里描述的方法、設(shè)備和/或系統(tǒng)的各種改變、修改和等同物可被推薦給本領(lǐng)域普通技術(shù)人員。描述的一系列處理步驟和/或操作是示例;然而,除了必須以特定順序發(fā)生的步驟和/或操作以外,所述步驟和/或操作的順序不限于這里闡述的順序,而是可按照本領(lǐng)域已知的方式被改變。此外,為了更加清楚和簡(jiǎn)要,可省略對(duì)公知功能和結(jié)構(gòu)的描述。圖I示出通信接口設(shè)備的示例的示圖。參照?qǐng)D1,通信接口設(shè)備101可提供系統(tǒng)102與多個(gè)用戶103、104和105之間的用戶接口。例如,通信接口設(shè)備101可從用戶103、104和105接收系統(tǒng)控制指令,分析接收的控制指令,并將分析的控制指令發(fā)送到系統(tǒng)102。通信接口設(shè)備101可以以有線或無(wú)線方式連接到系統(tǒng)102,并可被設(shè)置在系統(tǒng)102的內(nèi)部。系統(tǒng)102可以是根據(jù)來(lái)自用戶103、104和105的指令執(zhí)行特定任務(wù)的裝置。例如,系統(tǒng)102可以是與多個(gè)用戶103、104和105交互的電子產(chǎn)品、控制臺(tái)游戲裝置或智能機(jī)器人。通信接口設(shè)備101可從多個(gè)用戶103、104和105的語(yǔ)音之中檢測(cè)預(yù)先注冊(cè)的用戶的語(yǔ)音。例如,如果假設(shè)僅有用戶A 103和用戶B 104被注冊(cè),則當(dāng)所有多個(gè)用戶103、104和105講話時(shí),通信接口設(shè)備101可僅檢測(cè)預(yù)先注冊(cè)的用戶A 103和用戶B 104的語(yǔ)音。
      此外,通信接口設(shè)備101可將檢測(cè)的語(yǔ)音中有意義的語(yǔ)音發(fā)送到系統(tǒng)102。例如,如果用戶A 103的語(yǔ)音用于向系統(tǒng)102指示特定任務(wù),并且用戶B 104的語(yǔ)音僅用于問(wèn)候用戶C 105,則通信接口設(shè)備101可分析檢測(cè)的語(yǔ)音的含義,并根據(jù)分析結(jié)果將用戶A 103的語(yǔ)音發(fā)送到系統(tǒng)102。因此,當(dāng)多個(gè)用戶103、104和105與系統(tǒng)102交互時(shí),可允許系統(tǒng)102僅對(duì)注冊(cè)用戶的有意義的指令做出反應(yīng)圖2詳細(xì)示出通信接口設(shè)備的示例的示圖。參照?qǐng)D2,通信接口設(shè)備200可包括語(yǔ)音信息檢測(cè)單元201、臉部信息檢測(cè)單元202、第一處理單元203、第二處理單元204、第三處理單元205、用戶模型數(shù)據(jù)庫(kù)(DB) 206以及對(duì)話模型DB 207。語(yǔ)音信息檢測(cè)單元201接收音頻信號(hào)并從接收的音頻信號(hào)中檢測(cè)語(yǔ)音信息。音頻信號(hào)可包括語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)。通過(guò)用戶的講話產(chǎn)生語(yǔ)音信號(hào),通過(guò)用戶的手勢(shì)或用戶周?chē)穆曧懏a(chǎn)生非語(yǔ)音信號(hào)。例如,語(yǔ)音信息檢測(cè)單元201可從接收的音頻信號(hào)中提取特征信息,諸如平滑功率譜、梅爾倒頻譜系數(shù)(MFCC)、感知線性預(yù)測(cè)系數(shù)(PLP)等。臉部信息檢測(cè)單元202接收視頻信號(hào)并從接收的視頻信號(hào)中檢測(cè)臉部信息。臉部信息可以是視頻圖像中與人臉相應(yīng)的圖像的特定區(qū)域。例如,臉部信息檢測(cè)單元202可使用臉部檢測(cè)方案(諸如Ada-boost)從接收的視頻信號(hào)中提取與用戶的臉部區(qū)域相應(yīng)的臉部信息。第一處理單元203接收由語(yǔ)音信息檢測(cè)單元201檢測(cè)的語(yǔ)音信息以及由臉部信息檢測(cè)單元202檢測(cè)的臉部信息。此外,第一處理單元203確定接收的語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息??苫诖鎯?chǔ)在用戶模型DB 206中用戶模型來(lái)執(zhí)行接收的語(yǔ)音信息的確定。用戶模型可以被定義為注冊(cè)用戶的語(yǔ)音信息和臉部信息。例如,用戶模型DB 206可以以逐個(gè)用戶為基礎(chǔ)來(lái)存儲(chǔ)語(yǔ)音信息和臉部信息。第一處理單元203可將接收的語(yǔ)音信息/臉部信息與存儲(chǔ)在用戶模型DB 206中的用戶模型比較,并確定接收的語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息。例如,第一處理單元203可計(jì)算接收的語(yǔ)音信息與用戶模型相同的概率以及接收的臉部信息與用戶模型相同的概率,然后使用計(jì)算的概率值來(lái)確定接收的語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息。當(dāng)確定接收的語(yǔ)音信息是注冊(cè)用戶的語(yǔ)音信息時(shí),第二處理單元204從臉部信息檢測(cè)單元接收臉部信息,并基于接收的臉部信息來(lái)確定用戶的注意力是否在系統(tǒng)上。這里,用戶對(duì)系統(tǒng)的注意力是指用戶具有向系統(tǒng)指示指令或特定任務(wù)的意圖的事件。例如,當(dāng)比較用戶在注視系統(tǒng)的同時(shí)講話的事件與用戶沒(méi)有注視系統(tǒng)而講話的事件時(shí),可確定當(dāng)用戶在注視系統(tǒng)的同時(shí)講話時(shí)注意力在系統(tǒng)上。可基于包括在接收的臉部信息中的用戶的眼睛和臉部的方向來(lái)執(zhí)行注意力的發(fā)生的確定。例如,第二處理單元204可從接收的臉部信息中提取用戶的眼睛和臉部的方向的信息,并基于提取的眼睛和臉部的方向的信息來(lái)確定用戶是否面對(duì)系統(tǒng)。如果注意力在系統(tǒng)上,則第三處理單元205從語(yǔ)音信息檢測(cè)單元201接收語(yǔ)音信息,分析接收的語(yǔ)音信息的含義,并確定分析的含義是否對(duì)系統(tǒng)具有實(shí)際意義。這里,對(duì)系統(tǒng)具有實(shí)際意義的狀態(tài)是指用戶的講話沒(méi)有脫離一般或固定的會(huì)話模式(或話語(yǔ)語(yǔ)境)。例如,如果用戶說(shuō)“開(kāi)始清潔”并且因此清潔機(jī)器人開(kāi)始清潔,則在清潔機(jī)器人正在清潔的同時(shí),用戶的話語(yǔ)“停止清潔”和“更多地清潔客廳”對(duì)應(yīng)于所述會(huì)話模式,而話語(yǔ)“今天天氣很好”和“做點(diǎn)好吃的”則偏離了所述會(huì)話模式。
      可基于存儲(chǔ)在對(duì)話模型DB 207中的對(duì)話模型來(lái)執(zhí)行接收的語(yǔ)音信息是否對(duì)系統(tǒng)具有實(shí)際意義的確定。這里,對(duì)話模型可被定義為上述的會(huì)話模式。例如,對(duì)話模型可以是由節(jié)點(diǎn)和分枝構(gòu)成的通信樹(shù)的形式,其中,節(jié)點(diǎn)對(duì)應(yīng)于話語(yǔ)的含義,分枝對(duì)應(yīng)于會(huì)話的順序。第三處理單元205在含義水平上分析接收的語(yǔ)音信息,并將分析的信息轉(zhuǎn)換為文本。然后,第三處理單元205可將轉(zhuǎn)換的文本與通信樹(shù)進(jìn)行比較,如果轉(zhuǎn)換的文本對(duì)應(yīng)于特定節(jié)點(diǎn),則第三處理單元205確定接收的語(yǔ)音信息對(duì)系統(tǒng)具有實(shí)際意義。圖3示出圖2的第一處理單元的操作過(guò)程的示例的流程圖。參照?qǐng)D3,以下將描述確定接收的語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息的方法。在圖3中,第一處理單元203將接收的語(yǔ)音信息與用戶模型比較以計(jì)算第一概率(301)。例如,第一概率Pl可以是對(duì)應(yīng)于語(yǔ)音部分的語(yǔ)音特征信息與離線配置的注冊(cè)用戶 的語(yǔ)音特征模型相同的概率的最大值,并且可由如下等式I來(lái)表示i\ = 1\S I θ.)其中,式=argmax/)(‘VI 中),{ θ 1,θ 2, ... , θ ρ}...(I)這里,θ表示注冊(cè)用戶的語(yǔ)音特征模型,ρ表示注冊(cè)用戶的數(shù)量,S表示接收的語(yǔ)
      音信息。然后,通過(guò)將接收的臉部信息與用戶模型比較來(lái)計(jì)算第二概率P2(302)。例如,第二概率P2可以是對(duì)應(yīng)于臉部區(qū)域的圖像特征信息與離線配置的注冊(cè)用戶的臉部特征模型相同的概率的最大值,并且可由如下等式2來(lái)表示P2 = Ρ{ V I ip)其中,,Φρ= argmaxP(5 | Φρ), { Ψ I, ψ2, · · · , ψρ}... (2)這里,ψ表示注冊(cè)用戶的臉部特征模型,ρ表示注冊(cè)用戶的數(shù)量,V表示接收的臉部信息。然后使用權(quán)重來(lái)組合第一概率P1和第二概率P2 (303)。P=J(P1-P2)
      —(OP1 + (I — a)P9) Pspeech = Pface= I Λ
      I OPspeech ^ Pface
      …(3)在等式3中,α表示可根據(jù)照明度和信噪比而變化的權(quán)重。此外,當(dāng)基于語(yǔ)音特征模型選擇的注冊(cè)用戶被表示為Psp_h,并且基于臉部特征模型選擇的注冊(cè)用戶被表示為Pfare時(shí),如果Pspeedl和Pfa。。彼此相同,則分配歸一化概率值,否則可分配O。然后,將組合值P與閾值比較(304),如果組合值P大于閾值,則確定接收的語(yǔ)音信息是注冊(cè)用戶的語(yǔ)音信息(305),否者過(guò)程終止。圖4示出圖2的第二處理單元204的操作過(guò)程的示例的流程圖。參照?qǐng)D4,以下將描述確定用戶的注意力是否在系統(tǒng)上的方法。在圖4中,第二處理單元204從臉部信息中提取眼睛的方向的信息(401)。此外,第二處理單元204從臉部信息中提取臉部的方向的信息(402)。其后,第二處理單元204通過(guò)施加權(quán)重來(lái)組合提取的眼睛的方向的信息和臉部的方向的信息(403)。然后,組合值與閾值比較(404),如果組合值大于閾值,則確定用戶的注意力在系統(tǒng)上(405),否則過(guò)程終止。以上過(guò)程由如下等式4來(lái)表示。f (P (Oeye Ψρ), P (Oface Ψρ)) = β P (Oeye Ψρ) + (1-β)Ρ(0」Ψρ)f (P (Oeye I Ψρ),P (Oface I Ψρ))彡 τ orientation其中,O彡 β 彡 1,0 彡 τ orientation ( I…(4)這里,P(0eye/¥p)表示眼睛的方向的信息的歸一化的概率值,P (Oface/Ψρ)表示臉部的方向的信息的歸一化的概率值,β表示權(quán)重。圖5示出圖2的第三處理單元205的操作過(guò)程的示例的流程圖。參照?qǐng)D3,以下將描述確定語(yǔ)音信息是否對(duì)系統(tǒng)有意義的方法。在圖5中,第三處理單元205分析接收的語(yǔ)音信息的含義(501)。例如,第三處 理單元205可識(shí)別接收的語(yǔ)音信息,并將接收的語(yǔ)音信息轉(zhuǎn)換為文本。另外,第三處理單元205確定分析的含義是否對(duì)應(yīng)于會(huì)話模式(502)。例如,第三處理單元205可確定通過(guò)使用如圖6所示的對(duì)話模型分析的含義是否對(duì)系統(tǒng)有意義。如果確定結(jié)果顯示含義對(duì)應(yīng)于會(huì)話模型,則語(yǔ)音信息被發(fā)送到系統(tǒng),或者與語(yǔ)音信息相應(yīng)的控制指令被產(chǎn)生并被發(fā)送到系統(tǒng)(503),否則過(guò)程終止。圖6示出對(duì)話模型的示例的示圖。在圖6中,樹(shù)的節(jié)點(diǎn)對(duì)應(yīng)于會(huì)話的含義,樹(shù)的分枝對(duì)應(yīng)于會(huì)話的順序。例如,根據(jù)會(huì)話模式(或語(yǔ)境),指示“你能給我一些喝的嗎? ”的節(jié)點(diǎn)Al可具有兩個(gè)子節(jié)點(diǎn)BI “是”和Β2 “否”。如果節(jié)點(diǎn)Al分叉到節(jié)點(diǎn)BI,則下一可用的節(jié)點(diǎn)可以是根據(jù)飲品的種類(lèi)的指示“7Κ,請(qǐng)”的節(jié)點(diǎn)Cl、指示“牛奶,請(qǐng)”的節(jié)點(diǎn)C2、指示“果汁,請(qǐng)”的節(jié)點(diǎn)C3等。以上對(duì)話模型可以以情境為基礎(chǔ)而存儲(chǔ)在對(duì)話模型DB 207中。第三處理單元205接收并分析語(yǔ)音信息,如果分析結(jié)果指示語(yǔ)音信息具有“水,請(qǐng)”的含義,則在節(jié)點(diǎn)BI處,語(yǔ)音信息被確定為對(duì)應(yīng)于會(huì)話模式并且因此對(duì)系統(tǒng)有意義。然而,如果當(dāng)前對(duì)話狀態(tài)是節(jié)點(diǎn)Β2,則指示“水,請(qǐng)”的含義的語(yǔ)音信息被確定為對(duì)系統(tǒng)無(wú)意義。圖7示出通信接口方法的示例的流程圖。在圖7中,從一個(gè)或多個(gè)用戶接收多條語(yǔ)音信息和臉部信息,并基于分別與接收的語(yǔ)音信息和臉部信息相應(yīng)的用戶模型來(lái)確定接收的語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息(701)。例如,第一處理單元203(見(jiàn)圖2)可使用圖3中示出的方法和等式I至等式3來(lái)選擇性地檢測(cè)用戶的用戶信息。如果接收的語(yǔ)音信息是注冊(cè)用戶的語(yǔ)音信息,則基于接收的臉部信息確定用戶的注意力是否在系統(tǒng)上(702)。例如,第二處理單元204 (見(jiàn)圖2)可基于圖4中示出的方法和等式4來(lái)確定注意力的發(fā)生。如果用戶正關(guān)注系統(tǒng),則分析接收的語(yǔ)音信息的含義,并基于以情境為基礎(chǔ)表示會(huì)話流的對(duì)話模型來(lái)確定分析的接收的語(yǔ)音信息的含義是否對(duì)系統(tǒng)有意義(703)。例如,第三處理單元205可使用圖5和圖6中示出的方法來(lái)執(zhí)行語(yǔ)義分析以及與會(huì)話模式的對(duì)應(yīng)性的確定。圖8示出如何使用通信接口設(shè)備的示例的示圖。為了便于解釋?zhuān)瑘D8中示出的示例假定存在四個(gè)用戶A、B、C和D,其中,用戶Α、Β和C被注冊(cè),用戶A面對(duì)通信接口設(shè)備801說(shuō)出“訂購(gòu)紅色T恤”,用戶B面對(duì)通信接口設(shè)備801說(shuō)出“房間很臟,清潔房間”,用戶C注視著用戶B說(shuō)出“讓我們休息一下”。通信接口設(shè)備801忽略沒(méi)被注冊(cè)的用戶D的話語(yǔ)。此外,因?yàn)橛脩鬋沒(méi)有關(guān)注系統(tǒng)802,所以用戶接口設(shè)備801也忽略用戶C的話語(yǔ)。用戶接口設(shè)備801分析用戶A和用B的語(yǔ)音信息的含義。如果根據(jù)會(huì)話流需要對(duì)象的訂購(gòu),則僅有用戶A的訂購(gòu)指令被發(fā)送到系統(tǒng)802,并且用戶B的話語(yǔ)由于對(duì)系統(tǒng)802無(wú)意義而被忽略。因此,應(yīng)注意的是僅當(dāng)“注冊(cè)用戶” “在關(guān)注系統(tǒng)的同時(shí)”發(fā)出“有意義或重要的話語(yǔ)”時(shí),通信接口設(shè)備801才將用戶的控制指令發(fā)送到系統(tǒng)802。因此,當(dāng)多個(gè)用戶和系統(tǒng)彼此交互時(shí),可實(shí)現(xiàn)更準(zhǔn)確和可靠的接口連接。當(dāng)前實(shí)施例可實(shí)現(xiàn)為計(jì)算機(jī)可讀記錄介質(zhì)中的計(jì)算機(jī)可讀代碼。構(gòu)成計(jì)算機(jī)程序的代碼和代碼段可由本領(lǐng)域的計(jì)算機(jī)編程技術(shù)人員容易地推斷出。計(jì)算機(jī)可讀記錄介質(zhì)包括存儲(chǔ)計(jì)算機(jī)可讀數(shù)據(jù)的所有類(lèi)型的記錄介質(zhì)。計(jì)算機(jī)可讀記錄介質(zhì)的示例包括R0M、RAM、CD-ROM、磁帶、軟盤(pán)和光學(xué)數(shù)據(jù)存儲(chǔ)器。此外,記錄介質(zhì)可以以諸如互聯(lián)網(wǎng)傳輸?shù)妮d波的形式被實(shí)現(xiàn)。此外,計(jì)算機(jī)可讀記錄介質(zhì)可以分布到網(wǎng)絡(luò)上的計(jì)算機(jī)系統(tǒng),其中,計(jì)算機(jī)可讀 代碼可以以分布方式被存儲(chǔ)和執(zhí)行。以上描述了多個(gè)示例。然而,將理解的是,可進(jìn)行各種修改。例如,如果以不同的順序執(zhí)行描述的技術(shù),和/或如果描述的系統(tǒng)、架構(gòu)、裝置或電路中的組件以不同的方式組合和/或被其他組件或者其等同物替換或補(bǔ)充,則可實(shí)現(xiàn)適當(dāng)?shù)慕Y(jié)果。因此,其他實(shí)施方式落入權(quán)利要求的范圍內(nèi)。
      權(quán)利要求
      1.一種用于系統(tǒng)和多個(gè)用戶的通信接口設(shè)備,包括 第一處理單元,被構(gòu)造為從一個(gè)或多個(gè)用戶接收語(yǔ)音信息和臉部信息,并基于與各接收的語(yǔ)音信息和臉部信息相應(yīng)的用戶模型來(lái)確定接收的語(yǔ)音信息是否是多個(gè)注冊(cè)用戶之一的語(yǔ)音信息; 第二處理單元,被構(gòu)造為接收臉部信息,并基于接收的臉部信息確定用戶的注意力是否在所述系統(tǒng)上;以及 第三處理單元,被構(gòu)造為接收語(yǔ)音信息,分析接收的語(yǔ)音信息,并基于以情境為基礎(chǔ)表示會(huì)話流的對(duì)話模型確定接收的語(yǔ)音信息是否對(duì)所述系統(tǒng)具有實(shí)際意義。
      2.如權(quán)利要求I所述的通信接口設(shè)備,其中,用戶模型由注冊(cè)用戶的多條語(yǔ)音信息和臉部信息來(lái)定義。
      3.如權(quán)利要求I所述的通信接口設(shè)備,其中,第一處理單元還被構(gòu)造為通過(guò)將接收的語(yǔ)音信息與用戶模型比較來(lái)計(jì)算用戶是注冊(cè)用戶的第一概率,通過(guò)將接收的臉部信息與用戶模型比較來(lái)計(jì)算用戶是注冊(cè)用戶的第二概率,并基于計(jì)算的第一概率和第二概率來(lái)確定接收的語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息。
      4.如權(quán)利要求I所述的通信接口設(shè)備,其中,第二處理單元還被構(gòu)造為從臉部信息中提取用戶的眼睛和用戶的臉部的方向的信息,并基于提取的眼睛或臉部的方向的信息來(lái)確定注意力是否在所述系統(tǒng)上。
      5.如權(quán)利要求I所述的通信接口設(shè)備,其中,對(duì)話模型是由節(jié)點(diǎn)和分枝構(gòu)成的通信樹(shù)的形式,其中,節(jié)點(diǎn)對(duì)應(yīng)于話語(yǔ)的含義,分枝對(duì)應(yīng)于會(huì)話的順序。
      6.如權(quán)利要求5所述的通信接口設(shè)備,其中,第三處理單元還被構(gòu)造為當(dāng)接收的語(yǔ)音信息的含義對(duì)應(yīng)于所述通信樹(shù)時(shí)確定接收的語(yǔ)音信息對(duì)所述系統(tǒng)具有實(shí)際意義。
      7.一種用于系統(tǒng)和多個(gè)用戶的通信接口方法,包括 從一個(gè)或多個(gè)用戶接收多條語(yǔ)音信息和臉部信息,并基于與各接收的語(yǔ)音信息和臉部信息相應(yīng)的用戶模型來(lái)確定接收的語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息; 基于接收的臉部信息確定用戶的注意力是否在所述系統(tǒng)上;以及 分析接收的語(yǔ)音信息的含義,并基于以情境為基礎(chǔ)表示會(huì)話流的對(duì)話模型確定接收的語(yǔ)音信息是否對(duì)所述系統(tǒng)具有實(shí)際意義。
      8.如權(quán)利要求7所述的通信接口方法,其中,確定接收的語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息的步驟包括通過(guò)將接收的語(yǔ)音信息與用戶模型比較來(lái)計(jì)算用戶是注冊(cè)用戶的第一概率,通過(guò)將接收的臉部信息與用戶模型比較來(lái)計(jì)算用戶是注冊(cè)用戶的第二概率,并基于計(jì)算的第一概率和第二概率來(lái)確定接收的語(yǔ)音信息是否是注冊(cè)的用戶的語(yǔ)音信息。
      9.如權(quán)利要求7所述的通信接口方法,其中,確定用戶的注意力是否在所述系統(tǒng)上的步驟包括從臉部信息中提取用戶的眼睛和用戶的臉部的方向的信息,并基于提取的眼睛或臉部的方向的信息來(lái)確定用戶的注意力是否在所述系統(tǒng)上。
      10.如權(quán)利要求7所述的通信接口方法,其中,對(duì)話模型是由節(jié)點(diǎn)和分枝構(gòu)成的通信樹(shù)的形式,其中,節(jié)點(diǎn)對(duì)應(yīng)于話語(yǔ)的含義,分枝對(duì)應(yīng)于會(huì)話的順序,并且確定接收的語(yǔ)音信息是否具有實(shí)際意義的步驟包括將接收的語(yǔ)音信息的含義應(yīng)用于所述通信樹(shù),并且當(dāng)接收的語(yǔ)音信息的含義對(duì)應(yīng)于所述通信樹(shù)的節(jié)點(diǎn)時(shí)確定接收的語(yǔ)音信息對(duì)所述系統(tǒng)具有實(shí)際意義。
      全文摘要
      提供了一種用于系統(tǒng)和多個(gè)用戶的通信接口設(shè)備。所述通信接口設(shè)備確定語(yǔ)音信息是否是注冊(cè)用戶的語(yǔ)音信息,確定是否注冊(cè)用戶在關(guān)注系統(tǒng)的同時(shí)發(fā)出話語(yǔ),確定注冊(cè)用戶的語(yǔ)音信息是否對(duì)系統(tǒng)有意義,并根據(jù)確定結(jié)果發(fā)送或阻斷用戶的語(yǔ)音信息。因此,僅當(dāng)注冊(cè)用戶在關(guān)注系統(tǒng)的同時(shí)發(fā)出有意義和重要的話語(yǔ)時(shí)才允許接口連接。
      文檔編號(hào)G06F3/16GK102640084SQ201080053726
      公開(kāi)日2012年8月15日 申請(qǐng)日期2010年11月9日 優(yōu)先權(quán)日2009年11月27日
      發(fā)明者曹貞美, 樸致衍, 金南勛, 金正壽 申請(qǐng)人:三星電子株式會(huì)社
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1