本發(fā)明的實施方式涉及計算機技術領域,更具體地,本發(fā)明的實施方式涉及用于通過聲音識別用戶身份的方法、設備及計算機可讀存儲介質。
背景技術:
本部分旨在為權利要求書中陳述的本發(fā)明的實施方式提供背景或者上下文。此處的描述不因為包括在本部分中就承認是現(xiàn)有技術。
支持多用戶的智能終端設備通常是指能夠被多個用戶使用的智能終端設備(例如,物聯(lián)網設備)。支持多用戶的智能終端設備可以具體為智能音箱、智能語音助手以及智能空調等。
為了使支持多用戶的智能終端設備能夠為其所支持的不同用戶提供個性化服務(也可以稱為差分化服務或者差異化服務等),通常需要通過聲音來識別用戶身份;例如,在智能語音助手支持多用戶的情況下,如果智能語音助手所支持的一個用戶詢問智能語音助手用戶本人當天的日程安排,則智能語音助手應該根據(jù)對話方的用戶身份獲取該用戶身份所對應的當天的日程安排,并答復該用戶,而不是針對不同用戶均給出相同的答復或者將其他用戶的當天的日程安排作為對話方的當天的日程安排答復用戶。
目前,對于支持多用戶功能的智能終端設備而言,通過聲音識別用戶身份的實現(xiàn)方式通常為:基于聲紋識別技術來識別用戶身份。
技術實現(xiàn)要素:
但是,由于聲紋識別技術實現(xiàn)難度較高,因此,其所需要耗費的資源(例如,計算資源等)通常較大;如果智能終端設備本地使用聲紋識別技術來識別用戶身份,則不僅需要額外的考慮智能終端設備的硬件配置,還需要考慮智能終端設備在使用過程中的能源消耗,具體而言,由于聲紋識別技術需要耗費較多的計算資源,因此,智能終端設備中的負責喚醒功能的芯片無法通過結構相對較為簡單的小芯片來實現(xiàn),然而,結構相對較為復雜的大芯片不但會影響智能終端設備的成本,還會增加智能終端設備在使用過程中的耗電量;而如果智能終端設備將聲音信號上傳至服務器,由相應的服務器利用聲紋識別技術來實現(xiàn)用戶身份識別,聲紋識別技術的實現(xiàn)難度以及與智能終端設備與服務器的信息交互也會使智能終端設備的響應速度受到影響。
因此在現(xiàn)有技術中,由智能終端設備本地通過聲音識別用戶身份,會不利于降低智能終端設備的生產成本以及使用成本,而由網絡側的服務器通過聲音識別用戶身份,一方面不利于提高用戶身份識別的準確性,另一方面不利于提高智能終端設備的響應速度,這是非常令人煩惱的技術問題。
為此,非常需要一種改進的用于通過聲音識別用戶身份的技術方案,在該技術方案由智能終端設備本地實現(xiàn)時,完全可以實現(xiàn)在基本上不影響智能終端設備的生產成本以及使用成本的情況下,使用戶身份識別具有較佳的準確性,并使智能終端設備具有較好的響應速度。
在本上下文中,本發(fā)明的實施方式期望提供一種用于通過聲音識別用戶身份的方法、設備以及計算機可讀存儲介質。
在本發(fā)明實施方式的第一方面中,提供了一種用于通過聲音識別用戶身份的方法,包括:根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測,其中,一個喚醒詞對應至少一個用戶身份信息;在檢測出所述聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)所述檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份。
在本發(fā)明的一個實施例中,所述一個喚醒詞對應一個用戶身份信息,且不同喚醒詞對應不同的用戶身份信息。
在本發(fā)明的又一個實施例中,所述方法還包括:接收外部設備傳輸來的喚醒詞與用戶身份信息的對應關系信息,并存儲所述接收到的喚醒詞與用戶身份信息的對應關系信息;和/或,通過與用戶的語音交互獲取喚醒詞與用戶身份信息的對應關系信息,并存儲所述獲取到的喚醒詞與用戶身份信息的對應關系信息;其中,所述對應關系信息用于確定喚醒詞對應的用戶身份信息。
在本發(fā)明的再一個實施例中,所述通過與用戶的語音交互獲取喚醒詞與用戶身份信息的對應關系信息的步驟包括:通過與第一用戶的語音交互獲取第一喚醒詞與所述第一用戶的用戶身份信息的對應關系信息。
在本發(fā)明的再一個實施例中,所述第一喚醒詞是所述第一用戶針對所述智能終端設備的特定稱呼。
在本發(fā)明的再一個實施例中,所述外部設備包括:計算機、智能移動電話、平板電腦以及智能手表中的至少一個,且所述外部設備與所述智能終端設備通過無線網絡或者藍牙無線連接。
在本發(fā)明的再一個實施例中,所述通過與用戶的語音交互獲取喚醒詞與用戶身份信息的對應關系信息的步驟包括:在智能終端設備初次啟動運行過程中,向用戶發(fā)出用于設置喚醒詞與用戶身份信息的對應關系信息的語音邀請,在用戶接受所述語音邀請的情況下,通過與用戶的語音交互獲取喚醒詞以及用戶身份信息,并設置獲取到的喚醒詞與用戶身份信息的對應關系信息;和/或,在智能終端設備運行過程中,在接收到用戶發(fā)出的用于設置喚醒詞與用戶身份信息的對應關系信息的語音命令的情況下,通過與用戶的語音交互獲取喚醒詞以及用戶身份信息,并設置獲取到的喚醒詞與用戶身份信息的對應關系信息。
在本發(fā)明的再一個實施例中,所述用戶身份信息包括:用于表征用戶角色的信息和/或用戶在應用中的注冊賬號。
在本發(fā)明的再一個實施例中,所述根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測的步驟包括:將智能終端設備拾取的聲音信號轉換為文本信息;檢測所述文本信息中是否包含有預先設置的所有喚醒詞中的任一喚醒詞。
在本發(fā)明的再一個實施例中,所述根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測的步驟包括:檢測智能終端設備拾取的聲音信號與針對預先設置的各喚醒詞而設置的各聲學模型的匹配度;判斷各聲學模型與所述聲音信號的匹配度是否符合預設匹配要求。
在本發(fā)明的再一個實施例中,所述在檢測出所述聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)所述檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份的步驟包括:在檢測出所述聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)預先設置的喚醒詞與用戶身份信息的對應關系信息確定所述檢測出的喚醒詞對應的用戶身份信息,并根據(jù)所述確定出的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份;或者,在檢測出所述聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)預先設置的喚醒詞、驗證碼與用戶身份信息的對應關系信息確定所述檢測出的喚醒詞對應的驗證碼以及用戶身份信息,向用戶發(fā)出用于獲取驗證碼的語音請求,在檢測出用戶的語音回復中包含有所述確定出的驗證碼的情況下,則根據(jù)所述檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份。
在本發(fā)明的再一個實施例中,所述智能終端設備包括:智能音箱。
在本發(fā)明實施方式的第二方面中,提供一種設備,包括:喚醒詞檢測模塊,用于根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測,其中,一個喚醒詞對應至少一個用戶身份信息;以及用戶身份識別模塊,用于在檢測出所述聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)所述檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份。
在本發(fā)明實施方式的第三方面中,提供一種設備,包括:存儲器,用于存儲計算機程序;處理器,用于執(zhí)行所述存儲器中存儲的計算機程序,且所述計算機程序被執(zhí)行時,下述指令被運行:用于根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測的指令,其中,一個喚醒詞對應至少一個用戶身份信息;在檢測出所述聲音信號包含有預先設置的喚醒詞的情況下,用于根據(jù)所述檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份的指令。
在本發(fā)明的一個實施例中,所述一個喚醒詞對應一個用戶身份信息,且不同喚醒詞對應不同的用戶身份信息。
在本發(fā)明的又一個實施例中,所述設備還包括:用于接收外部設備傳輸來的喚醒詞與用戶身份信息的對應關系信息,并存儲所述接收到的喚醒詞與用戶身份信息的對應關系信息的指令;和/或,用于通過與用戶的語音交互獲取喚醒詞與用戶身份信息的對應關系信息,并存儲所述獲取到的喚醒詞與用戶身份信息的對應關系信息的指令;其中,所述對應關系信息用于確定喚醒詞對應的用戶身份信息。
在本發(fā)明的再一個實施例中,所述用于通過與用戶的語音交互獲取喚醒詞與用戶身份信息的對應關系信息,并存儲所述獲取到的喚醒詞與用戶身份信息的對應關系信息的指令具體為:用于通過與第一用戶的語音交互獲取第一喚醒詞與所述第一用戶的用戶身份信息的對應關系信息,并存儲所述獲取到的喚醒詞與用戶身份信息的對應關系信息的指令。
在本發(fā)明的再一個實施例中,所述第一喚醒詞是所述第一用戶針對所述智能終端設備的特定稱呼。
在本發(fā)明的再一個實施例中,所述外部設備包括:計算機、智能移動電話、平板電腦以及智能手表中的至少一個,且所述外部設備與所述智能終端設備通過無線網絡或者藍牙無線連接。
在本發(fā)明的再一個實施例中,所述用于通過與用戶的語音交互獲取喚醒詞與用戶身份信息的對應關系信息,并存儲所述獲取到的喚醒詞與用戶身份信息的對應關系信息的指令包括:用于在檢測出所述聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)預先設置的喚醒詞與用戶身份信息的對應關系信息確定所述檢測出的喚醒詞對應的用戶身份信息,并根據(jù)所述確定出的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份的指令;和/或,用于在智能終端設備運行過程中,在接收到用戶發(fā)出的用于設置喚醒詞與用戶身份信息的對應關系信息的語音命令的情況下,通過與用戶的語音交互獲取喚醒詞以及用戶身份信息,并設置獲取到的喚醒詞與用戶身份信息的對應關系信息,并存儲所述獲取到的喚醒詞與用戶身份信息的對應關系信息的指令。
在本發(fā)明的再一個實施例中,所述用戶身份信息包括:用于表征用戶角色的信息和/或用戶在應用中的注冊賬號。
在本發(fā)明的再一個實施例中,所述用于根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測的指令包括:用于將智能終端設備拾取的聲音信號轉換為文本信息的指令;用于檢測所述文本信息中是否包含有預先設置的所有喚醒詞中的任一喚醒詞的指令。
在本發(fā)明的再一個實施例中,所述用于根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測的指令包括:用于檢測智能終端設備拾取的聲音信號與針對預先設置的各喚醒詞而設置的各聲學模型的匹配度的指令;用于判斷各聲學模型與所述聲音信號的匹配度是否符合預設匹配要求的指令。
在本發(fā)明的再一個實施例中,所述在檢測出所述聲音信號包含有預先設置的喚醒詞的情況下,用于根據(jù)所述檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份的指令包括:在檢測出所述聲音信號包含有預先設置的喚醒詞的情況下,用于利用所述檢測出的喚醒詞在預先設置的喚醒詞與用戶身份信息的對應關系信息中查找匹配記錄,并根據(jù)匹配記錄中的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份;或者,在檢測出聲音信號包含有預先設置的喚醒詞的情況下,用于根據(jù)預先設置的喚醒詞、驗證碼與用戶身份信息的對應關系信息確定所述檢測出的喚醒詞對應的驗證碼以及用戶身份信息,向用戶發(fā)出用于獲取驗證碼的語音請求,在檢測出用戶的語音回復中包含有所述確定出的驗證碼的情況下,則根據(jù)所述檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份的指令。
在本發(fā)明的再一個實施例中,所述智能終端設備包括:智能音箱。
在本發(fā)明實施方式的第四方面中,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)步驟:根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測,其中,一個喚醒詞對應至少一個用戶身份信息;在檢測出所述聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)所述檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份。
根據(jù)本發(fā)明實施方式的用于通過聲音識別用戶身份的方法、設備以及計算機可讀存儲介質,本發(fā)明實施方式通過預先為一個喚醒詞設置一個或者多個用戶身份信息,這樣,在檢測出智能終端設備當前拾取的聲音信號包含有預先設置的喚醒詞的情況下,可以快速準確的根據(jù)檢測出的喚醒詞所對應的用戶身份信息識別出發(fā)出該聲音信號的用戶身份;由于檢測聲音信號是否包含有喚醒詞的實現(xiàn)方案所需要耗費的資源通常較小,且完全可以由智能終端設備中的結構相對較為簡單的負責喚醒功能的芯片來實現(xiàn),當然,也可以將喚醒和識別都放在同一個主芯片中進行,但喚醒詞的檢測和識別功能僅占用主芯片的很小比例的運算資源(比如不超過10%),在檢測和識別出喚醒詞時,再喚醒主芯片的語音識別功能、開始全力工作;因此,本發(fā)明實施方式在由智能終端設備本地實現(xiàn)的情況下,基本上不需要額外考慮智能終端設備的硬件配置以及智能終端設備在使用過程中的能源消耗,且智能終端設備會具有較好的響應速度;即便是本發(fā)明實施方式的部分步驟由服務器執(zhí)行,由于服務器是利用一個喚醒詞所對應的相應用戶身份信息來確定用戶身份,因此,完全可以不需要用戶聲音的細節(jié)特征,甚至可以不需要智能終端設備向其傳輸聲音信號,從而可以避免聲音的細節(jié)特征被濾除而對用戶身份識別的準確性所產生的影響,也可以避免聲紋識別技術以及聲音信號的傳輸而給智能終端設備的響應速度帶來的影響。由此可知,本發(fā)明實施方式提供的技術方案有效降低了用戶身份識別的難度,并能夠在一定程度上提高用戶身份識別的準確性以及智能終端設備的響應速度,從而本發(fā)明實施方式具有實現(xiàn)成本低以及便于推廣應用等特點。
附圖說明
通過參考附圖閱讀下文的詳細描述,本發(fā)明示例性實施方式的上述以及其他目的、特征和優(yōu)點將變得易于理解。在附圖中,以示例性而非限制性的方式示出了本發(fā)明的若干實施方式,其中:
圖1示意性地示出了根據(jù)本發(fā)明實施方式的可以在其中實現(xiàn)的應用場景示意圖;
圖2示意性地示出了根據(jù)本發(fā)明一實施例的用于通過聲音識別用戶身份的方法流程圖;
圖3示意性地示出了根據(jù)本發(fā)明一實施例的設備的結構示意圖;
圖4示意性地示出了根據(jù)本發(fā)明一實施例的計算機的結構示意圖;
圖5示意性地示出了根據(jù)本發(fā)明一實施例的計算機可讀存儲介質的示意圖。
在附圖中,相同或者對應的標號表示相同或者對應的部分。
具體實施方式
下面將參考若干示例性實施方式來描述本發(fā)明的原理和精神。應當理解,給出這些實施方式僅僅是為了使本領域技術人員能夠更好地理解進而實現(xiàn)本發(fā)明,而并非以任何方式限制本發(fā)明的范圍。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠將本公開的范圍完整地傳達給本領域的技術人員。
本領域技術人員知道,本發(fā)明的實施方式可以實現(xiàn)為一種設備、方法或計算機程序產品。因此,本公開可以具體實現(xiàn)為以下形式,即:完全的硬件或者完全的軟件(包括固件、駐留軟件、微代碼等),或者硬件和軟件結合的形式。
根據(jù)本發(fā)明的實施方式,提出了一種用于通過聲音識別用戶身份的方法、設備以及計算機可讀存儲介質。
在本文中,需要理解的是,本發(fā)明實施方式所涉及的術語喚醒詞通常是指用于喚醒智能終端設備(尤其是物聯(lián)網設備)的短句或者詞組,智能終端設備可以具體為智能音箱等物聯(lián)網設備;術語聲音也可以稱為語音,且通常是指由人發(fā)出的聲音,當然,本發(fā)明實施方式也不排除聲音由設備發(fā)出的可能性,即本發(fā)明實施方式可以將由設備播放的音頻信號作為聲音;術語用戶身份通常可以唯一標識出一個用戶。此外,附圖中的任何元素數(shù)量均用于示例而非限制,以及任何命名都僅用于區(qū)分,而不具有任何限制含義。下面參考本發(fā)明的若干代表性實施方式,詳細闡釋本發(fā)明的原理和精神。
發(fā)明概述
本發(fā)明人發(fā)現(xiàn),由于聲紋識別技術實現(xiàn)難度較高,因此,其所需要耗費的資源(例如,計算資源等)通常較大;如果智能終端設備本地使用聲紋識別技術來識別用戶身份,則不僅需要額外考慮智能終端設備的硬件配置,還需要考慮智能終端設備在使用過程中的能源消耗,具體而言,由于聲紋識別技術需要耗費較多的計算資源,因此,智能終端設備中的負責喚醒功能的芯片無法通過結構相對較為簡單的小芯片來實現(xiàn),然而,結構相對較為復雜的大芯片不但會影響智能終端設備的成本,還會增加智能終端設備在使用過程中的耗電量;而如果智能終端設備將聲音信號上傳至服務器,由相應的服務器利用聲紋識別技術來實現(xiàn)用戶身份識別,聲紋識別技術的實現(xiàn)難度以及與智能終端設備與服務器的信息交互也會使智能終端設備的響應速度受到影響。
因此,針對現(xiàn)有技術中存在的由智能終端設備本地通過聲音識別用戶身份,會不利于降低智能終端設備的生產成本以及使用成本,而由網絡側的服務器通過聲音識別用戶身份,一方面不利于提高用戶身份識別的準確性,另一方面不利于提高智能終端設備的響應速度的技術問題,提供了一種用于通過聲音識別用戶身份的方法和設備,通過預先為一個喚醒詞設置一個或者多個用戶身份信息,這樣,在檢測出智能終端設備當前拾取的聲音信號包含有預先設置的喚醒詞的情況下,可以快速準確的根據(jù)檢測出的喚醒詞所對應的用戶身份信息識別出發(fā)出該聲音信號的用戶身份;由于檢測聲音信號是否包含有喚醒詞的實現(xiàn)方案所需要耗費的資源通常較小,且完全可以由智能終端設備中的結構相對較為簡單的負責喚醒功能的芯片來實現(xiàn),當然,也可以將喚醒和識別都放在同一個主芯片中進行,但喚醒詞的檢測和識別功能僅占用主芯片的很小比例的運算資源(比如不超過10%),在檢測和識別出喚醒詞時,再喚醒主芯片的語音識別功能、開始全力工作;因此,本發(fā)明實施方式在由智能終端設備本地實現(xiàn)的情況下,基本上不需要額外考慮智能終端設備的硬件配置以及智能終端設備在使用過程中的能源消耗,且智能終端設備會具有較好的響應速度;即便是本發(fā)明實施方式的部分步驟由服務器執(zhí)行,由于服務器是利用一個喚醒詞所對應的相應用戶身份信息來確定用戶身份,因此,完全可以不需要用戶聲音的細節(jié)特征,甚至可以不需要智能終端設備向其傳輸聲音信號,從而可以避免聲音的細節(jié)特征被濾除而對用戶身份識別的準確性所產生的影響,也可以避免聲紋識別技術以及聲音信號的傳輸而給智能終端設備的響應速度帶來的影響。由此可知,本發(fā)明實施方式提供的技術方案有效降低了用戶身份識別的難度,并能夠在一定程度上提高用戶身份識別的準確性以及智能終端設備的響應速度,從而本發(fā)明實施方式具有實現(xiàn)成本低以及便于推廣應用等特點。
在介紹了本發(fā)明的基本原理之后,下面具體介紹本發(fā)明的各種非限制性實施方式。
應用場景總覽
首先參考圖1,示意性地示出了根據(jù)本發(fā)明實施方式的可以在其中實現(xiàn)的應用場景。
圖1中,智能終端設備100是能夠支持多用戶的智能終端設備(圖1中示意性的示出了兩個用戶,且這兩個用戶通常具有不同的用戶身份),該支持多用戶的智能終端設備100可以為其所支持的各用戶提供個性化服務;例如,在圖1中的智能終端設備100為智能音箱(具有智能語音助手功能)或者智能語音助手(下述以智能音箱為例進行說明)等,且該智能音箱支持第一用戶以及第二用戶的情況下,如果第一用戶詢問智能音箱用戶本人當天的日程安排,則該智能音箱應該能夠根據(jù)當前對話方的聲音識別出當前對話方的用戶身份為第一用戶,從而智能音箱應獲取第一用戶所對應的當天的日程安排,并答復第一用戶;而如果第二用戶詢問智能音箱用戶本人當天的日程安排,則該智能音箱應該能夠根據(jù)當前對話方的聲音識別出當前對話方的用戶身份為第二用戶,從而智能音箱應獲取第二用戶所對應的當天的日程安排,并答復第二用戶;由此可知,雖然第一用戶和第二用戶均向智能音箱詢問了同樣的問題(即均詢問其當天的日程安排),但是,智能音箱分別向第一用戶和第二用戶所給出的答復可以是完全不同的答復。
然而,本領域技術人員完全可以理解,本發(fā)明實施方式的適用場景不受到該框架任何方面的限制。
示例性方法
下面結合圖1所示的應用場景,參考圖2來描述根據(jù)本發(fā)明示例性實施方式的用于通過聲音識別用戶身份的方法。需要注意的是,上述應用場景僅是為了便于理解本發(fā)明的精神和原理而示出,本發(fā)明的實施方式在此方面不受任何限制。相反,本發(fā)明的實施方式可以應用于適用的任何場景。
參見圖2,示意性地示出了根據(jù)本發(fā)明一實施例的用于通過聲音識別用戶身份的方法的流程圖,且該方法通常是在用戶的智能終端設備中執(zhí)行,例如,該方法可以在用戶的智能音箱、智能語音助手以及智能空調等物聯(lián)網設備中執(zhí)行。當然,本發(fā)明實施方式也不排除該方法由服務器實現(xiàn)或者由智能終端設備以及服務器共同實現(xiàn)的可能性。
本發(fā)明實施方式的方法主要包括:步驟s210以及s220;可選的,本發(fā)明實施方式的方法還可以包括:步驟s200。下面對本發(fā)明實施方式所包括的各步驟分別進行說明。
s200、設置喚醒詞與用戶身份信息的對應關系信息。
作為示例,本發(fā)明實施方式中的喚醒詞主要用于喚醒智能終端設備,且喚醒詞可以具體為短句或者詞組等,當然,該喚醒詞也可以為包含有較多內容(如較多漢字或者較多單詞)的一句話。
作為示例,本發(fā)明實施方式中的用戶身份信息可以是用戶標識信息,即一個用戶身份信息可以表征出一個用戶。用戶身份信息可以具體為用于表征用戶角色的信息,例如,用戶身份信息可以具體為表征出該用戶在家庭中的角色(如媽媽、爸爸或者兒子等)的信息,再例如,用戶身份信息可以具體為表征出該用戶在公司中的角色(如經理或者經理助理等)的信息。用戶身份信息也可以為用戶在應用中的注冊賬號,例如,用戶在即時通信工具(如微信或者qq等)或者網易郵箱中的注冊賬號等。當然,用戶身份信息還可以具體為用于表征用戶角色的信息以及用戶在應用中的注冊賬號。本發(fā)明實施方式不限制用戶身份信息的具體表現(xiàn)形式。
作為示例,本發(fā)明實施方式中預先設置的喚醒詞與用戶身份信息的對應關系信息主要用于確定喚醒詞對應的用戶身份信息。在本發(fā)明實施方式中的喚醒詞與用戶身份信息的對應關系信息中,一個喚醒詞可以對應至少一個用戶身份信息,也就是說,本發(fā)明實施方式允許兩個或者更多用戶身份信息對應相同的喚醒詞,然而,在實際應用中,一個喚醒詞通常僅對應一個用戶身份信息,即不同的用戶身份信息對應不同的喚醒詞。
作為示例,本發(fā)明實施方式中的喚醒詞與用戶身份信息的對應關系信息可以是在智能終端設備出廠時預先設置好,并存儲于智能終端設備中的,且用戶在使用智能終端設備的過程中,可以對前述預先設置好的喚醒詞與用戶身份信息的對應關系信息進行維護,例如修改已有的喚醒詞與用戶身份信息的對應關系信息、刪除已有的喚醒詞與用戶身份信息的對應關系信息或者新增喚醒詞與用戶身份信息的對應關系信息等;當然,本發(fā)明實施方式中的喚醒詞與用戶身份信息的對應關系信息也可以是在智能終端設備出廠之后,完全由用戶在使用智能終端設備的過程中動態(tài)設置,并存儲于智能終端設備中的。
作為示例,本發(fā)明實施方式可以通過與外部設備的信息傳輸來設置喚醒詞與用戶身份信息的對應關系信息,且該外部設備可以具體為智能移動電話或者平板電腦或者計算機或者智能手表等智能電子設備。本發(fā)明實施方式中的與外部設備的信息傳輸可以通過與外部設備有線連接方式實現(xiàn),例如,與外部設備通過usb(universalserialbus,通用串行總線)有線連接,以實現(xiàn)信息的有線傳輸;本發(fā)明實施方式中的與外部設備的信息傳輸也可以通過無線連接方式實現(xiàn),例如,與外部設備基于無線網絡或者藍牙或者紅外等方式無線連接,以實現(xiàn)信息的無線傳輸。
本發(fā)明實施方式的通過與外部設備的信息傳輸來設置喚醒詞與用戶身份信息的對應關系信息的一個具體例子為,用戶可以通過智能移動電話或者平板電腦或者計算機或者智能手表等智能電子設備中的應用所提供的用戶交互界面來采集喚醒詞以及用戶身份信息,并根據(jù)預定格式設置采集到的喚醒詞與用戶身份信息的對應關系信息,然后,將該對應關系信息傳輸給智能音箱等智能終端設備,由智能終端設備存儲其接收到的該對應關系信息。在該具體例子中,外部設備可以指示智能終端設備清除其原來存儲的對應關系信息,并存儲當前接收到的對應關系信息;外部設備也可以指示智能終端設備保留其原來存儲的對應關系信息,并在原來存儲的對應關系信息的基礎上添加當前接收到的對應關系信息;外部設備還可以指示智能終端設備利用當前接收到的對應關系信息來修改其原來存儲的對應關系信息,例如,指示智能終端設備利用當前接收到的對應關系中的喚醒詞替換其原來存儲的相應對應關系中的喚醒詞等。該例子中的應用可以為獨立應用(例如,瀏覽器或者專用于實現(xiàn)該對應關系信息設置的app等)或者嵌入在微信或者qq等應用中的第三方應用等。
作為示例,本發(fā)明實施方式可以通過智能終端設備與用戶的語音交互獲取喚醒詞與用戶身份信息的對應關系信息,并存儲其獲取到的喚醒詞與用戶身份信息的對應關系信息;具體的,本發(fā)明實施方式可以在智能終端設備初次啟動運行過程中,向用戶發(fā)出用于設置喚醒詞與用戶身份信息的對應關系信息的語音邀請,在檢測出用戶接受該語音邀請的情況下,通過與用戶的語音交互來獲取喚醒詞以及用戶身份信息,并設置當前獲取到的喚醒詞與用戶身份信息的對應關系信息;本發(fā)明實施方式也可以在智能終端設備后續(xù)運行過程中,在接收到用戶發(fā)出的用于設置喚醒詞與用戶身份信息的對應關系信息的語音命令的情況下,通過智能終端設備與用戶的語音交互來獲取喚醒詞以及用戶身份信息,然后,設置獲取到的喚醒詞與用戶身份信息的對應關系信息,并存儲。
一個具體的例子,用戶在購買了智能終端設備,且第一次加電啟動該智能終端設備,以使智能終端設備初次運行的應用場景中,通過智能終端設備主動向用戶發(fā)出用于設置喚醒詞與用戶身份信息的對應關系信息的語音邀請,例如,智能終端設備在初次啟動并運行后,發(fā)出“主人你好,我想認識一下你,可以嗎?”的語音;在檢測到用戶接受了該語音邀請(例如,智能終端設備檢測到用戶說“可以”或者“好啊”或者“好”或者“嗯”等)的情況下,可以利用智能終端設備繼續(xù)通過與用戶的語音交互來獲取喚醒詞以及用戶身份信息,例如,通過智能終端設備繼續(xù)發(fā)出“主人,你打算怎樣稱呼我呢”的語音,設定本發(fā)明實施方式檢測到用戶說“我想稱呼你為小智小智”,則本發(fā)明實施方式可以將“小智小智”作為喚醒詞,之后,通過智能終端設備繼續(xù)發(fā)出“主人,您的手機號碼可以告訴我嗎?”的語音,設定本發(fā)明實施方式檢測到用戶說“我的手機號碼是**”,則本發(fā)明實施方式可以將該手機號碼作為用戶身份信息或者用戶身份信息的一部分,之后,本發(fā)明實施方式可以在區(qū)分男聲、女聲及童聲的基礎上,通過智能終端設備繼續(xù)發(fā)出“我猜您一定是家里的男主人”等語音,以進一步獲取用戶身份信息;在成功獲取到喚醒詞以及用戶身份信息后,本發(fā)明實施方式將喚醒詞以及用戶身份信息按照預定格式進行存儲,從而針對當前用戶成功設置喚醒詞與用戶身份信息的對應關系信息。
另一個具體的例子,智能終端設備在用戶的家中被使用了一段時間之后,用戶希望該智能終端設備能夠為其家中新增加的一位成員也提供個性化服務,該用戶可以主動向智能終端設備發(fā)出用于設置喚醒詞與用戶身份信息的對應關系信息的語音命令,例如,該用戶可以向智能終端設備說“小智小智,請認識一位新成員”;本發(fā)明實施方式在檢測到用戶發(fā)出了用于設置喚醒詞與用戶身份信息的對應關系信息的語音命令之后,可以通過與用戶的語音交互獲取喚醒詞以及用戶身份信息,例如,通過智能終端設備可以發(fā)出“非常榮幸,主人,請問這位新成員打算怎樣稱呼我呢?”的語音,設定本發(fā)明實施方式檢測到用戶說“他想稱呼你為大智大智”,則本發(fā)明實施方式可以將“大智大智”作為喚醒詞,之后,通過智能終端設備繼續(xù)發(fā)出“主人,這位新成員的手機號碼可以告訴我嗎?”的語音,設定本發(fā)明實施方式檢測到用戶說“他的手機號碼是**”,則本發(fā)明實施方式可以將該手機號碼作為用戶身份信息或者用戶身份信息的一部分,之后,本發(fā)明實施方式可以在區(qū)分男聲、女聲及童聲的基礎上,通過智能終端設備繼續(xù)發(fā)出“我猜這位新成員一定是家里的小主人”等語音,以進一步獲取用戶身份信息;在成功獲取到喚醒詞以及用戶身份信息后,本發(fā)明實施方式可以將喚醒詞以及用戶身份信息按照預定格式進行存儲,從而針對當前用戶成功設置喚醒詞與用戶身份信息的對應關系信息。
需要特別說明的是,本發(fā)明實施方式可以通過與第一用戶的語音交互獲取第一喚醒詞與該第一用戶的用戶身份信息的對應關系信息,即用戶為自己設置喚醒詞以及用戶身份信息;本發(fā)明實施方式也可以通過與第一用戶的語音交互獲取第二喚醒詞與第二用戶的用戶身份信息的對應關系信息,即用戶為其他用戶設置喚醒詞以及用戶身份信息。另外,本發(fā)明實施方式中的喚醒詞與用戶身份信息的對應關系信息可以為文本形式的喚醒詞與用戶身份信息的對應關系信息,也可以為聲學模型形式的喚醒詞與用戶身份信息的對應關系信息。本發(fā)明實施方式可以采用現(xiàn)有的聲學模型構建方式為各用戶的喚醒詞構建相應的聲學模型,建立聲學模型的技術已較成熟,本發(fā)明實施方式在此不對建立聲學模型的具體實現(xiàn)方式進行詳細說明。
作為示例,在一些應用場景中,喚醒詞通常會被設置為用戶對智能終端設備的特定稱呼(即特定稱謂),例如,在上述的具體例子中“小智小智”以及“大智大智”均是用戶對智能終端設備的特定稱謂。本發(fā)明實施方式不限制喚醒詞的具體表現(xiàn)形式。
作為示例,本發(fā)明實施方式建立的喚醒詞與用戶身份信息的對應關系信息中還可以包括:驗證碼;即本發(fā)明實施方式可以建立喚醒詞、驗證碼以及用戶身份信息的對應關系信息,該驗證碼主要用于提高用戶身份識別的安全性以及準確性,也就是說,本發(fā)明實施方式通過使用驗證碼可以在一定程度上避免用戶使用其他用戶的喚醒詞。
s210、根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測。
作為示例,本發(fā)明實施方式可以采用將語音識別為文字的技術來實現(xiàn)喚醒詞檢測,具體的,設定本發(fā)明實施方式中預先設置有文本形式的喚醒詞與用戶身份信息的對應關系信息,在該情況下,本發(fā)明實施方式可以先將智能終端設備拾取的聲音信號進行預處理(當然,本發(fā)明實施方式也可以不進行預處理操作),例如,本發(fā)明實施方式對智能終端設備拾取的聲音信號進行與噪音、回聲以及混響等相關的預處理;然后,本發(fā)明實施方式可以將預處理后的聲音信號轉換為文本信息,然后,再檢測該文本信息中是否包含有預先設置的所有喚醒詞中的任一個喚醒詞,例如,從該文本信息中提取各關鍵詞,并依次將提出的關鍵詞在當前存儲的各喚醒詞中進行匹配查找,如果查找到與關鍵詞匹配的喚醒詞,則本發(fā)明實施方式檢測出聲音信號包含有預先設置的喚醒詞,如果未查找到與關鍵詞匹配的喚醒詞,則檢測出聲音信號未包含有預先設置的喚醒詞。需要特別說明的是,本發(fā)明實施方式在依次將提出的關鍵詞在當前存儲的各喚醒詞中進行匹配查找的過程中,可以在查找到與關鍵詞匹配的喚醒詞時,停止后續(xù)關鍵詞的查找過程;當然,本發(fā)明實施方式也可以在查找到與關鍵詞匹配的喚醒詞時,繼續(xù)后續(xù)關鍵詞的查找過程,即針對提出的所有關鍵詞均進行匹配查找,而如果查找到兩個或者更多關鍵詞均存在匹配的喚醒詞,則本發(fā)明實施方式可以將優(yōu)先級高的喚醒詞作為本次最終查找到的喚醒詞。
作為示例,本發(fā)明實施方式可以采用聲學模型的技術來實現(xiàn)喚醒詞檢測,具體的,設定本發(fā)明實施方式中預先設置有聲學模型形式的喚醒詞與用戶身份信息的對應關系信息,在該情況下,本發(fā)明實施方式可以先將智能終端設備拾取的聲音信號進行預處理,例如,對智能終端設備拾取的聲音信號進行與噪音、回聲以及混響等相關的預處理;然后,再計算預處理后的聲音信號與預先設置的各聲學模型的匹配度,并從計算結果中選取出最高匹配度,然后,判斷該最高匹配度是否滿足預定匹配要求,如果該最高匹配度滿足預定匹配要求,則檢測出聲音信號包含有預先設置的喚醒詞,而如果該最高匹配度不滿足預定匹配要求,則檢測出聲音信號未包含有預先設置的喚醒詞。本發(fā)明實施方式可以采用現(xiàn)有的匹配度計算方式來計算聲音信號與聲學模型的匹配度,計算匹配度的技術已較成熟,本發(fā)明實施方式在此不對計算匹配度的具體實現(xiàn)方式進行詳細說明。
s220、在檢測出聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出該聲音信號的用戶身份。
作為示例,本發(fā)明實施方式在檢測出聲音信號包含有預先設置的喚醒詞的情況下,可以根據(jù)預先設置的喚醒詞與用戶身份信息的對應關系信息確定檢測出的喚醒詞對應的用戶身份信息,例如,利用檢測出的喚醒詞在預先設置的對應關系中查找匹配記錄,并從匹配記錄中獲取用戶身份信息,該獲取到的用戶身份信息即表示出本發(fā)明實施方式識別出的發(fā)出聲音信號的用戶身份。
作為示例,本發(fā)明實施方式在檢測出聲音信號包含有預先設置的喚醒詞的情況下,在核查驗證碼的基礎上識別用戶身份,以提高用戶身份識別的安全性。
一個具體的例子,本發(fā)明實施方式在檢測出聲音信號包含有預先設置的喚醒詞的情況下,可以根據(jù)預先設置的喚醒詞、驗證碼與用戶身份信息的對應關系信息確定當前檢測出的喚醒詞所對應的驗證碼,例如,利用檢測出的喚醒詞在預先設置的對應關系中查找匹配記錄,并從匹配記錄中獲取驗證碼以及用戶身份信息,同時,可以向用戶發(fā)出用于獲取驗證碼的語音請求,例如,通過智能終端設備發(fā)出“小智請求小主人的驗證碼”的語音;本發(fā)明實施方式可以判斷智能終端設備當前拾取到的用戶的語音回復中是否包含有匹配記錄中的驗證碼,例如,可以先將智能終端設備拾取的聲音信號轉換為文本信息,然后,再檢測該文本信息中是否包含有上述從匹配記錄中獲取到的驗證碼,如果包含有從匹配記錄中獲取到的驗證碼,則本次驗證通過,上述從匹配記錄中獲取到的用戶身份信息即表示出本發(fā)明實施方式識別出的發(fā)出聲音信號的用戶身份;如果未包含有從匹配記錄中獲取到的驗證碼,則本次驗證失敗,本發(fā)明實施方式可以提示用戶與本次驗證失敗相關的提示信息,例如,通過智能終端設備發(fā)出“小主人,驗證碼有點問題哦,小智再次請求小主人的驗證碼”的語音。本發(fā)明實施方式可以預先設置身份驗證的次數(shù)上限,在驗證次數(shù)達到身份驗證的次數(shù)上限時,可以結束本次身份識別的過程,并提示用戶。
示例性設備
在介紹了本發(fā)明示例性實施方式的方法之后,接下來,參考圖3對本發(fā)明示例性實施方式的用于通過聲音識別用戶身份的設備進行說明。
參見圖3,示意性地示出了根據(jù)本發(fā)明一實施例的用于通過聲音識別用戶身份的設備的結構示意圖,該設備通常設置于用戶的智能終端設備中,例如,該設備可以設置于用戶的智能音箱、智能語音助手以及智能空調等物聯(lián)網設備中。當然,本發(fā)明實施方式也不排除該設備設置于服務器中,或者該設備的一部分(例如,喚醒詞檢測模塊310)設置于智能終端設備中,而另一部分(例如,用戶身份識別模塊320)設置于服務器中的可能性。
本發(fā)明實施方式的設備主要包括:喚醒詞檢測模塊310以及用戶身份識別模塊320;可選的,本發(fā)明實施方式的設備還可以包括:設置對應關系模塊300。下面對本發(fā)明實施方式的各模塊分別進行說明。
設置對應關系模塊300主要用于設置喚醒詞與用戶身份信息的對應關系信息。設置對應關系模塊300所建立的喚醒詞與用戶身份信息的對應關系信息中還可以包括:驗證碼;即設置對應關系模塊300可以建立喚醒詞、驗證碼以及用戶身份信息的對應關系信息,該驗證碼主要用于提高用戶身份識別的安全性以及準確性,也就是說,本發(fā)明實施方式的設備通過使用驗證碼可以在一定程度上避免用戶使用其他用戶的喚醒詞。
作為示例,設置對應關系模塊300可以通過與外部設備的信息傳輸來設置喚醒詞與用戶身份信息的對應關系信息,設置對應關系模塊300也可以通過與用戶的語音交互獲取喚醒詞與用戶身份信息的對應關系信息,并存儲獲取到的喚醒詞與用戶身份信息的對應關系信息;具體的例子如上述方法實施方式中針對步驟s200的描述,在此不再重復說明。
喚醒詞檢測模塊310主要用于根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測。
作為示例,喚醒詞檢測模塊310可以采用將語音識別為文字的技術來實現(xiàn)喚醒詞檢測,具體的,設定設置對應關系模塊300預先設置了文本形式的喚醒詞與用戶身份信息的對應關系信息,在該情況下,喚醒詞檢測模塊310可以先將智能終端設備拾取的聲音信號進行預處理(當然,喚醒詞檢測模塊310也可以不進行預處理操作),例如,喚醒詞檢測模塊310對智能終端設備拾取的聲音信號進行與噪音、回聲以及混響等相關的預處理;然后,喚醒詞檢測模塊310再將預處理后的聲音信號轉換為文本信息,然后,喚醒詞檢測模塊310檢測該文本信息中是否包含有預先設置的所有喚醒詞中的任一喚醒詞,例如,喚醒詞檢測模塊310從文本信息中提取各關鍵詞,并依次將提出的關鍵詞在當前存儲的各喚醒詞中進行匹配查找,如果查找到與關鍵詞匹配的喚醒詞,則喚醒詞檢測模塊310檢測出聲音信號包含有預先設置的喚醒詞,如果未查找到與關鍵詞匹配的喚醒詞,則喚醒詞檢測模塊310檢測出聲音信號未包含有預先設置的喚醒詞。需要特別說明的是,喚醒詞檢測模塊310在依次將提出的關鍵詞在當前存儲的各喚醒詞中進行匹配查找的過程中,可以在查找到與關鍵詞匹配的喚醒詞時,立即停止后續(xù)關鍵詞的查找過程;當然,喚醒詞檢測模塊310也可以在查找到與關鍵詞匹配的喚醒詞時,繼續(xù)后續(xù)關鍵詞的查找過程,即喚醒詞檢測模塊310針對提出的所有關鍵詞均進行匹配查找,而如果查找到兩個或者更多關鍵詞均存在匹配的喚醒詞,則本喚醒詞檢測模塊310可以將優(yōu)先級高的喚醒詞作為本次最終查找到的喚醒詞。
作為示例,喚醒詞檢測模塊310可以采用聲學模型的技術來實現(xiàn)喚醒詞檢測,具體的,設定設置對應關系模塊300預先設置了聲學模型形式的喚醒詞與用戶身份信息的對應關系信息,在該情況下,喚醒詞檢測模塊310可以先將智能終端設備拾取的聲音信號進行預處理,例如,喚醒詞檢測模塊310對智能終端設備拾取的聲音信號進行與噪音、回聲以及混響等相關的預處理;然后,喚醒詞檢測模塊310再計算預處理后的聲音信號與預先設置的各聲學模型的匹配度,并從計算結果中選取出最高匹配度,然后,喚醒詞檢測模塊310判斷該最高匹配度是否滿足預定匹配要求,如果該最高匹配度滿足預定匹配要求,則喚醒詞檢測模塊310檢測出聲音信號包含有預先設置的喚醒詞,而如果該最高匹配度不滿足預定匹配要求,則喚醒詞檢測模塊310檢測出聲音信號未包含有預先設置的喚醒詞。喚醒詞檢測模塊310可以采用現(xiàn)有的匹配度計算方式來計算聲音信號與聲學模型的匹配度,計算匹配度的技術已較成熟,在此不對喚醒詞檢測模塊310計算匹配度的具體實現(xiàn)方式進行詳細說明。
用戶身份識別模塊320主要用于在檢測出上述聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)喚醒詞檢測模塊310檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出上述聲音信號的用戶身份。
作為示例,用戶身份識別模塊320在喚醒詞檢測模塊310檢測出聲音信號包含有預先設置的喚醒詞的情況下,可以根據(jù)預先設置的喚醒詞與用戶身份信息的對應關系信息確定檢測出的喚醒詞對應的用戶身份信息,例如,用戶身份識別模塊320利用喚醒詞檢測模塊310檢測出的喚醒詞在預先設置的對應關系中查找匹配記錄,并從匹配記錄中獲取用戶身份信息,該獲取到的用戶身份信息即表示出用戶身份識別模塊320識別出的發(fā)出聲音信號的用戶身份。
作為示例,用戶身份識別模塊320在喚醒詞檢測模塊310檢測出聲音信號包含有預先設置的喚醒詞的情況下,在核查驗證碼的基礎上識別用戶身份,以提高用戶身份識別的安全性。
一個具體的例子,用戶身份識別模塊320在喚醒詞檢測模塊310檢測出聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)預先設置的喚醒詞、驗證碼與用戶身份信息的對應關系信息確定當前檢測出的喚醒詞所對應的驗證碼,例如,用戶身份識別模塊320利用檢測出的喚醒詞在預先設置的對應關系中查找匹配記錄,并從匹配記錄中獲取驗證碼以及用戶身份信息,同時用戶身份識別模塊320可以向用戶發(fā)出用于獲取驗證碼的語音請求,例如,用戶身份識別模塊320通過智能終端設備發(fā)出“小智請求小主人的驗證碼”的語音;用戶身份識別模塊320可以觸發(fā)喚醒詞檢測模塊310判斷智能終端設備當前拾取到的用戶的語音回復中是否包含有匹配記錄中的驗證碼,如喚醒詞檢測模塊310可以先將智能終端設備拾取的聲音信號轉換為文本信息,然后,再檢測該文本信息中是否包含有上述從匹配記錄中獲取到的驗證碼,如果包含有從匹配記錄中獲取到的驗證碼,則用戶身份識別模塊320確認本次驗證通過,上述從匹配記錄中獲取到的用戶身份信息即表示出用戶身份識別模塊320識別出的發(fā)出聲音信號的用戶身份;如果未包含有從匹配記錄中獲取到的驗證碼,則用戶身份識別模塊320確定本次驗證失敗,用戶身份識別模塊320可以提示用戶與本次驗證失敗相關的提示信息,例如,用戶身份識別模塊320通過智能終端設備發(fā)出“小主人,驗證碼有點問題哦,小智再次請求小主人的驗證碼”的語音。用戶身份識別模塊320中可以預先設置有身份驗證的次數(shù)上限,在驗證次數(shù)達到身份驗證的次數(shù)上限時,用戶身份識別模塊320可以結束本次身份識別的過程,并提示用戶。
圖4示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機系統(tǒng)/服務器40的框圖。圖4顯示的計算機系統(tǒng)/服務器40僅僅是一個示例,不應對本發(fā)明實施例的功能和使用范圍帶來任何限制。
如圖4所示,計算機系統(tǒng)/服務器40以通用計算設備的形式表現(xiàn)。計算機系統(tǒng)/服務器40的組件可以包括但不限于:一個或者多個處理器或者處理單元401,系統(tǒng)存儲器402,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器402和處理單元401)的總線403。
計算機系統(tǒng)/服務器40典型地包括多種計算機系統(tǒng)可讀介質。這些介質可以是任何能夠被計算機系統(tǒng)/服務器40訪問的可用介質,包括易失性和非易失性介質,可移動的和不可移動的介質。
系統(tǒng)存儲器402可以包括易失性存儲器形式的計算機系統(tǒng)可讀介質,例如,隨機存取存儲器(ram)4021和/或高速緩存存儲器4022。計算機系統(tǒng)/服務器40可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統(tǒng)存儲介質。僅作為舉例,rom4023可以用于讀寫不可移動的、非易失性磁介質(圖4中未顯示,通常稱為“硬盤驅動器”)。盡管未在圖4中示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質)讀寫的光盤驅動器。在這些情況下,每個驅動器可以通過一個或者多個數(shù)據(jù)介質接口與總線403相連。系統(tǒng)存儲器402中可以包括至少一個程序產品,該程序產品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。
具有一組(至少一個)程序模塊4024的程序/實用工具4025,可以存儲在例如系統(tǒng)存儲器402中,且這樣的程序模塊4024包括但不限于:操作系統(tǒng)、一個或者多個應用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網絡環(huán)境的實現(xiàn)。程序模塊4024通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。
計算機系統(tǒng)/服務器40也可以與一個或多個外部設備404(如鍵盤、指向設備、顯示器等)通信。這種通信可以通過輸入/輸出(i/o)接口405進行。并且,計算機系統(tǒng)/服務器40還可以通過網絡適配器406與一個或者多個網絡(例如局域網(lan),廣域網(wan)和/或公共網絡,例如因特網)通信。如圖4所示,網絡適配器406通過總線403與計算機系統(tǒng)/服務器40的其它模塊(如處理單元401等)通信。應當明白的是,盡管圖4中未示出,可以結合計算機系統(tǒng)/服務器40使用其它硬件和/或軟件模塊。
處理單元401通過運行存儲在系統(tǒng)存儲器402中的計算機程序,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理,例如,執(zhí)行用于實現(xiàn)上述方法實施例中的各步驟的指令;具體而言,處理器401可以執(zhí)行存儲器402中存儲的計算機程序,且該計算機程序被執(zhí)行時,下述指令被運行:用于根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測的指令(下述簡稱為第一指令);以及,在第一指令檢測出聲音信號包含有預先設置的喚醒詞的情況下,用于根據(jù)第一指令檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出聲音信號的用戶身份的指令(下述簡稱為第二指令)。可選的,在計算機程序被執(zhí)行時,用于設置喚醒詞與用戶身份信息的對應關系信息的指令被執(zhí)行(下述簡稱為第三指令)。
作為示例,上述第三指令可以包括:第四指令和/或第五指令;其中的第四指令為用于接收外部設備傳輸來的喚醒詞與用戶身份信息的對應關系信息,并存儲接收到的喚醒詞與用戶身份信息的對應關系信息的指令;其中的第五指令為用于通過與用戶的語音交互獲取喚醒詞與用戶身份信息的對應關系信息,并存儲獲取到的喚醒詞與用戶身份信息的對應關系信息的指令。
作為示例,上述第五指令可以具體為:用于通過與第一用戶的語音交互獲取第一喚醒詞與第一用戶的用戶身份信息的對應關系信息,并存儲獲取到的喚醒詞與用戶身份信息的對應關系信息的指令(下述簡稱為第六指令)。
作為示例,上述第六指令可以包括:第七指令和/或第八指令;其中的第七指令為用于在檢測出聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)預先設置的喚醒詞與用戶身份信息的對應關系信息確定檢測出的喚醒詞對應的用戶身份信息,并根據(jù)確定出的用戶身份信息識別出發(fā)出所述聲音信號的用戶身份的指令;其中的第八指令為用于在智能終端設備運行過程中,在接收到用戶發(fā)出的用于設置喚醒詞與用戶身份信息的對應關系信息的語音命令的情況下,通過與用戶的語音交互獲取喚醒詞以及用戶身份信息,并設置獲取到的喚醒詞與用戶身份信息的對應關系信息,存儲獲取到的喚醒詞與用戶身份信息的對應關系信息的指令。
作為示例,上述第一指令可以包括:第九指令以及第十指令;其中的第九指令為用于將智能終端設備拾取的聲音信號轉換為文本信息的指令;其中的第十指令為用于檢測文本信息中是否包含有預先設置的所有喚醒詞中的任一喚醒詞的指令。
作為示例,上述第一指令可以包括:第十一指令以及第十二指令;其中的第十一指令為用于檢測智能終端設備拾取的聲音信號與針對預先設置的各喚醒詞而設置的各聲學模型的匹配度的指令;其中的第十二指令為用于判斷各聲學模型與聲音信號的匹配度是否符合預設匹配要求的指令。
作為示例,上述第二指令可以包括:第十三指令或者第十四指令;其中的第十三指令可以具體為在第一指令檢測出聲音信號包含有預先設置的喚醒詞的情況下,用于利用第一指令檢測出的喚醒詞在預先設置的喚醒詞與用戶身份信息的對應關系信息中查找匹配記錄,并根據(jù)匹配記錄中的用戶身份信息識別出發(fā)出聲音信號的用戶身份;其中的第十四指令可以具體為在第一指令檢測出聲音信號包含有預先設置的喚醒詞的情況下,用于根據(jù)預先設置的喚醒詞、驗證碼與用戶身份信息的對應關系信息確定第一指令檢測出的喚醒詞對應的驗證碼以及用戶身份信息,向用戶發(fā)出用于獲取驗證碼的語音請求,在檢測出用戶的語音回復中包含有上述確定出的驗證碼時,根據(jù)檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出聲音信號的用戶身份的指令。
上述第一指令至第十四指令所執(zhí)行的具體操作如上述方法實施方式中的描述,在此不再詳細說明。
本發(fā)明實施方式的計算機可讀存儲介質一個具體例子如圖5所示。
圖5的計算機可讀存儲介質為光盤500,其上存儲有計算機程序(即程序產品),該程序被處理器執(zhí)行時,會實現(xiàn)上述方法實施方式中所記載的各步驟,例如,根據(jù)預先設置的各喚醒詞對智能終端設備拾取的聲音信號進行喚醒詞檢測,其中,一個喚醒詞對應至少一個用戶身份信息;在檢測出聲音信號包含有預先設置的喚醒詞的情況下,根據(jù)上述檢測出的喚醒詞對應的用戶身份信息識別出發(fā)出聲音信號的用戶身份。各步驟的具體實現(xiàn)方式在此不再重復說明。
應當注意,盡管在上文詳細描述中提及了用于通過聲音識別用戶身份的設備的若干模塊或子模塊,但是這種劃分僅僅是示例性的并非強制性的。實際上,根據(jù)本發(fā)明的實施方式,上文描述的兩個或更多模塊的特征和功能可以在一個模塊中具體化。反之,上文描述的一個模塊的特征和功能可以進一步劃分為由多個模塊來具體化。
此外,盡管在附圖中以特定順序描述了本發(fā)明方法的操作,但是,這并非要求或者暗示必須按照該特定順序來執(zhí)行這些操作,或是必須執(zhí)行全部所示的操作才能實現(xiàn)期望的結果。附加地或備選地,可以省略某些步驟,將多個步驟合并為一個步驟執(zhí)行,和/或將一個步驟分解為多個步驟執(zhí)行。
雖然已經參考若干具體實施方式描述了本發(fā)明的精神和原理,但是應該理解,本發(fā)明并不限于所公開的具體實施方式,對各方面的劃分也不意味著這些方面中的特征不能組合以進行受益,這種劃分僅是為了表述的方便。本發(fā)明旨在涵蓋所附權利要求的精神和范圍內所包括的各種修改和等同布置。