空間音頻裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及用于空間音頻信號處理的裝置。本發(fā)明進(jìn)一步涉及但不限于用于移動 設(shè)備內(nèi)的空間音頻信號處理的裝置。
【背景技術(shù)】
[0002] 空間音頻信號正被更頻繁地用于產(chǎn)生更身臨其境的音頻體驗(yàn)。立體聲或多通道記 錄可從記錄或捕獲裝置傳遞給收聽裝置,并使用合適的多通道輸出(諸如多通道揚(yáng)聲器布 置)和具有虛擬環(huán)繞處理的一對立體聲頭戴式受話器或頭戴式耳機(jī)來進(jìn)行重放。
[0003] 應(yīng)當(dāng)理解,在不久的將來,諸如移動電話這樣的移動裝置將有可能具有多于兩個 擴(kuò)音器。這提供了記錄真實(shí)的多通道音頻的可能。通過先進(jìn)的信號處理,進(jìn)一步有可能的 是:通過確定諸如關(guān)聯(lián)于音頻源的方向這樣的參數(shù)和基于其方向?qū)λ鲆纛l源進(jìn)行處理, 對從特定或所需方向來自擴(kuò)音器的音頻信號進(jìn)行波束成形或定向處理。
【發(fā)明內(nèi)容】
[0004] 本申請的各個方面因而提供了一種空間音頻捕獲和處理,由此可以對收聽方位或 視頻和音頻捕獲方位差別進(jìn)行補(bǔ)償。
[0005] 根據(jù)第一方面,提供了一種用于分離音頻源的方法,其包括:接收至少兩個音頻信 號;將所述至少兩個音頻信號變換為所述至少兩個信號的頻域表示;根據(jù)所述至少兩個音 頻信號的頻域表示生成觀察空間協(xié)方差矩陣;生成包括至少一個波束成形器內(nèi)核的空間協(xié) 方差矩陣模型;生成音頻對象的線性量值(magnitude)模型;將所述空間協(xié)方差矩陣模型 和所述線性量值模型進(jìn)行合并;確定至少一個合并參數(shù),使得用于合并的所述至少一個參 數(shù)嘗試優(yōu)化所述合并;以及基于所述至少一個合并參數(shù)對所述音頻對象進(jìn)行聚類以產(chǎn)生分 離的音頻源。
[0006] 接收所述至少兩個音頻信號可以包括以下中的至少一個:從擴(kuò)音器生成所述音頻 信號,其中,所述擴(kuò)音器從至少一個音頻源接收聲波;以及從存儲器接收所述音頻信號,所 述音頻信號描述了來自至少一個音頻源的聲波。
[0007] 將所述至少兩個音頻信號變換為所述至少兩個信號的頻域表示可以包括:對所述 至少兩個音頻信號實(shí)施時間到頻率變換。
[0008] 根據(jù)所述至少兩個音頻信號的頻域表示生成觀察空間協(xié)方差矩陣可以包括:根據(jù) 所述兩個頻域表示的自協(xié)方差生成觀察空間協(xié)方差矩陣。
[0009] 所述方法可以進(jìn)一步包括:通過生成對擴(kuò)音器陣列周圍的空間場所進(jìn)行采樣的一 組查看方向在頻域中的時間延遲,生成至少一個波束成形器內(nèi)核。
[0010] 生成至少一個波束成形器內(nèi)核可以包括:生成對所述擴(kuò)音器陣列周圍的空間場所 進(jìn)行采樣的一組查看方向在頻域中的所述時間延遲的自協(xié)方差。
[0011] 生成音頻對象的線性模型可以包括:對音頻對象量值實(shí)施非負(fù)矩陣因式分解。
[0012] 對音頻對象量值實(shí)施非負(fù)矩陣因式分解可以包括:利用均勻分布在零和一之間的 隨機(jī)值對線性模型參數(shù)Zk。、tlk和V k]進(jìn)行初始化。
[0013] 將空間協(xié)方差矩陣模型和所述線性量值模型進(jìn)行合并可以包括:將所述空間協(xié)方 差矩陣模型乘以由所述線性模型表示的量值包絡(luò)。
[0014] 確定至少一個合并參數(shù)可以包括:確定空間協(xié)方差模型參數(shù),以便最小化所述觀 察空間協(xié)方差矩陣與所述空間協(xié)方差模型之間的差別。
[0015] 確定所述空間協(xié)方差模型參數(shù)可以包括:基于復(fù)值非負(fù)矩陣因式分解實(shí)施迭代式 優(yōu)化,從而使得表示所述至少一個音頻對象的線性量值模型的參數(shù)被迭代地更新,直到所 述線性量值模型參數(shù)在各個更新之間不顯著改變,或者處理了所定義數(shù)量的迭代為止。
[0016] 基于所述復(fù)值非負(fù)因式分解實(shí)施所述迭代式優(yōu)化可以包括:根據(jù)復(fù)數(shù)非負(fù)矩陣因 式分解的優(yōu)化框架更新線性模型參數(shù)zk。、tlk和v k];以及更新所述空間協(xié)方差矩陣模型量 值。
[0017] 更新所述空間協(xié)方差矩陣模型量值可以包括:更新所述至少兩個音頻信號的估計(jì) 量的相對量值差別。
[0018] 基于所述至少一個合并模型參數(shù)對所述音頻對象進(jìn)行聚類以產(chǎn)生分離的音頻源 可以包括:根據(jù)所述至少一個音頻對象和根據(jù)所估計(jì)的線性量值模型參數(shù)生成至少一個音 頻源。
[0019] 所述方法可以進(jìn)一步包括:基于與所述至少一個音頻源相關(guān)聯(lián)的所述至少一個合 并模型參數(shù),合成至少一個音頻信號。
[0020] 根據(jù)第二方面,提供了一種裝置,其包括:用于接收至少兩個音頻信號的構(gòu)件;用 于將所述至少兩個音頻信號變換為所述至少兩個信號的頻域表示的構(gòu)件;用于根據(jù)所述至 少兩個音頻信號的頻域表示生成觀察空間協(xié)方差矩陣的構(gòu)件;用于生成包括至少一個波束 成形器內(nèi)核的空間協(xié)方差矩陣模型的構(gòu)件;用于生成音頻對象的線性量值模型的構(gòu)件;用 于將所述空間協(xié)方差矩陣模型和所述線性量值模型進(jìn)行合并的構(gòu)件;用于確定至少一個合 并參數(shù),從而使得用于所述合并的所述至少一個參數(shù)嘗試優(yōu)化所述合并的構(gòu)件;以及用于 基于所述至少一個合并參數(shù)對所述音頻對象進(jìn)行聚類以產(chǎn)生分離的音頻源的構(gòu)件。
[0021] 用于接收所述至少兩個音頻信號的構(gòu)件可以包括以下中的至少一個:從擴(kuò)音器生 成所述音頻信號,其中,所述擴(kuò)音器從至少一個音頻源接收聲波;以及從存儲器接收所述音 頻信號,所述音頻信號描述了來自至少一個音頻源的聲波。
[0022] 用于將所述至少兩個音頻信號變換為所述至少兩個信號的頻域表示的構(gòu)件可以 包括:用于對所述至少兩個音頻信號實(shí)施時間到頻率變換的構(gòu)件。
[0023] 用于根據(jù)所述至少兩個音頻信號的頻域表示生成所述觀察空間協(xié)方差矩陣的構(gòu) 件可以包括:根據(jù)所述兩個頻域表示的自協(xié)方差生成觀察空間協(xié)方差矩陣。
[0024] 所述裝置可以進(jìn)一步包括:用于通過生成對所述擴(kuò)音器陣列周圍的空間場所進(jìn)行 采樣的一組查看方向在頻域中的時間延遲,生成至少一個波束成形器內(nèi)核的構(gòu)件。
[0025] 用于生成至少一個波束成形器內(nèi)核的構(gòu)件可以包括:生成對所述擴(kuò)音器矩陣周圍 的空間場所進(jìn)行采樣的一組查看方向在頻域中的時間延遲的自協(xié)方差。
[0026] 用于生成音頻對象的線性模型的構(gòu)件可以包括:對音頻對象量值實(shí)施非負(fù)矩陣因 式分解。
[0027] 用于對音頻對象量值實(shí)施非負(fù)矩陣因式分解的構(gòu)件可以包括:用于利用均勻分布 在零和一之間的隨機(jī)值對線性模型參數(shù)zkc]、4和V k]進(jìn)行初始化的構(gòu)件。
[0028] 用于對空間協(xié)方差矩陣和所述線性量值模型進(jìn)行合并的構(gòu)件可以包括:用于將所 述空間協(xié)方差矩陣模型乘以由所述線性模型表示的量值包絡(luò)的構(gòu)件。
[0029] 用于確定至少一個合并參數(shù)的構(gòu)件可以包括:確定空間協(xié)方差模型參數(shù),以便最 小化所述觀察空間協(xié)方差矩陣和所述空間協(xié)方差模型之間的差別。
[0030] 用于確定所述空間協(xié)方差模型參數(shù)的構(gòu)件可以包括:基于復(fù)值非負(fù)矩陣因式分解 實(shí)施迭代式優(yōu)化,從而使得表示所述至少一個音頻對象的所述線性量值模型的參數(shù)被迭代 地更新,直到所述線性量值模型參數(shù)在各個更新之間不顯著改變,或者處理了所定義數(shù)量 的迭代為止。
[0031] 用于基于復(fù)值非負(fù)因式分解實(shí)施所述迭代式優(yōu)化的構(gòu)件可以包括:用于根據(jù)復(fù)數(shù) 非負(fù)矩陣因式分解的優(yōu)化框架更新線性模型參數(shù)zkc]、hJPVk,的構(gòu)件;以及用于更新所述 空間協(xié)方差矩陣模型量值的構(gòu)件。
[0032] 用于更新所述空間協(xié)方差矩陣模型量值的構(gòu)件可以包括:用于更新所述至少兩個 音頻信號的估計(jì)量的相對量值差別的構(gòu)件。
[0033] 用于基于所述至少一個合并模型參數(shù)對所述音頻對象進(jìn)行聚類以產(chǎn)生分離的音 頻源的構(gòu)件可以包括:用于根據(jù)所述至少一個音頻對象和根據(jù)所估計(jì)的線性量值模型參數(shù) 生成至少一個音頻源的構(gòu)件。
[0034] 所述裝置可以進(jìn)一步包括:用于基于與所述至少一個音頻源相關(guān)聯(lián)的所述至少一 個合并模型參數(shù)來合成至少一個音頻信號的構(gòu)件。
[0035] 根據(jù)第三方面,提供了一種裝置,其包括:至少一個處理器以及包括用于一個或多 個程序的計(jì)算機(jī)代碼的至少一個存儲器,所述至少一個存儲器和所述計(jì)算機(jī)代碼被配置為 與所述至少一個處理器一起促使所述裝置至少:接收至少兩個音頻信號;將所述至少兩個 音頻信號變換為所述至少兩個信號的頻域表示;根據(jù)所述至少兩個音頻信號的頻域表示生 成觀察空間協(xié)方差矩陣;生成包括至少一個波束成形器內(nèi)核的空間協(xié)方差矩陣模型;生成 音頻對象的線性量值模型;將所述空間協(xié)方差矩陣模型和所述線性量值模型進(jìn)行合并;確 定至少一個合并參數(shù),從而使得用于所述合并的所述至少一個參數(shù)嘗試優(yōu)化所述合并;以 及基于所述至少一個合并參數(shù)對所述音頻對象進(jìn)行聚類以產(chǎn)生分離的音頻源。
[0036] 接收所述至少兩個音頻信號可以促使所述裝置執(zhí)行以下中的至少一個:接收從擴(kuò) 音器生成的所述音頻信號,其中,所述擴(kuò)音器從至少一個音頻源接收聲波;以及從存儲器接 收所述音頻信號,所述音頻信號描述了來自至少一個音頻源的聲波。
[0037] 將所述至少兩個音頻信號變換為所述至少兩個信號的頻域表示可以促使所述裝 置對所述至少兩個音頻信號實(shí)施時間到頻率變換。
[0038] 根據(jù)所述至少兩個音頻信號的頻域表示生成所述觀察空間協(xié)方差矩陣可以促使 所述裝置:根據(jù)所述兩個頻域表示的自協(xié)方差生成觀察空間協(xié)方差矩陣。
[0039] 可以進(jìn)一步促使所述裝置:通過生成對所述擴(kuò)音器陣列周圍的空間場所進(jìn)行采樣 的一組查看方向在頻域中的時間延遲,生成至少一個波束成形器內(nèi)核。
[0040] 生成至少一個波束成形器內(nèi)核可以促使所述裝置:生成對所述擴(kuò)音器陣列周圍的 空間場所進(jìn)行采樣的一組查看方向在頻域中的時間延遲的自協(xié)方差。
[0041] 生成音頻對象的線性模型可以促使所述裝置:對音頻對象量值實(shí)施非負(fù)矩陣因式 分解。
[0042] 對音頻對象量值實(shí)施非負(fù)矩陣因式分解可以促使所述裝置:利用均勻分布在零和 一之間的隨機(jī)值對線性模型參數(shù)zkc]、4和v k]進(jìn)行初始化。
[0043] 將空間協(xié)方差矩陣模型和所述線性量值模型進(jìn)行合并可以促使所述裝置:將所述 空間協(xié)方差矩陣模型乘以由所述線性模型表示的量值包絡(luò)。
[0044] 確定至少一個合并參數(shù)可以促使所述裝置:確定空間協(xié)方差模型參數(shù),以便最小 化所述觀察空間協(xié)方差矩陣和所述空間協(xié)方差模型之間的差別。
[0045] 確定所述空間協(xié)方差模型參數(shù)可以促使所述裝置:基于復(fù)值非負(fù)矩陣因式分解 實(shí)施迭代式優(yōu)化,從而使得表示所述至少一個音頻對象的線性量值模型的參數(shù)被迭代地更 新,直到所述線性量值模型參數(shù)在各個更新之間不顯著改變,或者處理了所定義數(shù)量的迭 代為止。
[0046] 基于復(fù)值非負(fù)因式分解實(shí)施所述迭代式優(yōu)化可以促使所述裝置:根據(jù)復(fù)數(shù)非負(fù)矩 陣因式分解更新線性模型參數(shù)zk。、tlk和v k];以及更新所述空間協(xié)方差矩陣模型量值。
[0047] 更新所述空間協(xié)方差矩陣模型量值可以促使所述裝置:更新所述至少兩個音頻信 號的估計(jì)量的相對量值差別。
[0048] 基于所述至少一個合并模型參數(shù)對所述音頻對象進(jìn)行聚類以產(chǎn)生分離的音頻源 可以促使所述裝置:根據(jù)所述至少一個音頻對象和根據(jù)所估計(jì)的線性量值模型生成至少一 個音頻源。
[0049] 可以進(jìn)一步促使所述裝置:基于與所述至少一個音頻源相關(guān)聯(lián)的所述至少一個合 并模型參數(shù),合成至少一個音頻信號。
[0050] 根據(jù)第四方面,提供了一種裝置,其包括:輸入端,其被配置為接收至少兩個音頻 信號;頻域變換器,其被配置為將所述至少兩個音頻信號變換為所述至少兩個信號的頻域 表示;空間協(xié)方差處理器,其被配置為根據(jù)所述至少兩個音頻信號的頻域表示生成觀察空 間協(xié)方差矩陣;波束成形器,其被配置為生成包括至少一個波束成形器內(nèi)核的空間協(xié)方差 矩陣模型;矩陣因式分解器,其被配置為生成音頻對象的線性量值模型;將所述空間協(xié)方 差矩陣模型和所述線性量值模型進(jìn)行合并;以及進(jìn)一步被配置為確定至少一個合并參數(shù), 從而使得用于所述合并的所述至少一個參數(shù)嘗試優(yōu)化所述合并;以及分離器,其被配置為 基于所述至少一個合并參數(shù)對所述音頻對象進(jìn)行聚類,以產(chǎn)生分離的音頻源。
[0051] 所述輸入端可以包括以下中的至少一個:至少一個擴(kuò)音器輸入端,其被配置為接 收從擴(kuò)音器生成的所述音頻信號,其中,所述擴(kuò)音器從至少一個音頻源接收聲波;以及至少 一個存儲器輸入端,其被配置為從存儲器接收所述音頻信號,所述音頻信號描述了來自至 少一個音頻源的聲波。
[0052] 所述頻域變換器可被配置為:對所述至少兩個音頻信號實(shí)施時間到頻率變換。
[0053] 所述空間協(xié)方差處理器可被配置為:根據(jù)所述兩個頻域表示的自協(xié)方差生成觀察 空間協(xié)方差矩陣。
[0054] 所述波束成形器可被配置為:通過生成對所述擴(kuò)音器陣列周圍的空間場所進(jìn)行采 樣的一組查看方向在頻域中的時間延遲,生成至少一個波束成形器內(nèi)核。
[0055] 所述波束成形器可被配置為:生成對所述擴(kuò)音器陣列周圍的空間場所進(jìn)行采樣的 一組查看方向在頻域中的所述時間延遲的自協(xié)方差。
[0056] 所述矩陣因式分解器可被配置為:對音頻對象量值實(shí)施非負(fù)矩陣因式分解。
[0057] 所述矩陣因式分解器可被配置