本發(fā)明涉及音頻處理,尤其涉及一種分布式的語音轉(zhuǎn)文字處理系統(tǒng)、方法、設(shè)備和介質(zhì)。
背景技術(shù):
1、現(xiàn)有技術(shù)中,在語音轉(zhuǎn)文字(speech-to-text)領(lǐng)域,已有多種成熟的技術(shù)方案應(yīng)用于客服場景:avaya公司作為全球知名的企業(yè)通信解決方案供應(yīng)商,其核心技術(shù)聚焦于通信基礎(chǔ)設(shè)施建設(shè),比如提供高質(zhì)量的語音通話、視頻會議、消息傳遞等功能,盡管不直接提供語音轉(zhuǎn)文字服務(wù),但是其平臺可以與其他語音識別服務(wù)配合使用,間接實現(xiàn)通話內(nèi)容的文字記錄。百度語音轉(zhuǎn)文字服務(wù)依托于百度公司在人工智能領(lǐng)域的深厚積累,提供基礎(chǔ)的語音識別api,允許開發(fā)者將其集成到呼叫中心系統(tǒng)中,實時將電話通話內(nèi)容轉(zhuǎn)化為文本。盡管單個api服務(wù)相對獨立,但需要開發(fā)人員進(jìn)行深度定制和接口對接才能融入整個客戶服務(wù)流程??拼笥嶏w同樣在國內(nèi)市場占有重要地位,其語音轉(zhuǎn)文字技術(shù)廣泛應(yīng)用于各類場景,包括但不限于客服系統(tǒng)。通過提供標(biāo)準(zhǔn)化的語音識別接口,客戶可以調(diào)用其服務(wù)進(jìn)行實時語音轉(zhuǎn)寫,但同樣面臨類似百度一樣的問題,即需要額外的技術(shù)對接和維護(hù)。
2、現(xiàn)有技術(shù)存在的問題主要包括:(1)缺乏可定制化和二次開發(fā)能力:如avaya這樣的企業(yè)通信解決方案雖然應(yīng)用廣泛,但因其并非開源系統(tǒng),無法方便地進(jìn)行個性化開發(fā)以滿足特定企業(yè)對語音轉(zhuǎn)文字服務(wù)的需求;(2)功能不完整,接口對接復(fù)雜:百度語音轉(zhuǎn)文字和科大訊飛等服務(wù)商提供的僅僅是基本的語音轉(zhuǎn)文字服務(wù),而沒有形成一個涵蓋所有必要環(huán)節(jié)、易于集成的完整解決方案。開發(fā)者在使用時需要自行對接接口,增加了項目的復(fù)雜度和風(fēng)險,且程序員技術(shù)水平的高低直接影響到轉(zhuǎn)譯服務(wù)的穩(wěn)定性;(3)市場上沒有一站式服務(wù):市場上暫無統(tǒng)一的、完整配套的語音轉(zhuǎn)文字服務(wù)產(chǎn)品,無法實現(xiàn)從語音數(shù)據(jù)抓取、處理、轉(zhuǎn)譯到最終呈現(xiàn)的全程無縫對接,尤其是在大規(guī)模實時轉(zhuǎn)譯的情況下,性能和可用性方面存在不足。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種分布式的語音轉(zhuǎn)文字處理系統(tǒng)、方法、設(shè)備和介質(zhì),支持獨立部署,在本地服務(wù)器和云端靈活配置;根據(jù)負(fù)載分配器和k8s模塊自動增減計算節(jié)點來平衡負(fù)載;設(shè)置了可換轉(zhuǎn)譯模塊和可換解碼器可以根據(jù)根據(jù)不同服務(wù)商的轉(zhuǎn)譯準(zhǔn)確率靈活選擇轉(zhuǎn)譯產(chǎn)品;通過socket集群模塊可以實時接收轉(zhuǎn)譯結(jié)果,可以做到穩(wěn)定高效,且可以實時大批量處理語音轉(zhuǎn)文字任務(wù)。
2、本發(fā)明提供了一種分布式的語音轉(zhuǎn)文字處理系統(tǒng),包括依次電性連接的轉(zhuǎn)譯助手端、服務(wù)器和客戶端;
3、所述轉(zhuǎn)譯助手端包括數(shù)據(jù)處理集群模塊以及均與數(shù)據(jù)處理集群模塊電性連接的遠(yuǎn)程數(shù)據(jù)采集器、負(fù)載分配器、socket集群模塊、可換轉(zhuǎn)譯模塊、可換解碼器和api可控ip閥門。
4、優(yōu)選的,還包括k8s模塊,所述服務(wù)器包括云服務(wù)器和本地服務(wù)器;
5、云服務(wù)器和本地服務(wù)器均通過k8s模塊與轉(zhuǎn)譯助手端通信連接;
6、所述客戶端包括網(wǎng)絡(luò)電話和電腦;云服務(wù)器和本地服務(wù)器均分別與網(wǎng)絡(luò)電話和電腦通信連接。
7、一種分布式的語音轉(zhuǎn)文字處理方法,應(yīng)用于所述的一種分布式的語音轉(zhuǎn)文字處理系統(tǒng),包括:
8、轉(zhuǎn)譯助手端的遠(yuǎn)程數(shù)據(jù)采集器采集網(wǎng)卡的遠(yuǎn)程數(shù)據(jù)和本地數(shù)據(jù),識別并截取音頻數(shù)據(jù)包;
9、轉(zhuǎn)譯助手端的api可控ip閥門為遠(yuǎn)程數(shù)據(jù)采集器提供額外配置,篩選得到有效音頻數(shù)據(jù);
10、負(fù)載分配器根據(jù)數(shù)據(jù)處理集群模塊的負(fù)載情況,將有效音頻數(shù)據(jù)分配給數(shù)據(jù)處理集群模塊中的不同節(jié)點進(jìn)行處理;
11、轉(zhuǎn)譯助手端的可換解碼器對有效音頻數(shù)據(jù)音頻解壓還原得到清晰音頻片段,并對清晰音頻片段進(jìn)行合并得到連貫音頻數(shù)據(jù);
12、轉(zhuǎn)譯助手端的可換轉(zhuǎn)譯模塊創(chuàng)建音頻處理器實例并為連貫音頻數(shù)據(jù)分配音頻處理器進(jìn)行轉(zhuǎn)譯,并將轉(zhuǎn)譯結(jié)果發(fā)送至數(shù)據(jù)處理集群模塊;
13、轉(zhuǎn)譯助手端的socket集群模塊接收通過消息中間件獲取的轉(zhuǎn)譯結(jié)果。
14、優(yōu)選的,所述采集網(wǎng)卡的遠(yuǎn)程數(shù)據(jù)和本地數(shù)據(jù),識別并截取音頻數(shù)據(jù)包具體為:
15、轉(zhuǎn)譯助手端通過遠(yuǎn)程數(shù)據(jù)采集器實時抓取網(wǎng)卡的遠(yuǎn)程數(shù)據(jù)和本地數(shù)據(jù),識別并截取其中包含的電話通話相關(guān)的音頻數(shù)據(jù)包。
16、優(yōu)選的,所述對有效音頻數(shù)據(jù)音頻解壓還原得到清晰音頻片段,并對清晰音頻片段進(jìn)行合并得到連貫音頻數(shù)據(jù)具體為:
17、針對經(jīng)過過濾的有效音頻數(shù)據(jù),可換解碼器進(jìn)行實時解壓還原,獲得未經(jīng)轉(zhuǎn)譯的清晰音頻片段;
18、在適當(dāng)階段對來自不同坐席或終端的清晰音頻片段進(jìn)行有序合并,得到連貫音頻數(shù)據(jù)。
19、優(yōu)選的,所述創(chuàng)建音頻處理器實例并為連貫音頻數(shù)據(jù)分配音頻處理器進(jìn)行轉(zhuǎn)譯具體為:
20、根據(jù)連貫音頻數(shù)據(jù)的特點和系統(tǒng)資源情況,可換轉(zhuǎn)譯模塊創(chuàng)建適當(dāng)?shù)囊纛l處理器實例,為每一路或多路音頻分配獨立的處理器,以并行處理和實時轉(zhuǎn)譯;
21、音頻處理器將連貫音頻數(shù)據(jù)實時送入轉(zhuǎn)譯模塊,通過集成的百度和華為云轉(zhuǎn)譯服務(wù)接口進(jìn)行語音轉(zhuǎn)文字操作。
22、優(yōu)選的,所述接收通過消息中間件獲取的轉(zhuǎn)譯結(jié)果具體為:
23、數(shù)據(jù)處理集群模塊接收到實時音頻轉(zhuǎn)譯完成后,將轉(zhuǎn)譯結(jié)果以結(jié)構(gòu)化形式封裝,并通過消息隊列中間件進(jìn)行消息發(fā)布。
24、優(yōu)選的,轉(zhuǎn)譯后的文字?jǐn)?shù)據(jù)通過socket集群模塊進(jìn)行接收,并用于存儲在云服務(wù)器和本地服務(wù)器和推送給網(wǎng)絡(luò)電話和電腦。
25、一種設(shè)備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述的一種分布式的語音轉(zhuǎn)文字處理方法。
26、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行所述的一種分布式的語音轉(zhuǎn)文字處理方法。
27、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
28、本發(fā)明公開了一種分布式的語音轉(zhuǎn)文字處理系統(tǒng)、方法、設(shè)備和介質(zhì),支持獨立部署,在本地服務(wù)器和云端靈活配置;根據(jù)負(fù)載分配器和k8s模塊自動增減計算節(jié)點來平衡負(fù)載;設(shè)置了可換轉(zhuǎn)譯模塊和可換解碼器可以根據(jù)根據(jù)不同服務(wù)商的轉(zhuǎn)譯準(zhǔn)確率靈活選擇轉(zhuǎn)譯產(chǎn)品;通過socket集群模塊可以實時接收轉(zhuǎn)譯結(jié)果,可以做到穩(wěn)定高效,且可以實時大批量處理語音轉(zhuǎn)文字任務(wù)。
1.一種分布式的語音轉(zhuǎn)文字處理系統(tǒng),其特征在于,包括
2.根據(jù)權(quán)利要求3所述的一種分布式的語音轉(zhuǎn)文字處理系統(tǒng),其特征在于,還包括k8s模塊,所述服務(wù)器包括云服務(wù)器和本地服務(wù)器;
3.一種分布式的語音轉(zhuǎn)文字處理方法,應(yīng)用于權(quán)利要求1所述的一種分布式的語音轉(zhuǎn)文字處理系統(tǒng),其特征在于,包括:
4.根據(jù)權(quán)利要求3所述的一種分布式的語音轉(zhuǎn)文字處理方法,其特征在于,所述采集網(wǎng)卡的遠(yuǎn)程數(shù)據(jù)和本地數(shù)據(jù),識別并截取音頻數(shù)據(jù)包具體為:
5.根據(jù)權(quán)利要求4所述的一種分布式的語音轉(zhuǎn)文字處理方法,其特征在于,所述對有效音頻數(shù)據(jù)音頻解壓還原得到清晰音頻片段,并對清晰音頻片段進(jìn)行合并得到連貫音頻數(shù)據(jù)具體為:
6.根據(jù)權(quán)利要求5所述的一種分布式的語音轉(zhuǎn)文字處理方法,其特征在于,所述創(chuàng)建音頻處理器實例并為連貫音頻數(shù)據(jù)分配音頻處理器進(jìn)行轉(zhuǎn)譯具體為:
7.根據(jù)權(quán)利要求6所述的一種分布式的語音轉(zhuǎn)文字處理方法,其特征在于,所述接收通過消息中間件獲取的轉(zhuǎn)譯結(jié)果具體為:
8.根據(jù)權(quán)利要求7所述的一種分布式的語音轉(zhuǎn)文字處理方法,其特征在于,轉(zhuǎn)譯后的文字?jǐn)?shù)據(jù)通過socket集群模塊進(jìn)行接收,并用于存儲在云服務(wù)器和本地服務(wù)器和推送給網(wǎng)絡(luò)電話和電腦。
9.一種設(shè)備,其特征在于,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求3至8中任一項所述的一種分布式的語音轉(zhuǎn)文字處理方法。
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求3至8中任一項所述的一種分布式的語音轉(zhuǎn)文字處理方法。