本發(fā)明屬于計算機,具體來說是一種多維度語音情緒分析方法及系統(tǒng)。
背景技術(shù):
1、隨著社會的發(fā)展科技的進步,帶來了豐富的物質(zhì)生活同時,人們對高品質(zhì)服務的追求也越來越強烈。對服務人員來說,影響服務品質(zhì)的要素之一就是自身的情緒,以下以接待客戶的坐席人員為例。
2、坐席人員通過對話了解客戶的問題并加以解決,工作時間中遇到的客戶形形色色,對心理與身體的壓力隨時間積累而難以排解,容易產(chǎn)生負面情緒,這樣可能會導致工作效率下降,服務品質(zhì)變差,與用戶溝通不暢,對客戶的情緒也造成影響?,F(xiàn)有技術(shù)中,對于坐席人員與客戶的標準化對話流程難以進行精準、客觀的監(jiān)測,對負面情緒導致的異常對話流程無法進行有效的告警,對坐席人員與客戶對話中包含的情緒信息的分析不夠準確。
3、經(jīng)過檢索,中國發(fā)明專利:一種智能情緒確定方法及系統(tǒng)(公開號為:cn106548788a,公開日為:2020.01.07),該申請案提供了一種智能情緒確定方法及系統(tǒng),獲取待檢測人員與用戶通話的音頻信息;從構(gòu)成音頻信息的各音頻信息段中,確定異常情緒音頻信息段,其中,異常情緒音頻信息段為所包含的用于表征待檢測人員異常情緒的預設音頻信息符合對應預設條件的音頻信息段;當能夠確定出異常情緒音頻信息段時,確定音頻信息段對應的待檢測人員存在異常情緒。更加客觀、分析得到的待檢測人員是否存在異常情緒更加準確。但是該申請案的不足之處在于:對語音文本的分析指標不夠全面,缺乏對于打斷這一關鍵行為的識別和考慮。
技術(shù)實現(xiàn)思路
1、1.發(fā)明要解決的技術(shù)問題
2、本發(fā)明的目的在于解決現(xiàn)有的語音情緒分析不夠全面準確的問題。
3、2.技術(shù)方案
4、為達到上述目的,本發(fā)明提供的技術(shù)方案為:
5、本發(fā)明的一種多維度語音情緒分析方法,包括如下步驟
6、s1、獲取待檢測人員與用戶對話的音頻數(shù)據(jù);
7、s2、將音頻數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的文本文件;
8、s3、對文本文件進行解析,判斷文本文件中的音頻信息段是否命中了預設的模型規(guī)則;
9、s4、當文本文件中的音頻信息段符合預設的模型規(guī)則時,將對應的音頻數(shù)據(jù)打上模型規(guī)則代表的情緒標記;
10、所述模型規(guī)則分為文本規(guī)則和語音規(guī)則。
11、優(yōu)選地,所述文本規(guī)則和語音規(guī)則具體為
12、文本規(guī)則:通過邏輯符號將關鍵詞進行組合,再將其與音頻信息段的文本進行匹配,篩選出對應邏輯文本下想要的音頻信息段,邏輯運算符號共有五種,分別是“&、|、!、#、()”;
13、其中,多個文本規(guī)則可通過邏輯運算符號組成完整的話術(shù)流程,邏輯運算符號共有五種,分別是“&、|、!、@、()”;
14、語音規(guī)則,至少包括以下對象中的一種:對話包含預設關鍵字且符合其屬性、對話中的靜音信息符合預設靜音規(guī)則的屬性、對話中的語速信息符合預設語速規(guī)則的屬性、對話中的音量信息符合預設音量規(guī)則的屬性、對話中的打斷信息符合預設打斷規(guī)則的屬性。
15、優(yōu)選地,所述步驟s2還包括
16、將音頻數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的音頻文本文件,其中音頻文本文件應包括:坐席聲道和客戶聲道的音頻文本,語句數(shù)量,文本字數(shù),每條語句對應的聲道、開始時間、結(jié)束時間、語速和音量,整段音頻的平均語速、平均音量、語句數(shù)量和文本字數(shù),靜音的開始時間和結(jié)束時間。
17、優(yōu)選地,所述步驟s3還包括
18、從構(gòu)成所述音頻信息的音頻文本文件中,確定符合文本規(guī)則的文本對應的音頻信息段;當預設的多個文本規(guī)則按照邏輯運算符號組成規(guī)則組合時,需確定上述符合文本規(guī)則的多個音頻段是否符合完整的文本規(guī)則組合;
19、從構(gòu)成所述音頻信息的各音頻信息段中,確定符合語音規(guī)則的音頻信息段,具體包括:
20、從所述各音頻信息段中確定包含預設關鍵字規(guī)則的音頻信息段;
21、從所述各音頻信息段中確定語速信息符合預設語速規(guī)則的音頻信息段;
22、從所述各音頻信息段中確定音量信息符合預設音量規(guī)則的音頻信息段;
23、從所述各音頻信息段中確定靜音信息符合預設靜音規(guī)則的音頻信息段;
24、從所述各音頻信息段中確定打斷信息符合預設打斷規(guī)則的音頻信息段。
25、優(yōu)選地,所述步驟s3中還包括
26、確定音頻信息段在音頻文本文件中對應的音頻文本段符合預設文本規(guī)則信息,其中文本規(guī)則,包括關鍵詞與邏輯符號,邏輯符號具體包括:
27、#:意思為“near”,初級連接符,簡單對象之間的連接符,簡單對象用“#”連接后的對象為一個復雜對象,復雜對象里面的“#”可以有一個和多個,但第一個簡單對象和最后一個簡單對象之間出現(xiàn)的文本字數(shù)默認為不超過10個字,同時“#”之前的對象必須出現(xiàn)在“#”之后的對象的前面;其中,所述簡單對象,是指單純的一個關鍵詞或字;所述復雜對象,是指多個關鍵詞或字通過“#”連接起來的對象;
28、():意思為“組合”,意思是將一個或者幾個簡單或者復雜對象組合成一個想要的對象;
29、&:意思為“與”,次級連接符,是指用“&”連接的簡單或者復雜對象在錄音文本中必須同時出現(xiàn),連接的關鍵詞出現(xiàn)的前后順序沒有限定,它還可以連接的簡單或者復雜對象的組合;
30、|:意思為“或”,次級連接符,是指用“|”連接的簡單或者復雜對象在錄音文本中至少出現(xiàn)其中一個,它還可以連接的簡單或者復雜對象的組合;
31、?。阂馑紴椤胺恰保渭夁B接符,是指用“!”連接的后面的簡單或者復雜對象在錄音文本中不允許出現(xiàn),它還可以連接的簡單或者復雜對象的組合;
32、當確定音頻信息段對應的音頻文本命中了某個預設的文本規(guī)則后,記錄下文本規(guī)則命中的音頻信息段對應的起始時間和終止時間。
33、優(yōu)選地,所述步驟s3中還包括
34、當確定多個符合文本規(guī)則的音頻信息段之后,去判斷所述多個音頻信息段是否符合多個文本規(guī)則的邏輯組合構(gòu)成一個完整的話術(shù)流程,其中所述文本規(guī)則的邏輯組合包括:
35、@:意思為“順序”,是指用“@”連接的簡單或者復雜文本規(guī)則在整段音頻文本中出現(xiàn)的前后順序必須與“@”前后的文本規(guī)則對象順序一致,它還可以連接的簡單或者復雜語音規(guī)則的組合;
36、():意思為“組合”,意思是將一個或者幾個簡單或者復雜文本規(guī)則組合成一個自己想要的對象;
37、&:意思為“與”,次級連接符,是指用“&”連接的簡單或者復雜文本規(guī)則在整段音頻信息文本中必須同時出現(xiàn),連接的文本規(guī)則出現(xiàn)的前后順序沒有限定,它還可以連接的簡單或者復雜文本規(guī)則的組合;
38、|:意思為“或”,次級連接符,是指用“|”連接的簡單或者復雜文本規(guī)則在整段音頻信息文本中至少出現(xiàn)其中一個,它還可以連接的簡單或者復雜文本規(guī)則的組合;
39、?。阂馑紴椤胺恰保渭夁B接符,是指用“!”連接的后面的簡單或者復雜文本規(guī)則在整段音頻信息文本中不允許出現(xiàn),它還可以連接的簡單或者復雜文本規(guī)則的組合。
40、優(yōu)選地,確定各所述音頻信息段在所述音頻文本文件中分別對應的各音頻文本段符合的預設語音規(guī)則信息,具體包括:
41、當所述預設語音規(guī)則包含關鍵字信息時,針對各音頻信息段中的每個音頻信息段,將該音頻信息段對應的音頻文本段與預設關鍵字進行比對;確定該音頻文本段中包含的預設關鍵字,以及預設關鍵字出現(xiàn)的起始時間和終止時間;
42、當所述預設語音規(guī)則信息包含語速規(guī)則信息時,針對各音頻信息段中的每個音頻信息段,根據(jù)該音頻信息段對應的音頻文本段中對話雙方每句話對應音頻的語速特征;確定該音頻文本段中包含的符合預設規(guī)則的語速特征,以及包含的語速特征發(fā)生的起始時間和終止時間;
43、當所述預設語音規(guī)則信息包含音量規(guī)則信息時,針對各音頻信息段中的每個音頻信息段,根據(jù)該音頻信息段對應的音頻文本段中對話雙方每句話對應音頻的音量特征;確定該音頻文本段中包含的符合預設規(guī)則的音量特征,以及包含的音量特征發(fā)生的起始時間和終止時間;
44、當所述預設語音規(guī)則信息包含靜音規(guī)則信息時,針對各音頻信息段中的每個音頻信息段,根據(jù)該音頻信息段對應的音頻文本段中對話雙方每句話對應音頻的起始時間、結(jié)束時間、及持續(xù)時間,確定該音頻文本段中所述待檢測人員對應音頻包含的靜音特征;確定該音頻文本段中包含的符合預設規(guī)則的靜音特征,以及包含的靜音特征發(fā)生的起始時間和終止時間;
45、當所述預設語音規(guī)則信息包含打斷規(guī)則信息時,針對各音頻信息段中的每個音頻信息段,根據(jù)該音頻信息段對應的音頻文本段中對話雙方每句話對應音頻的起始時間、結(jié)束時間、及持續(xù)時間,確定該音頻文本段中所述待檢測人員對應音頻包含的打斷特征;確定該音頻文本段中包含的符合預設規(guī)則的打斷特征,以及包含的打斷特征發(fā)生的起始時間和終止時間。
46、優(yōu)選地,當所述預設語音規(guī)則是關鍵字規(guī)則時,針對所述關鍵字規(guī)則可添加如下屬性,包括:
47、絕對位置,即關鍵詞在整段音頻信息中出現(xiàn)的具體的時間位置;相對位置,針對兩個錄音規(guī)則而言,即在整段音頻信息中,關鍵字規(guī)則相對另外一個語音規(guī)則在位置上的前后相對關系;之后聲道,關鍵詞出現(xiàn)后的最近的說話內(nèi)容的說話人聲道,是客戶聲道還是坐席聲道;之前聲道,關鍵詞出現(xiàn)前的最近的說話內(nèi)容的說話人聲道,是客戶聲道還是坐席聲道;聲道,即關鍵詞的說話人身份,關鍵詞是客戶所講還是坐席所講;次數(shù),即關鍵詞在整段音頻信息中出現(xiàn)的次數(shù);規(guī)則,即關鍵詞本身的文本規(guī)則;
48、當所述預設語音規(guī)則是語速規(guī)則時,針對所述語速規(guī)則可添加如下屬性,包括:
49、絕對位置,即語速規(guī)則在整段音頻信息中出現(xiàn)的具體的時間位置;相對位置,針對兩個錄音規(guī)則而言,即在整段音頻信息中,語速規(guī)則相對另外一個語音規(guī)則在位置上的前后相對關系;之后聲道,語速規(guī)則出現(xiàn)后的最近的說話內(nèi)容的說話人聲道,是客戶聲道還是坐席聲道;之前聲道,語速規(guī)則出現(xiàn)前的最近的說話內(nèi)容的說話人聲道,是客戶聲道還是坐席聲道;平均,即整段音頻信息的平均語速;聲道,標識語速規(guī)則作用在客戶或是坐席聲道;次數(shù),即符合語速規(guī)則的音頻信息段在整段音頻信息中出現(xiàn)的次數(shù);單句,即符合語速規(guī)則的單條語句在整個音頻信息中出現(xiàn)的次數(shù);
50、當所述預設語音規(guī)則是音量規(guī)則時,針對所述音量規(guī)則可添加如下屬性,包括:
51、絕對位置,即音量規(guī)則在整段音頻信息中出現(xiàn)的具體的時間位置;相對位置,針對兩個錄音規(guī)則而言,即在整段音頻信息中,音量規(guī)則相對另外一個語音規(guī)則在位置上的前后相對關系;之后聲道,音量規(guī)則出現(xiàn)后的最近的說話內(nèi)容的說話人聲道,是客戶聲道還是坐席聲道;之前聲道,音量規(guī)則出現(xiàn)前的最近的說話內(nèi)容的說話人聲道,是客戶聲道還是坐席聲道;聲道,標識音量規(guī)則作用在客戶或是坐席聲道;次數(shù),即符合音量規(guī)則的音頻信息段在整段音頻信息中出現(xiàn)的次數(shù);音量,即指定音量規(guī)則的音量大?。?/p>
52、當所述預設語音規(guī)則是靜音規(guī)則時,針對所述靜音規(guī)則可添加如下屬性,包括:
53、絕對位置,即靜音在整段音頻信息中出現(xiàn)的具體的時間位置;相對位置,針對兩個錄音規(guī)則而言,即在整段音頻信息中,靜音規(guī)則相對另外一個語音規(guī)則在位置上的前后相對關系;之后聲道,靜音結(jié)束后的最近的說話內(nèi)容的說話人聲道,是客戶聲道還是坐席聲道;之前聲道,靜音開始前的最近的說話內(nèi)容的說話人聲道,是客戶聲道還是坐席聲道;次數(shù),即符合靜音規(guī)則的音頻信息段在整段音頻信息中出現(xiàn)的次數(shù);時長,即指定靜音的時長大??;
54、當所述預設語音規(guī)則是打斷規(guī)則時,針對所述打斷規(guī)則可添加如下屬性,包括:
55、重疊時長,即打斷發(fā)生后兩個聲道的音頻發(fā)生重疊的時長;次數(shù),即符合打斷規(guī)則的音頻信息段在整段音頻信息中出現(xiàn)的次數(shù);之后聲道,打斷結(jié)束后的最近的說話內(nèi)容的說話人聲道,是客戶聲道還是坐席聲道;之前聲道,打斷開始前的最近的說話內(nèi)容的說話人聲道,是客戶聲道還是坐席聲道;絕對位置,即打斷在整段音頻信息中出現(xiàn)的具體的時間位置;相對位置,針對兩個錄音規(guī)則而言,即在整段音頻信息中,打斷規(guī)則相對另外一個語音規(guī)則在位置上的前后相對關系。
56、優(yōu)選地,所述步驟s3具體流程包括
57、流程s301,音頻轉(zhuǎn)寫模塊中轉(zhuǎn)寫出的結(jié)構(gòu)化文本信息,進入音頻分析模塊;
58、進入流程s302,判斷模型規(guī)則中是否配置了文本規(guī)則;
59、當s302未配置文本規(guī)則時,進入流程s303,判斷模型規(guī)則中是否配置了語音規(guī)則;
60、當s303未配置語音規(guī)則時,進入流程s305,認為當前沒有配置模型規(guī)則,無法對音頻轉(zhuǎn)寫模塊中轉(zhuǎn)寫出的結(jié)構(gòu)化文本文件進行解析,流程結(jié)束;
61、當s303配置了語音規(guī)則時,進入流程s306,按照配置的語音規(guī)則對音頻和文本信息進行解析;其中,語音規(guī)則包括以下多種屬性:預設關鍵字規(guī)則、靜音時長符合預設時長、通話雙方的語速信息達到對應指標閾值、音量信息達到對應指標閾值,打斷規(guī)則符合預設條件;
62、進入流程s308,判斷是否命中了語音規(guī)則;
63、當s308未命中語音規(guī)則時,進入流程s310,認為本條音頻未命中模型規(guī)則,流程結(jié)束;
64、當s308命中了語音規(guī)則時,進入流程s319,認為本條音頻符合預設的模型規(guī)則;
65、當s302配置了文本規(guī)則時,進入流程s304,按照文本規(guī)則中配置的關鍵字以及邏輯符號對文本進行解析;
66、進入流程s307,判斷是否命中了文本規(guī)則;
67、當s307未命中文本規(guī)則時,進入流程s313,判斷是否配置了語音規(guī)則;
68、當s307命中了文本規(guī)則時,進入流程s309,判斷是否配置了多個文本規(guī)則的規(guī)則組合;
69、當s309未配置多個文本規(guī)則的規(guī)則組合時,進入流程s313,判斷是否配置了語音規(guī)則;
70、當s309配置了多個文本規(guī)則的規(guī)則組合時,進入流程s311,按照配置的多個文本規(guī)則和邏輯運算符合組成的規(guī)則組合對文本信息進行解析;
71、進入流程s312,判斷是否命中了多個文本規(guī)則的規(guī)則組合;
72、當s312未命中多個文本規(guī)則的規(guī)則組合時,進入流程s313,判斷是否配置了語音規(guī)則;
73、當s312命中了多個文本規(guī)則的規(guī)則組合時,進入流程s313,判斷是否配置了語音規(guī)則;
74、進入流程s313,判斷是否配置了語音規(guī)則;
75、當s313未配置語音規(guī)則時,進入流程s314,校驗是否命中了文本規(guī)則或規(guī)則組合;
76、當s314未命中文本規(guī)則或規(guī)則組合時,進入流程s316,認為本條音頻未命中模型規(guī)則,流程結(jié)束;
77、當s314命中了文本規(guī)則或規(guī)則組合時,進入流程s319,認為本條音頻符合預設的模型規(guī)則;
78、當s313配置了語音規(guī)則時,進入流程s315,按照配置的語音規(guī)則對音頻和文本信息進行解析;其中,語音規(guī)則包括以下多種屬性:預設關鍵字規(guī)則、靜音時長符合預設時長、通話雙方的語速信息達到對應指標閾值、音量信息達到對應指標閾值,打斷規(guī)則符合預設條件;
79、進入流程s317,判斷是否命中了語音規(guī)則;
80、當s317命中了語音規(guī)則時,進入流程s319,認為本條音頻符合預設的模型規(guī)則;
81、當s317未命中語音規(guī)則時,進入流程s318,校驗是否命中了文本規(guī)則或規(guī)則組合;
82、當s318未命中文本規(guī)則或規(guī)則組合時,進入流程s320,認為本條音頻未命中模型規(guī)則,流程結(jié)束;
83、當s318命中了文本規(guī)則或規(guī)則組合時,進入流程s319,認為本條音頻符合預設的模型規(guī)則;
84、進入流程s319,確認音頻符合預設的模型規(guī)則,其中模型規(guī)則包括文本規(guī)則和語音規(guī)則;
85、進入流程s321,確認音頻符合預設的模型規(guī)則后,將本條音頻打上模型規(guī)則對應的情緒標記,認為音頻符合模型規(guī)則對應的情緒,流程結(jié)束。
86、一種多維度語音情緒分析系統(tǒng),所述系統(tǒng)用于執(zhí)行上述的方法,所述系統(tǒng)包括
87、音頻收集模塊,用于獲取待檢測人員與用戶對話的音頻信息;
88、音頻轉(zhuǎn)寫模塊,用于將上述音頻收集模塊獲取到的音頻轉(zhuǎn)換為結(jié)構(gòu)化的音頻文本文件,其中音頻文本文件應包括:坐席聲道和客戶聲道的音頻文本,語句數(shù)量,文本字數(shù),每條語句對應的聲道、開始時間、結(jié)束時間、語速和音量,整段音頻的平均語速、平均音量、語句數(shù)量和文本字數(shù),靜音的開始時間和結(jié)束時間。
89、音頻分析模塊,用于對上述音頻轉(zhuǎn)寫模塊的音頻文本文件進行解析,判斷音頻文本文件中的音頻信息段是否符合預設的模型規(guī)則,即文本規(guī)則和語音規(guī)則,其中若兩種規(guī)則同時配置,音頻信息段須同時符合兩種規(guī)則;確定音頻信息段命中了模型規(guī)則之后,認為該檢測音頻中存在模型規(guī)則代表的情緒,此時將對應的音頻數(shù)據(jù)打上模型規(guī)則代表的情緒標記。
90、3.有益效果
91、采用本發(fā)明提供的技術(shù)方案,與現(xiàn)有技術(shù)相比,具有如下有益效果:
92、本發(fā)明的一種多維度語音情緒分析方法及系統(tǒng),包括如下步驟s1、獲取待檢測人員與用戶對話的音頻數(shù)據(jù);s2、將音頻數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的文本文件;s3、對文本文件進行解析,判斷文本文件中的音頻信息段是否命中了預設的模型規(guī)則;s4、當文本文件中的音頻信息段符合預設的模型規(guī)則時,將對應的音頻數(shù)據(jù)打上模型規(guī)則代表的情緒標記;所述模型規(guī)則分為文本規(guī)則和語音規(guī)則。通過對待檢測人員與用戶對話的音頻信息進行轉(zhuǎn)化,并依據(jù)文本規(guī)則和語音規(guī)則進行模型分析,從關鍵字、語速、音量、靜音、打斷等多個維度對語音情緒進行有效分析,分享指標更加全面;且文本規(guī)則包含若干種邏輯規(guī)則,將文本規(guī)則和語音規(guī)則有效的結(jié)合可以提高情緒分析的全面性和準確性。