国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于機器學習的雙模態(tài)人人對話情感分析系統(tǒng)及其方法與流程

      文檔序號:12126373閱讀:486來源:國知局

      本發(fā)明涉及人機情感交互領域,具體地說是一種基于機器學習的雙模態(tài)人人對話情感分析系統(tǒng)及其方法。



      背景技術:

      隨著社會的發(fā)展和網絡技術的進步,人們之間的溝通交流越來越頻繁,交流方式也越來越多樣,準確識別人人對話中的情感對于呼叫中心等電話服務行業(yè)具有非常重要的意義。然而人們在對話時的情感表達是十分復雜的。

      在對話中表達情感的情感詞可以分為直接情感詞和負面情感詞兩大類。有的時候一些人在對話的過程中,其實已經有了負面情緒,但是由于禮貌和風度不會使用直接情感詞讓自己的內心情緒完全表達出來,或者采用與直接情感詞情緒不對應的語氣使用直接情感詞。潛在情感詞和潛在情緒的識別是很困難的,并且單一識別某一種特征對情感的分析也是不全面的,同時傳統(tǒng)特征提取方法一般為卡方檢驗、信息增益等,這樣提取得到的特征是比較表層的,無法使用上下文信息進行分析;最后當前存在的識別方法主要有:單獨對文本識別的方法,大多使用了詞頻-逆文檔頻率等模型對文本進行情感識別,大多需要對文本進行預處理,同時在多語種和多分類識別中正確率較低。



      技術實現(xiàn)要素:

      本發(fā)明克服了現(xiàn)有技術的不足之處,提供一種基于機器學習的雙模態(tài)人人對話情感分析方法,以期能綜合文本和音頻兩個模態(tài)對會話情感進行識別,并充分利用詞向量、句向量的特點,從而提高識別的準確性。

      本發(fā)明為達到上述發(fā)明目的,采用如下技術方案:

      本發(fā)明一種基于機器學習的雙模態(tài)人人對話情感分析系統(tǒng)的特點包括:語音識別模塊、文本深層特征提取模塊、語音切分模塊、聲學特征提取模塊、特征融合模塊、情感分析模塊;

      所述語音識別模塊獲取人人對話的語音內容,并對所述語音內容進行識別,得到文本內容和每句對話起始端點的時間標簽;所述語音識別模塊將所述文本內容傳遞給所述文本深層特征提取模塊,將所述時間標簽傳遞給所述語音切分模塊;

      所述文本深層特征提取模塊讀取所述文本內容,并對文本內容進行特征提取,得到深層詞級特征和深層句級特征作為文本深層特征,并傳遞給所述特征融合模塊;

      所述語音切分模塊讀取所述語音內容,并根據所述時間標簽從所述語音內容中將每句對話語音切分出來并分別傳遞給所述聲學特征提取模塊;

      所述聲學特征提取模塊根據所接收到的每句對話語音,分別提取相應的音強、響度、基頻和濁音度所構成的聲學特征,并將得到的聲學特征傳遞給特征融合模塊;

      所述特征融合模塊將所述文本深層特征和聲學特征進行融合,得到融合特征并傳遞給情感分析模塊;

      所述情感分析模塊將所述融合特征利用情感分析模型進行情感分析識別,得到所述語音內容的情感極性,所述情感極性包括:正向、中性和負向。

      本發(fā)明一種基于機器學習的雙模態(tài)人人對話情感分析方法的特點是按如下步驟進行:

      步驟1:利用錄音裝置獲取若干段的人人對話的語音內容作為樣本語料,再獲取一段待識別的人人對話的語音內容作為待識別語料;

      步驟2:利用語音識別工具識別出所述樣本語料和待識別語料中每一段語音內容的文本內容以及每一段語音內容中每句對話起始端點的時間標簽;

      步驟3:利用詞中心點向量計算法得到所述樣本語料和帶識別語料中每一段語音內容的文本內容的深層詞級特征;

      步驟4:將所述樣本語料和待識別語料中每一段語音內容的文本內容利用句向量工具訓練,得到每一段語音內容的文本內容中每句對話的句向量,將每一段語音內容的文本內容中的所有對話的句向量組成一個矩陣,得到所述樣本語料和待識別語料中每一段語音內容的文本內容的深層句級特征;將所述深層詞級特征和深層句級特征作為文本深層特征;

      步驟5:根據所述時間標簽將所述樣本語料和待識別語料中的每句對話語音切分出來;

      步驟6:利用聲學特征提取工具對切分后的每句對話語音的每一幀,分別進行維度均為N的音強、響度、基頻和濁音度的聲學特征提取,得到4N維聲學特征;

      步驟7:將所述4N維聲學特征進行聲學二次變換,得到8N維聲學特征;

      步驟8:將所述8N維聲學特征中的每一維聲學特征分別提取M種統(tǒng)計量,得到8N×M維聲學特征;

      步驟9:假設每句對話語音共有X幀,則得到的8N×M×X維聲學特征即為每句對話語音的聲學特征,然后將每一段語音內容的每句對話語音的聲學特征組合成一個矩陣,得到所述樣本語料和待識別語料中每一段語音內容的聲學特征;

      步驟10:將所述文本深層特征和聲學特征進行線性拼接和歸一化處理,獲得每段對話語音的融合特征;

      步驟11:將所述樣本語料中的每一段對話語音內容的融合特征,與相對應的情感極性分別作為線性回歸模型、邏輯回歸模型和支持向量機模型的輸入,并對所述線性回歸模型、邏輯回歸模型和支持向量機模型進行訓練,得到三種情感分析模型;

      步驟12:將所述待識別語料中的融合特征分別輸入三種情感分析模型中,得到三種識別結果,通過大多數分類投票法從三種識別結果中最終決策出所述待識別語料的情感極性;所述情感極性包括:正向、中性和負向。

      本發(fā)明所述的基于機器學習的雙模態(tài)人人對話情感分析方法的特點也在于:所述步驟3是按如下步驟進行:

      步驟3.1:將所述樣本語料和待識別語料中的每一段語音內容的文本內容利用分詞工具進行分詞處理;

      步驟3.2:將所述樣本語料中經分詞處理后得到的所有詞語利用詞向量工具進行訓練,得到文本內容中每個詞語的詞向量;

      步驟3.3:利用查找工具查找所述帶識別語料中的詞語是否在所述樣本語料中出現(xiàn),如果出現(xiàn),則將相應詞語的詞向量使用所述樣本語料中對應詞語的詞向量,如果沒有出現(xiàn),則將相應詞語的詞向量進行每一維浮點數隨機處理;

      步驟3.4:根據所述樣本語料中每一段語音內容的文本內容所具有的情感極性,將所述文本內容分為正向文本、中性文本和負向文本;

      步驟3.5:對分類后的文本內容中的所有詞向量分別進行聚類,得到聚類結果,包括:

      正向文本中的所有詞向量被聚類為M類,用P={P1,P2,…,Pm,…,PM}表示,其中Pm表示所述正向文本中的第m類,并有,Pm={Pm1,Pm2,…,Pmi,…,PmI},Pmi表示正向文本中第m類中的第i個詞向量,I表示所述正向文本中第m類詞向量的總數;1≤m≤M,1≤i≤I;

      中性文本中的所有詞向量被聚類為N類,用Q={Q1,Q2,…,Qn,…,QN}表示,其中Qn表示中性文本中的第n類,并有,Qn={Qn1,Qn2,…,Qnj,…,QnJ},Qnj表示中性文本中第n類中的第j個詞向量,J表示中性文本中第n類詞向量的總數;1≤n≤N,1≤j≤J;

      負向文本中的所有詞向量被聚類為K類,用R={R1,R2,…,Rk,…,RK}表示,其中Rk表示負向文本中的第k類,并有,Rk={Rk1,Rk2,…,Rkl,…,RkL},Rkl表示負向文本中第k類中的第l個詞向量,L表示負向文本中第i類詞向量的總數;1≤k≤K,1≤l≤L;

      步驟3.6:利用式(1)、式(2)和式(3)分別獲得所述樣本語料中正向文本、中性文本和負向文本的各聚類結果的類中心點Center[Pm]、Center[Qn]和Center[Rk]:

      步驟3.7:計算所述樣本語料和待識別語料的文本內容中的所有詞向量分別到所述類中心點Center[Pm]、Center[Qn]和Center[Rk]的歐式距離,并將每個詞向量分別到所述類中心點Center[Pm]、Center[Qn]和Center[Rk]的歐式距離組成一個M+N+K維的詞距離向量,從而獲得所有詞向量的詞距離向量,再將每句對話的所有詞向量的詞距離向量相加求平均值得到每句對話的句向量,再將每一段語音內容的所有對話的句向量組成一個矩陣,得到所述樣本語料中每一段語音內容的文本內容的深層詞級特征。

      與現(xiàn)有技術相比,本發(fā)明的有益效果體現(xiàn)在:

      1、本發(fā)明在對人人對話進行情感分析時,綜合文本和音頻兩個模態(tài)對人人對話的情感進行分析、識別,在兩個模態(tài)下分別進行相關特征的提取,這使得在進行特征提取時對影響情感分析的因素能夠得到更加全面周到的考慮,進而使得提取到的特征更加的全面周到,最終使得人人會話情感分析更具有較高的準確率。

      2、本發(fā)明在詞級特征提取上,采用詞中心點向量計算法作為基礎,結合詞向量工具、歐式距離等計算得到相應距離向量,以此作為文本深層詞級特征。詞向量所具有的特點為:在同一向量空間中,語義越是相近的詞語,其向量之間的距離越小;由于詞向量的所具有的這個特點,因此與傳統(tǒng)詞特征技術如:卡方檢驗、信息增益等相比,所得到特征更加具有代表性,并且具有較好的區(qū)分、識別性能,同時避免了傳統(tǒng)詞包特征提取方式的特征稀疏問題,還可以保留更多的詞義特征,后續(xù)隨著語料規(guī)模擴大可以擴展卷積神經網絡等模型;最后僅利用與詞中心點距離,既充分利用了相近詞具有相近詞向量的道理,也大大降低了計算次數,提高了分析識別速度。

      3、本發(fā)明在句級特征提取上,采用直接向量法。通過將一個任意長度的句子映射到一個向量空間,從而使得不同的句子之間具有可比性,使用句子向量間的空間距離來表征句子之間的句義距離,句義上越是相近的句子在空間向量距離越小,將其作為特征用以區(qū)分正向句子文本、中性句子文本和負向句子文本。句級特征的提取是針對整個句子而言,這使得特征的提取具有全局性,克服了詞級特征提取只限于局部的問題。

      4、本發(fā)明基于深度學習挖掘文本深層特征,有效對文本模態(tài)下的特征進行了提??;分別提取句級特征和詞級特征,并將兩種特征進行融合;對于整個句子,詞級特征在一定程度上仍會丟掉一些信息,而句級特征過于籠統(tǒng);所以融合兩種文本特征,能夠得到更多的情感信息,有助于提高情感識別準確率。

      5、本發(fā)明利用多種機器學習方法對人人對話情感進行識別,避免了某一種方法因為某些偶然因素無法正確識別出對話情感,同時多種機器學習方法通過大多數分類投片決策有利于提高識別結果的準確度。

      附圖說明

      圖1是本發(fā)明系統(tǒng)的模塊示意圖。

      具體實施方式

      本實施例中,如圖1所示,一種基于機器學習的雙模態(tài)人人對話情感分析系統(tǒng)的組成包括:語音識別模塊、文本深層特征提取模塊、語音切分模塊、聲學特征提取模塊、特征融合模塊、情感分析模塊。

      語音識別模塊獲取人人對話的語音內容,并對語音內容進行識別,得到文本內容和每句對話起始端點的時間標簽,完成了語音內容識別到文本內容以及每句對話起始端點的時間標簽的轉換;然后語音識別模塊將得到的文本內容傳遞給文本深層特征提取模塊,將時間標簽傳遞給語音切分模塊;

      文本深層特征提取模塊讀取語音識別模塊得到的文本內容,并對文本內容的深層詞級特征和深層句級特征進行特征提取,得到深層詞級特征和深層句級特征作為文本深層特征,并傳遞給特征融合模塊;

      語音切分模塊讀取每一段語音內容,并根據語音識別模塊得到的時間標簽從語音內容中將每句對話語音切分出來并分別傳遞給聲學特征提取模塊;

      聲學特征提取模塊根據所接收到的每句對話語音,分別提取相應的音強、響度、基頻和濁音度所構成的聲學特征,并將得到的聲學特征傳遞給特征融合模塊;

      特征融合模塊將文本深層特征和聲學特征進行融合,得到融合特征并傳遞給情感分析模塊;

      情感分析模塊將融合特征利用情感分析模型進行情感分析識別,得到語音內容的情感極性,情感極性包括:正向、中性和負向。

      本實施例中,一種基于機器學習的雙模態(tài)人人對話情感分析方法,包括如下步驟:

      步驟1:利用錄音裝置獲取若干段的人人對話的語音內容作為樣本語料,獲取一段待識別的人人對話的語音內容作為待識別語料,所有語音內容要求說話者盡量正對錄音裝置,口齒清晰,保證樣本語料的有效性;

      步驟2:將所有語音內容輸入線上語音識別工具,利用語音識別工具識別出樣本語料和待識別語料中每一段語音內容的文本內容以及每一段語音內容中每句對話起始端點的時間標簽;其中得到的每一段語音內容的文本內容為每句對話分開的文本內容;本實施例中,使用訊飛語音識別工具作為語音識別工具,得到結果包括與每一段語音內容匹配的文本內容和時間標簽;

      步驟3:以詞語為基本單位,利用詞中點向量計算法得到樣本語料和待識別語料中每一段語音內容的文本內容的深層詞級特征;在傳統(tǒng)方法中,文本特征提取的方法一般有詞頻-逆文檔頻率、卡方檢驗等等,很容易造成特征過于稀疏導致識別效果很差,并且這些方法僅僅針對詞語出現(xiàn)的次數進行判斷,過于表面,忽略的詞語含義對文本判斷的影響,而詞向量方法的采用將會克服這方面的不足;同時僅僅利用詞中點進行計算,大大降低了計算次數;

      本實例中,詞中點向量計算法是在已經獲得若干段的人人對話的語音內容作為樣本語料和一段待識別的人人對話的語音內容作為待識別語料的基礎上進行,具體的步驟如下:

      步驟3.1:將樣本語料和待識別語料中的每一段語音內容的文本內容利用分詞工具進行分詞處理;本實施例中,使用中科院漢語分詞系統(tǒng)作為分詞工具,經過分詞后得到的每一個文本內容中的每句對話的每個詞語之間利用空格隔開;

      步驟3.2:將樣本語料中經分詞處理后得到的所有詞語利用詞向量工具進行訓練,得到文本內容中每個詞語的詞向量;本實施例中,利用genism包中的word2vec得到每個詞語的詞向量;某些詞語雖然出現(xiàn)在不同的文本中,但是通過這樣的方法,相同的詞語僅僅只有一個詞向量;word2vec實際上它用詞義向量來表征詞語,訓練之后,文本中的詞語被表示為一個個的低維詞義向量,通過向量空間的相似度來表示文本語義的相似度;詞向量可以用在許多自然語言處理應用中,例如詞義聚類、找同義詞、詞性分析等,它的工作是十分高效的。引入余弦距離,通過測量向量間夾角的余弦值來表征它們之間的相似度,余弦值的取值范圍為[-1,1],0度角的余弦值為1,180度角的余弦值為-1,通過余弦值表征的向量方向來判定詞義的極性距離。由此可以看出,空間中兩個向量余弦值越大,則兩個詞的相似度越高。word2vec為計算向量詞構建了兩個學習算法,分別為連續(xù)詞包模型和skip-gram模型;

      步驟3.3:利用查找工具查找?guī)ёR別語料中的詞語是否在樣本語料中出現(xiàn),如果出現(xiàn),則將相應詞語的詞向量使用所述樣本語料中對應詞語的詞向量,如果沒有出現(xiàn),則將相應詞語的詞向量進行每一維浮點數隨機處理;如果沒有出現(xiàn)的詞語使用零向量,則相當于丟棄了該詞特征,而現(xiàn)有的研究表明,隨機給定向量與使用零向量相比,更有利于得到良好的實驗結果;本實施例中,查找工具使用系統(tǒng)自帶查找工具;

      步驟3.4:根據樣本語料中每一段語音內容的文本內容所具有的情感極性,將所述文本內容分為正向文本、中性文本和負向文本;本實施例中,由于只需要分析識別出人人對話的情感極性,故對文本的情感分類只需要分為三大類即可,并且三類文本的數量應該是大致相同的,這樣能使得在后面的訓練過程中,三類文本的訓練程度能夠大致相同;利用中科院漢語分詞系統(tǒng)NLPIR和人工手動兩種方法相結合的方法對文本情感極性進行分類;中科院漢語分詞系統(tǒng)情感分析提供兩種模式:全文的情感識別與指定對象的情感判別,本實施例中,使用第一種模式;中科院漢語分詞系統(tǒng)情感分析主要采用了兩種技術:1)情感詞的自動識別與權重自動計算,利用共現(xiàn)關系,采用Bootstrapping的策略,反復迭代,生成新的情感詞及權重;2)情感判別的深度神經網絡:基于深度神經網絡對情感詞進行擴展計算,綜合為最終的結果;

      步驟3.5:對分類后的文本內容中的所有詞向量分別進行聚類,得到聚類結果,包括:

      正向文本中的所有單詞被聚類為M類,用P={P1,P2,…,Pm,…,PM}表示,其中Pm表示正向文本中的第m類,并有,Pm={Pm1,Pm2,…,Pmi,…,PmI},Pmi表示正向文本中第m類中的第i個詞向量,I表示所述正向文本中第m類詞向量的總數;1≤m≤M,1≤i≤I;

      中性文本中的所有詞向量被聚類為N類,用Q={Q1,Q2,…,Qn,…,QN}表示,其中Qn表示中性文本中的第n類,并有,Qn={Qn1,Qn2,…,Qnj,…,QnJ},Qnj表示中性文本中第n類中的第j個詞向量,J表示中性文本中第n類詞向量的總數;1≤n≤N,1≤j≤J;

      負向文本中的所有詞向量被聚類為K類,用R={R1,R2,…,Rk,…,RK}表示,其中Rk表示負向文本中的第k類,并有,Rk={Rk1,Rk2,…,Rkl,…,RkL},Rkl表示負向文本中第k類中的第l個詞向量,L表示負向文本中第i類詞向量的總數;1≤k≤K,1≤l≤L;

      本實施例中,聚類方法采用K-means聚類算法,三類文本的最大聚類類別均設置為100類;詞向量所具有的特點:在同一向量空間中,詞義越相近的詞,詞向量越接近,根據這個特點,經過聚類后的詞語,基本能使得具有相同詞性、詞義的詞被聚為一類;

      步驟3.6:利用式(1)、式(2)和式(3)分別獲得樣本語料中正向文本、中性文本和負向文本的各聚類結果的類中心點Center[Pm]、Center[Qn]和Center[Rk]:

      由于步驟3.5已經基本是的具有相同詞性、詞義的詞被聚為一類,此時使用各類中心點便能很好地代表該類,這樣簡化了后面的計算;聚類類別的設置應當合適,太大會使得類別分得過細致,導致過擬合的發(fā)生,太小會使得類別之間的劃分不明確,對后面的分類形成誤導;

      步驟3.7:計算樣本語料和待識別語料的文本內容中的所有詞向量分別到所述類中心點Center[Pm]、Center[Qn]和Center[Rk]的歐式距離,并將每個詞向量分別到類中心點Center[Pm]、Center[Qn]和Center[Rk]的歐式距離組成一個M+N+K維的詞距離向量,從而獲得所有詞向量的詞距離向量,并將每句對話的所有詞向量的詞距離向量相加求平均值得到每句對話的句向量,再將每一段語音內容的所有對話的句向量組成一個矩陣,得到樣本語料中每一段語音內容的文本內容的深層詞級特征;

      步驟4:將樣本語料和待識別語料中每一段語音內容的文本內容利用句向量工具訓練,得到每一段語音內容的文本內容中每句對話的句向量,將一段語音內容的文本內容中的所有對話的句向量組成一個矩陣,得到樣本語料和待識別語料中每一段語音內容的文本內容的深層句級特征;將深層詞級特征和深層句級特征作為文本深層特征;本實施例中,采用深度學習的gensim開源的Python工具包,里面對于句向量處理方法的sen2vec,同時將設置訓練的到100維的句子特征向量,訓練參數為默認參數選擇;由于需要保證句向量的訓練在同一向量空間完成,故需要將樣本語料和待識別語料共同進行訓練;采用句向量特征是為了獲取更大粒度的上下文特征,作為詞級特征的必要補充,因為詞級特征會丟掉全局特征,但句向量特征可以作為必要的補充,便于抓住句級的上下文特征;

      步驟5:根據時間標簽將樣本語料和待識別語料中的每句對話語音切分出來;

      步驟6:利用聲學特征提取工具對切分后的每句對話語音的每一幀,分別進行維度均為的音強、響度、基頻和濁音度的聲學特征提取,得到4N維聲學特征;本實施例中,采用OpenSMILE語音特征提取工具實現(xiàn)聲學特征提取工作,它是一個用于信號處理和機器學習的特征提取器,具有高速高效的特點,擁有靈活的體系結構;OpenSMILE軟件最基礎的功能可用于語音信號特征的提取,是一種以命令行運行的而非圖形界面的操作軟件,通過配置config文件音頻進行特征提取,可以根據需求配置不同的config文件提取不同的特征信息;

      步驟7:將4N維聲學特征進行聲學二次變換,得到8N維聲學特征;

      步驟8:將8N維聲學特征中的每一維聲學特征分別提取M種統(tǒng)計量,得到8N×M維聲學特征;

      步驟9:每句對話語音共有X幀,得到8N×M×X維聲學特征為每句對話語音的聲學特征,然后將一段語音內容的每句對話語音的聲學特征組合成一個矩陣,得到樣本語料和待識別語料中每一段語音內容的聲學特征;

      步驟10:將文本深層特征和聲學特征進行線性拼接和歸一化處理,獲得每段對話語音的融合特征;線性拼接是最基礎的融合方法,有的研究使用的加權相加,但是由于在本系統(tǒng)中,每段語音內容的側重點并不一樣,有些語音內容的文本特征更為重要,有些語音內容的聲學特征更為重要,權值的大小無法統(tǒng)一給定,故沒有采用這一種方法;

      步驟11:將樣本語料中的每一段對話語音內容的綜合特征,和相對應的情感極性分別作為線性回歸模型、邏輯回歸模型和支持向量機模型的輸入,并對線性回歸模型、邏輯回歸模型和支持向量機模型進行訓練,得到三種情感分析模型;對于線性回歸算法,其對于樣本預測的結果為該樣本特征的邊緣概率,而非直接的預測分類結果,對于其結果需要人工干涉選擇分類,即對回歸的閾值進行設定,例如進行二分類時選擇0.5為閾值,則對于所有邊緣概率小于0.5的為一類,概率大于0.5的屬于另一類;邏輯回歸模型是在線性回歸算法的基礎上,套用了一個邏輯函數;支持向量機模型訓練的關鍵問題是選擇核函數的類型(LINEAR線性核與RBF徑向基核),RBF徑向基核是局部性強的核函數,LINEAR線性核函數具有良好的全局性,其局部性較多;本實施例中,要解決單句情感分析問題,考慮到該樣本特征由不同模特特征組合而成(此類別分類問題并不一定可用超平面分離),從全局性和泛化能力角度考慮,經過試驗選擇LINEAR線性核作為支持向量機模型的核函數。

      步驟12:將待識別語料中的融合特征分別輸入三種情感分析模型中,得到三種識別結果,通過大多數分類投票法從三種識別結果中最終決策出待識別語料的情感極性;情感極性包括:正向、中性和負向;因為采用的是三種情感分析模型,故通過投票最后一定可以得出待識別語料的情感極性。

      當前第1頁1 2 3 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1