国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      情感標識的辨識方法和情感標識的辨識系統(tǒng)與流程

      文檔序號:12034575閱讀:393來源:國知局
      情感標識的辨識方法和情感標識的辨識系統(tǒng)與流程

      本發(fā)明涉及語義辨識技術(shù)領(lǐng)域,具體而言,涉及一種情感標識的辨識方法和一種情感標識的辨識系統(tǒng)。



      背景技術(shù):

      隨著互聯(lián)網(wǎng)的飛速發(fā)展,社交網(wǎng)絡(luò)和電子商務(wù)日益融入人們生活。網(wǎng)絡(luò)空間上隨處可見對公眾人物、熱點事件、網(wǎng)購商品和影視作品等等的評論言論。通常這些評論的文本長度較短,口語化,且?guī)в袕娏业膫€人情感色彩。通常文本情感傾向分析技術(shù)依賴領(lǐng)域情感詞典,情感詞庫的構(gòu)建是文本情感分析任務(wù)的一個重要環(huán)節(jié)。在豐富、完善的情感詞表基礎(chǔ)上,可對文本中的觀點、立場以及情感傾向進行識別、分類、提煉、整合、追蹤和分析研究。

      相關(guān)技術(shù)中,雖然存在一些通用的情感詞庫,但是情感標識(如詞語和表情符號等)具有很強的領(lǐng)域相關(guān)性。例如,一個詞語的褒貶傾向并不是在所有領(lǐng)域都是一致的,一個情感詞庫也不可能涵蓋所有領(lǐng)域。不同領(lǐng)域的情感標識有明顯的差異。例如,在表達上網(wǎng)的網(wǎng)速時“快”是正面評價詞,而在表達手機電池使用時間時“快”是負面評價詞。因此,詞語在領(lǐng)域內(nèi)的褒貶傾向鮮明更為重要。一般依據(jù)規(guī)范書面語通過專家知識得到的通用情感詞詞典很難適用于復(fù)雜的互聯(lián)網(wǎng)環(huán)境。

      另外,通過手工構(gòu)建情感詞詞典需要大量的人工干預(yù)和人工判斷,存在較大的隨意性和主觀性。無法及時收錄最新的網(wǎng)絡(luò)流行語,而且缺乏不同領(lǐng)域之間的移植性,不能由機器自動遷移到其他領(lǐng)域,無法考慮詞語的領(lǐng)域?qū)傩?,不能從問題領(lǐng)域角度考慮詞的情感傾向,具有一定的局限性。

      因此,如何提高情感標識的辨識的準確性成為亟待解決的技術(shù)問題。



      技術(shù)實現(xiàn)要素:

      本發(fā)明正是基于上述技術(shù)問題至少之一,提出了一種新的情感標識的辨識方案,通過根據(jù)情感標識的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,針對不同文本語境對情感標識進行識別,適用于多種互聯(lián)網(wǎng)社交平臺。

      有鑒于此,根據(jù)本發(fā)明的第一方面的實施例,提出了一種情感標識的辨識方法,包括:根據(jù)情感標識的使用頻率確定種子詞和種子詞對應(yīng)的文本集合;在對應(yīng)的文本集合中確定候選詞語;根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識。

      在該技術(shù)方案中,通過根據(jù)情感標識的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,針對不同文本語境對情感標識進行識別,適用于多種互聯(lián)網(wǎng)社交平臺。

      其中,結(jié)合種子詞的文本集合的語境,考慮候選詞語在上述文本集合中出現(xiàn)的概率,例如,候選詞語在種子詞的相鄰位置出現(xiàn)的概率,更能反映候選詞語與種子詞的相關(guān)性。

      在上述技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識,具體包括以下步驟:將種子詞記作s,同時將候選詞語記作w,確定文本集合中的種子詞的相鄰文本段落;計算候選詞語屬于相鄰文本段落的條件概率,并記作p(w|s);計算候選詞語屬于文本集合的概率,并記作p(w),并將候選詞語出現(xiàn)在文本集合的次數(shù)記作k;根據(jù)第一公式計算候選詞語的依賴性系數(shù),依賴性系數(shù)記作m(w,s),其中,第一公式為確定依賴性系數(shù)大于零的候選詞語,以確定為參考情感詞語,并根據(jù)依賴性系數(shù)從大到小的順序?qū)⒖记楦性~語進行排序。

      在該技術(shù)方案中,通過計算種子詞的依賴性系數(shù),確定依賴性系數(shù)大于零即確定p(w|s)大于p(w),對候選詞語進行進一步地篩選,并且根據(jù)依賴性系數(shù)從大到小的順序?qū)⒖记楦性~語進行排序,更利于快速地確定 情感標識的語義特性。

      在上述任一項技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識,具體還包括以下步驟:創(chuàng)建參考情感詞語的二維矩陣,二維矩陣的行對應(yīng)于參考情感詞語向量或種子詞向量,二維矩陣的列對應(yīng)于文本集合的向量;確定二維矩陣的特征值,二維矩陣的左特征向量矩陣和右特征向量矩陣,以及二維矩陣的特征值組成的對角矩陣;根據(jù)左特征向量矩陣、右特征向量矩陣、對角矩陣和第二公式計算二維矩陣的低秩近似矩陣,其中,第二公式為c=u×∑×vt,c表征低秩近似矩陣,u表征左特征向量矩陣,vt表征右特征向量矩陣,∑表征特征值組成的對角矩陣。

      在該技術(shù)方案中,通過創(chuàng)建參考情感詞語的二維矩陣,并進一步地確定二維矩陣的低秩相似矩陣,減小了計算量,有利于進一步地快速計算參考候選詞語和種子詞的相關(guān)性。

      在上述任一項技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識,具體還包括以下步驟:根據(jù)第三公式分別對參考情感詞語和種子詞進行空間變化處理,以變換至語義空間進行識別,其中,第三公式為x為w時,t(w)表征參考情感詞語在語義空間中的向量表示,x為s時,t(s)表征種子詞在語義空間中的向量表示,表征參考情感詞語向量的轉(zhuǎn)置向量或種子詞向量的轉(zhuǎn)置向量,u表征左特征向量矩陣,∑-1表征對角矩陣的逆矩陣。

      在該技術(shù)方案中,考慮詞之間的語義關(guān)聯(lián)特征,從隱含語義分析(latentsemanticsanalysis)的角度,為衡量情感種子詞s和候選詞語w在低維語義空間的相似度,需要把文本集合從原始詞空間映射到語義空間。假設(shè)文本集合經(jīng)去噪、分詞、得到詞-文檔(term-document)矩陣c(行表示某個詞,列表示某篇文檔),那么該矩陣奇異值分解(singularvaluedecomposition)得到c=u×∑×vt,其中矩陣u和v是矩陣c的左右奇異值特征矩陣,∑是對角元為奇異值的對角矩陣。當(dāng)取奇異值最大的前k個元素時,∑k是對角元為奇異值的對角矩陣,uk和vk矩陣的列為奇 異值對應(yīng)的特征向量矩陣,得到矩陣c的低秩近似為ck=uk×∑k×vkt

      在上述任一項技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識,具體還包括以下步驟:根據(jù)第四公式計算參考情感詞語與種子詞的相關(guān)性系數(shù),其中,第四公式為r(w,s)=t(w)t×t(s),t(w)t表征t(w)的轉(zhuǎn)置矩陣,r(w,s)表征相關(guān)性系數(shù)。

      在該技術(shù)方案中,通過計算參考情感詞語與種子詞的相關(guān)系系數(shù),參考情感詞語的相關(guān)語義直觀地轉(zhuǎn)換為相關(guān)性系數(shù),以供服務(wù)器根據(jù)相關(guān)系系數(shù)閾值進行語義辨識,另外,還可以將相關(guān)性系數(shù)生成列表提示給服務(wù)器維護人員,以進一步地進行人工篩選,以循環(huán)生成新的種子詞。

      根據(jù)本發(fā)明的第二方面的實施例,提出了一種情感標識的辨識系統(tǒng),包括:確定單元,用于根據(jù)情感標識的使用頻率確定種子詞和種子詞對應(yīng)的文本集合;確定單元還用于:在對應(yīng)的文本集合中確定候選詞語;確定單元還用于:根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識。

      在該技術(shù)方案中,通過根據(jù)情感標識的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,針對不同文本語境對情感標識進行識別,適用于多種互聯(lián)網(wǎng)社交平臺。

      其中,結(jié)合種子詞的文本集合的語境,考慮候選詞語在上述文本集合中出現(xiàn)的概率,例如,候選詞語在種子詞的相鄰位置出現(xiàn)的概率,更能反映候選詞語與種子詞的相關(guān)性。

      在上述技術(shù)方案中,優(yōu)選地,確定單元還用于:將種子詞記作s,同時將候選詞語記作w,確定文本集合中的種子詞的相鄰文本段落;確定單元還用于:計算候選詞語屬于相鄰文本段落的條件概率,并記作p(w|s);確定單元還用于:計算候選詞語屬于文本集合的概率,并記作p(w),并將候選詞語出現(xiàn)在文本集合的次數(shù)記作k;確定單元還用于:根據(jù)第一公式計算候選詞語的依賴性系數(shù),依賴性系數(shù)記作m(w,s),其中,第一公式為確定單元還用于:確定依賴性系數(shù)大于零的候選詞語,以確定為參考情感詞語,并根據(jù)依賴性系數(shù)從大到小的順 序?qū)⒖记楦性~語進行排序。

      在該技術(shù)方案中,通過計算種子詞的依賴性系數(shù),確定依賴性系數(shù)大于零即確定p(w|s)大于p(w),對候選詞語進行進一步地篩選,并且根據(jù)依賴性系數(shù)從大到小的順序?qū)⒖记楦性~語進行排序,更利于快速地確定情感標識的語義特性。

      在上述任一項技術(shù)方案中,優(yōu)選地,還包括:創(chuàng)建單元,用于創(chuàng)建參考情感詞語的二維矩陣,二維矩陣的行對應(yīng)于參考情感詞語向量或種子詞向量,二維矩陣的列對應(yīng)于文本集合的向量;確定單元還用于:確定二維矩陣的特征值,二維矩陣的左特征向量矩陣和右特征向量矩陣,以及二維矩陣的特征值組成的對角矩陣;確定單元還用于:根據(jù)左特征向量矩陣、右特征向量矩陣、對角矩陣和第二公式計算二維矩陣的低秩近似矩陣,其中,第二公式為c=u×∑×vt,c表征低秩近似矩陣,u表征左特征向量矩陣,vt表征右特征向量矩陣,∑表征特征值組成的對角矩陣。

      在該技術(shù)方案中,通過創(chuàng)建參考情感詞語的二維矩陣,并進一步地確定二維矩陣的低秩相似矩陣,減小了計算量,有利于進一步地快速計算參考候選詞語和種子詞的相關(guān)性。

      在上述任一項技術(shù)方案中,優(yōu)選地,還包括:空間變化單元,用于根據(jù)第三公式分別對參考情感詞語和種子詞進行空間變化處理,以變換至語義空間進行識別,其中,第三公式為x為w時,t(w)表征參考情感詞語在語義空間中的向量表示,x為s時,t(s)表征種子詞在語義空間中的向量表示,表征參考情感詞語向量的轉(zhuǎn)置向量或種子詞向量的轉(zhuǎn)置向量,u表征左特征向量矩陣,∑-1表征對角矩陣的逆矩陣。

      在該技術(shù)方案中,考慮詞之間的語義關(guān)聯(lián)特征,從隱含語義分析(latentsemanticsanalysis)的角度,為衡量情感種子詞s和候選詞語w在低維語義空間的相似度,需要把文本集合從原始詞空間映射到語義空間。假設(shè)文本集合經(jīng)去噪、分詞、得到詞-文檔(term-document)矩陣c(行表示某個詞,列表示某篇文檔),那么該矩陣奇異值分解(singularvaluedecomposition)得到c=u×∑×vt,其中矩陣u和v是矩陣c的左 右奇異值特征矩陣,∑是對角元為奇異值的對角矩陣。當(dāng)取奇異值最大的前k個元素時,∑k是對角元為奇異值的對角矩陣,uk和vk矩陣的列為奇異值對應(yīng)的特征向量矩陣,得到矩陣c的低秩近似為ck=uk×∑k×vkt。

      在上述任一項技術(shù)方案中,優(yōu)選地,確定單元還用于:根據(jù)第四公式計算參考情感詞語與種子詞的相關(guān)性系數(shù),其中,第四公式為r(w,s)=t(w)t×t(s),t(w)t表征t(w)的轉(zhuǎn)置矩陣,r(w,s)表征相關(guān)性系數(shù)。

      在該技術(shù)方案中,通過計算參考情感詞語與種子詞的相關(guān)系系數(shù),參考情感詞語的相關(guān)語義直觀地轉(zhuǎn)換為相關(guān)性系數(shù),以供服務(wù)器根據(jù)相關(guān)系系數(shù)閾值進行語義辨識,另外,還可以將相關(guān)性系數(shù)生成列表提示給服務(wù)器維護人員,以進一步地進行人工篩選,以循環(huán)生成新的種子詞。

      通過以上技術(shù)方案,通過根據(jù)情感標識的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,針對不同文本語境對情感標識進行識別,適用于多種互聯(lián)網(wǎng)社交平臺。

      附圖說明

      圖1示出了根據(jù)本發(fā)明的一個實施例的情感標識的辨識方法的示意流程圖;

      圖2示出了根據(jù)本發(fā)明的一個實施例的情感標識的辨識系統(tǒng)的示意框圖;

      圖3示出了根據(jù)本發(fā)明的另一個實施例的情感標識的辨識系統(tǒng)的示意框圖;

      圖4示出了根據(jù)本發(fā)明的另一個實施例的情感標識的辨識方法的示意流程圖。

      具體實施方式

      為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結(jié)合附圖和具體實施方式對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。

      在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是, 本發(fā)明還可以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。

      圖1示出了根據(jù)本發(fā)明的實施例的情感標識的辨識方法的示意流程圖。

      如圖1所示,根據(jù)本發(fā)明的實施例的情感標識的辨識方法,包括:步驟102,根據(jù)情感標識的使用頻率確定種子詞和種子詞對應(yīng)的文本集合;步驟104,在對應(yīng)的文本集合中確定候選詞語;步驟106,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識。

      在該技術(shù)方案中,通過根據(jù)情感標識的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,針對不同文本語境對情感標識進行識別,適用于多種互聯(lián)網(wǎng)社交平臺。

      其中,結(jié)合種子詞的文本集合的語境,考慮候選詞語在上述文本集合中出現(xiàn)的概率,例如,候選詞語在種子詞的相鄰位置出現(xiàn)的概率,更能反映候選詞語與種子詞的相關(guān)性。

      在上述技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識,具體包括以下步驟:將種子詞記作s,同時將候選詞語記作w,確定文本集合中的種子詞的相鄰文本段落;計算候選詞語屬于相鄰文本段落的條件概率,并記作p(w|s);計算候選詞語屬于文本集合的概率,并記作p(w),并將候選詞語出現(xiàn)在文本集合的次數(shù)記作k;根據(jù)第一公式計算候選詞語的依賴性系數(shù),依賴性系數(shù)記作m(w,s),其中,第一公式為確定依賴性系數(shù)大于零的候選詞語,以確定為參考情感詞語,并根據(jù)依賴性系數(shù)從大到小的順序?qū)⒖记楦性~語進行排序。

      在該技術(shù)方案中,通過計算種子詞的依賴性系數(shù),確定依賴性系數(shù)大于零即確定p(w|s)大于p(w),對候選詞語進行進一步地篩選,并且根據(jù)依賴性系數(shù)從大到小的順序?qū)⒖记楦性~語進行排序,更利于快速地確定情感標識的語義特性。

      在上述任一項技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識,具體還包括以下步驟:創(chuàng)建參考情感詞語的二維矩陣,二維矩陣的行對應(yīng)于參考情感詞語向量或種子詞向量,二維矩陣的列對應(yīng)于文本集合的向量;確定二維矩陣的特征值,二維矩陣的左特征向量矩陣和右特征向量矩陣,以及二維矩陣的特征值組成的對角矩陣;根據(jù)左特征向量矩陣、右特征向量矩陣、對角矩陣和第二公式計算二維矩陣的低秩近似矩陣,其中,第二公式為c=u×∑×vt,c表征低秩近似矩陣,u表征左特征向量矩陣,vt表征右特征向量矩陣,∑表征特征值組成的對角矩陣。

      在該技術(shù)方案中,通過創(chuàng)建參考情感詞語的二維矩陣,并進一步地確定二維矩陣的低秩相似矩陣,減小了計算量,有利于進一步地快速計算參考候選詞語和種子詞的相關(guān)性。

      在上述任一項技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識,具體還包括以下步驟:根據(jù)第三公式分別對參考情感詞語和種子詞進行空間變化處理,以變換至語義空間進行識別,其中,第三公式為x為w時,t(w)表征參考情感詞語在語義空間中的向量表示,x為s時,t(s)表征種子詞在語義空間中的向量表示,表征參考情感詞語向量的轉(zhuǎn)置向量或種子詞向量的轉(zhuǎn)置向量,u表征左特征向量矩陣,∑-1表征對角矩陣的逆矩陣。

      在該技術(shù)方案中,考慮詞之間的語義關(guān)聯(lián)特征,從隱含語義分析(latentsemanticsanalysis)的角度,為衡量情感種子詞s和候選詞語w在低維語義空間的相似度,需要把文本集合從原始詞空間映射到語義空間。假設(shè)文本集合經(jīng)去噪、分詞、得到詞-文檔(term-document)矩陣c(行表示某個詞,列表示某篇文檔),那么該矩陣奇異值分解(singularvaluedecomposition)得到c=u×∑×vt,其中矩陣u和v是矩陣c的左右奇異值特征矩陣,∑是對角元為奇異值的對角矩陣。當(dāng)取奇異值最大的前k個元素時,∑k是對角元為奇異值的對角矩陣,uk和vk矩陣的列為奇異值對應(yīng)的特征向量矩陣,得到矩陣c的低秩近似為ck=uk×∑k×vkt

      在上述任一項技術(shù)方案中,優(yōu)選地,根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識,具體還包括以下步驟:根據(jù)第四公式計算參考情感詞語與種子詞的相關(guān)性系數(shù),其中,第四公式為r(w,s)=t(w)t×t(s),t(w)t表征t(w)的轉(zhuǎn)置矩陣,r(w,s)表征相關(guān)性系數(shù)。

      在該技術(shù)方案中,通過計算參考情感詞語與種子詞的相關(guān)系系數(shù),參考情感詞語的相關(guān)語義直觀地轉(zhuǎn)換為相關(guān)性系數(shù),以供服務(wù)器根據(jù)相關(guān)系系數(shù)閾值進行語義辨識,另外,還可以將相關(guān)性系數(shù)生成列表提示給服務(wù)器維護人員,以進一步地進行人工篩選,以循環(huán)生成新的種子詞。

      圖2示出了根據(jù)本發(fā)明的一個實施例的情感標識的辨識系統(tǒng)的示意框圖。

      如圖2所示,根據(jù)本發(fā)明的一個實施例的情感標識的辨識系統(tǒng)200,包括:確定單元202,用于根據(jù)情感標識的使用頻率確定種子詞和種子詞對應(yīng)的文本集合;確定單元202還用于:在對應(yīng)的文本集合中確定候選詞語;確定單元202還用于:根據(jù)預(yù)設(shè)的似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,以根據(jù)相關(guān)性數(shù)值確定候選詞語對應(yīng)的情感標識。

      在該技術(shù)方案中,通過根據(jù)情感標識的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,針對不同文本語境對情感標識進行識別,適用于多種互聯(lián)網(wǎng)社交平臺。

      其中,結(jié)合種子詞的文本集合的語境,考慮候選詞語在上述文本集合中出現(xiàn)的概率,例如,候選詞語在種子詞的相鄰位置出現(xiàn)的概率,更能反映候選詞語與種子詞的相關(guān)性。

      在上述技術(shù)方案中,優(yōu)選地,確定單元202還用于:將種子詞記作s,同時將候選詞語記作w,確定文本集合中的種子詞的相鄰文本段落;確定單元202還用于:計算候選詞語屬于相鄰文本段落的條件概率,并記作p(w|s);確定單元202還用于:計算候選詞語屬于文本集合的概率,并記作p(w),并將候選詞語出現(xiàn)在文本集合的次數(shù)記作k;確定單元202還用于:根據(jù)第一公式計算候選詞語的依賴性系數(shù),依賴性系數(shù)記作m(w,s),其中,第一公式為確定單元202還 用于:確定依賴性系數(shù)大于零的候選詞語,以確定為參考情感詞語,并根據(jù)依賴性系數(shù)從大到小的順序?qū)⒖记楦性~語進行排序。

      在該技術(shù)方案中,通過計算種子詞的依賴性系數(shù),確定依賴性系數(shù)大于零即確定p(w|s)大于p(w),對候選詞語進行進一步地篩選,并且根據(jù)依賴性系數(shù)從大到小的順序?qū)⒖记楦性~語進行排序,更利于快速地確定情感標識的語義特性。

      在上述任一項技術(shù)方案中,優(yōu)選地,還包括:創(chuàng)建單元204,用于創(chuàng)建參考情感詞語的二維矩陣,二維矩陣的行對應(yīng)于參考情感詞語向量或種子詞向量,二維矩陣的列對應(yīng)于文本集合的向量;確定單元202還用于:確定二維矩陣的特征值,二維矩陣的左特征向量矩陣和右特征向量矩陣,以及二維矩陣的特征值組成的對角矩陣;確定單元202還用于:根據(jù)左特征向量矩陣、右特征向量矩陣、對角矩陣和第二公式計算二維矩陣的低秩近似矩陣,其中,第二公式為c=u×∑×vt,c表征低秩近似矩陣,u表征左特征向量矩陣,vt表征右特征向量矩陣,∑表征特征值組成的對角矩陣。

      在該技術(shù)方案中,通過創(chuàng)建參考情感詞語的二維矩陣,并進一步地確定二維矩陣的低秩相似矩陣,減小了計算量,有利于進一步地快速計算參考候選詞語和種子詞的相關(guān)性。

      在上述任一項技術(shù)方案中,優(yōu)選地,還包括:空間變化單元206,用于根據(jù)第三公式分別對參考情感詞語和種子詞進行空間變化處理,以變換至語義空間進行識別,其中,第三公式為x為w時,t(w)表征參考情感詞語在語義空間中的向量表示,x為s時,t(s)表征種子詞在語義空間中的向量表示,表征參考情感詞語向量的轉(zhuǎn)置向量或種子詞向量的轉(zhuǎn)置向量,u表征左特征向量矩陣,∑-1表征對角矩陣的逆矩陣。

      在該技術(shù)方案中,考慮詞之間的語義關(guān)聯(lián)特征,從隱含語義分析(latentsemanticsanalysis)的角度,為衡量情感種子詞s和候選詞語w在低維語義空間的相似度,需要把文本集合從原始詞空間映射到語義空間。假設(shè)文本集合經(jīng)去噪、分詞、得到詞-文檔(term-document)矩陣c (行表示某個詞,列表示某篇文檔),那么該矩陣奇異值分解(singularvaluedecomposition)得到c=u×∑×vt,其中矩陣u和v是矩陣c的左右奇異值特征矩陣,∑是對角元為奇異值的對角矩陣。當(dāng)取奇異值最大的前k個元素時,σk是對角元為奇異值的對角矩陣,uk和vk矩陣的列為奇異值對應(yīng)的特征向量矩陣,得到矩陣c的低秩近似為ck=uk×σk×vkt

      在上述任一項技術(shù)方案中,優(yōu)選地,確定單元202還用于:根據(jù)第四公式計算參考情感詞語與種子詞的相關(guān)性系數(shù),其中,第四公式為r(w,s)=t(w)t×t(s),t(w)t表征t(w)的轉(zhuǎn)置矩陣,r(w,s)表征相關(guān)性系數(shù)。

      在該技術(shù)方案中,通過計算參考情感詞語與種子詞的相關(guān)系系數(shù),參考情感詞語的相關(guān)語義直觀地轉(zhuǎn)換為相關(guān)性系數(shù),以供服務(wù)器根據(jù)相關(guān)系系數(shù)閾值進行語義辨識,另外,還可以將相關(guān)性系數(shù)生成列表提示給服務(wù)器維護人員,以進一步地進行人工篩選,以循環(huán)生成新的種子詞。

      圖3示出了根據(jù)本發(fā)明的另一個實施例的情感標識的辨識系統(tǒng)的示意框圖。

      如圖3所示,根據(jù)本發(fā)明的另一個實施例的情感標識的辨識系統(tǒng)300,包括:文本采集模塊302、種子詞生成模塊304、情感詞擴展模塊306和人工校驗?zāi)K308。

      (1)文本采集模塊302用于:確定特定領(lǐng)域,也即文本情感分析的應(yīng)用領(lǐng)域,比如網(wǎng)民購買商品后的評論、網(wǎng)民對社會民生事件的評論等等。確定領(lǐng)域之后,通過網(wǎng)絡(luò)爬蟲對特定領(lǐng)域相關(guān)的評論文本進行定向采集。

      例如,對于商品評論內(nèi)容,因為評論通常集中在某些固定的購物網(wǎng)站,可以采集某一段時間段某一類商品的所有評論。對于網(wǎng)絡(luò)輿情事件,如微博等社交網(wǎng)絡(luò)上的討論和評論內(nèi)容,由于社交網(wǎng)絡(luò)數(shù)據(jù)大,內(nèi)容紛繁復(fù)雜且噪音多,可采用在某一段時間內(nèi)由關(guān)鍵詞詞組定義的某一類事件過濾出事件相關(guān)的微博文本。

      (2)情感種子詞生成模塊304用于:分析領(lǐng)域相關(guān)評論文本中具有強烈感情色彩的詞匯。情感種子詞是在領(lǐng)域內(nèi)有明確的褒貶傾向,而且是較為常用的詞。有些詞的情感傾向非常明確,但與領(lǐng)域的相關(guān)度很低,被 使用的概率比較低,那么這些詞的敏感度就會降低,可能與絕大多數(shù)詞的語義相似度都較小。比如,“溫文爾雅”是個正面的詞,屬于成語,偏書面用,但在商品評論里幾乎不會有人使用這個詞。

      生成情感種子詞的文本集合,首先通過特定領(lǐng)域的文本采集模塊302得到特定領(lǐng)域語料庫,經(jīng)過去噪、去重、分詞和詞性標注等處理,統(tǒng)計其中高頻的形容詞和副詞,如果是社交媒體文本,情感標識還包括表情符號。候選詞匯作為潛在的種子詞,需要對候選詞匯諸如形容詞、副詞、以及表情符號按詞頻降序排列。如果是商品評論并且有商品的打分數(shù)據(jù),可進一步根據(jù)詞所對應(yīng)文本的打分得到情感詞的極性。最后,對長度不超過100的高頻修飾詞表,經(jīng)人工干預(yù)的手段,挑選種子詞,并標記其情感極性。

      (3)候情感詞擴展模塊306用于:利用大規(guī)模的無標注的文本集合,結(jié)合情感種子詞,通過分析不同詞之間的統(tǒng)計特征、語義關(guān)聯(lián)特征實現(xiàn)情感詞的擴展。

      (4)人工校驗?zāi)K308用于:對情感種子詞的候選詞、擴展得到的情感詞列表進行人工校驗。需要指出的是此處的人工校驗是針對已經(jīng)排序的候選列表,通常比較正確的情感詞都出現(xiàn)在列表中排名靠前,所以所需的人工篩選工作量是極少的。

      由于領(lǐng)域情感詞數(shù)目有限,不同的情感種子詞擴展出的情感詞存在交叉重復(fù)的可能,可以利用這一特性,在遍歷不同種子詞的擴展集時,自動排除已經(jīng)通過人工審核的詞,這樣進一步減少人工干預(yù)的程度。

      情感詞擴展集審核去重:假設(shè)情感種子詞集合為{si},經(jīng)上述算法自動得到情感詞擴展集合t1,再經(jīng)人工校驗得到情感詞集r1;s2經(jīng)上述算法自動得到情感詞擴展集合t1,從中扣除已知情感詞,只需對(t1-r1)集合進行人工校驗,得到t2,依次類推。

      圖4示出了根據(jù)本發(fā)明的另一個實施例的情感標識的辨識方法的示意流程圖。

      如圖4所示,根據(jù)本發(fā)明的另一個實施例的情感標識的辨識方法,包括:步驟402,根據(jù)情感標識所在領(lǐng)域確定文本集合,對文本集合進行去 噪和分詞等預(yù)處理,并進行詞頻統(tǒng)計和詞性標注,經(jīng)過人工干預(yù)得到種子詞;步驟404,特征統(tǒng)計步驟406,語義統(tǒng)計;步驟408,候選情感詞列表,經(jīng)過人工干預(yù)篩選得到該領(lǐng)域內(nèi)的情感詞。

      以上結(jié)合附圖詳細說明了本發(fā)明的技術(shù)方案,考慮到如何提高情感標識的辨識的準確性成的技術(shù)問題。因此,本發(fā)明提出了一種新的情感標識的辨識方案,通過根據(jù)情感標識的使用頻率確定種子詞及其文本集合,并根據(jù)似然比模型確定候選詞語與種子詞的相關(guān)性數(shù)值,針對不同文本語境對情感標識進行識別,適用于多種互聯(lián)網(wǎng)社交平臺。

      以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1