国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      微博情感分類器的構(gòu)建方法及構(gòu)建裝置與流程

      文檔序號:12271301閱讀:271來源:國知局
      微博情感分類器的構(gòu)建方法及構(gòu)建裝置與流程

      本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種微博情感分類器的構(gòu)建方法及構(gòu)建裝置。



      背景技術(shù):

      構(gòu)建情感分類器是根據(jù)機器學習任務(wù)中的一個重要組成部分,其中監(jiān)督學習方法更是在構(gòu)建情感分類器的相關(guān)研究中廣泛應(yīng)用,其基本思想是利用相應(yīng)的帶有情感信息的數(shù)據(jù)和情感標簽,訓練和優(yōu)化分類器模型的參數(shù),最終利用訓練好的模型對沒有情感標簽的數(shù)據(jù)進行分類,預(yù)測其情感類別。

      相關(guān)技術(shù)中,一般利用單一維度的情感信息對分類器進行訓練,不但魯棒性和準確率得不到保證,而且構(gòu)建成本高,并且效率低,有待改進。



      技術(shù)實現(xiàn)要素:

      本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。

      為此,本發(fā)明的一個目的在于提出一種微博情感分類器的構(gòu)建方法,該方法可以提高分類器的魯棒性和準確率,簡單易實現(xiàn)。

      本發(fā)明的另一個目的在于提出一種微博情感分類器的構(gòu)建裝置。

      為達到上述目的,本發(fā)明一方面實施例提出了一種微博情感分類器的構(gòu)建方法,包括以下步驟:S1,獲取多條微博數(shù)據(jù),其中,所述微博數(shù)據(jù)包括微博文本與所述微博文本中的表情符;S2,對所述微博文本進行分詞得到詞語集合,其中,所述詞語集合中的每個詞語攜帶微博文本情感傾向的基本原子信息;S3,根據(jù)海量無標注的微博文本數(shù)據(jù)得到詞語-詞語情感關(guān)聯(lián)關(guān)系;S4,根據(jù)所述海量無標注的微博文本數(shù)據(jù)得到詞語-情感關(guān)聯(lián)關(guān)系;S5,對預(yù)設(shè)數(shù)量的微博文本數(shù)據(jù)進行人工標注,以賦予情感標簽得到有標注的微博情感數(shù)據(jù)集;S6,將所述詞語-詞語情感關(guān)聯(lián)關(guān)系、所述詞語-情感關(guān)聯(lián)關(guān)系和所述有標注的微博情感數(shù)據(jù)集融合得到多源異構(gòu)情感信息,并建立數(shù)學模型,以得到微博情感分類器。

      本發(fā)明實施例的微博情感分類器的構(gòu)建方法,通過詞語-詞語情感關(guān)聯(lián)關(guān)系、詞語-情感關(guān)聯(lián)關(guān)系和有標注的微博情感數(shù)據(jù)集融合得到多源異構(gòu)情感信息,從而基于多源異構(gòu)情感信息得到微博情感分類器,可以對微博消息所表達的情感傾向性進行分類,實現(xiàn)自動將微博文本分類為“表達正向情感信息”、“表達負向情感信息”以及“表達中性情感信息”三個類中的一類,提高了分類器的魯棒性和準確率,成本低,簡單易實現(xiàn)。

      另外,根據(jù)本發(fā)明上述實施例的微博情感分類器的構(gòu)建方法還可以具有以下附加的技術(shù)特征:

      進一步地,在本發(fā)明的一個實施例中,在所述S6中,具體包括:在建立所述數(shù)據(jù)模型之后,通過數(shù)學優(yōu)化選法對所述數(shù)學模型進行優(yōu)化得到微博情感分類器的參數(shù),進而得到所述微博情感分類器。

      進一步地,在本發(fā)明的一個實施例中,在所述S4中,通過尋找無標注的微博文本中的詞語與詞語之間的聯(lián)系,以確定詞語之間的情感關(guān)聯(lián)性,進而獲取所述詞語-情感關(guān)聯(lián)關(guān)系。

      進一步地,在本發(fā)明的一個實施例中,在所述S5中,將所述預(yù)設(shè)數(shù)量的微博文本中的表情符作為微博情感傾向的偽標簽,進而將所述表情符所表達的情感信息映射至對應(yīng)的詞語中,以建立所述表情符相關(guān)的詞語與表情符所表達情感的聯(lián)系,進而獲取所述有標注的微博情感數(shù)據(jù)集。

      另外,在本發(fā)明的一個實施例中,還包括:S7,輸出所述微博情感分類器。

      為達到上述目的,本發(fā)明另一方面實施例提出了一種微博情感分類器的構(gòu)建裝置,包括:數(shù)據(jù)獲取模塊,用于獲取多條微博數(shù)據(jù),其中,所述微博數(shù)據(jù)包括微博文本與所述微博文本中的表情符;分詞模塊,用于對所述微博文本進行分詞得到詞語集合,其中,所述詞語集合中的每個詞語攜帶微博文本情感傾向的基本原子信息;關(guān)系獲取模塊,用于根據(jù)海量無標注的微博文本數(shù)據(jù)得到詞語-詞語情感關(guān)聯(lián)關(guān)系,并且根據(jù)所述海量無標注的微博文本數(shù)據(jù)得到詞語-情感關(guān)聯(lián)關(guān)系;標注模塊,用于對預(yù)設(shè)數(shù)量的微博文本數(shù)據(jù)進行人工標注,以賦予情感標簽得到有標注的微博情感數(shù)據(jù)集;分類器構(gòu)建模塊,用于將所述詞語-詞語情感關(guān)聯(lián)關(guān)系、所述詞語-情感關(guān)聯(lián)關(guān)系和所述有標注的微博情感數(shù)據(jù)集融合得到多源異構(gòu)情感信息,并建立數(shù)學模型,以得到微博情感分類器。

      本發(fā)明實施例的微博情感分類器的構(gòu)建裝置,通過詞語-詞語情感關(guān)聯(lián)關(guān)系、詞語-情感關(guān)聯(lián)關(guān)系和有標注的微博情感數(shù)據(jù)集融合得到多源異構(gòu)情感信息,從而基于多源異構(gòu)情感信息得到微博情感分類器,可以對微博消息所表達的情感傾向性進行分類,實現(xiàn)自動將微博文本分類為“表達正向情感信息”、“表達負向情感信息”以及“表達中性情感信息”三個類中的一類,提高了分類器的魯棒性和準確率,成本低,簡單易實現(xiàn)。

      另外,根據(jù)本發(fā)明上述實施例的微博情感分類器的構(gòu)建裝置還可以具有以下附加的技術(shù)特征:

      進一步地,在本發(fā)明的一個實施例中,在建立所述數(shù)據(jù)模型之后,所述分類器構(gòu)建模塊通過數(shù)學優(yōu)化選法對所述數(shù)學模型進行優(yōu)化得到微博情感分類器的參數(shù),進而得到所述微博情感分類器。

      進一步地,在本發(fā)明的一個實施例中,所述關(guān)系獲取模塊還用于通過尋找無標注的微博文本中的詞語與詞語之間的聯(lián)系,以確定詞語之間的情感關(guān)聯(lián)性,進而獲取所述詞語-情感關(guān)聯(lián)關(guān)系。

      進一步地,在本發(fā)明的一個實施例中,所述標注模塊還用于將所述預(yù)設(shè)數(shù)量的微博文本中的表情符作為微博情感傾向的偽標簽,進而將所述表情符所表達的情感信息映射至對應(yīng)的詞語中,以建立所述表情符相關(guān)的詞語與表情符所表達情感的聯(lián)系,進而獲取所述有標注的微博情感數(shù)據(jù)集。

      另外,在本發(fā)明的一個實施例中,上述構(gòu)建裝置還包括:輸出模塊,用于輸出所述微博情感分類器。

      本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。

      附圖說明

      本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:

      圖1為根據(jù)本發(fā)明實施例的微博情感分類器的構(gòu)建方法的流程圖;

      圖2為根據(jù)本發(fā)明一個實施例的微博情感分類器的構(gòu)建方法的流程圖;

      圖3為根據(jù)本發(fā)明實施例的微博情感分類器的構(gòu)建裝置的結(jié)構(gòu)示意圖。

      具體實施方式

      下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。

      下面參照附圖描述根據(jù)本發(fā)明實施例提出的微博情感分類器的構(gòu)建方法及構(gòu)建裝置,首先將參照附圖描述根據(jù)本發(fā)明實施例提出的微博情感分類器的構(gòu)建方法。

      圖1是本發(fā)明實施例的微博情感分類器的構(gòu)建方法的流程圖。

      如圖1所示,該微博情感分類器的構(gòu)建方法包括以下步驟:

      在步驟S1中,獲取多條微博數(shù)據(jù),其中,微博數(shù)據(jù)包括微博文本與微博文本中的表情符。

      簡言之,首先獲取微博數(shù)據(jù),其中,微博數(shù)據(jù)包括微博文本及其中的表情符。

      在步驟S2中,對微博文本進行分詞得到詞語集合,其中,詞語集合中的每個詞語攜帶微博文本情感傾向的基本原子信息。

      可以理解的是,對每一條微博消息,將其中的文本進行詞分割操作,得到的詞語集合中的每個詞語攜帶了微博文本情感傾向的基本原子信息。

      在步驟S3中,根據(jù)海量無標注的微博文本數(shù)據(jù)得到詞語-詞語情感關(guān)聯(lián)關(guān)系。即言,基于海量無標注的微博文本數(shù)據(jù),計算詞語-詞語情感關(guān)聯(lián)關(guān)系。

      在步驟S4中,根據(jù)海量無標注的微博文本數(shù)據(jù)得到詞語-情感關(guān)聯(lián)關(guān)系。即言,基于海量無標注的包含表情符的微博文本數(shù)據(jù),計算詞語-情感關(guān)聯(lián)關(guān)系。

      在本發(fā)明的一個實施例中,在S4中,通過尋找無標注的微博文本中的詞語與詞語之間的聯(lián)系,以確定詞語之間的情感關(guān)聯(lián)性,進而獲取詞語-情感關(guān)聯(lián)關(guān)系。

      在步驟S5中,對預(yù)設(shè)數(shù)量的微博文本數(shù)據(jù)進行人工標注,以賦予情感標簽得到有標注的微博情感數(shù)據(jù)集。

      需要說明的是,預(yù)設(shè)數(shù)量可以根據(jù)實際情況進行設(shè)置。其中,對一定數(shù)量的微博文本數(shù)據(jù)進行人工標注,賦予其情感標簽,得到有標注的微博情感數(shù)據(jù)集。

      在本發(fā)明的一個實施例中,在S5中,將預(yù)設(shè)數(shù)量的微博文本中的表情符作為微博情感傾向的偽標簽,進而將表情符所表達的情感信息映射至對應(yīng)的詞語中,以建立表情符相關(guān)的詞語與表情符所表達情感的聯(lián)系,進而獲取有標注的微博情感數(shù)據(jù)集。

      在步驟S6中,將詞語-詞語情感關(guān)聯(lián)關(guān)系、詞語-情感關(guān)聯(lián)關(guān)系和有標注的微博情感數(shù)據(jù)集融合得到多源異構(gòu)情感信息,并建立數(shù)學模型,以得到微博情感分類器。

      其中,在本發(fā)明的一個實施例中,在S6中,具體包括:在建立數(shù)據(jù)模型之后,通過數(shù)學優(yōu)化選法對數(shù)學模型進行優(yōu)化得到微博情感分類器的參數(shù),進而得到微博情感分類器。

      也就是說,融合上述步驟提取的多源異構(gòu)的情感信息,建立數(shù)學模型,利用數(shù)學優(yōu)化算法對模型進行優(yōu)化,從而得到微博情感分類器。具體地,在S6中,將S3、S4和S5中分別獲取的三種多源異構(gòu)情感信息融合,建立統(tǒng)一的數(shù)學優(yōu)化模型,并提出對應(yīng)優(yōu)化方法,從而通過對模型的優(yōu)化最終構(gòu)建微博情感分類器。

      具體而言,將多源異構(gòu)的情感信息融合到統(tǒng)一的模型中,通過對該模型的優(yōu)化可以實現(xiàn)同時對這些多源異構(gòu)情感信息的提取,從而訓練出來的模型有更高的魯棒性和準確率,而且更多的利用了非監(jiān)督學習的方法(不需要情感標簽),因此總體上只需要利用少量的帶有情感標簽的微博文本即可完成情感分類器的構(gòu)建,考慮到微博文本的情感標簽都是人工標注的,是一項非常耗費時間成本的資源,因此,本方法在成本上具有較低的開銷。

      可以理解的是,本發(fā)明實施例的構(gòu)建方法充分利用少量人工標注后有情感標簽的微博數(shù)據(jù)以及大量容易獲取得到的無情感標簽的微博數(shù)據(jù),充分挖掘這些數(shù)據(jù)的知識,并融合于統(tǒng)一的數(shù)學優(yōu)化模型中,并且相對于傳統(tǒng)方法的結(jié)果,該方法構(gòu)建的微博情感分類器具有較高的準確性和魯棒性,以及較低的人工標注成本,在社交媒體數(shù)據(jù)的挖掘和分析中具有重要的應(yīng)用。

      進一步地,在本發(fā)明的一個實施例中,還包括:S7,輸出微博情感分類器。

      在本發(fā)明的實施例中,可以基于多源異構(gòu)情感信息融合得到微博情感分類器,可以對微博消息所表達的情感傾向性進行分類,將對應(yīng)的微博消息分到“表達正向情感信息”、“表達負向情感信息”以及“表達中性情感信息”三類中。具體地,首先獲取微博文本,包括文本中的文字及表情符,其次利用海量無標注的微博文本找到詞語與詞語之間的關(guān)聯(lián)關(guān)系以及詞語與表情符之間的關(guān)聯(lián)關(guān)系,并且標注少量微博文本,賦予其情感標簽,并利用該有標注數(shù)據(jù)找到詞語與情感標簽的關(guān)聯(lián)關(guān)系,最后融合以上三部分的異構(gòu)情感信息數(shù)據(jù),建立統(tǒng)一的數(shù)學模型,通過對模型的優(yōu)化獲得微博情感分類器的參數(shù),獲得最終的微博情感分類器。本發(fā)明實施例構(gòu)建的微博情感分類器能夠自動將微博文本分類為“表達正向情感信息”、“表達負向情感信息”以及“表達中性情感信息”三個類中的一類,對觀點挖掘、情感分析、商品口碑調(diào)查、社會計算等領(lǐng)域具有一定意義。

      下面結(jié)合圖2以一個具體實施例對本發(fā)明實施例的微博情感分類器的構(gòu)建方法的工作原理進行詳細贅述。

      在本發(fā)明的一個具體實施例中,如圖2所示,本發(fā)明實施例的構(gòu)建方法包括以下步驟:

      步驟S101:獲取微博數(shù)據(jù),其中,微博數(shù)據(jù)包括微博文本及其中的表情符。其中,基于一些加工過的數(shù)據(jù)集得到少量人工標注的帶有情感標簽的微博文本數(shù)據(jù)集,得到微博數(shù)據(jù)集合記為A,其中每一項包括微博文本Ai以及對應(yīng)的情感標簽Si{+1,-1,0}。此外利用網(wǎng)絡(luò)爬蟲技術(shù)直接從新浪微博網(wǎng)站中獲取大量微博原始文本,對其進行簡單的預(yù)處理夠得到大量無情感標簽標注的微博文本數(shù)據(jù)集,得到微博數(shù)據(jù)集合記為B,其中B中包括文本中對應(yīng)的表情符。

      步驟S102:首先對有情感標簽微博文本集合A中的文本進行詞分割,利用現(xiàn)有的分詞工具處理微博文本消息,將文本表示為基本詞語的集合,每一個詞語攜帶了微博文本情感傾向的基本原子信息。將詞語集合記為W。對于原始微博文本的有無情感標簽屬性,有A、B集合分詞得到的詞語集合對應(yīng)為WA和WB。

      步驟S103:基于無情感標簽標注的數(shù)據(jù)的文本,尋找詞語與詞語之間的聯(lián)系,計算詞語-詞語關(guān)聯(lián)關(guān)系得分。具體方法如下:首先基于步驟S102中得到的微博消息,假設(shè)其每一個語句段中的每一項Di表達了一個基本情感信息,并且其中的所有詞語都對這個情感信息做出了貢獻,因此可以解釋詞語-詞語關(guān)聯(lián)關(guān)系為:如果兩個詞語頻繁地共同出現(xiàn)于同一個微博微博消息中,則這兩個詞語表達了相同的情感信息。

      根據(jù)無情感標簽標注的微博文本集合B分詞得到的詞語集合WB,利用PMI(Pointwise Mutual Information,點互信息理論),計算WB中任意兩個詞語的詞語-詞語關(guān)聯(lián)關(guān)系得分wwscore,方法如下:

      其中,p(wordi)表示詞語wordi出現(xiàn)的次數(shù),p(wordi,wordj)表示詞語wordi和詞語wordj共同出現(xiàn)于同一條微博消息中的次數(shù)。

      詞語-詞語關(guān)聯(lián)關(guān)系得分表示了兩個詞語的統(tǒng)計情感關(guān)聯(lián)性,該得分越高,則這兩個詞語在語義表達上越相關(guān)。

      步驟S104:基于無標注的數(shù)據(jù)的文本之間的詞語與表情符之間的聯(lián)系,尋找詞語與情感之間的聯(lián)系,計算詞語-情感關(guān)聯(lián)關(guān)系得分;微博用戶在發(fā)布微博消息的時候傾向于使用大量的表情符,這些表情符在一定意義上直接反應(yīng)了用戶的情感,因此表情符與用戶所發(fā)布在微博文本在情感上具有較強的聯(lián)系,可以將表情符看作是有噪聲的偽情感標簽。因此可以通過對表情符的先驗知識,通過建立表情符與相應(yīng)文本詞語的聯(lián)系,可以提取詞語的情感信息。

      具體方法可以如下:首先基于步驟S102中得到的微博消息(由無情感標簽標注的微博文本集合B得到),假設(shè)其每一個語句段中的每一項Di表達了一個基本情感信息,提取微博消息中的表情符,如果其中包含的表情符全是正向的(例如“:)”),則該微博消息標記為正向情感;如果其中包含的表情符全是負向的(例如“:(”),則該微博消息標記為負向情感;如果未包含任何表情符或是同時包含了正向和負向的表情符,則在此步驟中舍棄該微博消息。

      根據(jù)無情感標簽標注的微博文本集合B分詞得到的詞語集合WB,統(tǒng)計每一個詞語wordi出現(xiàn)在正向和負向微博消息中出現(xiàn)的次數(shù),記為和所有詞組成的詞典中的詞語個數(shù)為D,據(jù)此計算每個詞語的詞語-情感關(guān)聯(lián)關(guān)系得分wsscore,方法如下:

      詞語-情感關(guān)聯(lián)關(guān)系得分表示了一個詞語的情感傾向性,該得分>0時,表示該詞語表達了正向的情感;該得分<0時,表示該詞語表達了負向的情感;該得分=0時,表示該詞語表達了中性的情感。并且詞語-情感關(guān)聯(lián)關(guān)系得分的絕對值越大,表示該詞語攜帶的情感越強。

      步驟S105:人工標定一部分微博數(shù)據(jù),得到微博情感數(shù)據(jù)集。帶有情感標簽標注的微博文本是具有很高的情感分析價值的,其由人工標定出微博消息所表達的情感信息,一般來說該情感信息是比較可靠和準確的。因此根據(jù)此標簽建立的標簽與微博文本之間的聯(lián)系,可以對詞語提供更加可靠的詞語情感信息,然而,對微博文本進行情感標簽標注是一項耗時巨大的過程,因此有情感標簽標注的微博文本數(shù)量相對于沒有情感標簽標注的微博文本的數(shù)量是很少的。這也是為什么本方法中采用多源異構(gòu)信息源的信息功能構(gòu)建情感分類器的原因之一。

      根據(jù)微博情感數(shù)據(jù)集提供的信息,建立的損失函數(shù)表示如下:

      其中,y表示情感標簽的量化值{-1,0,+1}分別表示{負向,中性,正向},x表示輸入樣本的特征向量(該方法中將每一個詞語作為一個特征維度,特征值為對應(yīng)詞語的出現(xiàn)次數(shù)),w表示輸入樣本的每一個特征(詞語)的對應(yīng)權(quán)重(對應(yīng)情感得分)。損失函數(shù)衡量了輸入樣本通過分類器得到的結(jié)果wTx與原始標定結(jié)果y的偏差程度,損失函數(shù)的函數(shù)值越小,則說明分類器越準確。

      步驟S106:融合以上步驟提取到的多源異構(gòu)的情感信息,建立數(shù)學優(yōu)化模型,并通過對模型進行優(yōu)化來訓練微博情感分類器;在步驟S104,步驟S105,步驟S106中分別提取了三種不同的文本上下文知識;在這一步中通過建立統(tǒng)一的模型對三種不同源的異構(gòu)情感信息進行融合,建立統(tǒng)一的數(shù)學優(yōu)化模型。利用數(shù)學優(yōu)化算法最小化分類損失函數(shù),即對模型進行優(yōu)化訓練,通過該步驟找出每一個詞語的最終情感得分wi,建立詞語情感得分矩陣w,作為最終微博情感分類器的模型參數(shù)。

      首先,為了融合這些多源異構(gòu)情感知識,首先需要對各個文本上下文知識進行統(tǒng)一的表述,方式可以如下:

      1.對于詞語-詞語關(guān)聯(lián)關(guān)系部分。首先對于任意一個關(guān)聯(lián)關(guān)系得分wwscore(wordi,wordj),稱wordi,wordj為一項詞語對。設(shè)定閾值t1,濾除wwscore(wordi,wordj)<t1的對應(yīng)的詞語對,對于剩下關(guān)聯(lián)關(guān)系較強的詞語對。對于任意兩個詞語的詞語-詞語關(guān)聯(lián)關(guān)系得分,建立詞語關(guān)聯(lián)關(guān)系矩陣A,矩陣A的每一行表示一個項詞語對,每一列表示一個詞語,當且僅當?shù)趎項詞語對的關(guān)聯(lián)關(guān)系得分wwscore(wordi,wordj)≥t1時,矩陣A的第n行的第i列的值為1,第n行的第i列的值為-1,第n行其余列的值為0。則該部分子模型可建立為||Aw||,最終子模型也可以表示為

      2.對于詞語-情感關(guān)聯(lián)關(guān)系部分。每一個詞語對應(yīng)詞語情感得分矩陣w中的一個維度,設(shè)定閾值t2,對于詞語情感得分矩陣的每一個詞語,當其詞語-情感關(guān)聯(lián)關(guān)系得分wsscore(wordi)≥t2,參數(shù)pi=1;當scorews(wordi)≤-t2,參數(shù)pi=-1;否則參數(shù)pi=0;最后將所有的參數(shù)pi(i=1,2,3……)構(gòu)建成詞語-情感關(guān)聯(lián)關(guān)系矩陣P。則該部分子模型可建立為||w-P||2。

      3.對于有情感標簽標注的微博文本,建立微博-情感標簽關(guān)系模型,如步驟S106中所述,該模型表示可以如下:

      最終,基于對以上三個文本上下文知識統(tǒng)一表示建模,將這些多源異構(gòu)情感信息統(tǒng)一建立一個統(tǒng)一的模型可以如下:

      其中,w表示各個詞語的情感得分矩陣;N是有情感標簽標注的文本的數(shù)量;y表示情感標簽的量化值{-1,0,+1}分別表示{負向,中性,正向};x表示輸入樣本的特征向量;A表示詞語關(guān)聯(lián)關(guān)系矩陣,P表示詞語-情感關(guān)聯(lián)關(guān)系矩陣。α、β、λ1、λ2是該模型中各項的非負參數(shù)。

      前三項分別表示之前步驟中所提取的三種不同的文本上下文知識,后兩項是對模型主要參數(shù)w的約束項,防止參數(shù)矩陣w過擬合,同時保證矩陣w的稀疏性,這樣做能保證最終情感分類器模型的準確性及魯棒性。

      該模型可以采用迭代的方法進行優(yōu)化,最終可以通過優(yōu)化如下問題:

      argminwL,

      可以得到情感得分矩陣w的最優(yōu)參數(shù),該矩陣中的各項wi作為對應(yīng)詞語的最終情感得分用于構(gòu)建最終的微博情感分類器。

      步驟S107:輸出最終的微博情感分類器。

      根據(jù)步驟S107中得到的情感得分矩陣w,構(gòu)建最終的微博情感分類器可以如表1所示。

      表1

      其中t為情感極性判別閾值。文本特征向量x的每一個維度對應(yīng)情感得分矩陣w的每一個維度,及特征向量x的每一個維度表示一個詞語,其值為該詞語的對應(yīng)微博文本中出現(xiàn)的次數(shù)。

      綜上,根據(jù)本發(fā)明實施例的基于多源異構(gòu)情感信息融合的微博情感分類器設(shè)計方法,該方法利用無情感標簽標注的微博文本找到詞語-詞語關(guān)聯(lián)關(guān)系以及詞語-表情符關(guān)聯(lián)關(guān)系;同時利用有情感標簽標注的微博文本找到詞語-情感標簽的關(guān)聯(lián)關(guān)系;最后融合上述三類從微博文本中提取的異構(gòu)的文本上下文知識,建立統(tǒng)一的數(shù)學優(yōu)化模型,通過對模型的優(yōu)化獲得微博情感分類器的參數(shù),最終建立微博情感分類器。該方法相對于傳統(tǒng)方法,考慮了文本多維度的情感信息并將其融合至統(tǒng)一的模型中,最終該方法得到的情感分類器具有更高的分類準確性,在社交媒體數(shù)據(jù)的挖掘和分析中具有重要的應(yīng)用。

      根據(jù)本發(fā)明實施例的微博情感分類器的構(gòu)建方法,基于大量無情感標簽的微博文本,提取了兩種文本上下文知識,分別是:詞語-詞語關(guān)聯(lián)關(guān)系及詞語-情感關(guān)聯(lián)關(guān)系,同時根據(jù)已經(jīng)標注了情感標簽的微博文本所提供的微博情感信息,將以上三種文本上下文知識融合至一個統(tǒng)一的模型中,通過對模型的優(yōu)化訓練微博情感分類器的各個參數(shù),最終輸出微博情感分類器,可以對微博消息所表達的情感傾向性進行分類,實現(xiàn)自動將微博文本分類為“表達正向情感信息”、“表達負向情感信息”以及“表達中性情感信息”三個類中的一類,提高了分類器的魯棒性和準確率,成本低,簡單易實現(xiàn)。

      其次參照附圖描述根據(jù)本發(fā)明實施例提出的微博情感分類器的構(gòu)建裝置。

      圖3是本發(fā)明實施例的微博情感分類器的構(gòu)建裝置的結(jié)構(gòu)示意圖。

      如圖3所示,該微博情感分類器的構(gòu)建裝置10包括:數(shù)據(jù)獲取模塊100、分詞模塊200、關(guān)系獲取模塊300、標注模塊400和分類器構(gòu)建模塊500。

      其中,數(shù)據(jù)獲取模塊100用于獲取多條微博數(shù)據(jù),其中,微博數(shù)據(jù)包括微博文本與微博文本中的表情符。分詞模塊200用于對微博文本進行分詞得到詞語集合,其中,詞語集合中的每個詞語攜帶微博文本情感傾向的基本原子信息。關(guān)系獲取模塊300用于根據(jù)海量無標注的微博文本數(shù)據(jù)得到詞語-詞語情感關(guān)聯(lián)關(guān)系,并且根據(jù)海量無標注的微博文本數(shù)據(jù)得到詞語-情感關(guān)聯(lián)關(guān)系。標注模塊400用于對預(yù)設(shè)數(shù)量的微博文本數(shù)據(jù)進行人工標注,以賦予情感標簽得到有標注的微博情感數(shù)據(jù)集。分類器構(gòu)建模塊500用于將詞語-詞語情感關(guān)聯(lián)關(guān)系、詞語-情感關(guān)聯(lián)關(guān)系和有標注的微博情感數(shù)據(jù)集融合得到多源異構(gòu)情感信息,并建立數(shù)學模型,以得到微博情感分類器。本發(fā)明實施例的構(gòu)建裝置10可以通過融合多源異構(gòu)情感信息得到微博情感分類器,從而對微博消息所表達的情感傾向性進行分類,提高了分類器的魯棒性和準確率,成本低,簡單易實現(xiàn)。

      進一步地,在本發(fā)明的一個實施例中,在建立數(shù)據(jù)模型之后,分類器構(gòu)建模塊500通過數(shù)學優(yōu)化選法對數(shù)學模型進行優(yōu)化得到微博情感分類器的參數(shù),進而得到微博情感分類器。

      進一步地,在本發(fā)明的一個實施例中,關(guān)系獲取模塊300還用于通過尋找無標注的微博文本中的詞語與詞語之間的聯(lián)系,以確定詞語之間的情感關(guān)聯(lián)性,進而獲取詞語-情感關(guān)聯(lián)關(guān)系。

      進一步地,在本發(fā)明的一個實施例中,標注模塊400還用于將預(yù)設(shè)數(shù)量的微博文本中的表情符作為微博情感傾向的偽標簽,進而將表情符所表達的情感信息映射至對應(yīng)的詞語中,以建立表情符相關(guān)的詞語與表情符所表達情感的聯(lián)系,進而獲取有標注的微博情感數(shù)據(jù)集。

      另外,在本發(fā)明的一個實施例中,本發(fā)明實施例的構(gòu)建裝置10還包括:輸出模塊。其中,輸出模塊用于輸出微博情感分類器。

      需要說明的是,前述對微博情感分類器的構(gòu)建方法實施例的解釋說明也適用于該實施例的微博情感分類器的構(gòu)建裝置,此處不再贅述。

      根據(jù)本發(fā)明實施例的微博情感分類器的構(gòu)建裝置,基于大量無情感標簽的微博文本,提取了兩種文本上下文知識,分別是:詞語-詞語關(guān)聯(lián)關(guān)系及詞語-情感關(guān)聯(lián)關(guān)系,同時根據(jù)已經(jīng)標注了情感標簽的微博文本所提供的微博情感信息,將以上三種文本上下文知識融合至一個統(tǒng)一的模型中,通過對模型的優(yōu)化訓練微博情感分類器的各個參數(shù),最終輸出微博情感分類器,可以對微博消息所表達的情感傾向性進行分類,實現(xiàn)自動將微博文本分類為“表達正向情感信息”、“表達負向情感信息”以及“表達中性情感信息”三個類中的一類,提高了分類器的魯棒性和準確率,成本低,簡單易實現(xiàn)。

      在本發(fā)明的描述中,需要理解的是,術(shù)語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”“內(nèi)”、“外”、“順時針”、“逆時針”、“軸向”、“徑向”、“周向”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。

      此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。

      在本發(fā)明中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”、“固定”等術(shù)語應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或成一體;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通或兩個元件的相互作用關(guān)系,除非另有明確的限定。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。

      在本發(fā)明中,除非另有明確的規(guī)定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接觸,或第一和第二特征通過中間媒介間接接觸。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或僅僅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或僅僅表示第一特征水平高度小于第二特征。

      在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結(jié)合和組合。

      盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。

      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1