互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法及系統(tǒng)的制作方法
【專利摘要】一種互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法及系統(tǒng),其包括:從互聯(lián)網(wǎng)上獲取互聯(lián)網(wǎng)文本語(yǔ)料;對(duì)所獲取的文本語(yǔ)料進(jìn)行數(shù)據(jù)預(yù)處理以得到情感詞典的候選詞;從所獲取的文本語(yǔ)料提取新詞以得到情感詞典的候選詞;利用所得到的情感詞典的候選詞來(lái)構(gòu)建無(wú)向圖模型;利用無(wú)向圖模型及標(biāo)簽傳播算法迭代計(jì)算無(wú)向圖中每個(gè)節(jié)點(diǎn)的多種情感得分以構(gòu)建情感詞典,本發(fā)明采用不同種子詞可構(gòu)造不同情緒的情感詞典,使情感識(shí)別的結(jié)果更加豐富。
【專利說(shuō)明】互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)信息智能處理領(lǐng)域,特別是涉及利用互聯(lián)網(wǎng)文本中表現(xiàn)出的情感情緒來(lái)構(gòu)造情感詞典的方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,社會(huì)媒體大量涌現(xiàn)。社會(huì)媒體以互聯(lián)網(wǎng)為媒介,為用戶提供分享意見(jiàn)、經(jīng)驗(yàn)的交流平臺(tái),匯集了大量的用戶所產(chǎn)生內(nèi)容,直接反映人們的情緒、觀點(diǎn)及興趣愛(ài)好。社會(huì)媒體中的文本內(nèi)容包括博客、微博客、論壇討論、產(chǎn)品評(píng)論等,是用戶表達(dá)個(gè)人情感的載體,對(duì)社會(huì)輿情、品牌聲譽(yù)、產(chǎn)品評(píng)價(jià)等有很大影響。因此,針對(duì)這些媒體的文本情感分析技術(shù)成為近年的熱點(diǎn)問(wèn)題。文本情感分析這項(xiàng)計(jì)算機(jī)技術(shù),是對(duì)一段文本所表達(dá)的情感傾向進(jìn)行識(shí)別。理論上人在文本中的情感表達(dá)是十分復(fù)雜的,除了肯定(褒)與反對(duì)(貶)外,還可能表達(dá)喜悅、憤怒、悲哀、恐懼、驚訝等情緒。但目前計(jì)算語(yǔ)言學(xué)的相關(guān)研究一般將情感傾向劃分為褒義和貶義,有時(shí)也包括中性或混合等等。這種程度的簡(jiǎn)化在一定程度上可滿足人們的需要,具有廣闊的應(yīng)用前景。
[0003]因此,識(shí)別文本中體現(xiàn)的用戶情感,成為網(wǎng)絡(luò)信息領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),在商業(yè)、政治、社會(huì)事件中起到重要作用。例如,在電子商務(wù)網(wǎng)站的產(chǎn)品評(píng)論中,通過(guò)自動(dòng)識(shí)別出消費(fèi)者對(duì)產(chǎn)品、甚至對(duì)產(chǎn)品的每個(gè)屬性是贊賞還是批評(píng),可以影響其他消費(fèi)者做出適合自己的購(gòu)買行為,也可使產(chǎn)品制造商發(fā)現(xiàn)產(chǎn)品的優(yōu)勢(shì)和不足,以促進(jìn)其改進(jìn);電影評(píng)論網(wǎng)站,觀影者對(duì)電影的劇情、演員、攝影等各個(gè)因素給出評(píng)價(jià),如用自動(dòng)方法識(shí)別出其褒貶傾向,則可對(duì)一部電影的觀眾反映作出全面的了解;商業(yè)中,群體用戶對(duì)某一品牌或商品評(píng)價(jià)形成的口碑,是商家重視的用戶信息之一,用戶口口相傳的評(píng)價(jià),會(huì)對(duì)商家的聲譽(yù)造成影響,商家則可以通過(guò)在互聯(lián)網(wǎng)媒體中進(jìn)行營(yíng)銷,擴(kuò)大產(chǎn)品的影響,誘導(dǎo)用戶的消費(fèi)行為;通過(guò)捕捉微博中與某一行業(yè)相關(guān)的熱門話題,分析其情感趨勢(shì),可對(duì)股票的走勢(shì)進(jìn)行預(yù)測(cè);在許多政治事件中,網(wǎng)民利用互聯(lián)網(wǎng)作為信息傳遞和消息發(fā)布的平臺(tái),如許多國(guó)家選舉時(shí)的選民傾向、不同陣營(yíng)均在微博中有所反映,因此研究者利用相關(guān)的微博進(jìn)行事先預(yù)測(cè)或事后分析,探討網(wǎng)絡(luò)民意對(duì)選舉的影響。
[0004]社會(huì)媒體文本與傳統(tǒng)媒體文本的突出不同就是語(yǔ)言不規(guī)范、用詞自由。傳統(tǒng)的自然語(yǔ)言處理方法通常對(duì)文本進(jìn)行語(yǔ)法分析,依賴于語(yǔ)言學(xué)知識(shí)。但對(duì)于社會(huì)媒體文本,由于其文本表達(dá)未必規(guī)范、合乎語(yǔ)法,傳統(tǒng)分析方法的準(zhǔn)確性大大降低。又如一些用戶造出的新詞,是傳統(tǒng)的詞典里所沒(méi)有的(即“未登錄詞”),或者詞語(yǔ)含義發(fā)生很大變化,這使得傳統(tǒng)方法的應(yīng)用受到很大限制。
[0005]文本情感分析的識(shí)別結(jié)果通常是褒義、貶義等類別,因此文本情感分析可以采用機(jī)器學(xué)習(xí)的方法,作為分類任務(wù)完成。在前述商品評(píng)論或電影評(píng)論網(wǎng)站中,用戶在評(píng)論的同時(shí)通常配有評(píng)分,此分?jǐn)?shù)可作為評(píng)論文本情感程度的打分,即對(duì)評(píng)論文本的標(biāo)注,因此這些評(píng)論及評(píng)分可以作為訓(xùn)練語(yǔ)料,用于有監(jiān)督機(jī)器學(xué)習(xí)過(guò)程。這些方法均以詞匯(一元組)作為特征,結(jié)合分類器(如樸素貝葉斯模型、最大熵模型、支持向量機(jī)模型等)完成有監(jiān)督的訓(xùn)練和測(cè)試。如果缺乏充足的訓(xùn)練語(yǔ)料,有監(jiān)督學(xué)習(xí)方法則失去了用武之地。對(duì)于微博這種數(shù)量龐大的互聯(lián)網(wǎng)文本,采用人工只能標(biāo)注很少的微博文本,其適用領(lǐng)域與規(guī)模受到限制。仿照評(píng)論網(wǎng)站的打分分值作為分類標(biāo)簽,在微博中可以假設(shè)文本中的表情符號(hào)(如笑臉?lè)啊被蚩弈樂(lè)氨硎酒淝楦袃A向,即用該符號(hào)的出現(xiàn)作為分類標(biāo)簽進(jìn)行訓(xùn)練。但這些表情符號(hào)作為分類標(biāo)簽往往存在噪聲,而且受到符號(hào)變形、種類的限制。因此,基于有監(jiān)督學(xué)習(xí)的情感分類受到很大制約,而基于情感詞典的無(wú)監(jiān)督學(xué)習(xí)方法仍然起到舉足輕重的作用。
[0006]情感詞典是指一個(gè)包含情感詞語(yǔ)及其情感傾向的詞典。這些情感詞語(yǔ)通常以形容詞為主,在文字中表達(dá)明確的情感傾向,例如“好”、“壞”;“高興”、“悲傷”等。在現(xiàn)實(shí)中,人工構(gòu)建情感詞典受到成本和規(guī)模的限制,不適于推廣。而從文本語(yǔ)料中,可以利用文本的特點(diǎn)自動(dòng)構(gòu)建情感詞典。這種自動(dòng)方式通常從一個(gè)小規(guī)模的情感詞種子集(或規(guī)則)出發(fā),之后利用詞語(yǔ)間的相互聯(lián)系,逐漸擴(kuò)大集合,計(jì)算出更多的詞語(yǔ)的情感傾向。自動(dòng)構(gòu)建情感詞典的過(guò)程主要面臨如下問(wèn)題:
[0007]候選情感詞的選取:情感詞多數(shù)是形容詞,因此通常只將形容詞作為候選的情感詞。對(duì)于稍復(fù)雜的情形,則可利用規(guī)則提取出更豐富的情感詞或情感短語(yǔ)。
[0008]度量詞匯關(guān)系:為從小規(guī)模情感種子詞(簡(jiǎn)稱種子詞)擴(kuò)散到大規(guī)模的詞語(yǔ),詞匯關(guān)系應(yīng)反映它們之間的情感聯(lián)系。這些聯(lián)系一般包括:同現(xiàn)關(guān)系,這是由于褒義詞會(huì)更多地和褒義詞共同出現(xiàn),貶義詞會(huì)更多地和貶義詞同現(xiàn),因此句子中的同現(xiàn)關(guān)系可將詞語(yǔ)之間建立聯(lián)系;或者采用句子中由連詞(“與”、“和”、“但”)建立的關(guān)系,這種方式雖然數(shù)量遠(yuǎn)不如前者,但質(zhì)量更高;更深層次的則為語(yǔ)義關(guān)系,如利用WordNet的同義詞、反義詞關(guān)系等。
[0009]情感傾向的傳播:詞語(yǔ)和它們之間的聯(lián)系構(gòu)成了一張圖,需要以適當(dāng)?shù)挠?jì)算方法將種子詞的情感傾向得分傳播到更多的詞匯。例如,以同義、反義關(guān)系構(gòu)建的圖,可根據(jù)這些邊的類型,將相同極性的詞語(yǔ)聚類;以互信息(point-wise mutual information,PMlH+算新詞與已有詞的關(guān)系。在基于圖的模型中,亦可采用圖傳播(graph propagation)或標(biāo)簽傳播(label propagation)等方式完成。
[0010]這些問(wèn)題表明,使用情感詞典進(jìn)行情感分析的方法雖然避免了訓(xùn)練語(yǔ)料這一瓶頸,但情感詞典本身的構(gòu)建十分重要。如果情感詞典的規(guī)模小,則會(huì)遺漏很多情感詞,無(wú)法識(shí)別文本的情感傾向,特別是對(duì)于一些短文本,更不易命中情感詞;如果情感詞典的質(zhì)量不高,也會(huì)造成情感分析結(jié)果的錯(cuò)誤。
【發(fā)明內(nèi)容】
[0011]鑒于以上內(nèi)容,有必要提供一種互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法及系統(tǒng),其利用一些文本表達(dá)情感的基本單元(如詞語(yǔ)、符號(hào)等)在互聯(lián)網(wǎng)文本中的同現(xiàn)關(guān)系,結(jié)合新詞發(fā)現(xiàn)的方法,通過(guò)迭代傳播方式自動(dòng)構(gòu)造情感詞典。
[0012]一種互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,該方法包括:獲取步驟,從互聯(lián)網(wǎng)上獲取互聯(lián)網(wǎng)文本語(yǔ)料;數(shù)據(jù)預(yù)處理步驟,對(duì)所獲取的文本語(yǔ)料進(jìn)行數(shù)據(jù)預(yù)處理以得到情感詞典的候選詞;提取新詞步驟,從所獲取的文本語(yǔ)料提取新詞以得到情感詞典的候選詞;構(gòu)建圖模型步驟,利用所得到的情感詞典的候選詞來(lái)構(gòu)建無(wú)向圖模型;迭代計(jì)算步驟,利用無(wú)向圖模型及標(biāo)簽傳播算法迭代計(jì)算無(wú)向圖中每個(gè)節(jié)點(diǎn)的多種情感得分以構(gòu)建情感詞典。[0013]一種互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),該系統(tǒng)包括:獲取模塊,用于從互聯(lián)網(wǎng)上獲取互聯(lián)網(wǎng)文本語(yǔ)料;數(shù)據(jù)預(yù)處理模塊,用于對(duì)所獲取的文本語(yǔ)料進(jìn)行數(shù)據(jù)預(yù)處理以得到情感詞典的候選詞;提取新詞模塊,用于從所獲取的文本語(yǔ)料提取新詞以得到情感詞典的候選詞;構(gòu)建圖模型模塊,用于利用所得到的情感詞典的候選詞來(lái)構(gòu)建無(wú)向圖模型;迭代計(jì)算模塊,用于利用無(wú)向圖模型及標(biāo)簽傳播算法迭代計(jì)算無(wú)向圖中每個(gè)節(jié)點(diǎn)的多種情感得分以構(gòu)建情感詞典。
[0014]相較于現(xiàn)有技術(shù),本發(fā)明針對(duì)互聯(lián)網(wǎng)文本已有情感分析算法中情感詞典的不足,提出構(gòu)建識(shí)別互聯(lián)網(wǎng)文本多種情感所用情感詞典的方法。與傳統(tǒng)方法相比,本方法利用互聯(lián)網(wǎng)文本中特有的一些非正式文本的情感記號(hào)、網(wǎng)絡(luò)新詞、表情圖標(biāo)、錯(cuò)寫(xiě)詞語(yǔ)等構(gòu)建詞典,不限于單一語(yǔ)言或領(lǐng)域的傳統(tǒng)情感詞。采用不同種子詞可構(gòu)造不同情緒(如喜悅、憤怒、悲哀、恐懼、驚訝等)的情感詞典,使情感識(shí)別的結(jié)果更加豐富。
【專利附圖】
【附圖說(shuō)明】 [0015]圖1是本發(fā)明互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng)的應(yīng)用環(huán)境圖。
[0016]圖2是本發(fā)明互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng)的較佳實(shí)施例的模塊圖。
[0017]圖3是本發(fā)明互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng)的較佳實(shí)施例的流程圖。
[0018]圖4是典型的高頻元組示意圖。
[0019]圖5是無(wú)向圖模型示意圖。
[0020]圖6是同向矩陣示意圖。
[0021]圖7是詞語(yǔ)的褒貶義得分示意圖。
[0022]圖8是詞語(yǔ)的情緒得分示意圖。
[0023]主要元件符號(hào)說(shuō)明
[0024]
【權(quán)利要求】
1.一種互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,該方法包括: 獲取步驟,從互聯(lián)網(wǎng)上獲取互聯(lián)網(wǎng)文本語(yǔ)料; 數(shù)據(jù)預(yù)處理步驟,對(duì)所獲取的文本語(yǔ)料進(jìn)行數(shù)據(jù)預(yù)處理以得到情感詞典的候選詞; 提取新詞步驟,從所獲取的文本語(yǔ)料提取新詞以得到情感詞典的候選詞; 構(gòu)建圖模型步驟,利用所得到的情感詞典的候選詞來(lái)構(gòu)建無(wú)向圖模型; 迭代計(jì)算步驟,利用無(wú)向圖模型及標(biāo)簽傳播算法迭代計(jì)算無(wú)向圖中每個(gè)節(jié)點(diǎn)的多種情感得分以構(gòu)建情感詞典。
2.如權(quán)利要求1所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,所述數(shù)據(jù)預(yù)處理步驟包括: 去除步驟,去除文本語(yǔ)料中的特殊詞語(yǔ); 分詞與提取步驟,對(duì)文本語(yǔ)料進(jìn)行分詞,并基于分詞結(jié)果生成η元組,從文本語(yǔ)料中提取出一元組、二元組和三元組共三類元組集合,其中η〈4 ; 移除步驟,在所述三類元組集合中,分別移除在文本語(yǔ)料中出現(xiàn)次數(shù)居前預(yù)設(shè)位數(shù)的高頻元組以及低于預(yù)設(shè)次數(shù)低頻元組,以將出現(xiàn)次數(shù)居中的中頻元組作為一部分情感詞典的候選詞。
3.如權(quán)利要求1所 述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,所述提取新詞步驟中從所獲取的文本語(yǔ)料提取新詞的方法包括:上下文熵新詞發(fā)現(xiàn)方法及互信息的新詞發(fā)現(xiàn)方法。
4.如權(quán)利要求3所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,所述構(gòu)建圖模型步驟包括: 計(jì)算步驟,計(jì)算情感詞典的各個(gè)候選詞在文本語(yǔ)料的句子中共同出現(xiàn)的次數(shù),作為任意兩個(gè)候選詞間的相互關(guān)系; 構(gòu)建無(wú)向圖模型步驟,以每個(gè)候選詞為節(jié)點(diǎn),相互關(guān)系作為邊權(quán),構(gòu)建無(wú)向圖模型。
5.如權(quán)利要求4所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,在構(gòu)建無(wú)向圖模型步驟中,將所構(gòu)建的無(wú)向圖模型用矩陣G= (V, Ε)來(lái)表示,該G用來(lái)表示候選詞之間的連接關(guān)系,其中V表不候選詞的集合,E表不邊的集合; 該G中每個(gè)節(jié)點(diǎn)V對(duì)應(yīng)一個(gè)候選詞,其中V e V,邊(Vi, Vj)對(duì)應(yīng)于兩個(gè)候選詞Vi與Vj的同現(xiàn)關(guān)系,其中(Vi, ν」)e E ; 將V中各個(gè)節(jié)點(diǎn)間的同現(xiàn)關(guān)系用同現(xiàn)矩陣W表示,同現(xiàn)矩陣W是G的鄰接矩陣,其是對(duì)稱的,同現(xiàn)矩陣W中的元素Wij表示邊(Vi, Vj)的權(quán)重,即為這兩個(gè)節(jié)點(diǎn)Vi, Vj在文本語(yǔ)料中同現(xiàn)的次數(shù),同現(xiàn)矩陣W的對(duì)角線上的元素Wii對(duì)應(yīng)于Vi在文本語(yǔ)料中出現(xiàn)的數(shù)量。
6.如權(quán)利要求5所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,所述迭代計(jì)算步驟包括: 選取步驟,在無(wú)向圖模型的節(jié)點(diǎn)中選取種子詞賦予其情感得分; 傳播步驟,通過(guò)標(biāo)簽傳播算法,在邊權(quán)的作用下,從選取的種子詞出發(fā)將該情感得分傳播到無(wú)向圖中全部連通的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)將得到相對(duì)應(yīng)的多種情感得分; 構(gòu)建情感詞典步驟,在迭代收斂后,每個(gè)連通的節(jié)點(diǎn)都被賦予了多種情感得分,每個(gè)節(jié)點(diǎn)的情感得分即表示該節(jié)點(diǎn)所對(duì)應(yīng)的候選詞的情感傾向,這些節(jié)點(diǎn)對(duì)應(yīng)的候選詞及其多種情感得分即構(gòu)成了情感詞典。
7.如權(quán)利要求2所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,所述高頻元組是停用詞,其同各類詞語(yǔ)都有較高的同現(xiàn)機(jī)會(huì);所述低頻元組是非詞語(yǔ)、用戶名。
8.如權(quán)利要求1所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,所述情感得分包括情緒得分、褒義得分、貶義得分及絕對(duì)得分, 所述情緒得分包括喜悅得分、憤怒得分、悲哀得分、恐懼得分及驚訝得分。
9.如權(quán)利要求6所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,所述種子詞根據(jù)詞集從所得到的情感詞典的各個(gè)候選詞中選取出來(lái),其包括確定的情感詞及與語(yǔ)言無(wú)關(guān)的情感記號(hào)。
10.如權(quán)利要求6所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,在傳播步驟中的迭代過(guò)程如下式描述:
x(k+1) = W.x(k)+b 其中X(k)表示第k次迭代后的節(jié)點(diǎn)的情感得分向量,由此式,新一輪迭代的計(jì)算結(jié)果X(k+1)由同現(xiàn)矩陣W與偏置向量b作用于前一輪向量后得出,在每一輪迭代計(jì)算后,對(duì)結(jié)果進(jìn)行歸一化,則迭代過(guò)程最終收斂。
11.如權(quán)利要求10所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建方法,其特征在于,b取為種子向量χω,以便加強(qiáng)種子的作用,選定種子后,則向量x(°)中種子詞對(duì)應(yīng)的維度取值為1,其他維度取值為O。
12.一種互聯(lián)網(wǎng)多種 情感詞典構(gòu)建系統(tǒng),其特征在于,該系統(tǒng)包括: 獲取模塊,用于從互聯(lián)網(wǎng)上獲取互聯(lián)網(wǎng)文本語(yǔ)料; 數(shù)據(jù)預(yù)處理模塊,用于對(duì)所獲取的文本語(yǔ)料進(jìn)行數(shù)據(jù)預(yù)處理以得到情感詞典的候選詞; 提取新詞模塊,用于從所獲取的文本語(yǔ)料提取新詞以得到情感詞典的候選詞; 構(gòu)建圖模型模塊,用于利用所得到的情感詞典的候選詞來(lái)構(gòu)建無(wú)向圖模型; 迭代計(jì)算模塊,用于利用無(wú)向圖模型及標(biāo)簽傳播算法迭代計(jì)算無(wú)向圖中每個(gè)節(jié)點(diǎn)的多種情感得分以構(gòu)建情感詞典。
13.如權(quán)利要求12所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),其特征在于,所述數(shù)據(jù)預(yù)處理模塊處理的過(guò)程包括: 去除文本語(yǔ)料中的特殊詞語(yǔ); 對(duì)文本語(yǔ)料進(jìn)行分詞,并基于分詞結(jié)果生成η元組,從文本語(yǔ)料中提取出一元組、二元組和三元組共三類元組集合,其中η〈4 ; 在所述三類元組集合中,分別移除在文本語(yǔ)料中出現(xiàn)次數(shù)居前預(yù)設(shè)位數(shù)的高頻元組以及低于預(yù)設(shè)次數(shù)低頻元組,以將出現(xiàn)次數(shù)居中的中頻元組作為一部分情感詞典的候選詞。
14.如權(quán)利要求12所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),其特征在于,所述提取新詞模塊中從所獲取的文本語(yǔ)料提取新詞的方法包括:上下文熵新詞發(fā)現(xiàn)方法及互信息的新詞發(fā)現(xiàn)方法。
15.如權(quán)利要求14所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),其特征在于,所述構(gòu)建圖模型模塊構(gòu)建的過(guò)程包括: 計(jì)算情感詞典的各個(gè)候選詞在文本語(yǔ)料的句子中共同出現(xiàn)的次數(shù),作為任意兩個(gè)候選詞間的相互關(guān)系;以每個(gè)候選詞為節(jié)點(diǎn),相互關(guān)系作為邊權(quán),構(gòu)建無(wú)向圖模型。
16.如權(quán)利要求15所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),其特征在于,在構(gòu)建無(wú)向圖模型步驟中,將所構(gòu)建的無(wú)向圖模型用矩陣G= (V,E)來(lái)表示,該G用來(lái)表示候選詞之間的連接關(guān)系,其中V表示候選詞集合,E表示邊的集合; 該G中每個(gè)節(jié)點(diǎn)V對(duì)應(yīng)一個(gè)候選詞,其中V G V,邊(Vi, Vj)對(duì)應(yīng)于兩個(gè)候選詞Vi與Vj的同現(xiàn)關(guān)系,其中(Vi , Vj) G E ; 將V中各個(gè)節(jié)點(diǎn)間的同現(xiàn)關(guān)系用同現(xiàn)矩陣W表示,同現(xiàn)矩陣W是G的鄰接矩陣,其是對(duì)稱的,同現(xiàn)矩陣W中的元素Wij表示邊(Vi, Vj)的權(quán)重,即為這兩個(gè)節(jié)點(diǎn)Vi, Vj在文本語(yǔ)料中同現(xiàn)的次數(shù),同現(xiàn)矩陣W的對(duì)角線上的元素Wii對(duì)應(yīng)于Vi在文本語(yǔ)料中出現(xiàn)的數(shù)量。
17.如權(quán)利要求16所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),其特征在于,所述迭代計(jì)算模塊的計(jì)算過(guò)程包括: 在無(wú)向圖模型的節(jié)點(diǎn)中選取種子詞賦予其情感得分; 通過(guò)標(biāo)簽傳播算法,在邊權(quán)的作用下,從選取的種子詞出發(fā)將該情感得分傳播到無(wú)向圖中全部連通的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)將得到相對(duì)應(yīng)的多種情感得分; 在迭代收斂后,每個(gè)連通的節(jié)點(diǎn)都被賦予了多種情感得分,每個(gè)節(jié)點(diǎn)的情感得分即表示該節(jié)點(diǎn)所對(duì)應(yīng)的候選詞的情感傾向,這些節(jié)點(diǎn)對(duì)應(yīng)的候選詞及其多種情感得分即構(gòu)成了情感詞典。
18.如權(quán)利要求13所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),其特征在于,所述高頻元組是停用詞,其同各類詞語(yǔ)都有較高的同現(xiàn)機(jī)會(huì);所述低頻元組是非詞語(yǔ)、用戶名。
19.如權(quán)利要求12所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),其特征在于,所述情感得分包括情緒得分、褒義得分、貶義得分及絕對(duì)得分,所述情緒得分包括喜悅得分、憤怒得分、悲哀得分、恐懼得分及驚訝得分。
20.如權(quán)利要求17所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),其特征在于,所述種子詞根據(jù)詞集從所得到的情感詞典的各個(gè)候選詞中選取出來(lái),其包括確定的情感詞及與語(yǔ)言無(wú)關(guān)的情感記號(hào)。
21.如權(quán)利要求17所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),其特征在于,通過(guò)標(biāo)簽傳播算法的迭代過(guò)程如下式描述:
x(k+1) = W ? x(k)+b 其中x(k)表示第k次迭代后的節(jié)點(diǎn)的情感得分向量,由此式,新一輪迭代的計(jì)算結(jié)果X(k+1)由同現(xiàn)矩陣W與偏置向量b作用于前一輪向量后得出,在每一輪迭代計(jì)算后,對(duì)結(jié)果進(jìn)行歸一化,則迭代過(guò)程最終收斂。
22.如權(quán)利要求21所述的互聯(lián)網(wǎng)多種情感詞典構(gòu)建系統(tǒng),其特征在于,b取為種子向量xw,以便加強(qiáng)種子的作用,選定種子后,則向量x(°)中種子詞對(duì)應(yīng)的維度取值為1,其他維度取值為O。
【文檔編號(hào)】G06F17/27GK103544246SQ201310470531
【公開(kāi)日】2014年1月29日 申請(qǐng)日期:2013年10月10日 優(yōu)先權(quán)日:2013年10月10日
【發(fā)明者】劉奕群, 馬少平, 張敏, 金奕江, 張闊 申請(qǐng)人:清華大學(xué), 北京搜狗科技發(fā)展有限公司