一種針對(duì)千萬(wàn)級(jí)規(guī)模新聞評(píng)論的觀點(diǎn)挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,涉及一種觀點(diǎn)挖掘技術(shù),具體的說(shuō)是一種針對(duì)千萬(wàn)級(jí) 規(guī)模新聞評(píng)論的觀點(diǎn)挖掘方法。
【背景技術(shù)】
[0002] 隨著網(wǎng)民規(guī)模的不斷增大,社會(huì)化媒體也得到迅速地發(fā)展,以論壇、微博、微信為 代表逐漸滲透到全民生活和工作的每一個(gè)層面,對(duì)人們的行為模式、心理模式產(chǎn)生了極為 深遠(yuǎn)的影響。同時(shí)社會(huì)化媒體每天都會(huì)產(chǎn)生大量的短文本,含有大量的表達(dá)事件方面或用 戶觀點(diǎn)的信息。通過(guò)分析該信息,人們一方面可以了解某一事件或話題的信息擴(kuò)散情況,另 一方面通過(guò)觀察其他人對(duì)某一事件或話題的看法,了解到其觀點(diǎn)偏好和行為特征,這對(duì)社 會(huì)化媒體輿情監(jiān)控、社會(huì)化媒體營(yíng)銷等方面有著重要的作用。如何從大量的社會(huì)化媒體短 文本中提取出能表達(dá)事件方面或用戶觀點(diǎn)的關(guān)鍵詞成為當(dāng)前的研宄重點(diǎn)。
[0003] 新聞評(píng)論是社會(huì)各界人士對(duì)社會(huì)化主流媒體所發(fā)布的新聞的看法,這些評(píng)論既能 反映人們對(duì)某一新聞的觀點(diǎn),又能反應(yīng)人們對(duì)某一新聞關(guān)注的方面。但是,由于新聞評(píng)論具 有數(shù)量大,長(zhǎng)度短,用詞口語(yǔ)化,漢語(yǔ)語(yǔ)言的多樣性等特點(diǎn),對(duì)新聞評(píng)論進(jìn)行觀點(diǎn)挖掘具有 一定的難度。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是:在信息爆炸式增長(zhǎng)的情況下,針對(duì)如何高效地從某一話題的大 量新聞評(píng)論文本中提取出事件方面或用戶觀點(diǎn)的問(wèn)題,提出了一種針對(duì)千萬(wàn)級(jí)規(guī)模新聞評(píng) 論的觀點(diǎn)挖掘方法。
[0005] 該方法具體步驟如下:
[0006] 步驟一:根據(jù)新聞標(biāo)題統(tǒng)計(jì)各新聞標(biāo)題對(duì)應(yīng)的千萬(wàn)級(jí)規(guī)模新聞評(píng)論的數(shù)量;初始 根據(jù)新聞標(biāo)題為新聞評(píng)論進(jìn)行分類,每個(gè)新聞標(biāo)題下的新聞評(píng)論為一類;
[0007] 步驟二:將新聞評(píng)論數(shù)量大于或等于閾值K的各類新聞評(píng)論不予處理,將新聞評(píng) 論數(shù)量小于閾值K的新聞評(píng)論進(jìn)入步驟三處理;
[0008] 閾值K計(jì)算如下:
[0009] K = maxcount X ^0.05
[0010] 其中,max_count表示所有新聞評(píng)論的最大評(píng)論數(shù)量;
[0011] 步驟三:利用中文分詞工具,對(duì)數(shù)量小于閾值K的每一類新聞標(biāo)題以及對(duì)應(yīng)的新 聞評(píng)論進(jìn)行分詞,并進(jìn)行詞性標(biāo)注;
[0012] 經(jīng)過(guò)分詞后,將評(píng)論數(shù)量小于閾值K的新聞評(píng)論以及對(duì)應(yīng)該類的新聞標(biāo)題分成名 詞、形容詞和動(dòng)詞;
[0013] 步驟四:根據(jù)分詞結(jié)果對(duì)評(píng)論數(shù)量小于閾值K的所有新聞評(píng)論聚類,并得到聚類 后每類新聞評(píng)論的類別標(biāo)簽;
[0014] 步驟五:對(duì)評(píng)論數(shù)量大于等于閾值K的各類新聞評(píng)論以及含有類別標(biāo)簽的各類新 聞評(píng)論進(jìn)行關(guān)鍵詞對(duì)提??;
[0015] 步驟501、對(duì)每一類新聞評(píng)論進(jìn)行詞頻統(tǒng)計(jì),選取詞頻排名前M個(gè)詞語(yǔ)作為候選的 尚頻詞;
[0016] 其中每一類新聞評(píng)論是指步驟二評(píng)論數(shù)量大于等于閾值K的每一類新聞評(píng)論或 步驟四聚類處理后含有類別標(biāo)簽每一類新聞評(píng)論;M為整數(shù)。
[0017] 步驟502、根據(jù)候選高頻詞在新聞評(píng)論中出現(xiàn)的位置,選取與候選高頻詞緊鄰的前 后詞分別構(gòu)成前后兩個(gè)詞對(duì);
[0018] 步驟503、統(tǒng)計(jì)每一個(gè)詞對(duì)在新聞評(píng)論中出現(xiàn)的次數(shù),計(jì)算每一個(gè)詞對(duì)的權(quán)重W :
[0019] W = FgXNc
[0020] FgS核心詞權(quán)重;N。表示詞對(duì)共現(xiàn)權(quán)重。
[0021] 步驟504、根據(jù)權(quán)重對(duì)詞對(duì)進(jìn)行降序排序,選取前N個(gè)詞對(duì)作為該類新聞評(píng)論中的 關(guān)鍵詞對(duì);其中,N為整數(shù)。
[0022] 步驟六:根據(jù)評(píng)論數(shù)量大于等于閾值K的各類新聞評(píng)論以及含有類別標(biāo)簽的各類 新聞評(píng)論,統(tǒng)計(jì)每一類新聞評(píng)論的比例和混雜度;
[0023] 新聞評(píng)論的混雜度,針對(duì)聚類后的含有類別標(biāo)簽的各類新聞評(píng)論,統(tǒng)計(jì)各類新聞 評(píng)論中包含的新聞標(biāo)題個(gè)數(shù);
[0024] 步驟七:根據(jù)關(guān)鍵詞對(duì),篩選并提取每一類新聞評(píng)論中的代表性文本。
[0025] 本發(fā)明的優(yōu)點(diǎn)在于:
[0026] (1)、一種針對(duì)千萬(wàn)級(jí)規(guī)模新聞評(píng)論的觀點(diǎn)挖掘方法,適用于千萬(wàn)級(jí)規(guī)模新聞評(píng)論 的方面分析。
[0027] (2)、一種針對(duì)千萬(wàn)級(jí)規(guī)模新聞評(píng)論的觀點(diǎn)挖掘方法,具有高效性和易用性,在輿 情監(jiān)控、觀點(diǎn)分析和信息傳播擴(kuò)散等領(lǐng)域有重要的應(yīng)用價(jià)值。
[0028] (3)、一種針對(duì)千萬(wàn)級(jí)規(guī)模新聞評(píng)論的觀點(diǎn)挖掘方法,利用中文分詞工具,考慮漢 語(yǔ)語(yǔ)言的用法和搭配關(guān)系,結(jié)合新聞標(biāo)題的作用,處理千萬(wàn)級(jí)規(guī)模的新聞評(píng)論,具有高效 性、魯棒性和易用性等優(yōu)點(diǎn)。
【附圖說(shuō)明】
[0029] 圖1是為本發(fā)明一種針對(duì)千萬(wàn)級(jí)規(guī)模新聞評(píng)論的觀點(diǎn)挖掘方法流程圖。
[0030] 圖2為本發(fā)明關(guān)鍵詞對(duì)提取的具體流程流程圖。
【具體實(shí)施方式】
[0031] 下面將結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
[0032] 一種針對(duì)千萬(wàn)級(jí)規(guī)模新聞評(píng)論的觀點(diǎn)挖掘方法,基于數(shù)據(jù)挖掘、自然語(yǔ)言處理等 技術(shù),利用中文分詞、聚類等方法,對(duì)千萬(wàn)級(jí)規(guī)模的新聞評(píng)論進(jìn)行分析,從中獲取能表達(dá)事 件方面或用戶觀點(diǎn)的重要信息。
[0033] 首先,根據(jù)某一事件或話題下新聞標(biāo)題統(tǒng)計(jì)每一個(gè)標(biāo)題下的評(píng)論數(shù)量,將評(píng)論數(shù) 量超過(guò)一定值的新聞評(píng)論按標(biāo)題組成一類;再對(duì)剩下的新聞標(biāo)題和評(píng)論內(nèi)容進(jìn)行中文分 詞,根據(jù)分詞的結(jié)果進(jìn)行聚類;然后對(duì)每一類新聞評(píng)論提取該類的關(guān)鍵詞對(duì),并計(jì)算每一類 新聞評(píng)論的比例和混雜度;最后根據(jù)每一類的關(guān)鍵詞對(duì),從該類的新聞評(píng)論中提取出該類 下能代表事件方面或用戶觀點(diǎn)的文本。
[0034] 具體實(shí)施步驟如下:
[0035] 步驟一:根據(jù)新聞標(biāo)題統(tǒng)計(jì)各新聞標(biāo)題對(duì)應(yīng)的千萬(wàn)級(jí)規(guī)模新聞評(píng)論的數(shù)量;初始 根據(jù)新聞標(biāo)題為新聞評(píng)論進(jìn)行分類,每個(gè)新聞標(biāo)題下的新聞評(píng)論為一類;
[0036] 新聞標(biāo)題能簡(jiǎn)明扼要地概括新聞的內(nèi)容,根據(jù)新聞標(biāo)題對(duì)新聞評(píng)論進(jìn)行分類,每 一個(gè)新聞標(biāo)題是一類,從而進(jìn)一步根據(jù)新聞標(biāo)題對(duì)新聞評(píng)論進(jìn)行數(shù)量統(tǒng)計(jì),統(tǒng)計(jì)每一類新 聞標(biāo)題下的千萬(wàn)級(jí)規(guī)模新聞評(píng)論的數(shù)量。
[0037] 比如,關(guān)于"APEC"話題下有41067條新聞評(píng)論,含有1056個(gè)不同的新聞標(biāo)題,則 分別統(tǒng)計(jì)1056類標(biāo)題下的新聞評(píng)論的數(shù)量。
[0038] 步驟二:將新聞評(píng)論數(shù)量大于或等于閾值K的各類新聞評(píng)論不予處理,將新聞評(píng) 論數(shù)量小于閾值K的新聞評(píng)論進(jìn)入步驟三處理;
[0039] 閾值K計(jì)算如下:
[0040] K - max countx>/〇.05
[0041] 其中,max_C〇Unt表示所有新聞評(píng)論中,新聞標(biāo)題含有的最大評(píng)論數(shù)量。
[0042] 步驟三:利用中文分詞工具,對(duì)數(shù)量小于閾值K的每一類新聞標(biāo)題以及對(duì)應(yīng)的新 聞評(píng)論進(jìn)行分詞,并進(jìn)行詞性標(biāo)注;
[0043] 對(duì)步驟二中評(píng)論數(shù)量小于閾值K的新聞評(píng)論以及對(duì)應(yīng)的新聞標(biāo)題進(jìn)行分詞和詞 性標(biāo)注。分詞的目的是為了將新聞評(píng)論轉(zhuǎn)化成一個(gè)個(gè)詞語(yǔ)。根據(jù)漢語(yǔ)語(yǔ)言的特點(diǎn),能反映