本發(fā)明涉及信息技術(shù),特別涉及互聯(lián)網(wǎng)大數(shù)據(jù)分析技術(shù)。
背景技術(shù):
在大數(shù)據(jù)時(shí)代,以往日常生活里那些無法共享、不可計(jì)量的信息都被數(shù)據(jù)化,人們可以通過互聯(lián)網(wǎng)獲取信息,參與討論和表達(dá)意見,一方面,對(duì)于企業(yè)的品牌產(chǎn)品等相關(guān)信息的意見也紛紛通過互聯(lián)網(wǎng)信息進(jìn)行表達(dá)和傳遞,形成網(wǎng)絡(luò)輿論;另一方面,對(duì)于日常生活中接觸到的產(chǎn)品,人們也傾向于通過互聯(lián)網(wǎng)來進(jìn)行產(chǎn)品信息的查詢,包括其他用戶的評(píng)論、專業(yè)網(wǎng)站評(píng)估及門戶網(wǎng)站的廣告等等,與此同時(shí),用戶也可以發(fā)布對(duì)企業(yè)或產(chǎn)品的評(píng)估。網(wǎng)絡(luò)信息的快速傳播和擴(kuò)散,可能產(chǎn)生巨大的輿論力量。因此,在身處于大數(shù)據(jù)時(shí)代的企業(yè)必須充分利用數(shù)據(jù)的價(jià)值,全面挖掘和監(jiān)控互聯(lián)網(wǎng)數(shù)據(jù)信息,以便于對(duì)產(chǎn)品進(jìn)行改良、創(chuàng)新、更換以及其他企業(yè)級(jí)的決策,維護(hù)品牌形象,擴(kuò)大品牌影響力,最終促進(jìn)企業(yè)的競爭力。
由于來自互聯(lián)網(wǎng)海量數(shù)據(jù)格式的多樣性,傳統(tǒng)人工采集、處理數(shù)據(jù)方式已經(jīng)難以勝任。雖然目前市面上存在很多輿情分析軟件系統(tǒng),但是其都沒有利用輿情信息專門深入細(xì)致的針對(duì)產(chǎn)品、生產(chǎn)商的競爭力作出定量評(píng)測。生產(chǎn)商、產(chǎn)品乃至產(chǎn)品屬性的口碑、競爭力是隱藏在海量的輿情數(shù)據(jù)中的非常有價(jià)值的信息。產(chǎn)品輿情分析的目標(biāo)不單單是對(duì)相關(guān)產(chǎn)品的主題、熱點(diǎn)進(jìn)行解析、跟蹤、預(yù)測及預(yù)警,更重要的是深入的解剖出整個(gè)行業(yè)市場中每家廠商的每件產(chǎn)品的相對(duì)競爭力,并將其量化使得整個(gè)行業(yè)的產(chǎn)品的優(yōu)勝劣汰能夠定性定量的得到清晰的展現(xiàn),同時(shí)還能標(biāo)定出產(chǎn)品間的優(yōu)劣點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是要解決目前輿情分析軟件系統(tǒng)都沒有利用輿情信息專門深入細(xì)致的針對(duì)產(chǎn)品、生產(chǎn)商的競爭力作出定量評(píng)測的問題,提供了一種輿情監(jiān)測分析方法。
本發(fā)明解決其技術(shù)問題,采用的技術(shù)方案是,輿情監(jiān)測分析方法,其特征在于,包括以下步驟:
步驟1、通過分布式網(wǎng)絡(luò)爬蟲技術(shù)實(shí)時(shí)抓取各電商網(wǎng)站商品及評(píng)論信息,利用模板提取其中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ);
步驟2、針對(duì)所存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),自動(dòng)對(duì)其進(jìn)行分類、聚類、生成摘要及名稱識(shí)別,并進(jìn)行正負(fù)性質(zhì)預(yù)判;
步驟3、輸出并根據(jù)需求呈現(xiàn)結(jié)構(gòu)化數(shù)據(jù)。
具體的,步驟2中,所述正負(fù)性質(zhì)預(yù)判是指對(duì)評(píng)論信息進(jìn)行文本情感分析。
進(jìn)一步的,所述對(duì)評(píng)論信息進(jìn)行文本情感分析的方法為:
步驟201、針對(duì)不同的商品類型建立不同的文本情感分析模型;
步驟202、判斷該評(píng)論信息所屬商品的類型,選擇該商品類型對(duì)應(yīng)的文本情感分析模型進(jìn)行分析。
具體的,步驟201中,所述針對(duì)不同的商品類型建立不同的文本情感分析模型中,其文本情感分析模型的建立方法為:獲取已有的多個(gè)針對(duì)某一商品類型的評(píng)論信息作為訓(xùn)練集,在訓(xùn)練集的評(píng)論信息中進(jìn)行中文分詞操作,得到多個(gè)候選詞,獲取每個(gè)候選詞對(duì)應(yīng)的情感傾向,將候選詞作為特征建立文本情感分析模型。
再進(jìn)一步的,所述獲取每個(gè)候選詞對(duì)應(yīng)的情感傾向的方式為:判斷候選詞與一般情感基準(zhǔn)詞詞典中各情感基準(zhǔn)詞之間的語義距離,確定候選詞的情感傾向。
具體的,所述獲取每個(gè)候選詞對(duì)應(yīng)的情感傾向的方式為:人工建立標(biāo)記情感語料庫,將候選詞與人工建立的標(biāo)記情感語料庫進(jìn)行匹配,確定候選詞的情感傾向。
再進(jìn)一步的,步驟202中,在分析時(shí),還提取各評(píng)論信息中的候選詞并進(jìn)行統(tǒng)計(jì)排序,刪除文本情感分析模型中低效和/或無效的特征。
具體的,步驟2中,還對(duì)所存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行清洗,所述清洗為對(duì)離群數(shù)據(jù)及明顯不合理的數(shù)據(jù)進(jìn)行剔除。
本發(fā)明的有益效果是,在本發(fā)明方案中,通過上述輿情監(jiān)測分析方法,可對(duì)評(píng)論信息自動(dòng)進(jìn)行分析,從而得出針對(duì)產(chǎn)品或生產(chǎn)商的競爭力所作出的定量評(píng)測,為生產(chǎn)商或商品開發(fā)人員提供參考,提升產(chǎn)品研發(fā)效率和針對(duì)性。
具體實(shí)施方式
下面結(jié)合實(shí)施例,詳細(xì)描述本發(fā)明的技術(shù)方案。
本發(fā)明所述輿情監(jiān)測分析方法為:首先通過分布式網(wǎng)絡(luò)爬蟲技術(shù)實(shí)時(shí)抓取各電商網(wǎng)站商品及評(píng)論信息,利用模板提取其中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ);然后針對(duì)所存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),自動(dòng)對(duì)其進(jìn)行分類、聚類、生成摘要及名稱識(shí)別,并進(jìn)行正負(fù)性質(zhì)預(yù)判;最后輸出并根據(jù)需求呈現(xiàn)結(jié)構(gòu)化數(shù)據(jù)。
實(shí)施例
本發(fā)明實(shí)施例的輿情監(jiān)測分析方法,其包括以下步驟:
步驟1、通過分布式網(wǎng)絡(luò)爬蟲技術(shù)實(shí)時(shí)抓取各電商網(wǎng)站商品及評(píng)論信息,利用模板提取其中的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)。
本步驟中,分布式網(wǎng)絡(luò)爬蟲技術(shù)為現(xiàn)有較為通用的一種信息獲取技術(shù),此處不再詳述。
步驟2、針對(duì)所存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),自動(dòng)對(duì)其進(jìn)行分類、聚類、生成摘要及名稱識(shí)別,并進(jìn)行正負(fù)性質(zhì)預(yù)判。
本步驟中,正負(fù)性質(zhì)預(yù)判是指對(duì)評(píng)論信息進(jìn)行文本情感分析,其分析方法可為以下具體步驟:
步驟201、針對(duì)不同的商品類型建立不同的文本情感分析模型。
這里,針對(duì)不同的商品類型建立不同的文本情感分析模型中,其文本情感分析模型的建立方法可為:獲取已有的多個(gè)針對(duì)某一商品類型的評(píng)論信息作為訓(xùn)練集,在訓(xùn)練集的評(píng)論信息中進(jìn)行中文分詞操作,得到多個(gè)候選詞,獲取每個(gè)候選詞對(duì)應(yīng)的情感傾向,將候選詞作為特征建立文本情感分析模型。獲取每個(gè)候選詞對(duì)應(yīng)的情感傾向的方式可為:1)判斷候選詞與一般情感基準(zhǔn)詞詞典中各情感基準(zhǔn)詞之間的語義距離,確定候選詞的情感傾向;2)人工建立標(biāo)記情感語料庫,將候選詞與人工建立的標(biāo)記情感語料庫進(jìn)行匹配,確定候選詞的情感傾向。
步驟202、判斷該評(píng)論信息所屬商品的類型,選擇該商品類型對(duì)應(yīng)的文本情感分析模型進(jìn)行分析。
在分析時(shí),還可以提取各評(píng)論信息中的候選詞并進(jìn)行統(tǒng)計(jì)排序,刪除文本情感分析模型中低效和/或無效的特征,即對(duì)文本情感分析模型進(jìn)行更新。
這里,步驟2中,優(yōu)選還對(duì)所存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行清洗,清洗是指對(duì)離群數(shù)據(jù)及明顯不合理的數(shù)據(jù)進(jìn)行剔除。
步驟3、輸出并根據(jù)需求呈現(xiàn)結(jié)構(gòu)化數(shù)據(jù)。
這里,根據(jù)需求呈現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的方式多種多樣,均為現(xiàn)有較為成熟的技術(shù),因此此處不再詳述。