本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種社交媒體特征數(shù)據(jù)的預(yù)估方法、裝置及電子設(shè)備。
背景技術(shù):
1、社交媒體特征數(shù)據(jù)的傳播量通常指的是與特定內(nèi)容或話題在社交媒體平臺上擴(kuò)散程度相關(guān)的統(tǒng)計(jì)數(shù)據(jù)。這些數(shù)據(jù)可以用來衡量一個(gè)帖子、文章、視頻、廣告或是某個(gè)話題在網(wǎng)絡(luò)上的影響力和覆蓋范圍。傳播量的具體指標(biāo)可能包括但不限于以下幾個(gè)方面:
2、1.?瀏覽量/閱讀量(views/reads):指內(nèi)容被訪問或展示的次數(shù)。
3、2.?點(diǎn)贊數(shù)(likes):用戶對內(nèi)容表達(dá)贊同或喜愛的次數(shù)。
4、3.?評論數(shù)(comments):用戶對內(nèi)容發(fā)表意見或反饋的數(shù)量。
5、4.?分享數(shù)/轉(zhuǎn)發(fā)數(shù)(shares/retweets):內(nèi)容被用戶轉(zhuǎn)發(fā)給他人或分享到其他平臺的次數(shù)。
6、5.?收藏?cái)?shù)(saves/favorites):用戶保存內(nèi)容以便以后查看的次數(shù)。
7、6.?互動(dòng)率(engagement?rate):綜合考慮點(diǎn)贊、評論、分享等行為后計(jì)算出來的比率,通常用來衡量用戶與內(nèi)容互動(dòng)的程度。
8、7.?提及次數(shù)(mentions):特定關(guān)鍵詞或話題被提及的頻率。
9、現(xiàn)有技術(shù)在社交媒體數(shù)據(jù)特征提取的實(shí)現(xiàn)過程中,存在如下問題:
10、1.數(shù)據(jù)來源不全面:現(xiàn)有工具通常只能監(jiān)測單一平臺的數(shù)據(jù),無法整合來自多個(gè)社交媒體和新聞平臺的目標(biāo)特征傳播量數(shù)據(jù),導(dǎo)致預(yù)測結(jié)果的局限性。
11、2.缺乏預(yù)測能力:大部分工具只能對目標(biāo)特征傳播量進(jìn)行歷史數(shù)據(jù)分析,缺乏對未來趨勢的預(yù)測功能,無法提前預(yù)判市場變化。
12、3.實(shí)時(shí)性差:現(xiàn)有系統(tǒng)多為離線分析模式,不能實(shí)時(shí)捕捉目標(biāo)特征傳播量的變化,難以及時(shí)反映市場動(dòng)態(tài)。
13、4.缺乏多維度分析:現(xiàn)有方法主要依賴于簡單的數(shù)據(jù)匯總和統(tǒng)計(jì),缺乏對影響目標(biāo)特征傳播量的多維度因素(如情感傾向、用戶互動(dòng))的綜合分析。
14、上述問題成為需要解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明實(shí)施例提供了一種社交媒體特征數(shù)據(jù)的預(yù)估方法、裝置及電子設(shè)備,至少部分解決現(xiàn)有技術(shù)中存在的問題。
2、第一方面,本發(fā)明實(shí)施例提供了一種社交媒體特征數(shù)據(jù)的預(yù)估方法,包括:
3、對采集到的多個(gè)社交媒體數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與格式化操作,得到標(biāo)準(zhǔn)數(shù)據(jù);
4、統(tǒng)計(jì)目標(biāo)特征在各個(gè)社交媒體平臺上的提及次數(shù),使用關(guān)鍵詞匹配和實(shí)體識別技術(shù)識別目標(biāo)特征相關(guān)信息,并匯總得到目標(biāo)特征提及量數(shù)據(jù)集合d1;
5、基于情感分析的結(jié)果,計(jì)算目標(biāo)特征在用戶中的正面、負(fù)面和中性評價(jià)的比例,并生成情感傾向得分?jǐn)?shù)據(jù)集合d2;
6、統(tǒng)計(jì)與目標(biāo)特征相關(guān)的點(diǎn)贊、評論、分享和轉(zhuǎn)發(fā)用戶互動(dòng)行為,評估目標(biāo)特征的用戶參與度數(shù)據(jù)集合d3;
7、基于長短期記憶網(wǎng)絡(luò)lstm設(shè)置目標(biāo)特征傳播量趨勢預(yù)測的核心算法,構(gòu)建遺忘門、輸入門、細(xì)胞狀態(tài)更新和輸出門四個(gè)部分,對構(gòu)建的預(yù)測數(shù)據(jù)d={d1,d2,d3}按時(shí)間順序整理,并將整理后的預(yù)測數(shù)據(jù)分割為訓(xùn)練集和測試集,使用訓(xùn)練集訓(xùn)練lstm模型,通過調(diào)整權(quán)重和偏置項(xiàng)最小化預(yù)測誤差,在訓(xùn)練完成后,將新的目標(biāo)特征傳播量數(shù)據(jù)輸入lstm模型,基于學(xué)習(xí)到的模式輸出未來預(yù)設(shè)時(shí)間段內(nèi)的目標(biāo)特征傳播量預(yù)測值d4;
8、利用圖表庫生成目標(biāo)特征傳播量的趨勢圖、情感分析圖和用戶互動(dòng)圖,自動(dòng)生成包含目標(biāo)特征傳播量的歷史數(shù)據(jù)、當(dāng)前狀態(tài)和未來趨勢的定制化分析報(bào)告,使用前端框架結(jié)合websocket技術(shù)展示目標(biāo)特征傳播量的實(shí)時(shí)變化和預(yù)測結(jié)果。
9、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述對采集到的多個(gè)社交媒體數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與格式化操作,得到標(biāo)準(zhǔn)數(shù)據(jù),包括:
10、去除社交媒體數(shù)據(jù)中的重復(fù)數(shù)據(jù)、無效數(shù)據(jù)和噪聲數(shù)據(jù)后,將不同平臺的數(shù)據(jù)格式統(tǒng)一。
11、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述統(tǒng)計(jì)目標(biāo)特征在各個(gè)社交媒體平臺上的提及次數(shù),使用關(guān)鍵詞匹配和實(shí)體識別技術(shù)識別目標(biāo)特征相關(guān)信息,并匯總得到目標(biāo)特征提及量數(shù)據(jù)集合d1,包括:
12、確定與目標(biāo)特征相關(guān)的關(guān)鍵詞列表,在標(biāo)準(zhǔn)數(shù)據(jù)中查找關(guān)鍵詞出現(xiàn)的位置,記錄每個(gè)關(guān)鍵詞在各社交媒體平臺上的提及次數(shù);
13、使用自然語言處理技術(shù)識別文本中的實(shí)體,判斷識別出的實(shí)體是否與目標(biāo)特征相關(guān)聯(lián),將與目標(biāo)特征相關(guān)的實(shí)體提及次數(shù)合并計(jì)入提及量;
14、將每個(gè)關(guān)鍵詞及其相關(guān)實(shí)體在不同平臺上的提及次數(shù)進(jìn)行匯總,生成提及量數(shù)據(jù)集合d1。
15、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述基于情感分析的結(jié)果,計(jì)算目標(biāo)特征在用戶中的正面、負(fù)面和中性評價(jià)的比例,并生成情感傾向得分?jǐn)?shù)據(jù)集合d2,包括:
16、加載預(yù)先訓(xùn)練好的情感分析模型,對每一條提及目標(biāo)特征的內(nèi)容進(jìn)行情感分析,得出每條評論的情感極性;
17、統(tǒng)計(jì)所有提及內(nèi)容中正面、負(fù)面和中性情感的數(shù)目,計(jì)算正面、負(fù)面和中性情感在所有提及內(nèi)容中的比例;
18、根據(jù)正面、負(fù)面和中性情感的比例,為每條提及內(nèi)容分配情感傾向得分,匯總所有提及內(nèi)容的情感傾向得分,得到最終的情感傾向得分?jǐn)?shù)據(jù)集合d2。
19、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述統(tǒng)計(jì)與目標(biāo)特征相關(guān)的點(diǎn)贊、評論、分享和轉(zhuǎn)發(fā)用戶互動(dòng)行為,評估目標(biāo)特征的用戶參與度數(shù)據(jù)集合d3,包括:
20、計(jì)算每一條提及內(nèi)容所對應(yīng)的點(diǎn)贊、評論、分享和轉(zhuǎn)發(fā)的總次數(shù);
21、根據(jù)互動(dòng)次數(shù)計(jì)算參與度得分,將每一條提及內(nèi)容的互動(dòng)行為數(shù)據(jù)匯總,得到用戶參與度數(shù)據(jù)集合d3。
22、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述基于長短期記憶網(wǎng)絡(luò)lstm設(shè)置目標(biāo)特征傳播量趨勢預(yù)測的核心算法,構(gòu)建遺忘門、輸入門、細(xì)胞狀態(tài)更新和輸出門四個(gè)部分,對構(gòu)建的預(yù)測數(shù)據(jù)d={d1,d2,d3}按時(shí)間順序整理,包括:
23、將d1、d2和d3按時(shí)間順序整理,形成時(shí)間序列數(shù)據(jù),將整理后的數(shù)據(jù)d={d1,d2,d3}轉(zhuǎn)換為lstm模型的輸入數(shù)據(jù);
24、通過遺忘門控制上一時(shí)間步的細(xì)胞狀態(tài)中被遺忘的信息,所述遺忘門的輸入為當(dāng)前輸入和上一時(shí)間步的隱狀態(tài),所述遺忘門的輸出為:
25、
26、所述輸入門用于決定被存儲到細(xì)胞狀態(tài)中的新信息,所述輸入門的輸入為當(dāng)前輸入和上一時(shí)間步的隱狀態(tài),所述輸入門的輸出為:
27、
28、新候選值表示為:
29、
30、更新細(xì)胞狀態(tài)表示為:
31、
32、所述輸出門決定被作為當(dāng)前輸出的信息,所述輸出門的輸入是當(dāng)前輸入和上一時(shí)間步的隱狀態(tài),所述輸出門的輸出表示為:
33、
34、當(dāng)前時(shí)間步的隱狀態(tài)表示為:
35、
36、wf、wi、wc和wo是權(quán)重矩陣,bf、bi、bc和bo表示的是偏置項(xiàng),σ是sigmoid激活函數(shù)。
37、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述將整理后的預(yù)測數(shù)據(jù)分割為訓(xùn)練集和測試集,使用訓(xùn)練集訓(xùn)練lstm模型,通過調(diào)整權(quán)重和偏置項(xiàng)最小化預(yù)測誤差,在訓(xùn)練完成后,將新的目標(biāo)特征傳播量數(shù)據(jù)輸入lstm模型,基于學(xué)習(xí)到的模式輸出未來預(yù)設(shè)時(shí)間段內(nèi)的目標(biāo)特征傳播量預(yù)測值d4,包括:
38、設(shè)置lstm的層數(shù)和神經(jīng)元數(shù)量后,創(chuàng)建lstm模型實(shí)例,定義輸入和輸出的維度;
39、選擇mse作為損失函數(shù),選擇adam優(yōu)化器,在訓(xùn)練集上迭代訓(xùn)練lstm模型,調(diào)整權(quán)重和偏置項(xiàng);
40、將新的目標(biāo)特征傳播量數(shù)據(jù)轉(zhuǎn)換為與訓(xùn)練數(shù)據(jù)相同的格式,將新數(shù)據(jù)輸入訓(xùn)練好的lstm模型,輸出未來預(yù)設(shè)時(shí)間段內(nèi)的目標(biāo)特征傳播量預(yù)測值?d4。
41、根據(jù)本發(fā)明實(shí)施例的一種具體實(shí)現(xiàn)方式,所述利用圖表庫生成目標(biāo)特征傳播量的趨勢圖、情感分析圖和用戶互動(dòng)圖,自動(dòng)生成包含目標(biāo)特征傳播量的歷史數(shù)據(jù)、當(dāng)前狀態(tài)和未來趨勢的定制化分析報(bào)告,使用前端框架結(jié)合websocket技術(shù)展示目標(biāo)特征傳播量的實(shí)時(shí)變化和預(yù)測結(jié)果,包括:
42、選擇預(yù)設(shè)的圖表庫,根據(jù)目標(biāo)特征傳播量的歷史數(shù)據(jù)生成趨勢圖,顯示時(shí)間序列中的變化,根據(jù)情感分析結(jié)果生成餅圖或柱狀圖,展示正面、負(fù)面和中性情感的比例,根據(jù)用戶互動(dòng)數(shù)據(jù)生成條形圖或堆疊圖,展示點(diǎn)贊、評論、分享和轉(zhuǎn)發(fā)的數(shù)量分布;
43、使用模板引擎創(chuàng)建報(bào)告模板,將目標(biāo)特征傳播量的歷史數(shù)據(jù)、當(dāng)前狀態(tài)和未來趨勢預(yù)測值填充到模板中,將生成的報(bào)告導(dǎo)出為pdf、html或excel格式;
44、使用前端框架搭建web應(yīng)用程序界面,包括圖表展示區(qū)和其他交互元素,使用websocket接收實(shí)時(shí)數(shù)據(jù),并動(dòng)態(tài)更新圖表展示區(qū),展示目標(biāo)特征傳播量的實(shí)時(shí)變化和預(yù)測結(jié)果。
45、第二方面,本發(fā)明實(shí)施例提供了一種社交媒體特征數(shù)據(jù)的預(yù)估裝置,包括:
46、標(biāo)準(zhǔn)模塊,對采集到的多個(gè)社交媒體數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與格式化操作,得到標(biāo)準(zhǔn)數(shù)據(jù);
47、匯總模塊,統(tǒng)計(jì)目標(biāo)特征在各個(gè)社交媒體平臺上的提及次數(shù),使用關(guān)鍵詞匹配和實(shí)體識別技術(shù)識別目標(biāo)特征相關(guān)信息,并匯總得到目標(biāo)特征提及量數(shù)據(jù)集合d1;
48、計(jì)算模塊,基于情感分析的結(jié)果,計(jì)算目標(biāo)特征在用戶中的正面、負(fù)面和中性評價(jià)的比例,并生成情感傾向得分?jǐn)?shù)據(jù)集合d2;
49、統(tǒng)計(jì)模塊,統(tǒng)計(jì)與目標(biāo)特征相關(guān)的點(diǎn)贊、評論、分享和轉(zhuǎn)發(fā)用戶互動(dòng)行為,評估目標(biāo)特征的用戶參與度數(shù)據(jù)集合d3;
50、預(yù)測模塊,基于長短期記憶網(wǎng)絡(luò)lstm設(shè)置目標(biāo)特征傳播量趨勢預(yù)測的核心算法,構(gòu)建遺忘門、輸入門、細(xì)胞狀態(tài)更新和輸出門四個(gè)部分,對構(gòu)建的預(yù)測數(shù)據(jù)d={d1,d2,d3}按時(shí)間順序整理,并將整理后的預(yù)測數(shù)據(jù)分割為訓(xùn)練集和測試集,使用訓(xùn)練集訓(xùn)練lstm模型,通過調(diào)整權(quán)重和偏置項(xiàng)最小化預(yù)測誤差,在訓(xùn)練完成后,將新的目標(biāo)特征傳播量數(shù)據(jù)輸入lstm模型,基于學(xué)習(xí)到的模式輸出未來預(yù)設(shè)時(shí)間段內(nèi)的目標(biāo)特征傳播量預(yù)測值d4;
51、生成模塊,利用圖表庫生成目標(biāo)特征傳播量的趨勢圖、情感分析圖和用戶互動(dòng)圖,自動(dòng)生成包含目標(biāo)特征傳播量的歷史數(shù)據(jù)、當(dāng)前狀態(tài)和未來趨勢的定制化分析報(bào)告,使用前端框架結(jié)合websocket技術(shù)展示目標(biāo)特征傳播量的實(shí)時(shí)變化和預(yù)測結(jié)果。
52、第三方面,本發(fā)明實(shí)施例還提供了一種電子設(shè)備,該電子設(shè)備包括:
53、至少一個(gè)處理器;以及,
54、與該至少一個(gè)處理器通信連接的存儲器;其中,
55、該存儲器存儲有可被該至少一個(gè)處理器執(zhí)行的指令,該指令被該至少一個(gè)處理器執(zhí)行,以使該至少一個(gè)處理器能夠執(zhí)行前述任第一方面或第一方面的任一實(shí)現(xiàn)方式中的社交媒體特征數(shù)據(jù)的預(yù)估方法。
56、第四方面,本發(fā)明實(shí)施例還提供了一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),該非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì)存儲計(jì)算機(jī)指令,該計(jì)算機(jī)指令用于使該計(jì)算機(jī)執(zhí)行前述第一方面或第一方面的任一實(shí)現(xiàn)方式中的社交媒體特征數(shù)據(jù)的預(yù)估方法。
57、第五方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括存儲在非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì)上的計(jì)算程序,該計(jì)算機(jī)程序包括程序指令,當(dāng)該程序指令被計(jì)算機(jī)執(zhí)行時(shí),使該計(jì)算機(jī)執(zhí)行前述第一方面或第一方面的任一實(shí)現(xiàn)方式中的社交媒體特征數(shù)據(jù)的預(yù)估方法。
58、本發(fā)明實(shí)施例中的社交媒體特征數(shù)據(jù)的預(yù)估方案,包括:對采集到的多個(gè)社交媒體數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗與格式化操作,得到標(biāo)準(zhǔn)數(shù)據(jù);統(tǒng)計(jì)目標(biāo)特征在各個(gè)社交媒體平臺上的提及次數(shù),使用關(guān)鍵詞匹配和實(shí)體識別技術(shù)識別目標(biāo)特征相關(guān)信息,并匯總得到目標(biāo)特征提及量數(shù)據(jù)集合d1;基于情感分析的結(jié)果,計(jì)算目標(biāo)特征在用戶中的正面、負(fù)面和中性評價(jià)的比例,并生成情感傾向得分?jǐn)?shù)據(jù)集合d2;統(tǒng)計(jì)與目標(biāo)特征相關(guān)的點(diǎn)贊、評論、分享和轉(zhuǎn)發(fā)用戶互動(dòng)行為,評估目標(biāo)特征的用戶參與度數(shù)據(jù)集合d3;基于長短期記憶網(wǎng)絡(luò)lstm設(shè)置目標(biāo)特征傳播量趨勢預(yù)測的核心算法,構(gòu)建遺忘門、輸入門、細(xì)胞狀態(tài)更新和輸出門四個(gè)部分,對構(gòu)建的預(yù)測數(shù)據(jù)d={d1,d2,d3}按時(shí)間順序整理,并將整理后的預(yù)測數(shù)據(jù)分割為訓(xùn)練集和測試集,使用訓(xùn)練集訓(xùn)練lstm模型,通過調(diào)整權(quán)重和偏置項(xiàng)最小化預(yù)測誤差,在訓(xùn)練完成后,將新的目標(biāo)特征傳播量數(shù)據(jù)輸入lstm模型,基于學(xué)習(xí)到的模式輸出未來預(yù)設(shè)時(shí)間段內(nèi)的目標(biāo)特征傳播量預(yù)測值d4;利用圖表庫生成目標(biāo)特征傳播量的趨勢圖、情感分析圖和用戶互動(dòng)圖,自動(dòng)生成包含目標(biāo)特征傳播量的歷史數(shù)據(jù)、當(dāng)前狀態(tài)和未來趨勢的定制化分析報(bào)告,使用前端框架結(jié)合websocket技術(shù)展示目標(biāo)特征傳播量的實(shí)時(shí)變化和預(yù)測結(jié)果。本發(fā)明具有如下有益效果:
59、a精準(zhǔn)的長短期趨勢預(yù)測:
60、lstm?網(wǎng)絡(luò)能夠捕捉時(shí)間序列中的長期依賴關(guān)系,適合處理目標(biāo)特征傳播量這種具有復(fù)雜變化模式的數(shù)據(jù),實(shí)現(xiàn)高精度的長短期趨勢預(yù)測。
61、b實(shí)時(shí)性高:
62、系統(tǒng)具備實(shí)時(shí)數(shù)據(jù)采集和處理能力,結(jié)合lstm的動(dòng)態(tài)預(yù)測能力,能夠及時(shí)捕捉目標(biāo)特征傳播量的變化,并迅速提供預(yù)測結(jié)果。
63、c多維度綜合分析:
64、通過綜合目標(biāo)特征提及量、情感傾向、用戶互動(dòng)量等多維度數(shù)據(jù),系統(tǒng)能夠更準(zhǔn)確地反映目標(biāo)特征傳播量的未來變化趨勢。
65、d自動(dòng)化與可視化:
66、系統(tǒng)實(shí)現(xiàn)了從數(shù)據(jù)采集、處理、分析到報(bào)告生成的全流程自動(dòng)化,并通過直觀的可視化工具幫助用戶快速理解分析結(jié)果。