本發(fā)明涉及媒體分析和數(shù)據(jù)處理,具體涉及一種基于多維特征優(yōu)化的媒體影響力評(píng)估模型構(gòu)建方法。
背景技術(shù):
1、當(dāng)今數(shù)字化和網(wǎng)絡(luò)化的時(shí)代,媒體對(duì)公眾觀點(diǎn)的形成具有巨大影響。隨著互聯(lián)網(wǎng)和社交媒體的迅速發(fā)展,信息傳播變得更加快速和廣泛,帶來(lái)了前所未有的信息獲取便利。然而,這也帶來(lái)了多方面的挑戰(zhàn):1)信息的真實(shí)性和準(zhǔn)確性成為公眾關(guān)注的焦點(diǎn),假報(bào)道和誤導(dǎo)性內(nèi)容的泛濫對(duì)社會(huì)造成了嚴(yán)重影響。2)信息的海量性使得有效篩選和吸收信息變得困難,導(dǎo)致關(guān)鍵信息被忽略。3)媒體的多樣性和算法驅(qū)動(dòng)的內(nèi)容分發(fā)可能導(dǎo)致觀點(diǎn)的極化。
2、面對(duì)這些挑戰(zhàn),現(xiàn)有技術(shù)主要集中在提升信息檢索的效率和改進(jìn)內(nèi)容的情感分析。例如,一部分技術(shù)專注于通過(guò)機(jī)器學(xué)習(xí)技術(shù)提高社交媒體上的信息篩選效率,而一部分技術(shù)則致力于使用算法分析媒體內(nèi)容的情緒傾向。盡管這些技術(shù)在一定程度上提高了信息處理的效率和準(zhǔn)確性,但它們?cè)谌嬖u(píng)估媒體內(nèi)容的綜合影響力方面仍有所不足。
3、現(xiàn)有技術(shù)在媒體影響力分析方面普遍依賴于用戶互動(dòng)數(shù)據(jù),如點(diǎn)贊、評(píng)論等,但這種方法可能無(wú)法充分理解新聞報(bào)道內(nèi)容本身的影響力,并可能涉及用戶隱私問(wèn)題。此外,這些方法往往集中于單一平臺(tái)或文章類型,缺乏對(duì)不同媒體類型和新聞報(bào)道內(nèi)容深度分析的全面性。
4、例如,中國(guó)專利申請(qǐng)cn107577688a公開(kāi)了一種基于媒體信息采集的原創(chuàng)文章影響力分析系統(tǒng)。該系統(tǒng)的主要組成部分包括媒體文章數(shù)據(jù)采集模塊,用于從網(wǎng)絡(luò)上采集文章信息并提取內(nèi)容文本;文章閱讀評(píng)論點(diǎn)贊數(shù)更新模塊,用于獲取文章信息的傳播反饋數(shù)據(jù);原創(chuàng)文章聚類分析模塊,對(duì)內(nèi)容文本進(jìn)行聚類計(jì)算以識(shí)別原創(chuàng)文章;以及原創(chuàng)文章影響力計(jì)算模塊,用于評(píng)估原創(chuàng)文章在不同媒體平臺(tái)上的影響力。這種方法雖然能夠?qū)崿F(xiàn)對(duì)原創(chuàng)文章影響力的量化分析,但主要依賴于用戶互動(dòng)數(shù)據(jù),可能忽略了文章內(nèi)容本身的價(jià)值和深度。
5、中國(guó)專利申請(qǐng)cn108108902a公開(kāi)了基于媒體信息采集的風(fēng)險(xiǎn)事件告警方法。其核心模塊與cn107577688a相似,側(cè)重于利用用戶反饋數(shù)據(jù)來(lái)評(píng)估文章的影響力。
6、再如,cn106980692a介紹了一種基于微博特定事件的影響力計(jì)算方法,依據(jù)傳播學(xué)中事件發(fā)展的五個(gè)階段進(jìn)行分析,結(jié)合統(tǒng)計(jì)處理和自然語(yǔ)言處理技術(shù),計(jì)算出包含傳播角度和內(nèi)容角度的六項(xiàng)影響力指標(biāo),并使用k-means機(jī)器學(xué)習(xí)算法對(duì)子話題進(jìn)行分類。盡管這種方法在內(nèi)容分析上做出了努力,但仍然在很大程度上依賴于社交網(wǎng)絡(luò)中的用戶數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明旨在提供一種基于多維特征優(yōu)化的媒體影響力評(píng)估模型構(gòu)建方法。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、一種基于多維特征優(yōu)化的媒體影響力評(píng)估模型構(gòu)建方法,包括如下步驟:
4、s1、數(shù)據(jù)采集與處理:采用網(wǎng)絡(luò)信息獲取系統(tǒng),結(jié)合多線程技術(shù)和異步輸入/輸出機(jī)制對(duì)多個(gè)數(shù)據(jù)源同步進(jìn)行文章數(shù)據(jù)抓取,并高級(jí)語(yǔ)義解析庫(kù)對(duì)抓取的html和xml文檔進(jìn)行深度解析,通過(guò)內(nèi)置的數(shù)據(jù)映射規(guī)則識(shí)別和提取其中的關(guān)鍵信息,并將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù);
5、s2、作者信息的規(guī)范化處理:
6、s2、作者信息的規(guī)范化處理:
7、s2.1、通過(guò)文本預(yù)處理算法對(duì)文章的作者字段進(jìn)行清洗,移除非文本元素;
8、s2.2、采用數(shù)據(jù)挖掘技術(shù)分析和分類作者字段的數(shù)據(jù)結(jié)構(gòu),并使用條件分割對(duì)作者信息進(jìn)行分割;
9、s2.3、利用有限狀態(tài)機(jī)和自然語(yǔ)言處理對(duì)作者信息識(shí)別并提取作者名;
10、s3.1、采用自然語(yǔ)言處理技術(shù)深入清洗文章的文本,包括移除無(wú)關(guān)符號(hào)、執(zhí)行詞性標(biāo)注、詞干提取和詞形還原;
11、s3.2、通過(guò)詞袋模型、tf-idf或word2vec,將文章的文本轉(zhuǎn)化為特征向量,實(shí)現(xiàn)文本內(nèi)容的數(shù)學(xué)化表達(dá);
12、s3.3、通過(guò)多維縮放和主成分分析對(duì)步驟s3.2所得的特征向量進(jìn)行降維,同時(shí)確保信息完整性;
13、s3.4、對(duì)文章的頁(yè)碼和作者的字段進(jìn)行標(biāo)準(zhǔn)化處理,進(jìn)一步對(duì)文章文本的長(zhǎng)度根據(jù)四分位數(shù)區(qū)間進(jìn)行權(quán)重分配,并采用0到10分的評(píng)分體系對(duì)章節(jié)和文本類型進(jìn)行歸一化處理;再進(jìn)一步利用潛在語(yǔ)義分析和潛在狄利克雷分配提取標(biāo)準(zhǔn)化的主題,增強(qiáng)特征分析的深度和準(zhǔn)確性;
14、s4、術(shù)語(yǔ)頻率和分布的多層分析:
15、s4.1、采用自然語(yǔ)言處理技術(shù),包括句法解析和命名實(shí)體識(shí)別,對(duì)文章文本進(jìn)行語(yǔ)義分析,提取文章文本中的術(shù)語(yǔ);句法解析技術(shù)通過(guò)構(gòu)建文本的語(yǔ)法結(jié)構(gòu)樹(shù)來(lái)識(shí)別重要的語(yǔ)法成分,而命名實(shí)體識(shí)別則用于從文本中提取出關(guān)鍵的實(shí)體信息;
16、s4.2、利用條件隨機(jī)場(chǎng)crf對(duì)每個(gè)術(shù)語(yǔ)在不同主題中的出現(xiàn)頻率進(jìn)行計(jì)算,考慮術(shù)語(yǔ)的絕對(duì)頻率以及在文本中的相對(duì)位置和上下文關(guān)系;
17、s4.3、采用廣義線性模型glm分析每個(gè)術(shù)語(yǔ)在不同文本類別中的分布差異度,通過(guò)對(duì)術(shù)語(yǔ)在每個(gè)文本類別中的頻率分布進(jìn)行建模,并計(jì)算其在各文本類別間的標(biāo)準(zhǔn)差和方差;
18、s4.4、根據(jù)術(shù)語(yǔ)的分布差異度賦予相應(yīng)的權(quán)重,運(yùn)用信息熵和互信息評(píng)估術(shù)語(yǔ)的分類貢獻(xiàn),從而確保權(quán)重的科學(xué)性和合理性;
19、s5、術(shù)語(yǔ)權(quán)重的卡方統(tǒng)計(jì)和整合:結(jié)合改進(jìn)的卡方檢驗(yàn)公式和信息增益評(píng)估法,對(duì)術(shù)語(yǔ)在分類中的權(quán)重進(jìn)行量化,并運(yùn)用優(yōu)化技術(shù)對(duì)權(quán)重值進(jìn)行調(diào)整和優(yōu)化;
20、s5.1、通過(guò)采用改進(jìn)的卡方檢驗(yàn)公式對(duì)每個(gè)術(shù)語(yǔ)在各分類中的出現(xiàn)頻率與其期望頻率進(jìn)行對(duì)比;
21、改進(jìn)的卡方檢驗(yàn)公式如下:
22、
23、其中,op是術(shù)語(yǔ)p觀察到的頻數(shù),ep是術(shù)語(yǔ)p在假設(shè)獨(dú)立性條件下的期望頻數(shù);tp是術(shù)語(yǔ)在整個(gè)數(shù)據(jù)集中的出現(xiàn)頻率,ep是基于整體數(shù)據(jù)集中術(shù)語(yǔ)的分布按類別比例計(jì)算得到的,具體計(jì)算公式為其中nc是特定類別中的文本總數(shù),n是數(shù)據(jù)集中的文本總數(shù);
24、在每個(gè)分類中,首先計(jì)算每個(gè)術(shù)語(yǔ)的實(shí)際出現(xiàn)頻率op和期望頻率ep,然后使用改進(jìn)的卡方檢驗(yàn)公式計(jì)算每個(gè)術(shù)語(yǔ)與特定分類的統(tǒng)計(jì)相關(guān)性,并據(jù)此為每個(gè)術(shù)語(yǔ)分配權(quán)重;
25、s5.2、采用信息增益評(píng)估法分析術(shù)語(yǔ)所提供的信息量以及它們?cè)跍p少分類時(shí)的不確定性方面的作用,為每個(gè)術(shù)語(yǔ)分配一個(gè)量化的分?jǐn)?shù);
26、s5.3、采用優(yōu)化技術(shù)最優(yōu)化每個(gè)術(shù)語(yǔ)的權(quán)重值;
27、s6、特征維度選擇和算法優(yōu)化:使用自適應(yīng)特征選擇算法以及自信息量度量和高階信息熵技術(shù),從海量特征中篩選出最具代表性和區(qū)分性的特征集合;
28、s7、多維屬性決策分析和模型綜合:采用topsis模型作為文章影響力評(píng)估模型,并采用集成學(xué)習(xí)框架和超參數(shù)調(diào)優(yōu)技術(shù),精細(xì)化模型參數(shù),確保最終的topsis模型能全面綜合不同屬性,實(shí)現(xiàn)最優(yōu)化的影響力評(píng)估;
29、s8、深度模型驗(yàn)證與準(zhǔn)確度校準(zhǔn):
30、s8.1、使用交叉驗(yàn)證、自助法和jackknife再抽樣技術(shù)來(lái)測(cè)試tops?is模型在不同數(shù)據(jù)子集上的表現(xiàn),以此確保其穩(wěn)定性和泛化能力;
31、s8.2、采用bland-altman一致性分析和kappa一致性檢驗(yàn)進(jìn)一步細(xì)致評(píng)估tops?is模型的準(zhǔn)確度;
32、s8.3、經(jīng)過(guò)多輪的專家評(píng)審打分環(huán)節(jié),專家組基于其專業(yè)知識(shí)和經(jīng)驗(yàn),對(duì)tops?is模型在不同文章分類上的排序結(jié)果進(jìn)行重要性評(píng)分。
33、進(jìn)一步地,步驟s1中,網(wǎng)絡(luò)信息獲取系統(tǒng)內(nèi)部的每個(gè)線程均受中央線程池的管理,實(shí)現(xiàn)線程資源的動(dòng)態(tài)分配和回收,從而優(yōu)化網(wǎng)絡(luò)爬蟲(chóng)的整體性能。
34、進(jìn)一步地,步驟s1中,所述網(wǎng)絡(luò)信息采集系統(tǒng)采用無(wú)頭瀏覽器技術(shù)模擬真實(shí)用戶的瀏覽行為,并執(zhí)行網(wǎng)頁(yè)中的javascript代碼,確保訪問(wèn)和收集由ajax和javascript動(dòng)態(tài)生成的內(nèi)容。
35、進(jìn)一步地,步驟s1中,所述網(wǎng)絡(luò)信息采集系統(tǒng)采用代理輪換機(jī)制,通過(guò)動(dòng)態(tài)更換ip地址和模擬不同地理位置的用戶訪問(wèn),規(guī)避網(wǎng)站的反爬蟲(chóng)策略。
36、進(jìn)一步地,步驟s2.3的具體過(guò)程為:
37、1)采用支持向量機(jī)svm進(jìn)行特征工程,提取人名的關(guān)鍵特征并進(jìn)行初步分類分析:原始作者信息數(shù)據(jù)經(jīng)過(guò)預(yù)處理后,進(jìn)行分詞處理,并轉(zhuǎn)化為詞向量;預(yù)處理步驟包括去除標(biāo)點(diǎn)符號(hào)、轉(zhuǎn)化為小寫(xiě)和分詞,將文本處理為獨(dú)立的詞語(yǔ);然后進(jìn)行特征提取,包括識(shí)別詞語(yǔ)的首字母是否為大寫(xiě)、識(shí)別人名中的常見(jiàn)后綴以及統(tǒng)計(jì)每個(gè)詞在文本中的出現(xiàn)頻率;此外,分析詞匯的上下文特征,識(shí)別在人名前后的常見(jiàn)詞匯;最后使用svm進(jìn)行訓(xùn)練和分類,篩選出可能的人名候選集;
38、2)采用長(zhǎng)短期記憶網(wǎng)絡(luò)lstm模型對(duì)作者信息進(jìn)行識(shí)別和處理人名信息;將作者信息轉(zhuǎn)化為詞向量,作為lstm的輸入模型;
39、3)采用bert模型對(duì)作者信息進(jìn)行識(shí)別和提取人名;
40、4)為1)-3)中每個(gè)模型的輸出結(jié)果分配權(quán)重,計(jì)算每個(gè)候選人名的加權(quán)得分,綜合得分最高的人名作為初步結(jié)果;
41、5)利用外部知識(shí)庫(kù)構(gòu)建知識(shí)圖譜,對(duì)4)中綜合得分較高的候選人名,通過(guò)知識(shí)圖譜中的關(guān)聯(lián)信息進(jìn)行驗(yàn)證,確保識(shí)別結(jié)果的準(zhǔn)確性和一致性;若驗(yàn)證失敗,則選擇次高得分的候選人名并重復(fù)驗(yàn)證步驟,直至找到準(zhǔn)確結(jié)果。
42、進(jìn)一步地,步驟s3.4的具體過(guò)程為:
43、(1)對(duì)頁(yè)面編碼采用取倒數(shù)的操作;
44、(2)文本長(zhǎng)度:對(duì)文章i的文本長(zhǎng)度li進(jìn)行分類處理,并根據(jù)其所屬的四分位數(shù)區(qū)間分配相應(yīng)的權(quán)重;將文本長(zhǎng)度被分為四個(gè)類別:短文本li≤q1的權(quán)重為0.25,中等偏短文本q1<li≤q2的權(quán)重設(shè)為0.5,中等偏長(zhǎng)文本q2<li≤q3的權(quán)重為1,而長(zhǎng)文本li>q3的權(quán)重為0.75;
45、(3)章節(jié)和文本類型:章節(jié)為媒體中劃分的文章板塊或?qū)?,文本類型則描述了文章的性質(zhì)和形式,突顯內(nèi)容的側(cè)重點(diǎn)和表現(xiàn)形式的多樣性;為量化這些章節(jié)和文本類型的重要性,采用0到10分的評(píng)分體系,由接受專業(yè)培訓(xùn)的三位工作人員獨(dú)立評(píng)分,據(jù)此得到知識(shí)賦權(quán)的打分;
46、然后,對(duì)文章i所歸屬的章節(jié)的頻數(shù)和文本類型的頻數(shù)進(jìn)行歸一化處理,將其轉(zhuǎn)換為0到1之間的數(shù)值:
47、
48、
49、其中為歸一化后的章節(jié)的頻數(shù),和分別為所有章節(jié)的頻數(shù)中的最小值和最大值;為歸一化后的文本類型的頻數(shù),和分別為所有文本類型的頻數(shù)中的最小值和最大值;
50、其后,最終評(píng)分wc(ci)和wd(di)由歸一化頻數(shù)和知識(shí)賦權(quán)的加權(quán)組合得出,計(jì)算公式為:
51、
52、
53、其中,權(quán)重α1=0.1,權(quán)重α2=0.9,kc(ci)、kd(di)是知識(shí)賦權(quán)的打分;
54、(4)涉華詞:定義涉華詞集合,并計(jì)算文章i的文本t中出現(xiàn)涉華詞的次數(shù)然后對(duì)涉華詞次數(shù)進(jìn)行歸一化處理:
55、
56、其中,和分別表示所有文章中涉華詞次數(shù)的最大值和最小值;
57、(5)主題:根據(jù)n-grams算法對(duì)文章進(jìn)行主題貼標(biāo):從文本中生成n-grams,對(duì)于給定的文本t,將其分解為一系列的n-grams;設(shè)t=t1,t2,...,tm是由單詞組成的序列,其中m是文本中的單詞總數(shù);對(duì)于給定的n-gram中的n,n-gram是由連續(xù)的n個(gè)單詞組成的序列;對(duì)于文本t,其n-grams集合n表示為:
58、n={(tk,tk+1,...,tk+n-1)|1≤k≤m-n+1}
59、然后,根據(jù)n-grams與文章標(biāo)簽編碼的關(guān)聯(lián)來(lái)對(duì)文本進(jìn)行標(biāo)注;設(shè)b是標(biāo)簽集合,下標(biāo)o表示n-gram序列的索引,用于標(biāo)識(shí)和區(qū)分在整個(gè)文本中生成的不同n-grams,對(duì)于每個(gè)n-gram?no∈b,檢查是否存在與之對(duì)應(yīng)的標(biāo)簽lj∈b;最后,根據(jù)標(biāo)簽的類型為每個(gè)n-gram分配權(quán)重,如果no對(duì)應(yīng)的標(biāo)簽lj屬于設(shè)定類別e,則分配權(quán)重wj=0.5,否則wj=0;
60、(6)專欄作家al:統(tǒng)計(jì)每位作家在數(shù)據(jù)集中出現(xiàn)的頻數(shù),并對(duì)這些頻數(shù)進(jìn)行歸一化處理;
61、(7)內(nèi)容特征:內(nèi)容特征旨在量化分析文章文本的特定特征,以評(píng)估其在文章影響力評(píng)估過(guò)程中的重要性;設(shè)cfi為文章i的內(nèi)容特征,tfidfi表示文章i的詞頻-逆文檔頻率分?jǐn)?shù);w2vi是基于word?2vec技術(shù)計(jì)算得到的文本向量化分?jǐn)?shù);lsa/ldai表示利用潛在語(yǔ)義分析或潛在狄利克雷分配得到的主題分布分?jǐn)?shù);α,β,γ是權(quán)重系數(shù),用于平衡各個(gè)分量在cf中的貢獻(xiàn);則內(nèi)容特征計(jì)算公式為:
62、cfi=α·tfidfi+β·w2vi+γ·lsa/ldai。
63、更進(jìn)一步地,在(3)中,對(duì)于章節(jié)頻數(shù)當(dāng)章節(jié)頻數(shù)處于最高的三分位距,即時(shí),取三位工作人員評(píng)分中的最低值作為最終知識(shí)賦權(quán)的打分kc(ci);當(dāng)章節(jié)頻次處于最低的三分位距,即時(shí),取評(píng)分中的最高值作為最終知識(shí)賦權(quán)的打分kc(ci);當(dāng)章節(jié)頻數(shù)位于中間范圍時(shí),取三位工作人員評(píng)分的中位數(shù)作為最終知識(shí)賦權(quán)的打分kc(ci);
64、同理,對(duì)于文本類型頻數(shù)當(dāng)文本類型頻數(shù)處于最高的三分位距,即時(shí),取三位工作人員評(píng)分中的最低值作為最終知識(shí)賦權(quán)的打分kd(di);當(dāng)文本類型頻數(shù)處于最低的三分位距,即時(shí),取三位工作人員中的最高值作為最終知識(shí)賦權(quán)的打分kd(di);當(dāng)文本類型頻數(shù)位于中間范圍時(shí),取三位研究生評(píng)分的中位數(shù)作為最終知識(shí)賦權(quán)的打分kd(di)。
65、進(jìn)一步地,步驟s?6的具體過(guò)程為:
66、s6.1、運(yùn)用自適應(yīng)的特征選擇算法系統(tǒng)地評(píng)估各個(gè)特征對(duì)文章影響力評(píng)估模型性能的貢獻(xiàn),從而精準(zhǔn)地識(shí)別出對(duì)文章分類最為關(guān)鍵的特征;
67、s6.2、采用高階信息熵技術(shù)衡量各個(gè)特征的信息量,確保所選的特征集在表達(dá)文本數(shù)據(jù)時(shí)的信息損失最小;
68、s6.3、采用支持向量機(jī)svm和隨機(jī)森林,對(duì)特征集進(jìn)行進(jìn)一步的優(yōu)化;
69、步驟s6中的優(yōu)化過(guò)程基于設(shè)定的目標(biāo)驗(yàn)證條件,反復(fù)迭代更新s6.1-s6.3直到滿足驗(yàn)證條件;在每一輪優(yōu)化后,根據(jù)模型驗(yàn)證結(jié)果的表現(xiàn)決定是否需要進(jìn)一步調(diào)整特征選擇,滿足即停止迭代。
70、進(jìn)一步地,步驟s1中的網(wǎng)絡(luò)信息獲取系統(tǒng)還配置有自動(dòng)化的異常檢測(cè)機(jī)制,用于實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)抓取過(guò)程中可能出現(xiàn)的錯(cuò)誤或數(shù)據(jù)不一致情況,并自動(dòng)重試或報(bào)告問(wèn)題,以確保數(shù)據(jù)的完整性和準(zhǔn)確性。
71、本發(fā)明的有益效果在于:本發(fā)明全面考慮了各個(gè)網(wǎng)站的多樣性、數(shù)據(jù)的復(fù)雜性、特征的多樣性,完全脫離用戶隱私數(shù)據(jù)的依賴,更加客觀地評(píng)估文章內(nèi)容本身的影響力。所建立的tops?is模型具有高度可解釋性,通過(guò)綜合分析文章的多種屬性,提供了一種新的評(píng)估不同媒體文章影響力的方法論框架。本發(fā)明不但可以解決現(xiàn)有技術(shù)的不足,還為媒體影響力分析提供了新的視角和工具,具有重要的理論和實(shí)際應(yīng)用價(jià)值。