国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種新聞事件分類(lèi)方法

      文檔序號(hào):40363499發(fā)布日期:2024-12-18 13:47閱讀:9來(lái)源:國(guó)知局
      一種新聞事件分類(lèi)方法

      本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,更具體的說(shuō)是涉及一種新聞事件分類(lèi)方法。


      背景技術(shù):

      1、通過(guò)對(duì)新聞事件進(jìn)行分類(lèi),可以讓讀者更容易地找到自己感興趣的內(nèi)容,節(jié)約閱讀時(shí)間??梢詭椭侣剻C(jī)構(gòu)或平臺(tái)更好地組織和管理大量的新聞內(nèi)容,便于檢索和歸檔。分類(lèi)可以幫助對(duì)各類(lèi)事件進(jìn)行監(jiān)測(cè)和分析,為政府、企業(yè)和機(jī)構(gòu)提供決策支持和輿情反饋。

      2、當(dāng)前,傳統(tǒng)方法可能只使用新聞文章的原文本進(jìn)行分類(lèi),而忽略了其他來(lái)源的相關(guān)信息。且基于簡(jiǎn)單的規(guī)則或詞表,無(wú)法充分捕捉文本中的重要信息。

      3、同時(shí),使用簡(jiǎn)單的相似性計(jì)算方法,無(wú)法準(zhǔn)確評(píng)估關(guān)鍵詞之間的語(yǔ)義和上下文關(guān)系。且缺乏對(duì)相似性計(jì)算結(jié)果的處理和轉(zhuǎn)化方式,導(dǎo)致分類(lèi)結(jié)果單一。

      4、因此,如何設(shè)計(jì)一種新聞事件分類(lèi)方法,為數(shù)據(jù)的獲取及具體的處理方式提供多元化的技術(shù)方案,進(jìn)而提供更準(zhǔn)確、全面和可解釋的新聞事件分類(lèi)結(jié)果是本領(lǐng)域技術(shù)人員亟需解決的問(wèn)題。


      技術(shù)實(shí)現(xiàn)思路

      1、有鑒于此,本發(fā)明提供了一種新聞事件分類(lèi)方法,可以捕捉文本中的重要信息,采用多層次的關(guān)鍵詞詞庫(kù)和相似性計(jì)算方法,可以更好地捕捉關(guān)鍵詞之間的語(yǔ)義和上下文關(guān)系,且可以更靈活地確定分類(lèi)結(jié)果。

      2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

      3、第一方面,本發(fā)明提供了一種新聞事件分類(lèi)方法,包括:

      4、s1、獲取新聞事件的文本數(shù)據(jù);所述文本數(shù)據(jù)包括:直接數(shù)據(jù)和間接數(shù)據(jù);

      5、s2、利用關(guān)鍵詞提取融合模型提取所述文本數(shù)據(jù)中的若干關(guān)鍵詞,獲得關(guān)鍵詞詞組;

      6、s3、基于多層次關(guān)鍵詞詞庫(kù),對(duì)所述關(guān)鍵詞詞組進(jìn)行多階段相似性計(jì)算,獲得相似性計(jì)算結(jié)果;所述多層次關(guān)鍵詞詞庫(kù)包括:一級(jí)詞庫(kù)、二級(jí)詞庫(kù)和三級(jí)詞庫(kù);

      7、s4、對(duì)所述相似性計(jì)算結(jié)果進(jìn)行歸一化處理,并基于多層感知網(wǎng)絡(luò)模型,獲得新聞事件的概率分布結(jié)果;

      8、s5、基于所述概率分布結(jié)果,將概率值最高和次高的兩個(gè)新聞事件概率值差值,和預(yù)設(shè)概率閾值進(jìn)行比較,獲得新聞事件的分類(lèi)結(jié)果。

      9、其中,所述s1中,利用新聞網(wǎng)站和數(shù)據(jù)提供商提供的api接口獲取直接數(shù)據(jù);利用編寫(xiě)爬蟲(chóng)模型訪(fǎng)問(wèn)新聞網(wǎng)站或社交媒體平臺(tái)獲取間接數(shù)據(jù)。

      10、進(jìn)一步的,利用關(guān)鍵詞提取融合模型提取所述文本數(shù)據(jù)中的關(guān)鍵詞,包括:

      11、s21、對(duì)所述文本數(shù)據(jù)進(jìn)行預(yù)處理,包括:分詞和去除停用詞;

      12、s22、基于預(yù)處理后的文本數(shù)據(jù),計(jì)算每個(gè)詞項(xiàng)的詞頻tf和逆文檔頻率idf,獲得每個(gè)詞項(xiàng)的tf-idf值;

      13、s23、將每個(gè)詞項(xiàng)作為圖的節(jié)點(diǎn),使用共現(xiàn)矩陣計(jì)算詞項(xiàng)之間的關(guān)系,構(gòu)建文本圖;

      14、s24、利用textrank算法對(duì)所述文本圖進(jìn)行排序,確定每個(gè)詞項(xiàng)的textrank得分;

      15、s25、將所述tf-idf值和textrank得分進(jìn)行加權(quán)融合,獲得每個(gè)詞項(xiàng)的綜合得分;

      16、s26、基于所述每個(gè)詞項(xiàng)的綜合得分進(jìn)行排序,并通過(guò)預(yù)設(shè)得分閾值提取若干關(guān)鍵詞,獲得關(guān)鍵詞詞組。

      17、進(jìn)一步的,所述s3中,多層次的關(guān)鍵詞詞庫(kù)基于智能推薦機(jī)制進(jìn)行更新。

      18、進(jìn)一步的,所述s3中,對(duì)所述關(guān)鍵詞詞組進(jìn)行多階段相似性計(jì)算,包括:

      19、s31、計(jì)算關(guān)鍵詞詞組與三級(jí)詞庫(kù)中每個(gè)詞匯的相似性:

      20、

      21、s32、計(jì)算關(guān)鍵詞詞組與二級(jí)詞庫(kù)中每個(gè)詞匯的相似性:

      22、

      23、s33、計(jì)算關(guān)鍵詞詞組與一級(jí)詞庫(kù)中每個(gè)詞匯的相似性:

      24、

      25、其中,c(m,n)表示關(guān)鍵詞詞組向量am與二級(jí)詞庫(kù)中詞向量bn距離。

      26、進(jìn)一步的,所述s4中,新聞事件分類(lèi)模型包括:輸入層、隱藏層和輸出層;所述隱藏層后設(shè)有relu激活函數(shù);所述輸出層后設(shè)有softmax激活函數(shù)。

      27、進(jìn)一步的,所述s5中,基于所述概率分布結(jié)果,將概率值最高和次高的兩個(gè)新聞事件概率值差值,和預(yù)設(shè)概率閾值進(jìn)行比較,獲得新聞事件的分類(lèi)結(jié)果,包括:

      28、若概率值最高和次高的兩個(gè)新聞事件概率值差值大于預(yù)設(shè)概率閾值,輸出概率值最高的新聞事件;

      29、若概率值最高和次高的兩個(gè)新聞事件概率值差值小于預(yù)設(shè)概率閾值,輸出輸出最高和次高的兩個(gè)新聞事件。

      30、第二方面,本發(fā)明提供了一種新聞事件分類(lèi)系統(tǒng),包括:

      31、數(shù)據(jù)獲取模塊:用于獲取新聞事件的文本數(shù)據(jù);所述文本數(shù)據(jù)包括:直接數(shù)據(jù)和間接數(shù)據(jù);

      32、關(guān)鍵詞提取模塊:用于利用關(guān)鍵詞提取融合模型提取所述文本數(shù)據(jù)中的若干關(guān)鍵詞,獲得關(guān)鍵詞詞組;

      33、相似性計(jì)算模塊:用于基于多層次關(guān)鍵詞詞庫(kù),對(duì)所述關(guān)鍵詞詞組進(jìn)行多階段相似性計(jì)算,獲得相似性計(jì)算結(jié)果;所述多層次關(guān)鍵詞詞庫(kù)包括:一級(jí)詞庫(kù)、二級(jí)詞庫(kù)和三級(jí)詞庫(kù);

      34、概率分布計(jì)算模塊:用于對(duì)所述相似性計(jì)算結(jié)果進(jìn)行歸一化處理,并基于多層感知網(wǎng)絡(luò)模型,獲得新聞事件的概率分布結(jié)果;

      35、分類(lèi)結(jié)果輸出模塊:用于基于所述概率分布結(jié)果,將概率值最高和次高的兩個(gè)新聞事件概率值差值,和預(yù)設(shè)概率閾值進(jìn)行比較,獲得新聞事件的分類(lèi)結(jié)果。

      36、第三方面,本發(fā)明提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述新聞事件分類(lèi)方法。

      37、第四方面,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述新聞事件分類(lèi)方法。

      38、經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明提供的新聞事件分類(lèi)方法存在以下有益效果:

      39、1、利用關(guān)鍵詞提取融合模型可以自動(dòng)從文本數(shù)據(jù)中提取若干關(guān)鍵詞。其可以捕捉文本中的重要信息,并將其轉(zhuǎn)化為關(guān)鍵詞詞組,提供更有效的特征表示。相比于傳統(tǒng)的基于規(guī)則或詞表的關(guān)鍵詞提取方法,融合模型可以更好地適應(yīng)不同領(lǐng)域和語(yǔ)境下的關(guān)鍵詞提取需求。

      40、2、采用多層次的關(guān)鍵詞詞庫(kù)和相似性計(jì)算方法,可以更好地捕捉關(guān)鍵詞之間的語(yǔ)義和上下文關(guān)系。通過(guò)多階段的相似性計(jì)算,可以更準(zhǔn)確地評(píng)估關(guān)鍵詞之間的相似性,提高分類(lèi)的準(zhǔn)確性和魯棒性。

      41、3、對(duì)相似性計(jì)算結(jié)果進(jìn)行歸一化處理,并利用多層感知網(wǎng)絡(luò)模型進(jìn)行處理,可以將原始數(shù)據(jù)映射到概率分布結(jié)果。其可以有效地處理不同數(shù)據(jù)尺度和范圍之間的差異,并將其轉(zhuǎn)化為概率分布,提供更可解釋和可比較的分類(lèi)結(jié)果。

      42、4、通過(guò)將概率值最高和次高的兩個(gè)新聞事件的概率值差值與預(yù)設(shè)概率閾值進(jìn)行比較,可以根據(jù)差值的大小靈活地確定分類(lèi)結(jié)果。兼顧了分類(lèi)結(jié)果的準(zhǔn)確性和全面性,在概率差值較大時(shí)給出確定的分類(lèi)結(jié)果,在概率差值較小時(shí)提供更全面的信息。



      技術(shù)特征:

      1.一種新聞事件分類(lèi)方法,其特征在于,包括:

      2.根據(jù)權(quán)利要求1所述的一種新聞事件分類(lèi)方法,其特征在于,所述s1中,利用新聞網(wǎng)站和數(shù)據(jù)提供商提供的api接口獲取直接數(shù)據(jù);利用編寫(xiě)爬蟲(chóng)模型訪(fǎng)問(wèn)新聞網(wǎng)站或社交媒體平臺(tái)獲取間接數(shù)據(jù)。

      3.根據(jù)權(quán)利要求1所述的一種新聞事件分類(lèi)方法,其特征在于,所述s2中,利用關(guān)鍵詞提取融合模型提取所述文本數(shù)據(jù)中的關(guān)鍵詞,包括:

      4.根據(jù)權(quán)利要求3所述的一種新聞事件分類(lèi)方法,其特征在于,所述s3中,多層次的關(guān)鍵詞詞庫(kù)基于智能推薦機(jī)制進(jìn)行更新。

      5.根據(jù)權(quán)利要求1所述的一種新聞事件分類(lèi)方法,其特征在于,所述s3中,對(duì)所述關(guān)鍵詞詞組進(jìn)行多階段相似性計(jì)算,包括:

      6.根據(jù)權(quán)利要求1所述的一種新聞事件分類(lèi)方法,其特征在于,所述s4中,新聞事件分類(lèi)模型包括:輸入層、隱藏層和輸出層;所述隱藏層后設(shè)有relu激活函數(shù);所述輸出層后設(shè)有softmax激活函數(shù)。

      7.根據(jù)權(quán)利要求1所述的一種新聞事件分類(lèi)方法,其特征在于,所述s5中,基于所述概率分布結(jié)果,將概率值最高和次高的兩個(gè)新聞事件概率值差值,和預(yù)設(shè)概率閾值進(jìn)行比較,獲得新聞事件的分類(lèi)結(jié)果,包括:

      8.一種新聞事件分類(lèi)系統(tǒng),其特征在于,包括:

      9.一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的新聞事件分類(lèi)方法。

      10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的新聞事件分類(lèi)方法。


      技術(shù)總結(jié)
      本發(fā)明公開(kāi)了一種新聞事件分類(lèi)方法,包括:獲取新聞事件的文本數(shù)據(jù);利用關(guān)鍵詞提取融合模型提取所述文本數(shù)據(jù)中的若干關(guān)鍵詞,獲得關(guān)鍵詞詞組;基于多層次關(guān)鍵詞詞庫(kù),對(duì)所述關(guān)鍵詞詞組進(jìn)行多階段相似性計(jì)算,獲得相似性計(jì)算結(jié)果;對(duì)所述相似性計(jì)算結(jié)果進(jìn)行歸一化處理,并基于多層感知網(wǎng)絡(luò)模型,獲得新聞事件的概率分布結(jié)果;基于所述概率分布結(jié)果,將概率值最高和次高的兩個(gè)新聞事件概率值差值,和預(yù)設(shè)概率閾值進(jìn)行比較,獲得新聞事件的分類(lèi)結(jié)果。該方法通過(guò)綜合利用不同類(lèi)型的數(shù)據(jù)、融合模型、多層次的詞庫(kù)和相似性計(jì)算、歸一化處理以及靈活的分類(lèi)結(jié)果處理,能夠提供更準(zhǔn)確、全面和可解釋的新聞事件分類(lèi)結(jié)果。

      技術(shù)研發(fā)人員:徐源,孟立波,張澤琦,吳芳穎,王翹秀,李新興
      受保護(hù)的技術(shù)使用者:北京理工大學(xué)
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/17
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1