国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于BERT的文本主題提取及時空演化分析方法及系統(tǒng)與流程

      文檔序號:39621401發(fā)布日期:2024-10-11 13:40閱讀:來源:國知局

      技術(shù)特征:

      1.一種基于bert的文本主題提取及時空演化分析方法,其特征在于,包括:

      2.如權(quán)利要求1所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述采集微博文本主題數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理包括在社交媒體數(shù)據(jù)方面,通過網(wǎng)絡(luò)爬蟲和api結(jié)合,以關(guān)鍵詞和地名相結(jié)合的限定條件獲取事件發(fā)生周期內(nèi)的洪災(zāi)相關(guān)的微博數(shù)據(jù);

      3.如權(quán)利要求2所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述基于圖排序、基于統(tǒng)計、基于最大邊緣相關(guān)以及基于主題模型進(jìn)行關(guān)鍵句抽取包括基于圖排序、統(tǒng)計、最大邊緣相關(guān)以及主題模型四個角度選取textrank、tf-idf、mmr、lda四種方法用于關(guān)鍵句抽取。

      4.如權(quán)利要求3所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述根據(jù)bert主題分類模型提取每條數(shù)據(jù)的主題包括將提取到的關(guān)鍵句以及實驗數(shù)據(jù)作為輸入,基于bert主題分類模型提取每條數(shù)據(jù)的主題;

      5.如權(quán)利要求4所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述通過混淆矩陣查看易錯分的類別并合并包括使用混淆矩陣檢查易錯分的類別,將易錯分的類別進(jìn)行合并,優(yōu)化之后的類別滿足,若有熱點事件,將熱點事件提取出來,類別選取需滿足符合事件發(fā)展歷程,類別之間無明顯包含與被包含的關(guān)系,表示為:

      6.如權(quán)利要求5所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述基于評價指標(biāo)進(jìn)行模型適用性測評包括將微博文本按照用戶類型和文本長度劃分,分別用準(zhǔn)確率、精確率、召回率以及f1精度評價指標(biāo)進(jìn)行模型適用性測評,表示為:

      7.如權(quán)利要求6所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述通過時間變化分析整體和局部的主題演化規(guī)律包括輸出每個地區(qū)話題熱度值,通過時間變化分析整體和局部的主題演化規(guī)律,表示為:

      8.一種采用如權(quán)利要求1~7任一所述的基于bert的文本主題提取及時空演化分析方法的系統(tǒng),其特征在于:包括初始化模塊,關(guān)鍵句提取模塊,主題提取模塊,類別優(yōu)化模塊,適用性測評模塊,主題時空演化分析模塊;

      9.一種計算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)權(quán)利要求1至7中任一項所述的基于bert的文本主題提取及時空演化分析方法的步驟。

      10.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的基于bert的文本主題提取及時空演化分析方法的步驟。


      技術(shù)總結(jié)
      本發(fā)明公開了一種基于BERT的文本主題提取及時空演化分析方法及系統(tǒng),涉及洪澇災(zāi)害輿情監(jiān)測技術(shù)領(lǐng)域,包括采集微博文本主題數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,基于圖排序、統(tǒng)計、最大邊緣相關(guān)以及主題模型進(jìn)行關(guān)鍵句抽取,根據(jù)BERT主題分類模型提取每條數(shù)據(jù)的主題,通過混淆矩陣查看易錯分的類別并合并,基于評價指標(biāo)進(jìn)行模型適用性測評,通過時間變化分析整體和局部的主題演化規(guī)律。本發(fā)明通過應(yīng)用基于BERT的主題分類模型,提高分類任務(wù)的準(zhǔn)確率和可靠性,使得對大規(guī)模微博文本數(shù)據(jù)的處理變得更加高效和準(zhǔn)確,利用混淆矩陣分析易錯分的類別并進(jìn)行合并,提高模型在實際應(yīng)用中的可靠性和準(zhǔn)確性,本發(fā)明在效率、準(zhǔn)確率以及可靠性方面都取得更加良好的效果。

      技術(shù)研發(fā)人員:崔志美,黃維,黃志都,鄔蓉蓉,唐捷,張玉波,劉英龍,馮玉斌,李珊,姚知洋,許江元,李盛東,歐陽健娜
      受保護(hù)的技術(shù)使用者:廣西電網(wǎng)有限責(zé)任公司電力科學(xué)研究院
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/10/10
      當(dāng)前第2頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1