1.一種基于bert的文本主題提取及時空演化分析方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述采集微博文本主題數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理包括在社交媒體數(shù)據(jù)方面,通過網(wǎng)絡(luò)爬蟲和api結(jié)合,以關(guān)鍵詞和地名相結(jié)合的限定條件獲取事件發(fā)生周期內(nèi)的洪災(zāi)相關(guān)的微博數(shù)據(jù);
3.如權(quán)利要求2所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述基于圖排序、基于統(tǒng)計、基于最大邊緣相關(guān)以及基于主題模型進(jìn)行關(guān)鍵句抽取包括基于圖排序、統(tǒng)計、最大邊緣相關(guān)以及主題模型四個角度選取textrank、tf-idf、mmr、lda四種方法用于關(guān)鍵句抽取。
4.如權(quán)利要求3所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述根據(jù)bert主題分類模型提取每條數(shù)據(jù)的主題包括將提取到的關(guān)鍵句以及實驗數(shù)據(jù)作為輸入,基于bert主題分類模型提取每條數(shù)據(jù)的主題;
5.如權(quán)利要求4所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述通過混淆矩陣查看易錯分的類別并合并包括使用混淆矩陣檢查易錯分的類別,將易錯分的類別進(jìn)行合并,優(yōu)化之后的類別滿足,若有熱點事件,將熱點事件提取出來,類別選取需滿足符合事件發(fā)展歷程,類別之間無明顯包含與被包含的關(guān)系,表示為:
6.如權(quán)利要求5所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述基于評價指標(biāo)進(jìn)行模型適用性測評包括將微博文本按照用戶類型和文本長度劃分,分別用準(zhǔn)確率、精確率、召回率以及f1精度評價指標(biāo)進(jìn)行模型適用性測評,表示為:
7.如權(quán)利要求6所述的基于bert的文本主題提取及時空演化分析方法,其特征在于:所述通過時間變化分析整體和局部的主題演化規(guī)律包括輸出每個地區(qū)話題熱度值,通過時間變化分析整體和局部的主題演化規(guī)律,表示為:
8.一種采用如權(quán)利要求1~7任一所述的基于bert的文本主題提取及時空演化分析方法的系統(tǒng),其特征在于:包括初始化模塊,關(guān)鍵句提取模塊,主題提取模塊,類別優(yōu)化模塊,適用性測評模塊,主題時空演化分析模塊;
9.一種計算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)權(quán)利要求1至7中任一項所述的基于bert的文本主題提取及時空演化分析方法的步驟。
10.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的基于bert的文本主題提取及時空演化分析方法的步驟。