国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于BERT的文本主題提取及時(shí)空演化分析方法及系統(tǒng)與流程

      文檔序號(hào):39621401發(fā)布日期:2024-10-11 13:40閱讀:51來源:國(guó)知局
      一種基于BERT的文本主題提取及時(shí)空演化分析方法及系統(tǒng)與流程

      本發(fā)明涉及洪澇災(zāi)害輿情監(jiān)測(cè),具體為一種基于bert的文本主題提取及時(shí)空演化分析方法及系統(tǒng)。


      背景技術(shù):

      1、暴雨洪澇災(zāi)害給各地都帶來了巨大的人員傷亡和經(jīng)濟(jì)損失,其直接經(jīng)濟(jì)損失占所有氣象災(zāi)害(包括暴雨洪澇、干旱、大風(fēng)、冰雹、雷電、熱帶氣旋、低溫冷凍和雪災(zāi)等)所造成的直接經(jīng)經(jīng)濟(jì)損失總值的年平均比重約為44.4%。相對(duì)于其他災(zāi)害而言,暴雨洪澇災(zāi)害受災(zāi)地區(qū)更多,危害性更大。而災(zāi)害信息的獲取與時(shí)空分析可以幫助相關(guān)部門進(jìn)行輿情的監(jiān)測(cè)和及時(shí)響應(yīng),所以信息的及時(shí)性就會(huì)變得尤為重要?,F(xiàn)如今,越來越多的研究使用微博數(shù)據(jù),其具有數(shù)據(jù)量大、實(shí)時(shí)性強(qiáng)、易獲取等特點(diǎn),相比較于遙感和地面觀測(cè)數(shù)據(jù),微博數(shù)據(jù)更能及時(shí)反映實(shí)際情況。對(duì)于監(jiān)測(cè)洪澇這種突發(fā)性的災(zāi)害事件,尤其是監(jiān)測(cè)洪澇過程中造成的交通擁堵、人員受困、斷水?dāng)嚯姷葹?zāi)情以及分析公眾輿論走向具有十分重要的意義。因此,結(jié)合微博數(shù)據(jù)分析洪澇暴雨過程中主題的時(shí)空演化規(guī)律,挖掘更準(zhǔn)確、及時(shí)的災(zāi)害信息,對(duì)災(zāi)害應(yīng)急和防災(zāi)減災(zāi)具有重要現(xiàn)實(shí)意義。

      2、隨著社交媒體和在線平臺(tái)的普及,大量的文本數(shù)據(jù)被生成,這些文本數(shù)據(jù)包含豐富的信息和洞察力,特別是在公共事件和社會(huì)動(dòng)態(tài)方面。因此,從這些數(shù)據(jù)中提取主題并分析其隨時(shí)間和地點(diǎn)的演化模式變得尤為重要。傳統(tǒng)的文本分析方法在處理這類數(shù)據(jù)時(shí)面臨諸多挑戰(zhàn),例如難以捕捉復(fù)雜的語義關(guān)系、處理大規(guī)模數(shù)據(jù)集的計(jì)算成本高昂以及無法有效地將文本內(nèi)容與時(shí)空因素相結(jié)合。

      3、現(xiàn)有的文本分析技術(shù),在處理大規(guī)模、非結(jié)構(gòu)化的社交媒體文本數(shù)據(jù)時(shí)存在幾個(gè)主要的不足之處。首先,許多傳統(tǒng)模型在文本的深層語義理解方面有限,難以有效地從復(fù)雜的文本數(shù)據(jù)中提取準(zhǔn)確的主題信息。其次,現(xiàn)有技術(shù)往往忽視了文本數(shù)據(jù)的時(shí)空特性,無法充分利用這些信息來分析主題隨時(shí)間和空間的演化規(guī)律。此外,對(duì)易錯(cuò)分類的處理通常不夠精細(xì),這可能導(dǎo)致對(duì)特定主題的解釋和分析不夠準(zhǔn)確。


      技術(shù)實(shí)現(xiàn)思路

      1、鑒于上述存在的問題,提出了本發(fā)明。

      2、因此,本發(fā)明解決的技術(shù)問題是:現(xiàn)有的文本分析方法存在無法提取準(zhǔn)確的主題信息,忽視文本數(shù)據(jù)的時(shí)空特性,精細(xì)度低,以及分析準(zhǔn)確度低問題。

      3、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:一種基于bert的文本主題提取及時(shí)空演化分析方法,包括采集微博文本主題數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;基于圖排序、統(tǒng)計(jì)、最大邊緣相關(guān)以及主題模型進(jìn)行關(guān)鍵句抽??;根據(jù)bert主題分類模型提取每條數(shù)據(jù)的主題;通過混淆矩陣查看易錯(cuò)分的類別并合并;基于評(píng)價(jià)指標(biāo)進(jìn)行模型適用性測(cè)評(píng);通過時(shí)間變化分析整體和局部的主題演化規(guī)律。

      4、作為本發(fā)明所述的基于bert的文本主題提取及時(shí)空演化分析方法的一種優(yōu)選方案,其中:所述采集微博文本主題數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理包括在社交媒體數(shù)據(jù)方面,通過網(wǎng)絡(luò)爬蟲和api結(jié)合,以關(guān)鍵詞和地名相結(jié)合的限定條件獲取事件發(fā)生周期內(nèi)的洪災(zāi)相關(guān)的微博數(shù)據(jù);

      5、所述微博數(shù)據(jù)字段包括發(fā)布時(shí)間、微博文本內(nèi)容、發(fā)布位置;

      6、通過數(shù)據(jù)清洗、去重,中文分詞,去停用詞的預(yù)處理工作,形成微博洪災(zāi)語料庫(kù),選取帶有簽到位置的微博數(shù)據(jù)用于微博文本主題提取及時(shí)空演化分析;

      7、所述數(shù)據(jù)清洗包括去除微博文本無關(guān)信息,判斷文本字符是否為utf-8編碼,若不符合該編碼格式,去除該字符,將句子個(gè)數(shù)小于3的文本中的逗號(hào)改成句號(hào),根據(jù)簽到位置文本信息調(diào)用百度地圖api確認(rèn)位置數(shù)據(jù),包括經(jīng)緯度坐標(biāo)。

      8、作為本發(fā)明所述的基于bert的文本主題提取及時(shí)空演化分析方法的一種優(yōu)選方案,其中:所述基于圖排序、基于統(tǒng)計(jì)、基于最大邊緣相關(guān)以及基于主題模型進(jìn)行關(guān)鍵句抽取包括基于圖排序、統(tǒng)計(jì)、最大邊緣相關(guān)以及主題模型四個(gè)角度選取textrank、tf-idf、mmr、lda四種方法用于關(guān)鍵句抽取。

      9、作為本發(fā)明所述的基于bert的文本主題提取及時(shí)空演化分析方法的一種優(yōu)選方案,其中:所述根據(jù)bert主題分類模型提取每條數(shù)據(jù)的主題包括將提取到的關(guān)鍵句以及實(shí)驗(yàn)數(shù)據(jù)作為輸入,基于bert主題分類模型提取每條數(shù)據(jù)的主題;

      10、bert層的主要操作是依據(jù)文本的詞嵌入、分割嵌入以及位置嵌入信息來提取文本的上下文語義信息,在輸入的文本前插入[cls]符號(hào),并將輸出向量作為整個(gè)文本的語義表示,在輸入的兩個(gè)句子之間插入[sep]符號(hào)作為分割,將輸入的句子傳遞于嵌入層和transformer層,輸入文本的向量表示,表示為:

      11、out=transfomer(embedding(text))

      12、其中,text表示輸入句子,embedding表示bert的輸入層,transfomer表示bert的特征提取器,out表示輸入文本的特征向量;

      13、在bert之后加入線性分類器,輸出文本分類結(jié)果,表示為:

      14、label=softmax(bert(text)×w+b),label∈{0,1,2,3}

      15、其中,bert(text)表示對(duì)輸入文本應(yīng)用bert,w表示權(quán)重矩陣,b表示偏置向量,softmax表示激活函數(shù),label表示模型的輸出。

      16、作為本發(fā)明所述的基于bert的文本主題提取及時(shí)空演化分析方法的一種優(yōu)選方案,其中:所述通過混淆矩陣查看易錯(cuò)分的類別并合并包括使用混淆矩陣檢查易錯(cuò)分的類別,將易錯(cuò)分的類別進(jìn)行合并,優(yōu)化之后的類別滿足,若有熱點(diǎn)事件,將熱點(diǎn)事件提取出來,類別選取需滿足符合事件發(fā)展歷程,類別之間無明顯包含與被包含的關(guān)系,表示為:

      17、

      18、

      19、

      20、其中,vi和vj表示類別i和j在特征空間中的向量表示,ω和γ表示類別i和j的特征空間,i(t,x)表示在時(shí)空點(diǎn)(t,x)的類別影響力值,d表示影響力傳播的速度和范圍,c*表示類別間的混淆程度,表示在類別空間流形m上尋找使得表達(dá)式最小的類別集合l′,表示在流形m的邊界b上的閉合路徑積分,r(l′)表示在類別集合l′下的函數(shù),l′表示優(yōu)化后的類別集合,表示流形的邊界,r和s表示在類別空間中定義的函數(shù)。

      21、作為本發(fā)明所述的基于bert的文本主題提取及時(shí)空演化分析方法的一種優(yōu)選方案,其中:所述基于評(píng)價(jià)指標(biāo)進(jìn)行模型適用性測(cè)評(píng)包括將微博文本按照用戶類型和文本長(zhǎng)度劃分,分別用準(zhǔn)確率、精確率、召回率以及f1精度評(píng)價(jià)指標(biāo)進(jìn)行模型適用性測(cè)評(píng),表示為:

      22、

      23、

      24、其中,m表示原始混淆矩陣,tp、fp、fn、tn表示真正例、假正例、假負(fù)例和真負(fù)例的數(shù)量,r表示黎曼幾何轉(zhuǎn)換后的混淆矩陣,c表示復(fù)平面上的一條曲線,z和表示復(fù)數(shù)及共軛,π表示綜合性能指標(biāo),表示第i個(gè)類別的轉(zhuǎn)換混淆矩陣ri的黎曼梯度。

      25、作為本發(fā)明所述的基于bert的文本主題提取及時(shí)空演化分析方法的一種優(yōu)選方案,其中:所述通過時(shí)間變化分析整體和局部的主題演化規(guī)律包括輸出每個(gè)地區(qū)話題熱度值,通過時(shí)間變化分析整體和局部的主題演化規(guī)律,表示為:

      26、

      27、其中,h表示地區(qū)對(duì)洪澇暴雨事件的關(guān)注程度,count表示在某一時(shí)間段內(nèi)位于地區(qū)簽到位置的微博數(shù)量,person表示地區(qū)15到65歲人口的相對(duì)數(shù)量;

      28、抽取整個(gè)事件中時(shí)間節(jié)點(diǎn),分析隨著時(shí)間變化,各地區(qū)對(duì)事件熱度關(guān)注程度變化。

      29、本發(fā)明的另外一個(gè)目的是提供一種基于bert的文本主題提取及時(shí)空演化分析系統(tǒng),其能通過構(gòu)建bert的主題分類模型,解決了目前的文本分析方法含有主題分類的精確度低的問題。

      30、作為本發(fā)明所述的基于bert的文本主題提取及時(shí)空演化分析系統(tǒng)的一種優(yōu)選方案,其中:包括初始化模塊,關(guān)鍵句提取模塊,主題提取模塊,類別優(yōu)化模塊,適用性測(cè)評(píng)模塊,主題時(shí)空演化分析模塊;

      31、所述初始化模塊用于采集微博文本主題數(shù)據(jù);

      32、所述關(guān)鍵句提取模塊用于將處理好的數(shù)據(jù)分別放入textrank、mmr、tf-idf和lda四種算法運(yùn)行,選取每種算法下句子重要性排序的前三句話代替文本;所述主題提取模塊用于將提取到的關(guān)鍵句以及實(shí)驗(yàn)數(shù)據(jù)作為輸入,基于bert主題分類模型提取每條數(shù)據(jù)的主題;所述類別優(yōu)化模塊用于通過混淆矩陣查看易錯(cuò)分的類別,合并相似類別提高分類精度;所述適用性測(cè)評(píng)模塊用于將微博文本按照用戶類型和文本長(zhǎng)度劃分,分別用準(zhǔn)確率、精確率、召回率以及f1精度評(píng)價(jià)指標(biāo)進(jìn)行模型適用性測(cè)評(píng);所述主題時(shí)空演化分析模塊用于輸出每個(gè)地區(qū)話題熱度值,通過時(shí)間變化分析整體和局部的主題演化規(guī)律。

      33、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序是實(shí)現(xiàn)基于bert的文本主題提取及時(shí)空演化分析方法的步驟。

      34、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)基于bert的文本主題提取及時(shí)空演化分析方法的步驟。

      35、本發(fā)明的有益效果:本發(fā)明提供的基于bert的文本主題提取及時(shí)空演化分析方法通過結(jié)合圖排序、統(tǒng)計(jì)分析、最大邊緣相關(guān)性以及主題模型技術(shù),提高關(guān)鍵信息的提取準(zhǔn)確性和完整性,應(yīng)用基于bert的主題分類模型,準(zhǔn)確地將文本內(nèi)容分類到不同的主題中,提高分類任務(wù)的準(zhǔn)確率和可靠性,使得對(duì)大規(guī)模微博文本數(shù)據(jù)的處理變得更加高效和準(zhǔn)確,利用混淆矩陣分析易錯(cuò)分的類別并進(jìn)行合并,減少分類錯(cuò)誤,提高模型在實(shí)際應(yīng)用中的可靠性和準(zhǔn)確性,本發(fā)明在效率、準(zhǔn)確率以及可靠性方面都取得更加良好的效果。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1