一種古文獻(xiàn)氣候記錄資料的處理方法及系統(tǒng)

文檔序號(hào)：39576753發(fā)布日期：2024-10-11 12:38閱讀：20來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于計(jì)算機(jī)自然語(yǔ)言處理，具體為一種古文獻(xiàn)氣候記錄資料的處理方法及系統(tǒng)。

背景技術(shù)：

1、古文獻(xiàn)氣候記錄資料是指以文言文形式，且記載了涉及干旱、暴雨、高溫、寒冷等多種氣候事件的文本數(shù)據(jù)，相比于代用資料，古文獻(xiàn)氣候記錄資料中的記載具有更加明確的氣候意義和時(shí)間分辨率。但以往學(xué)者在利用古文獻(xiàn)氣候記錄資料時(shí)，大都是通過(guò)人工查閱研究時(shí)段和研究地區(qū)的古文獻(xiàn)氣候記錄資料或資料匯編成果，該過(guò)程往往十分繁雜且重復(fù)。而且這些氣候事件往往記錄于史書以及地方志資料上，不同史書和地方志資料上的記錄語(yǔ)言和記錄方式往往具有較大差異，即使是對(duì)于同一歷史時(shí)期，同一氣候事件的記載，不同的古文獻(xiàn)氣候記錄資料的記錄往往也各有側(cè)重，導(dǎo)致不同學(xué)者在解讀古文獻(xiàn)氣候記錄資料中的氣候事件時(shí)，可能得到的氣候記錄類型和氣候事件等級(jí)并不完全相同，這大大阻礙了古文獻(xiàn)氣候記錄資料在研究古代氣候變化中的應(yīng)用，因此急需一種方便快捷統(tǒng)一的古文獻(xiàn)氣候記錄資料整理方法。

2、隨著計(jì)算機(jī)科學(xué)，尤其是自然語(yǔ)言處理相關(guān)技術(shù)的成熟，目前已經(jīng)有許多研究嘗試使用lda（潛在迪利克雷分配）等主題模型進(jìn)行中文文本的分類，但是關(guān)于古文獻(xiàn)氣候記錄資料的主題建模目前研究較為欠缺，且主要集中在古典詩(shī)歌的情感分析、作者歸屬等領(lǐng)域，關(guān)于古文獻(xiàn)氣候記錄資料的主題建模還有待進(jìn)一步探索。

3、現(xiàn)有處理方法在對(duì)文檔進(jìn)行關(guān)鍵詞提取時(shí)，采用tf-idf（詞頻-逆向文件頻率）方法進(jìn)行詞頻統(tǒng)計(jì)，并選擇文檔中tf-idf值較大的詞作為文檔的關(guān)鍵詞，但是這種方法十分依賴分詞結(jié)果，如果某詞在分詞時(shí)被切分成了兩個(gè)詞，那么在關(guān)鍵詞提取時(shí)無(wú)法將兩個(gè)詞黏合在一起，可能會(huì)導(dǎo)致文檔關(guān)鍵信息的丟失，影響后續(xù)的主題建模。此外，現(xiàn)有處理方法能夠處理的文本數(shù)據(jù)通常為現(xiàn)代漢語(yǔ)和英語(yǔ)，由于停用詞和句法結(jié)構(gòu)的不同，現(xiàn)有處理方法并不能直接進(jìn)行古文獻(xiàn)氣候記錄資料的處理。

技術(shù)實(shí)現(xiàn)思路

1、發(fā)明目的：為解決現(xiàn)有處理方法無(wú)法直接進(jìn)行古文獻(xiàn)氣候記錄資料的處理的問(wèn)題，以及為解決現(xiàn)有處理方法過(guò)度依賴分詞結(jié)果從而存在關(guān)鍵信息丟失的風(fēng)險(xiǎn)的問(wèn)題，本發(fā)明提出了一種古文獻(xiàn)氣候記錄資料的處理方法及系統(tǒng)。

2、技術(shù)方案：一種古文獻(xiàn)氣候記錄資料的處理方法，包括以下步驟：

3、步驟1：對(duì)文言文形式的原文檔進(jìn)行預(yù)處理，得到原文檔中包含的氣候特征詞；

4、步驟2：從原文檔中包含的氣候特征詞中確定關(guān)鍵詞，根據(jù)關(guān)鍵詞構(gòu)建得到二維詞頻矩陣；

5、步驟3：將二維詞頻矩陣輸入至古文獻(xiàn)氣候記錄資料的主題模型中，得到原文檔中涉及的氣候記錄主題數(shù)量、每一個(gè)氣候記錄主題的關(guān)鍵詞和原文檔分屬各氣候記錄主題的概率；

6、步驟4：根據(jù)概率最大的氣候記錄主題的關(guān)鍵詞確定氣候記錄主題的具體意義，得到原文檔的氣候事件類型。

7、進(jìn)一步的，所述的對(duì)文言文形式的原文檔進(jìn)行預(yù)處理，得到原文檔中包含的氣候特征詞，具體操作包括：

8、對(duì)文言文形式的原文檔進(jìn)行數(shù)據(jù)清理，過(guò)濾掉無(wú)效字符；

9、對(duì)數(shù)據(jù)清理后的原文檔進(jìn)行分詞，得到多個(gè)詞語(yǔ)；

10、利用自建的文言文停用詞表對(duì)分詞得到的多個(gè)詞語(yǔ)進(jìn)行停用詞過(guò)濾，得到過(guò)濾后的詞語(yǔ)；

11、對(duì)過(guò)濾后的詞語(yǔ)進(jìn)行詞性標(biāo)注，根據(jù)詞語(yǔ)的詞性，對(duì)過(guò)濾后的詞語(yǔ)做進(jìn)一步過(guò)濾，得到二次過(guò)濾詞語(yǔ)；

12、對(duì)二次過(guò)濾詞語(yǔ)進(jìn)行實(shí)體識(shí)別，根據(jù)實(shí)體識(shí)別結(jié)果，對(duì)二次過(guò)濾詞語(yǔ)進(jìn)行過(guò)濾，得到原文檔中包含的氣候特征詞。

13、進(jìn)一步的，所述的自建的文言文停用詞表包括：'之'、'茲'、'此'、'彼'、'誰(shuí)'、'孰'、'何'、'奚'、'曷'、'焉'、'或'、'有'、'某'、'莫'、'弗'、'毋'、'勿'、'不'、'得'、'亦'、'乃'、'於'、'于'、'乎'、'在'、'而'、'以'、'為'、'其'、'唯'。

14、進(jìn)一步的，所述的從原文檔中包含的氣候特征詞中確定關(guān)鍵詞，根據(jù)關(guān)鍵詞構(gòu)建得到二維詞頻矩陣，具體操作包括：

15、使用textrank算法，將每個(gè)氣候特征詞作為pagerank中的一個(gè)節(jié)點(diǎn)；根據(jù)節(jié)點(diǎn)，對(duì)原文檔進(jìn)行分詞處理，得到多個(gè)詞語(yǔ)；

16、設(shè)定窗口大小，通過(guò)窗口確定每個(gè)詞語(yǔ)之間的共現(xiàn)聯(lián)系，存在共現(xiàn)聯(lián)系的兩個(gè)詞語(yǔ)對(duì)應(yīng)的節(jié)點(diǎn)之間存在一條無(wú)向無(wú)權(quán)的邊，以此繪制得到詞語(yǔ)聯(lián)系圖；

17、基于詞語(yǔ)聯(lián)系圖，按照下式，計(jì)算各詞語(yǔ)的權(quán)重：

18、

19、其中，表示詞語(yǔ)在本輪迭代出的權(quán)重，表示詞語(yǔ)在本輪迭代出的權(quán)重，表示阻尼系數(shù)；表示與詞語(yǔ)存在共現(xiàn)聯(lián)系的詞語(yǔ)集合；表示中與各詞語(yǔ)存在共現(xiàn)聯(lián)系的詞語(yǔ)集合；表示詞語(yǔ)與詞語(yǔ)之間連接的邊的權(quán)重，表示詞語(yǔ)和詞語(yǔ)之間連接的邊的權(quán)重，表示與詞語(yǔ)存在共現(xiàn)聯(lián)系的詞語(yǔ)集合中的任意一個(gè)詞語(yǔ)，表示與詞語(yǔ)存在共現(xiàn)聯(lián)系的任意一個(gè)詞語(yǔ)；

20、對(duì)原文檔包含的詞語(yǔ)的權(quán)重進(jìn)行排序，將權(quán)重大于設(shè)定權(quán)重閾值的詞語(yǔ)作為關(guān)鍵詞；

21、根據(jù)關(guān)鍵詞構(gòu)建得到二維詞頻矩陣。

22、進(jìn)一步的，僅當(dāng)存在多個(gè)關(guān)鍵詞相鄰的情況時(shí)，將多個(gè)相鄰的關(guān)鍵詞合并成一個(gè)關(guān)鍵詞。

23、進(jìn)一步的，所述的古文獻(xiàn)氣候記錄資料的主題模型，按照以下步驟得到：

24、step1：按照以下子步驟搭建潛在狄利克雷分配模型；

25、子步驟1：每個(gè)文檔屬于各氣候記錄主題的概率，表示為：

26、

27、

28、式中，表示文檔的氣候記錄主題分布參數(shù)，表示分布的超參數(shù)，表示文檔數(shù)量；；

29、子步驟2：每個(gè)氣候記錄主題的關(guān)鍵詞分布概率為：

30、

31、

32、式中，表示氣候記錄主題的關(guān)鍵詞分布參數(shù)，表示分布的超參數(shù)，?，表示氣候記錄主題數(shù)量；

33、子步驟3：假設(shè)每篇文檔中的關(guān)鍵詞總數(shù)量為，以文檔屬于某一氣候記錄主題的概率作為該文檔中每個(gè)關(guān)鍵詞屬于該氣候記錄主題的概率，該過(guò)程服從多項(xiàng)式分布，表示為：

34、

35、式中，表示文檔中關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題的多項(xiàng)式分布；

36、子步驟4：根據(jù)每個(gè)文檔屬于各氣候記錄主題的概率和文檔中每個(gè)關(guān)鍵詞屬于各氣候記錄主題的概率，對(duì)原文檔進(jìn)行復(fù)原，該過(guò)程服從多項(xiàng)式分布，表示為：

37、

38、式中，表示文檔中的關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題中關(guān)鍵詞的多項(xiàng)式分布，其中，文檔中的關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題的多項(xiàng)式分布由得到，表示文檔中關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題的多項(xiàng)式分布的關(guān)鍵詞分布參數(shù)；

39、子步驟5：對(duì)于任意一篇文檔，完全復(fù)原原文檔的概率，表示為：

40、

41、其中，表示文檔中關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題的多項(xiàng)式分布，表示文檔的分布，表示文檔中的關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題中關(guān)鍵詞的多項(xiàng)式分布；

42、step2：采用網(wǎng)格搜索方法對(duì)搭建的潛在狄利克雷分配模型進(jìn)行迭代優(yōu)化，得到古文獻(xiàn)氣候記錄資料的主題模型。

43、進(jìn)一步的，在步驟4之后，還包括以下步驟：對(duì)原文檔進(jìn)行分詞處理，得到多個(gè)詞語(yǔ)；根據(jù)原文檔的氣候事件類型，使用與之對(duì)應(yīng)的預(yù)先創(chuàng)建的氣候事件等級(jí)篩選用語(yǔ)與分詞處理得到的多個(gè)詞語(yǔ)進(jìn)行匹配，若存在任意一個(gè)詞語(yǔ)與某一氣候事件等級(jí)篩選用語(yǔ)對(duì)應(yīng)，則為該原文檔賦予相應(yīng)的氣候事件等級(jí)標(biāo)簽；若不存在，則為該文檔賦予正常年標(biāo)簽；若存在多個(gè)詞語(yǔ)與多個(gè)氣候事件等級(jí)篩選用語(yǔ)對(duì)應(yīng)，則為該原文檔賦予的標(biāo)簽為等級(jí)最高的氣候事件等級(jí)。

44、進(jìn)一步的，在步驟4之后，還包括以下步驟：

45、對(duì)原文檔進(jìn)行分詞處理和實(shí)體識(shí)別，從原文檔中識(shí)別出包含的古地名；

46、根據(jù)古地名和現(xiàn)地名的對(duì)應(yīng)關(guān)系，將古地名替換為現(xiàn)地名的經(jīng)緯度；

47、通過(guò)gis軟件，將原文檔作為點(diǎn)數(shù)據(jù)按照現(xiàn)地名的經(jīng)緯度加載到地圖上，并為該點(diǎn)數(shù)據(jù)添加屬性信息，所述屬性信息包括：氣候事件類型。

48、本發(fā)明公開(kāi)了一種古文獻(xiàn)氣候記錄資料的處理系統(tǒng)，包括：

49、氣候事件處理模塊，用于采用一種古文獻(xiàn)氣候記錄資料的處理方法對(duì)文言文形式的原文檔進(jìn)行處理，確定原文檔的氣候事件類型；

50、氣候事件分級(jí)模塊，用于對(duì)原文檔進(jìn)行分詞處理，得到多個(gè)詞語(yǔ)，根據(jù)原文檔的氣候事件類型，使用與之對(duì)應(yīng)的預(yù)先創(chuàng)建的氣候事件等級(jí)篩選用語(yǔ)與分詞處理得到的多個(gè)詞語(yǔ)進(jìn)行匹配，若存在任意一個(gè)詞語(yǔ)與某一氣候事件等級(jí)篩選用語(yǔ)對(duì)應(yīng)，則為該原文檔賦予相應(yīng)的氣候事件等級(jí)標(biāo)簽；若不存在，則為該文檔賦予正常年標(biāo)簽；若存在多個(gè)詞語(yǔ)與多個(gè)氣候事件等級(jí)篩選用語(yǔ)對(duì)應(yīng)，則為該原文檔賦予的標(biāo)簽為等級(jí)最高的氣候事件等級(jí)；所述一種古文獻(xiàn)氣候記錄資料的處理方法為上述公開(kāi)的一種古文獻(xiàn)氣候記錄資料的處理方法。

51、本發(fā)明公開(kāi)了一種古文獻(xiàn)氣候記錄資料的處理系統(tǒng)，包括：

52、氣候事件處理模塊，用于采用一種古文獻(xiàn)氣候記錄資料的處理方法對(duì)古文獻(xiàn)文言文形式的原文檔進(jìn)行處理，確定原文檔的氣候事件類型；

53、可視化模塊，用于對(duì)原文檔進(jìn)行分詞處理和實(shí)體識(shí)別，從原文檔中識(shí)別出包含的古地名；根據(jù)古地名和現(xiàn)地名的對(duì)應(yīng)關(guān)系，將古地名替換為現(xiàn)地名的經(jīng)緯度；通過(guò)gis軟件，將原文檔作為點(diǎn)數(shù)據(jù)按照現(xiàn)地名的經(jīng)緯度加載到地圖上，并為該點(diǎn)數(shù)據(jù)添加屬性信息，所述屬性信息包括：氣候事件類型；

54、所述一種古文獻(xiàn)氣候記錄資料的處理方法為上述公開(kāi)的一種古文獻(xiàn)氣候記錄資料的處理方法。

55、有益效果：本發(fā)明與現(xiàn)有技術(shù)相比，具有以下優(yōu)點(diǎn)：

56、（1）本發(fā)明方法通過(guò)使用textrank算法，根據(jù)詞語(yǔ)在句子中的重要性，選取重要性高的詞語(yǔ)作為關(guān)鍵詞，對(duì)于若干個(gè)關(guān)鍵詞相鄰的情況，通過(guò)自動(dòng)將這些關(guān)鍵詞合并成一個(gè)關(guān)鍵詞，削減了對(duì)原始分詞結(jié)果的過(guò)度依賴；

57、（2）本發(fā)明方法通過(guò)對(duì)古文獻(xiàn)氣候記錄資料進(jìn)行預(yù)處理，將自然語(yǔ)言數(shù)據(jù)轉(zhuǎn)換為數(shù)學(xué)語(yǔ)言數(shù)據(jù)，而后將數(shù)學(xué)語(yǔ)言數(shù)據(jù)輸入至潛在狄利克雷分配模型中，這個(gè)過(guò)程可以理解為利用潛在狄利克雷分配模型對(duì)各種不同古文獻(xiàn)氣候記錄資料進(jìn)行整理分析，得到整理分析結(jié)果，即潛在狄利克雷分配模型的輸出，以預(yù)設(shè)的結(jié)構(gòu)存入數(shù)據(jù)庫(kù)，從而可以實(shí)現(xiàn)古文獻(xiàn)氣候記錄資料的氣候事件類型、氣候事件等級(jí)以及位置信息的統(tǒng)一，便于科研查詢及分析，促進(jìn)了古文獻(xiàn)氣候記錄資料在分析中國(guó)古代氣候特征中的應(yīng)用；

58、（3）本發(fā)明方法解決了不同史書和地方志資料上的記錄語(yǔ)言和記錄方式往往具有較大差異，即使是對(duì)于同一歷史時(shí)期，同一氣候事件的記載，不同的古文獻(xiàn)氣候記錄資料的記錄往往也各有側(cè)重，導(dǎo)致不同學(xué)者在解讀古文獻(xiàn)氣候記錄資料中的氣候事件時(shí)，可能得到的氣候記錄類型和氣候事件等級(jí)并不完全相同的問(wèn)題，具體的，以干旱為例，當(dāng)干旱事件發(fā)生后，不同資料的記錄側(cè)重不同，例如糧食部門可能記錄“歉歲”，“年谷不登”，氣象部門可能是“自冬不雨”，其他部門或者史書會(huì)有“草枯”，“禱雨”等記錄，盡管不同史書地方志會(huì)針對(duì)干旱對(duì)不同方面的影響來(lái)記錄，但是在記錄中使用到的這些詞語(yǔ)都會(huì)和“旱”產(chǎn)生連接，也就會(huì)被認(rèn)定為關(guān)鍵詞，且擁有較高權(quán)重，因此本發(fā)明通過(guò)氣候事件等級(jí)的對(duì)應(yīng)詞語(yǔ)識(shí)別判讀，在一定程度上可以輔助識(shí)別古文獻(xiàn)氣候記錄資料中的氣候事件記錄類型；

59、（4）本發(fā)明方法對(duì)待確定的氣候記錄主題的文檔進(jìn)行處理，得到文檔所屬的氣候記錄主題，實(shí)現(xiàn)了對(duì)古文獻(xiàn)氣候記錄資料的整理。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李朋發(fā),邵曉華,魏學(xué)瓊,王雨軒,陳鄉(xiāng)瑩
技術(shù)所有人：南京信息工程大學(xué)
我是此專利的發(fā)明人

上一篇：一種園林綠化廢棄物破碎裝置的制作方法
上一篇：一種減速器裝配對(duì)位裝配工裝的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種古文獻(xiàn)氣候記錄資料的處理方法及系統(tǒng)