本發(fā)明屬于計(jì)算機(jī)自然語(yǔ)言處理,具體為一種古文獻(xiàn)氣候記錄資料的處理方法及系統(tǒng)。
背景技術(shù):
1、古文獻(xiàn)氣候記錄資料是指以文言文形式,且記載了涉及干旱、暴雨、高溫、寒冷等多種氣候事件的文本數(shù)據(jù),相比于代用資料,古文獻(xiàn)氣候記錄資料中的記載具有更加明確的氣候意義和時(shí)間分辨率。但以往學(xué)者在利用古文獻(xiàn)氣候記錄資料時(shí),大都是通過(guò)人工查閱研究時(shí)段和研究地區(qū)的古文獻(xiàn)氣候記錄資料或資料匯編成果,該過(guò)程往往十分繁雜且重復(fù)。而且這些氣候事件往往記錄于史書以及地方志資料上,不同史書和地方志資料上的記錄語(yǔ)言和記錄方式往往具有較大差異,即使是對(duì)于同一歷史時(shí)期,同一氣候事件的記載,不同的古文獻(xiàn)氣候記錄資料的記錄往往也各有側(cè)重,導(dǎo)致不同學(xué)者在解讀古文獻(xiàn)氣候記錄資料中的氣候事件時(shí),可能得到的氣候記錄類型和氣候事件等級(jí)并不完全相同,這大大阻礙了古文獻(xiàn)氣候記錄資料在研究古代氣候變化中的應(yīng)用,因此急需一種方便快捷統(tǒng)一的古文獻(xiàn)氣候記錄資料整理方法。
2、隨著計(jì)算機(jī)科學(xué),尤其是自然語(yǔ)言處理相關(guān)技術(shù)的成熟,目前已經(jīng)有許多研究嘗試使用lda(潛在迪利克雷分配)等主題模型進(jìn)行中文文本的分類,但是關(guān)于古文獻(xiàn)氣候記錄資料的主題建模目前研究較為欠缺,且主要集中在古典詩(shī)歌的情感分析、作者歸屬等領(lǐng)域,關(guān)于古文獻(xiàn)氣候記錄資料的主題建模還有待進(jìn)一步探索。
3、現(xiàn)有處理方法在對(duì)文檔進(jìn)行關(guān)鍵詞提取時(shí),采用tf-idf(詞頻-逆向文件頻率)方法進(jìn)行詞頻統(tǒng)計(jì),并選擇文檔中tf-idf值較大的詞作為文檔的關(guān)鍵詞,但是這種方法十分依賴分詞結(jié)果,如果某詞在分詞時(shí)被切分成了兩個(gè)詞,那么在關(guān)鍵詞提取時(shí)無(wú)法將兩個(gè)詞黏合在一起,可能會(huì)導(dǎo)致文檔關(guān)鍵信息的丟失,影響后續(xù)的主題建模。此外,現(xiàn)有處理方法能夠處理的文本數(shù)據(jù)通常為現(xiàn)代漢語(yǔ)和英語(yǔ),由于停用詞和句法結(jié)構(gòu)的不同,現(xiàn)有處理方法并不能直接進(jìn)行古文獻(xiàn)氣候記錄資料的處理。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的:為解決現(xiàn)有處理方法無(wú)法直接進(jìn)行古文獻(xiàn)氣候記錄資料的處理的問(wèn)題,以及為解決現(xiàn)有處理方法過(guò)度依賴分詞結(jié)果從而存在關(guān)鍵信息丟失的風(fēng)險(xiǎn)的問(wèn)題,本發(fā)明提出了一種古文獻(xiàn)氣候記錄資料的處理方法及系統(tǒng)。
2、技術(shù)方案:一種古文獻(xiàn)氣候記錄資料的處理方法,包括以下步驟:
3、步驟1:對(duì)文言文形式的原文檔進(jìn)行預(yù)處理,得到原文檔中包含的氣候特征詞;
4、步驟2:從原文檔中包含的氣候特征詞中確定關(guān)鍵詞,根據(jù)關(guān)鍵詞構(gòu)建得到二維詞頻矩陣;
5、步驟3:將二維詞頻矩陣輸入至古文獻(xiàn)氣候記錄資料的主題模型中,得到原文檔中涉及的氣候記錄主題數(shù)量、每一個(gè)氣候記錄主題的關(guān)鍵詞和原文檔分屬各氣候記錄主題的概率;
6、步驟4:根據(jù)概率最大的氣候記錄主題的關(guān)鍵詞確定氣候記錄主題的具體意義,得到原文檔的氣候事件類型。
7、進(jìn)一步的,所述的對(duì)文言文形式的原文檔進(jìn)行預(yù)處理,得到原文檔中包含的氣候特征詞,具體操作包括:
8、對(duì)文言文形式的原文檔進(jìn)行數(shù)據(jù)清理,過(guò)濾掉無(wú)效字符;
9、對(duì)數(shù)據(jù)清理后的原文檔進(jìn)行分詞,得到多個(gè)詞語(yǔ);
10、利用自建的文言文停用詞表對(duì)分詞得到的多個(gè)詞語(yǔ)進(jìn)行停用詞過(guò)濾,得到過(guò)濾后的詞語(yǔ);
11、對(duì)過(guò)濾后的詞語(yǔ)進(jìn)行詞性標(biāo)注,根據(jù)詞語(yǔ)的詞性,對(duì)過(guò)濾后的詞語(yǔ)做進(jìn)一步過(guò)濾,得到二次過(guò)濾詞語(yǔ);
12、對(duì)二次過(guò)濾詞語(yǔ)進(jìn)行實(shí)體識(shí)別,根據(jù)實(shí)體識(shí)別結(jié)果,對(duì)二次過(guò)濾詞語(yǔ)進(jìn)行過(guò)濾,得到原文檔中包含的氣候特征詞。
13、進(jìn)一步的,所述的自建的文言文停用詞表包括:'之'、'茲'、'此'、'彼'、'誰(shuí)'、'孰'、'何'、'奚'、'曷'、'焉'、'或'、'有'、'某'、'莫'、'弗'、'毋'、'勿'、'不'、'得'、'亦'、'乃'、'於'、'于'、'乎'、'在'、'而'、'以'、'為'、'其'、'唯'。
14、進(jìn)一步的,所述的從原文檔中包含的氣候特征詞中確定關(guān)鍵詞,根據(jù)關(guān)鍵詞構(gòu)建得到二維詞頻矩陣,具體操作包括:
15、使用textrank算法,將每個(gè)氣候特征詞作為pagerank中的一個(gè)節(jié)點(diǎn);根據(jù)節(jié)點(diǎn),對(duì)原文檔進(jìn)行分詞處理,得到多個(gè)詞語(yǔ);
16、設(shè)定窗口大小,通過(guò)窗口確定每個(gè)詞語(yǔ)之間的共現(xiàn)聯(lián)系,存在共現(xiàn)聯(lián)系的兩個(gè)詞語(yǔ)對(duì)應(yīng)的節(jié)點(diǎn)之間存在一條無(wú)向無(wú)權(quán)的邊,以此繪制得到詞語(yǔ)聯(lián)系圖;
17、基于詞語(yǔ)聯(lián)系圖,按照下式,計(jì)算各詞語(yǔ)的權(quán)重:
18、
19、其中,表示詞語(yǔ)在本輪迭代出的權(quán)重,表示詞語(yǔ)在本輪迭代出的權(quán)重,表示阻尼系數(shù);表示與詞語(yǔ)存在共現(xiàn)聯(lián)系的詞語(yǔ)集合;表示中與各詞語(yǔ)存在共現(xiàn)聯(lián)系的詞語(yǔ)集合;表示詞語(yǔ)與詞語(yǔ)之間連接的邊的權(quán)重,表示詞語(yǔ)和詞語(yǔ)之間連接的邊的權(quán)重,表示與詞語(yǔ)存在共現(xiàn)聯(lián)系的詞語(yǔ)集合中的任意一個(gè)詞語(yǔ),表示與詞語(yǔ)存在共現(xiàn)聯(lián)系的任意一個(gè)詞語(yǔ);
20、對(duì)原文檔包含的詞語(yǔ)的權(quán)重進(jìn)行排序,將權(quán)重大于設(shè)定權(quán)重閾值的詞語(yǔ)作為關(guān)鍵詞;
21、根據(jù)關(guān)鍵詞構(gòu)建得到二維詞頻矩陣。
22、進(jìn)一步的,僅當(dāng)存在多個(gè)關(guān)鍵詞相鄰的情況時(shí),將多個(gè)相鄰的關(guān)鍵詞合并成一個(gè)關(guān)鍵詞。
23、進(jìn)一步的,所述的古文獻(xiàn)氣候記錄資料的主題模型,按照以下步驟得到:
24、step1:按照以下子步驟搭建潛在狄利克雷分配模型;
25、子步驟1:每個(gè)文檔屬于各氣候記錄主題的概率,表示為:
26、
27、
28、式中,表示文檔的氣候記錄主題分布參數(shù),表示分布的超參數(shù),表示文檔數(shù)量;;
29、子步驟2:每個(gè)氣候記錄主題的關(guān)鍵詞分布概率為:
30、
31、
32、式中,表示氣候記錄主題的關(guān)鍵詞分布參數(shù),表示分布的超參數(shù),?,表示氣候記錄主題數(shù)量;
33、子步驟3:假設(shè)每篇文檔中的關(guān)鍵詞總數(shù)量為,以文檔屬于某一氣候記錄主題的概率作為該文檔中每個(gè)關(guān)鍵詞屬于該氣候記錄主題的概率,該過(guò)程服從多項(xiàng)式分布,表示為:
34、
35、式中,表示文檔中關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題的多項(xiàng)式分布;
36、子步驟4:根據(jù)每個(gè)文檔屬于各氣候記錄主題的概率和文檔中每個(gè)關(guān)鍵詞屬于各氣候記錄主題的概率,對(duì)原文檔進(jìn)行復(fù)原,該過(guò)程服從多項(xiàng)式分布,表示為:
37、
38、式中,表示文檔中的關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題中關(guān)鍵詞的多項(xiàng)式分布,其中,文檔中的關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題的多項(xiàng)式分布由得到,表示文檔中關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題的多項(xiàng)式分布的關(guān)鍵詞分布參數(shù);
39、子步驟5:對(duì)于任意一篇文檔,完全復(fù)原原文檔的概率,表示為:
40、
41、其中,表示文檔中關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題的多項(xiàng)式分布,表示文檔的分布,表示文檔中的關(guān)鍵詞對(duì)應(yīng)的氣候記錄主題中關(guān)鍵詞的多項(xiàng)式分布;
42、step2:采用網(wǎng)格搜索方法對(duì)搭建的潛在狄利克雷分配模型進(jìn)行迭代優(yōu)化,得到古文獻(xiàn)氣候記錄資料的主題模型。
43、進(jìn)一步的,在步驟4之后,還包括以下步驟:對(duì)原文檔進(jìn)行分詞處理,得到多個(gè)詞語(yǔ);根據(jù)原文檔的氣候事件類型,使用與之對(duì)應(yīng)的預(yù)先創(chuàng)建的氣候事件等級(jí)篩選用語(yǔ)與分詞處理得到的多個(gè)詞語(yǔ)進(jìn)行匹配,若存在任意一個(gè)詞語(yǔ)與某一氣候事件等級(jí)篩選用語(yǔ)對(duì)應(yīng),則為該原文檔賦予相應(yīng)的氣候事件等級(jí)標(biāo)簽;若不存在,則為該文檔賦予正常年標(biāo)簽;若存在多個(gè)詞語(yǔ)與多個(gè)氣候事件等級(jí)篩選用語(yǔ)對(duì)應(yīng),則為該原文檔賦予的標(biāo)簽為等級(jí)最高的氣候事件等級(jí)。
44、進(jìn)一步的,在步驟4之后,還包括以下步驟:
45、對(duì)原文檔進(jìn)行分詞處理和實(shí)體識(shí)別,從原文檔中識(shí)別出包含的古地名;
46、根據(jù)古地名和現(xiàn)地名的對(duì)應(yīng)關(guān)系,將古地名替換為現(xiàn)地名的經(jīng)緯度;
47、通過(guò)gis軟件,將原文檔作為點(diǎn)數(shù)據(jù)按照現(xiàn)地名的經(jīng)緯度加載到地圖上,并為該點(diǎn)數(shù)據(jù)添加屬性信息,所述屬性信息包括:氣候事件類型。
48、本發(fā)明公開(kāi)了一種古文獻(xiàn)氣候記錄資料的處理系統(tǒng),包括:
49、氣候事件處理模塊,用于采用一種古文獻(xiàn)氣候記錄資料的處理方法對(duì)文言文形式的原文檔進(jìn)行處理,確定原文檔的氣候事件類型;
50、氣候事件分級(jí)模塊,用于對(duì)原文檔進(jìn)行分詞處理,得到多個(gè)詞語(yǔ),根據(jù)原文檔的氣候事件類型,使用與之對(duì)應(yīng)的預(yù)先創(chuàng)建的氣候事件等級(jí)篩選用語(yǔ)與分詞處理得到的多個(gè)詞語(yǔ)進(jìn)行匹配,若存在任意一個(gè)詞語(yǔ)與某一氣候事件等級(jí)篩選用語(yǔ)對(duì)應(yīng),則為該原文檔賦予相應(yīng)的氣候事件等級(jí)標(biāo)簽;若不存在,則為該文檔賦予正常年標(biāo)簽;若存在多個(gè)詞語(yǔ)與多個(gè)氣候事件等級(jí)篩選用語(yǔ)對(duì)應(yīng),則為該原文檔賦予的標(biāo)簽為等級(jí)最高的氣候事件等級(jí);所述一種古文獻(xiàn)氣候記錄資料的處理方法為上述公開(kāi)的一種古文獻(xiàn)氣候記錄資料的處理方法。
51、本發(fā)明公開(kāi)了一種古文獻(xiàn)氣候記錄資料的處理系統(tǒng),包括:
52、氣候事件處理模塊,用于采用一種古文獻(xiàn)氣候記錄資料的處理方法對(duì)古文獻(xiàn)文言文形式的原文檔進(jìn)行處理,確定原文檔的氣候事件類型;
53、可視化模塊,用于對(duì)原文檔進(jìn)行分詞處理和實(shí)體識(shí)別,從原文檔中識(shí)別出包含的古地名;根據(jù)古地名和現(xiàn)地名的對(duì)應(yīng)關(guān)系,將古地名替換為現(xiàn)地名的經(jīng)緯度;通過(guò)gis軟件,將原文檔作為點(diǎn)數(shù)據(jù)按照現(xiàn)地名的經(jīng)緯度加載到地圖上,并為該點(diǎn)數(shù)據(jù)添加屬性信息,所述屬性信息包括:氣候事件類型;
54、所述一種古文獻(xiàn)氣候記錄資料的處理方法為上述公開(kāi)的一種古文獻(xiàn)氣候記錄資料的處理方法。
55、有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn):
56、(1)本發(fā)明方法通過(guò)使用textrank算法,根據(jù)詞語(yǔ)在句子中的重要性,選取重要性高的詞語(yǔ)作為關(guān)鍵詞,對(duì)于若干個(gè)關(guān)鍵詞相鄰的情況,通過(guò)自動(dòng)將這些關(guān)鍵詞合并成一個(gè)關(guān)鍵詞,削減了對(duì)原始分詞結(jié)果的過(guò)度依賴;
57、(2)本發(fā)明方法通過(guò)對(duì)古文獻(xiàn)氣候記錄資料進(jìn)行預(yù)處理,將自然語(yǔ)言數(shù)據(jù)轉(zhuǎn)換為數(shù)學(xué)語(yǔ)言數(shù)據(jù),而后將數(shù)學(xué)語(yǔ)言數(shù)據(jù)輸入至潛在狄利克雷分配模型中,這個(gè)過(guò)程可以理解為利用潛在狄利克雷分配模型對(duì)各種不同古文獻(xiàn)氣候記錄資料進(jìn)行整理分析,得到整理分析結(jié)果,即潛在狄利克雷分配模型的輸出,以預(yù)設(shè)的結(jié)構(gòu)存入數(shù)據(jù)庫(kù),從而可以實(shí)現(xiàn)古文獻(xiàn)氣候記錄資料的氣候事件類型、氣候事件等級(jí)以及位置信息的統(tǒng)一,便于科研查詢及分析,促進(jìn)了古文獻(xiàn)氣候記錄資料在分析中國(guó)古代氣候特征中的應(yīng)用;
58、(3)本發(fā)明方法解決了不同史書和地方志資料上的記錄語(yǔ)言和記錄方式往往具有較大差異,即使是對(duì)于同一歷史時(shí)期,同一氣候事件的記載,不同的古文獻(xiàn)氣候記錄資料的記錄往往也各有側(cè)重,導(dǎo)致不同學(xué)者在解讀古文獻(xiàn)氣候記錄資料中的氣候事件時(shí),可能得到的氣候記錄類型和氣候事件等級(jí)并不完全相同的問(wèn)題,具體的,以干旱為例,當(dāng)干旱事件發(fā)生后,不同資料的記錄側(cè)重不同,例如糧食部門可能記錄“歉歲”,“年谷不登”,氣象部門可能是“自冬不雨”,其他部門或者史書會(huì)有“草枯”,“禱雨”等記錄,盡管不同史書地方志會(huì)針對(duì)干旱對(duì)不同方面的影響來(lái)記錄,但是在記錄中使用到的這些詞語(yǔ)都會(huì)和“旱”產(chǎn)生連接,也就會(huì)被認(rèn)定為關(guān)鍵詞,且擁有較高權(quán)重,因此本發(fā)明通過(guò)氣候事件等級(jí)的對(duì)應(yīng)詞語(yǔ)識(shí)別判讀,在一定程度上可以輔助識(shí)別古文獻(xiàn)氣候記錄資料中的氣候事件記錄類型;
59、(4)本發(fā)明方法對(duì)待確定的氣候記錄主題的文檔進(jìn)行處理,得到文檔所屬的氣候記錄主題,實(shí)現(xiàn)了對(duì)古文獻(xiàn)氣候記錄資料的整理。