本發(fā)明涉及信息處理,特別涉及一種結(jié)構(gòu)化信息的提取方法及系統(tǒng)。
背景技術(shù):
1、目前,隨著信息化技術(shù)的發(fā)展,大量的文檔數(shù)據(jù)以非結(jié)構(gòu)化的形式存在,特別是在招投標(biāo)領(lǐng)域,大量的招投標(biāo)文件以非結(jié)構(gòu)化形式存在,其中包含了豐富的關(guān)鍵信息,如投標(biāo)人資質(zhì)信息、團(tuán)隊(duì)成員信息、歷史業(yè)績信息等,目前這些信息的提取和利用效率低下,嚴(yán)重影響了歷史數(shù)據(jù)的提取、加工、利用效率。如何從非結(jié)構(gòu)化的文檔中提取出結(jié)構(gòu)化信息,成為了一個亟待解決的問題。
2、傳統(tǒng)的人工整理和篩選,不僅效率低下,而且容易受到主觀因素的影響,導(dǎo)致信息提取的準(zhǔn)確性和一致性難以保證。此外,隨著企業(yè)數(shù)字化轉(zhuǎn)型的加速發(fā)展,非結(jié)構(gòu)化文檔的數(shù)量急劇增加,傳統(tǒng)的人工信息提取方法已經(jīng)無法滿足日益增長的信息處理需求。
3、現(xiàn)有的技術(shù)手段在處理非結(jié)構(gòu)化數(shù)據(jù)方面也存在一定的局限性,傳統(tǒng)機(jī)器學(xué)習(xí)的方法,需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,并嚴(yán)格依賴文檔結(jié)構(gòu),存在無法處理表格表單圖片數(shù)據(jù)等問題,并且在處理復(fù)雜文檔內(nèi)容和長文本輸入內(nèi)容時存在局限性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在至少一定程度上解決上述技術(shù)中的技術(shù)問題之一。為此,本發(fā)明的第一個目的在于提出一種結(jié)構(gòu)化信息的提取方法,能夠自動化、智能化地從非結(jié)構(gòu)化文檔中自動提取結(jié)構(gòu)化信息,提高了信息的提取效率和利用效率,同時也提高了信息提取的準(zhǔn)確性。
2、本發(fā)明的第二個目的在于提出一種結(jié)構(gòu)化信息的提取系統(tǒng)。
3、為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出了一種結(jié)構(gòu)化信息的提取方法,包括:
4、對標(biāo)書文件進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理文件;
5、對預(yù)處理文件進(jìn)行文檔結(jié)構(gòu)解析;
6、基于光學(xué)字符識別技術(shù)以及自然語言處理技術(shù),識別文檔結(jié)構(gòu)解析后的預(yù)處理文件中的結(jié)構(gòu)體信息;
7、將提取出的結(jié)構(gòu)體信息歸類到相應(yīng)的文檔標(biāo)題層級中,生成結(jié)構(gòu)體對象樹狀表。
8、根據(jù)本發(fā)明的一些實(shí)施例,對標(biāo)書文件進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理文件,包括:
9、對標(biāo)書文件進(jìn)行預(yù)處理,包括剔除無效數(shù)據(jù)、亂碼數(shù)據(jù)、元素解析、分詞、詞性標(biāo)注、命名實(shí)體識別,得到預(yù)處理文件。
10、根據(jù)本發(fā)明的一些實(shí)施例,基于光學(xué)字符識別技術(shù)以及自然語言處理技術(shù),識別文檔結(jié)構(gòu)解析后的預(yù)處理文件中的結(jié)構(gòu)體信息,包括:
11、基于光學(xué)字符識別技術(shù)以及自然語言處理技術(shù)構(gòu)建結(jié)構(gòu)體信息的提取與文檔元素分類算法模型,確定預(yù)處理文件中包括的數(shù)據(jù)類別;所述數(shù)據(jù)類別包括文本元素、圖片元素及表單元素中的至少一種;
12、基于結(jié)構(gòu)體抽取模型,確定每個數(shù)據(jù)類別中包括的結(jié)構(gòu)體對象及結(jié)構(gòu)體屬性;
13、根據(jù)每個數(shù)據(jù)類別中包括的結(jié)構(gòu)體對象及結(jié)構(gòu)體屬性確定預(yù)處理文件中的結(jié)構(gòu)體信息。
14、根據(jù)本發(fā)明的一些實(shí)施例,基于結(jié)構(gòu)體抽取模型,確定每個數(shù)據(jù)類別中包括的結(jié)構(gòu)體對象及結(jié)構(gòu)體屬性,包括:
15、對文本元素,轉(zhuǎn)換為純文本,進(jìn)行文本預(yù)處理,得到純文本片段;對純文本片段進(jìn)行關(guān)鍵詞檢索和實(shí)體檢測,基于上下文以及文本元素在文檔結(jié)構(gòu)中的位置信息,確定若干第一關(guān)鍵詞并關(guān)聯(lián)第二關(guān)鍵字的文本對;
16、對圖片元素,基于光學(xué)字符識別技術(shù),轉(zhuǎn)換為文本內(nèi)容,并將原始圖片內(nèi)容切片進(jìn)行對象文件存儲,生成對象文件地址;基于上下文關(guān)鍵詞檢索,確定文本內(nèi)容中的若干第一關(guān)鍵詞并關(guān)聯(lián)第二關(guān)鍵字的文本對;
17、對表單元素,基于光學(xué)字符識別技術(shù)將識別的文本內(nèi)容切片進(jìn)行格式化,并將原始表格切片進(jìn)行對象文件存儲,生成對象文件地址;基于上下文關(guān)鍵詞檢索,確定格式化文本內(nèi)容中的若干第一關(guān)鍵詞并關(guān)聯(lián)第二關(guān)鍵字的文本對;
18、對第一關(guān)鍵詞及第二關(guān)鍵字進(jìn)行過濾處理、語義分析,得到有效關(guān)鍵詞文本對;
19、對有效關(guān)鍵詞文本對進(jìn)行格式轉(zhuǎn)換,得到j(luò)son鍵值對;
20、對json鍵值對進(jìn)行組裝和總結(jié),得到多層json鍵值對分頁及全文,確定每個數(shù)據(jù)類別中包括的結(jié)構(gòu)體對象及結(jié)構(gòu)體屬性。
21、根據(jù)本發(fā)明的一些實(shí)施例,將提取出的結(jié)構(gòu)體信息歸類到預(yù)設(shè)結(jié)構(gòu)中相應(yīng)的文檔標(biāo)題層級中,生成結(jié)構(gòu)體對象樹狀表,包括:
22、基于bert的深度學(xué)習(xí)模型,將提取出的結(jié)構(gòu)體信息歸類到預(yù)設(shè)結(jié)構(gòu)中相應(yīng)的文檔標(biāo)題層級中;文檔標(biāo)題層級為多層級結(jié)構(gòu),包括商務(wù)部分及技術(shù)部分;
23、基于處理得到的文檔標(biāo)題層級生成結(jié)構(gòu)體對象樹狀表。
24、根據(jù)本發(fā)明的一些實(shí)施例,還包括:將結(jié)構(gòu)體對象樹狀表發(fā)送至用戶終端;
25、或
26、基于api接口與需求終端建立信息共享連接,將結(jié)構(gòu)體對象樹狀表發(fā)送至需求終端。
27、根據(jù)本發(fā)明的一些實(shí)施例,所述api接口還用于:
28、將結(jié)構(gòu)體信息傳輸至需求終端;
29、將切塊的非結(jié)構(gòu)化的數(shù)據(jù)元素以對象的方式同步傳輸至需求終端;所述非結(jié)構(gòu)化的數(shù)據(jù)元素包括原始圖片元素及原始圖表元素。
30、根據(jù)本發(fā)明的一些實(shí)施例,在基于結(jié)構(gòu)體抽取模型,確定每個數(shù)據(jù)類別中包括的結(jié)構(gòu)體對象及結(jié)構(gòu)體屬性前,還包括:
31、獲取測試樣本集及對應(yīng)的樣本結(jié)構(gòu)體信息;
32、將測試樣本集輸入結(jié)構(gòu)體抽取模型確定預(yù)設(shè)結(jié)構(gòu)體信息;
33、將樣本結(jié)構(gòu)體信息與預(yù)設(shè)結(jié)構(gòu)體信息進(jìn)行比較;
34、計(jì)算第個測試樣本的樣本結(jié)構(gòu)體信息的第一結(jié)構(gòu)參數(shù):
35、
36、其中,為第個測試樣本的樣本結(jié)構(gòu)體信息中提取的結(jié)構(gòu)體對象的數(shù)量;為第個結(jié)構(gòu)體對象包含的結(jié)構(gòu)體屬性的數(shù)量;為第個結(jié)構(gòu)體對象包括的第i個結(jié)構(gòu)體屬性的歸一化值;為第個結(jié)構(gòu)體對象包括的第j個結(jié)構(gòu)體屬性的歸一化值;
37、根據(jù)每個測試樣本的樣本結(jié)構(gòu)體信息的第一結(jié)構(gòu)參數(shù),計(jì)算與預(yù)設(shè)結(jié)構(gòu)體信息的第二結(jié)構(gòu)參數(shù)的匹配度:
38、
39、其中,為測試樣本集中包括的測試樣本的數(shù)量;為結(jié)構(gòu)體抽取模型輸出的預(yù)設(shè)結(jié)構(gòu)體信息包括的第a個測試樣本的第二結(jié)構(gòu)參數(shù);
40、將匹配度與預(yù)設(shè)匹配度進(jìn)行比較,在確定匹配度大于預(yù)設(shè)匹配度時,表示結(jié)構(gòu)體抽取模型合格;反之,表示結(jié)構(gòu)體抽取模型不合格,需要調(diào)整模型參數(shù)。
41、為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出了一種結(jié)構(gòu)化信息的提取系統(tǒng),包括:
42、處理模塊,用于對標(biāo)書文件進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理文件;
43、解析模塊,用于對預(yù)處理文件進(jìn)行文檔結(jié)構(gòu)解析;
44、識別模塊,用于基于光學(xué)字符識別技術(shù)以及自然語言處理技術(shù),識別文檔結(jié)構(gòu)解析后的預(yù)處理文件中的結(jié)構(gòu)體信息;
45、生成模塊,用于將提取出的結(jié)構(gòu)體信息歸類到相應(yīng)的文檔標(biāo)題層級中,生成結(jié)構(gòu)體對象樹狀表。
46、本發(fā)明提出了一種結(jié)構(gòu)化信息的提取方法及系統(tǒng),有益效果為:1、提高信息提取的自動化程度,減少人工干預(yù),降低成本;2、提升信息提取的準(zhǔn)確性和效率,滿足大規(guī)模文本處理的需求;3、通過結(jié)構(gòu)化信息,便于信息的存儲、檢索和進(jìn)一步分析處理;4、系統(tǒng)具有良好的擴(kuò)展性,可適應(yīng)不同的業(yè)務(wù)場景和需求;5、提供了用戶友好的界面和豐富的api接口,方便用戶使用和集成。
47、本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
48、下面通過附圖和實(shí)施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。