本公開(kāi)涉及數(shù)據(jù)處理,尤其涉及人工智能、文件識(shí)別等領(lǐng)域。
背景技術(shù):
1、人工智能(ai,artificial?intelligence)技術(shù),是計(jì)算機(jī)科學(xué)的一個(gè)分支。ai試圖理解事物的實(shí)質(zhì),能夠進(jìn)行邏輯推理。隨著ai技術(shù)的發(fā)展,ai技術(shù)在不同領(lǐng)域的落地實(shí)施尤為重要。
2、目前,ai技術(shù)可以理解知識(shí),梳理資料,并基于自身強(qiáng)大的邏輯推理能力,自動(dòng)生成文件。例如,可編寫(xiě)ppt(powerpoint,演示文稿)文檔,以提高用戶(hù)的工作效率。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)提供了一種文件處理方法、文件識(shí)別方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)。
2、根據(jù)本公開(kāi)的一方面,提供了一種文件處理方法,包括:
3、從基于人工智能技術(shù)生成目標(biāo)類(lèi)型文件所需的文件模板中提取出多個(gè)第一特征;
4、對(duì)多個(gè)第一特征進(jìn)行組合,以篩選能夠識(shí)別出基于人工智能技術(shù)生成的文件頁(yè)面的至少一個(gè)第二特征。
5、根據(jù)本公開(kāi)的一方面,提供了一種文件識(shí)別方法,包括:
6、從待識(shí)別文件的待識(shí)別頁(yè)面中提取出多個(gè)第三特征;
7、將多個(gè)第三特征進(jìn)行組合,得到至少一個(gè)第四特征;
8、將多個(gè)第三特征和至少一個(gè)第四特征,與基于人工智能技術(shù)生成待識(shí)別文件的文件類(lèi)型所需的文件模板的已知特征集進(jìn)行匹配,得到特征匹配度;
9、在特征匹配度滿(mǎn)足預(yù)設(shè)條件的情況下,確定待識(shí)別頁(yè)面基于人工智能技術(shù)生成。
10、根據(jù)本公開(kāi)的另一方面,提供了一種文件處理裝置,包括:
11、第一提取模塊,用于從基于人工智能技術(shù)生成目標(biāo)類(lèi)型文件所需的文件模板中提取出多個(gè)第一特征;
12、篩選模塊,用于對(duì)多個(gè)第一特征進(jìn)行組合,以篩選能夠識(shí)別出基于人工智能技術(shù)生成的文件頁(yè)面的至少一個(gè)第二特征。
13、根據(jù)本公開(kāi)的另一方面,提供了一種文件識(shí)別裝置,包括:
14、第二提取模塊,用于從待識(shí)別文件的待識(shí)別頁(yè)面中提取出多個(gè)第三特征;
15、組合模塊,用于將多個(gè)第三特征進(jìn)行組合,得到至少一個(gè)第四特征;
16、匹配模塊,用于將多個(gè)第三特征和至少一個(gè)第四特征,與基于人工智能技術(shù)生成待識(shí)別文件的文件類(lèi)型所需的文件模板的已知特征集進(jìn)行匹配,得到特征匹配度;
17、確定模塊,用于在特征匹配度滿(mǎn)足預(yù)設(shè)條件的情況下,確定待識(shí)別頁(yè)面基于人工智能技術(shù)生成。
18、根據(jù)本公開(kāi)的另一方面,提供了一種電子設(shè)備,包括:
19、至少一個(gè)處理器;以及
20、與該至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
21、該存儲(chǔ)器存儲(chǔ)有可被該至少一個(gè)處理器執(zhí)行的指令,該指令被該至少一個(gè)處理器執(zhí)行,以使該至少一個(gè)處理器能夠執(zhí)行本公開(kāi)實(shí)施例中任一方法。
22、根據(jù)本公開(kāi)的另一方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,該計(jì)算機(jī)指令用于使該計(jì)算機(jī)執(zhí)行根據(jù)本公開(kāi)實(shí)施例中任一方法。
23、根據(jù)本公開(kāi)的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本公開(kāi)實(shí)施例中任一方法。
24、本公開(kāi)實(shí)施例通過(guò)篩選出用于識(shí)別人工智能技術(shù)生成文件的模板特征以及組合特征規(guī)則,能夠提升人工智能技術(shù)生成文件的識(shí)別準(zhǔn)確率和識(shí)別效率。
25、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開(kāi)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開(kāi)的范圍。本公開(kāi)的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。
1.一種文件處理方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)所述多個(gè)第一特征進(jìn)行組合,以篩選能夠識(shí)別出基于人工智能技術(shù)生成的文件頁(yè)面的至少一個(gè)第二特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述基于文件識(shí)別結(jié)果的召回率和/或準(zhǔn)確率,篩選出至少一個(gè)第二特征,包括:
4.根據(jù)權(quán)利要求3所述的方法,其中,所述以最大化目標(biāo)函數(shù)為準(zhǔn)則,基于遺傳算法對(duì)所述多個(gè)第一特征進(jìn)行組合,得到所述至少一個(gè)第二特征,包括:
5.根據(jù)權(quán)利要求2所述的方法,其中,所述基于文件識(shí)別結(jié)果的召回率和/或準(zhǔn)確率,篩選出至少一個(gè)第二特征,包括:
6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,還包括:
7.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,其中,所述第一特征用于描述所述文件模板中多個(gè)模板元素各自的排版特征、不同模板元素之間的相對(duì)特征、同類(lèi)模板元素之間的相對(duì)特征中的至少一種。
8.一種文件識(shí)別方法,包括:
9.根據(jù)權(quán)利要求8所述的方法,其中,所述第三特征用于描述所述待識(shí)別頁(yè)面中多個(gè)頁(yè)面元素各自的排版特征、不同頁(yè)面元素之間的相對(duì)特征、同類(lèi)頁(yè)面元素之間的相對(duì)特征中的至少一種。
10.根據(jù)權(quán)利要求8所述的方法,其中,所述特征匹配度包括第一子匹配度和第二子匹配度;所述第一子匹配度基于所述多個(gè)第三特征和所述已知特征集中的與所述多個(gè)第三特征對(duì)應(yīng)的第一特征之間的匹配結(jié)果確定;所述第二子匹配度基于所述至少一個(gè)第四特征和所述已知特征集中的與所述至少一個(gè)第四特征對(duì)應(yīng)的第二特征之間的匹配結(jié)果確定;
11.根據(jù)權(quán)利要求8所述的方法,其中,所述將所述多個(gè)第三特征進(jìn)行組合,得到至少一個(gè)第四特征,包括:
12.根據(jù)權(quán)利要求8-11中任一項(xiàng)所述的方法,還包括:
13.一種文件處理裝置,包括:
14.根據(jù)權(quán)利要求13所述的裝置,其中,所述篩選模塊,包括:
15.根據(jù)權(quán)利要求14所述的裝置,其中,所述篩選子單元,具體用于:
16.根據(jù)權(quán)利要求15所述的裝置,其中,所述篩選子單元,具體用于:
17.根據(jù)權(quán)利要求14所述的裝置,其中,所述篩選子單元,具體用于:
18.根據(jù)權(quán)利要求13-17中任一項(xiàng)所述的裝置,還包括:
19.根據(jù)權(quán)利要求13-17中任一項(xiàng)所述的裝置,其中,所述第一特征用于描述所述文件模板中多個(gè)模板元素各自的排版特征、不同模板元素之間的相對(duì)特征、同類(lèi)模板元素之間的相對(duì)特征中的至少一種。
20.一種文件識(shí)別裝置,包括:
21.根據(jù)權(quán)利要求20所述的裝置,其中,所述第三特征用于描述所述待識(shí)別頁(yè)面中多個(gè)頁(yè)面元素各自的排版特征、不同頁(yè)面元素之間的相對(duì)特征、同類(lèi)頁(yè)面元素之間的相對(duì)特征中的至少一種。
22.根據(jù)權(quán)利要求20所述的裝置,其中,所述特征匹配度包括第一子匹配度和第二子匹配度;所述第一子匹配度基于所述多個(gè)第三特征和所述已知特征集中的與所述多個(gè)第三特征對(duì)應(yīng)的第一特征之間的匹配結(jié)果確定;所述第二子匹配度基于所述至少一個(gè)第四特征和所述已知特征集中的與所述至少一個(gè)第二特征對(duì)應(yīng)的第二特征之間的匹配結(jié)果確定;
23.根據(jù)權(quán)利要求20所述的裝置,其中,所述組合模塊,包括:
24.根據(jù)權(quán)利要求20-23中任一項(xiàng)所述的裝置,所述確定模塊,還用于:
25.一種電子設(shè)備,包括:
26.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1-12中任一項(xiàng)所述的方法。
27.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1-12中任一項(xiàng)所述的方法。