本公開涉及人工智能,尤其涉及一種基于大模型智能代理的任務(wù)處理方法、裝置和電子設(shè)備。
背景技術(shù):
1、當(dāng)處于企業(yè)內(nèi)部辦公業(yè)務(wù)場景時,由于企業(yè)內(nèi)部辦公存在多個辦公類應(yīng)用程序,而且部分業(yè)務(wù)場景的完成需要跨越多個應(yīng)用程序協(xié)同完成。目前一般的處理方式仍舊是需要員工在手機(jī)端或電腦端操作多個應(yīng)用程序順序處理完成,存在著一定的不便利性。
技術(shù)實現(xiàn)思路
1、本公開提供一種基于大模型智能代理的任務(wù)處理方法、裝置和電子設(shè)備,用以解決無法自動對多個應(yīng)用程序進(jìn)行調(diào)用的問題。
2、為此,本公開的一個目的在于提出一種基于大模型智能代理的任務(wù)處理方法。
3、本公開的第二個目的在于提出一種基于大模型智能代理的任務(wù)處理裝置。
4、本公開的第三個目的在于提出一種電子設(shè)備。
5、本公開的第四個目的在于提出一種非瞬時計算機(jī)可讀存儲介質(zhì)。
6、本公開的第五個目的在于提出一種計算機(jī)程序產(chǎn)品。
7、為達(dá)上述目的,本公開第一方面實施方式提出了一種基于大模型智能代理的任務(wù)處理方法,包括:獲取用戶的輸入信息,并基于所述輸入信息確定待處理任務(wù)的任務(wù)內(nèi)容和任務(wù)類型;由目標(biāo)大模型根據(jù)所述任務(wù)內(nèi)容和所述任務(wù)類型,確定所述任務(wù)內(nèi)容所關(guān)聯(lián)的一個或多個候選應(yīng)用程序和所述候選應(yīng)用程序的執(zhí)行時序;對所述候選應(yīng)用程序按照所述執(zhí)行時序進(jìn)行調(diào)用,針對調(diào)用到的目標(biāo)應(yīng)用程序,構(gòu)造所述目標(biāo)應(yīng)用程序的提示信息和可擴(kuò)展標(biāo)記語言xml描述,并將所述提示信息、xml描述和所述目標(biāo)應(yīng)用程序的掩碼頁面圖像輸入所述目標(biāo)大模型中,確定所述目標(biāo)應(yīng)用程序之間的目標(biāo)交互過程,并調(diào)用所述目標(biāo)應(yīng)用程序執(zhí)行所述目標(biāo)交互過程;響應(yīng)于所述候選應(yīng)用程序按照所述調(diào)度時序調(diào)用結(jié)束,得到所述待處理任務(wù)的任務(wù)結(jié)果。
8、根據(jù)本公開的一個實施方式,其特征在于,所述目標(biāo)應(yīng)用程序的xml描述的獲取過程,包括:基于所述任務(wù)內(nèi)容,確定所述目標(biāo)應(yīng)用程序?qū)?yīng)的任務(wù)子內(nèi)容;獲取所述目標(biāo)應(yīng)用程序的第一頁面圖像和第二頁面圖像,其中,所述第一頁面圖像為所述目標(biāo)應(yīng)用程序起始頁面的圖像,所述第二圖像為所述目標(biāo)應(yīng)用程序執(zhí)行完所述任務(wù)子內(nèi)容的結(jié)束頁面的圖像;根據(jù)所述第一頁面圖像和第二頁面圖像,獲取所述目標(biāo)應(yīng)用程序的交互元素,并基于所述交互元素確定所述目標(biāo)應(yīng)用程序的xml描述。
9、根據(jù)本公開的一個實施方式,所述根據(jù)所述第一頁面圖像和第二頁面圖像,獲取所述目標(biāo)應(yīng)用程序的交互元素,包括:對所述第一頁面圖像和所述第二頁面圖像進(jìn)行解析,確定所述第一頁面圖像對應(yīng)的第一候選頁面元素,以及所述第二頁面圖像對應(yīng)的第二候選頁面元素;獲取所述第一候選頁面元素和所述第二候選頁面元素的屬性信息,并基于所述屬性信息,確定所述第一候選頁面元素和所述第二候選頁面元素中的交互元素。
10、根據(jù)本公開的一個實施方式,所述基于所述交互元素確定所述目標(biāo)應(yīng)用程序的xml描述,包括:確定第一頁面圖像和第二頁面圖像之間的時序關(guān)系;確定所述第一頁面圖像、所述第二頁面圖像和所述交互元素之間的對應(yīng)關(guān)系;對所述第一頁面圖像和第二頁面圖像之間的時序關(guān)系以及所述對應(yīng)關(guān)系進(jìn)行結(jié)構(gòu)化處理,得到所述目標(biāo)應(yīng)用程序的xml描述。
11、根據(jù)本公開的一個實施方式,所述確定所述第一頁面圖像、所述第二頁面圖像和所述交互元素之間的對應(yīng)關(guān)系,包括:確定從所述第一頁面圖像跳轉(zhuǎn)至所述第二頁面圖像的路徑信息,所述路徑信息包括跳轉(zhuǎn)時使用的交互元素;對所述路徑信息進(jìn)行監(jiān)聽,確定所述第一頁面圖像、所述第二頁面圖像和所述交互元素之間的對應(yīng)關(guān)系。
12、根據(jù)本公開的一個實施方式,所述目標(biāo)應(yīng)用程序的提示信息獲取過程,包括:由所述目標(biāo)大模型對所述目標(biāo)應(yīng)用程序的交互動作進(jìn)行預(yù)測,得到所述目標(biāo)應(yīng)用程序的交互預(yù)測結(jié)果;基于所述執(zhí)行時序,確定前一調(diào)用的目標(biāo)應(yīng)用程序,并獲取所述前一調(diào)用的目標(biāo)應(yīng)用程序的歷史交互過程;基于所述交互預(yù)測結(jié)果和所述歷史交互過程,確定所述目標(biāo)應(yīng)用程序的提示信息。
13、根據(jù)本公開的一個實施方式,所述目標(biāo)應(yīng)用程序的掩碼頁面圖像獲取過程,包括:針對所述第一頁面圖像和所述第二頁面圖像中的任一頁面圖像,遍歷所述xml描述中的交互元素,并基于所述交互元素,對所述任一頁面圖像進(jìn)行掩碼,得到所述掩碼頁面圖像。
14、根據(jù)本公開的一個實施方式,所述將所述提示信息、xml描述和所述目標(biāo)應(yīng)用程序的掩碼頁面圖像輸入所述目標(biāo)大模型中,確定所述目標(biāo)應(yīng)用程序之間的目標(biāo)交互過程,包括:由所述目標(biāo)大模型根據(jù)所述提示信息,對所述xml描述進(jìn)行解析,確定所述目標(biāo)應(yīng)用程序的交互邏輯;基于所述提示信息,對所述掩碼頁面圖像進(jìn)行解析,確定所述目標(biāo)應(yīng)用程序的頁面布局信息,所述頁面布局信息包括交互元素的位置信息;基于所述交互邏輯和所述位置信息,確定所述目標(biāo)應(yīng)用程序?qū)?yīng)的候選交互過程;獲取所述執(zhí)行時序中每個目標(biāo)應(yīng)用程序的候選交互過程,并根據(jù)所述候選交互過程,確定所述目標(biāo)應(yīng)用程序之間的目標(biāo)交互過程。
15、根據(jù)本公開的一個實施方式,所述基于所述輸入信息確定待處理任務(wù)的任務(wù)內(nèi)容和任務(wù)類型,包括:對所述輸入信息進(jìn)行意圖識別,確定所述輸入信息中的無效信息,并對所述無效信息進(jìn)行過濾,得到所述輸入信息中的有效信息;對所述有效信息進(jìn)行任務(wù)識別,確定所述待處理任務(wù)的任務(wù)內(nèi)容和任務(wù)類型。
16、根據(jù)本公開的一個實施方式,所述目標(biāo)大模型的訓(xùn)練過程,包括:確定樣本交互過程對應(yīng)的多個樣本應(yīng)用程序,以及每個樣本應(yīng)用程序?qū)?yīng)的樣本候選交互過程;基于所述樣本候選交互過程,對初始大模型進(jìn)行訓(xùn)練,直至訓(xùn)練結(jié)束得到所述目標(biāo)大模型。
17、根據(jù)本公開的一個實施方式,獲取所述樣本交互過程,包括:獲取所述樣本候選交互過程對應(yīng)的樣本應(yīng)用程序的第一樣本頁面圖像和第二樣本頁面圖像;根據(jù)所述第一樣本頁面圖像和所述第二樣本頁面圖像,獲取所述樣本應(yīng)用程序的樣本交互元素,并基于所述樣本交互元素,確定所述樣本應(yīng)用程序的樣本xml描述;針對所述第一樣本頁面圖像和所述第二樣本頁面圖像中的任一樣本頁面圖像,遍歷所述樣本xml描述中的樣本交互元素,并基于所述樣本交互元素,對所述任一樣本頁面圖像進(jìn)行掩碼,得到樣本掩碼頁面圖像;基于所述樣本xml描述、所述樣本掩碼頁面圖像,確定所述樣本交互過程。
18、根據(jù)本公開的一個實施方式,所述基于所述樣本候選交互過程,對初始大模型進(jìn)行訓(xùn)練,直至訓(xùn)練結(jié)束得到所述目標(biāo)大模型,包括:對所述樣本應(yīng)用程序執(zhí)行所述樣本候選交互過程,并將交互的過程進(jìn)行封裝,得到樣本封裝結(jié)果;將所述樣本封裝結(jié)果輸入初始大模型中,由所述初始大模型對所述樣本封裝結(jié)果進(jìn)行遍歷,獲取每個樣本候選交互過程的操作信息;基于所述操作信息生成訓(xùn)練提示信息,并基于所述訓(xùn)練提示信息對所述初始大模型進(jìn)行訓(xùn)練,得到訓(xùn)練結(jié)果;根據(jù)所述訓(xùn)練結(jié)果判斷是否繼續(xù)對所述初始大模型進(jìn)行訓(xùn)練,直至所述訓(xùn)練結(jié)果滿足訓(xùn)練結(jié)束條件,得到所述目標(biāo)大模型。
19、為達(dá)上述目的,本公開第二方面實施例提出了一種基于大模型智能代理的任務(wù)處理裝置,包括:第一確定模塊,用于獲取用戶的輸入信息,并基于所述輸入信息確定待處理任務(wù)的任務(wù)內(nèi)容和任務(wù)類型;第二確定模塊,用于由目標(biāo)大模型根據(jù)所述任務(wù)內(nèi)容和所述任務(wù)類型,確定所述任務(wù)內(nèi)容所關(guān)聯(lián)的一個或多個候選應(yīng)用程序和所述候選應(yīng)用程序的執(zhí)行時序;第三確定模塊,用于對所述候選應(yīng)用程序按照所述執(zhí)行時序進(jìn)行調(diào)用,針對調(diào)用到的目標(biāo)應(yīng)用程序,構(gòu)造所述目標(biāo)應(yīng)用程序的提示信息和可擴(kuò)展標(biāo)記語言xml描述,并將所述提示信息、xml描述和所述目標(biāo)應(yīng)用程序的掩碼頁面圖像輸入所述目標(biāo)大模型中,確定所述目標(biāo)應(yīng)用程序之間的目標(biāo)交互過程,并調(diào)用所述目標(biāo)應(yīng)用程序執(zhí)行所述目標(biāo)交互過程;第四確定模塊,用于響應(yīng)于所述候選應(yīng)用程序按照所述執(zhí)行時序調(diào)用結(jié)束,得到所述待處理任務(wù)的任務(wù)結(jié)果。
20、根據(jù)本公開的一個實施方式,其特征在于,所述第三確定模塊,還用于:基于所述任務(wù)內(nèi)容,確定所述目標(biāo)應(yīng)用程序?qū)?yīng)的任務(wù)子內(nèi)容;獲取所述目標(biāo)應(yīng)用程序的第一頁面圖像和第二頁面圖像,其中,所述第一頁面圖像為所述目標(biāo)應(yīng)用程序起始頁面的圖像,所述第二圖像為所述目標(biāo)應(yīng)用程序執(zhí)行完所述任務(wù)子內(nèi)容的結(jié)束頁面的圖像;根據(jù)所述第一頁面圖像和第二頁面圖像,獲取所述目標(biāo)應(yīng)用程序的交互元素,并基于所述交互元素確定所述目標(biāo)應(yīng)用程序的xml描述。
21、根據(jù)本公開的一個實施方式,所述第三確定模塊,還用于:對所述第一頁面圖像和所述第二頁面圖像進(jìn)行解析,確定所述第一頁面圖像對應(yīng)的第一候選頁面元素,以及所述第二頁面圖像對應(yīng)的第二候選頁面元素;獲取所述第一候選頁面元素和所述第二候選頁面元素的屬性信息,并基于所述屬性信息,確定所述第一候選頁面元素和所述第二候選頁面元素中的交互元素。
22、根據(jù)本公開的一個實施方式,所述第三確定模塊,還用于:確定第一頁面圖像和第二頁面圖像之間的時序關(guān)系;確定所述第一頁面圖像、所述第二頁面圖像和所述交互元素之間的對應(yīng)關(guān)系;對所述第一頁面圖像和第二頁面圖像之間的時序關(guān)系以及所述對應(yīng)關(guān)系進(jìn)行結(jié)構(gòu)化處理,得到所述目標(biāo)應(yīng)用程序的xml描述。
23、根據(jù)本公開的一個實施方式,所述第三確定模塊,還用于:確定從所述第一頁面圖像跳轉(zhuǎn)至所述第二頁面圖像的路徑信息,所述路徑信息包括跳轉(zhuǎn)時使用的交互元素;對所述路徑信息進(jìn)行監(jiān)聽,確定所述第一頁面圖像、所述第二頁面圖像和所述交互元素之間的對應(yīng)關(guān)系。
24、根據(jù)本公開的一個實施方式,所述第三確定模塊,還用于:由所述目標(biāo)大模型對所述目標(biāo)應(yīng)用程序的交互動作進(jìn)行預(yù)測,得到所述目標(biāo)應(yīng)用程序的交互預(yù)測結(jié)果;基于所述執(zhí)行時序,確定前一調(diào)用的目標(biāo)應(yīng)用程序,并獲取所述前一調(diào)用的目標(biāo)應(yīng)用程序的歷史交互過程;基于所述交互預(yù)測結(jié)果和所述歷史交互過程,確定所述目標(biāo)應(yīng)用程序的提示信息。
25、根據(jù)本公開的一個實施方式,所述第三確定模塊,還用于:針對所述第一頁面圖像和所述第二頁面圖像中的任一頁面圖像,遍歷所述xml描述中的交互元素,并基于所述交互元素,對所述任一頁面圖像進(jìn)行掩碼,得到所述掩碼頁面圖像。
26、根據(jù)本公開的一個實施方式,所述第三確定模塊,還用于:由所述目標(biāo)大模型根據(jù)所述提示信息,對所述xml描述進(jìn)行解析,確定所述目標(biāo)應(yīng)用程序的交互邏輯;基于所述提示信息,對所述掩碼頁面圖像進(jìn)行解析,確定所述目標(biāo)應(yīng)用程序的頁面布局信息,所述頁面布局信息包括交互元素的位置信息;基于所述交互邏輯和所述位置信息,確定所述目標(biāo)應(yīng)用程序?qū)?yīng)的候選交互過程;獲取所述執(zhí)行時序中每個目標(biāo)應(yīng)用程序的候選交互過程,并根據(jù)所述候選交互過程,確定所述目標(biāo)應(yīng)用程序之間的目標(biāo)交互過程。
27、根據(jù)本公開的一個實施方式,所述第一確定模塊,還用于:對所述輸入信息進(jìn)行意圖識別,確定所述輸入信息中的無效信息,并對所述無效信息進(jìn)行過濾,得到所述輸入信息中的有效信息;對所述有效信息進(jìn)行任務(wù)識別,確定所述待處理任務(wù)的任務(wù)內(nèi)容和任務(wù)類型。
28、根據(jù)本公開的一個實施方式,所述第三確定模塊,還用于:確定樣本交互過程對應(yīng)的多個樣本應(yīng)用程序,以及每個樣本應(yīng)用程序?qū)?yīng)的樣本候選交互過程;基于所述樣本候選交互過程,對初始大模型進(jìn)行訓(xùn)練,直至訓(xùn)練結(jié)束得到所述目標(biāo)大模型。
29、根據(jù)本公開的一個實施方式,所述第三確定模塊,還用于:獲取所述樣本候選交互過程對應(yīng)的樣本應(yīng)用程序的第一樣本頁面圖像和第二樣本頁面圖像;根據(jù)所述第一樣本頁面圖像和所述第二樣本頁面圖像,獲取所述樣本應(yīng)用程序的樣本交互元素,并基于所述樣本交互元素,確定所述樣本應(yīng)用程序的樣本xml描述;針對所述第一樣本頁面圖像和所述第二樣本頁面圖像中的任一樣本頁面圖像,遍歷所述樣本xml描述中的樣本交互元素,并基于所述樣本交互元素,對所述任一樣本頁面圖像進(jìn)行掩碼,得到樣本掩碼頁面圖像;基于所述樣本xml描述、所述樣本掩碼頁面圖像,確定所述樣本交互過程。
30、根據(jù)本公開的一個實施方式,所述第三確定模塊,還用于:對所述樣本應(yīng)用程序執(zhí)行所述樣本候選交互過程,并將交互的過程進(jìn)行封裝,得到樣本封裝結(jié)果;將所述樣本封裝結(jié)果輸入初始大模型中,由所述初始大模型對所述樣本封裝結(jié)果進(jìn)行遍歷,獲取每個樣本候選交互過程的操作信息;基于所述操作信息生成訓(xùn)練提示信息,并基于所述訓(xùn)練提示信息對所述初始大模型進(jìn)行訓(xùn)練,得到訓(xùn)練結(jié)果;根據(jù)所述訓(xùn)練結(jié)果判斷是否繼續(xù)對所述初始大模型進(jìn)行訓(xùn)練,直至所述訓(xùn)練結(jié)果滿足訓(xùn)練結(jié)束條件,得到所述目標(biāo)大模型。
31、為達(dá)上述目的,本公開第三方面實施例提出了一種電子設(shè)備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以實現(xiàn)如本公開第一方面實施例所述的基于大模型智能代理的任務(wù)處理方法。
32、為達(dá)上述目的,本公開第四方面實施例提出了一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),其中,所述計算機(jī)指令用于實現(xiàn)如本公開第一方面實施例所述的基于大模型智能代理的任務(wù)處理方法。
33、為達(dá)上述目的,本公開第五方面實施例提出了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序在被處理器執(zhí)行時用于實現(xiàn)如本公開第一方面實施例所述的基于大模型智能代理的任務(wù)處理方法。