本發(fā)明屬于計(jì)算機(jī),具體涉及一種基于多模態(tài)視覺(jué)檢索的智能rpa交互方法、裝置及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的不斷發(fā)展,企業(yè)和組織日益依賴自動(dòng)化技術(shù)來(lái)提高工作效率和業(yè)務(wù)流程的效益。在自動(dòng)化領(lǐng)域,rpa技術(shù)作為一種重要的解決方案,已經(jīng)成為企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵工具。傳統(tǒng)的rpa技術(shù)主要依賴于對(duì)界面布局和代碼的解析,結(jié)合api接口、css結(jié)構(gòu)和javascript等手段實(shí)現(xiàn)與業(yè)務(wù)系統(tǒng)的交互,rpa可以定位并操作辦公軟件中的各種元素和模擬人類用戶在瀏覽器中的操作,如窗口、菜單、按鈕等。然而,這種技術(shù)對(duì)于操作對(duì)象的可見(jiàn)性和開(kāi)放性有一定的要求,需要能夠通過(guò)接口或源代碼獲取操作對(duì)象的位置和屬性信息,才能執(zhí)行相應(yīng)的操作,這種方式對(duì)于操作對(duì)象的可見(jiàn)性和開(kāi)放性有一定要求。而且在界面進(jìn)行升級(jí)之后,如果源代碼修改了api接口、css結(jié)構(gòu)和javascript等方面,rpa流程會(huì)出錯(cuò),需要耗費(fèi)較長(zhǎng)時(shí)間進(jìn)行排除錯(cuò)誤和維護(hù)修改,并且在一些特定場(chǎng)景下可能存在局限性,導(dǎo)致被動(dòng)調(diào)整rpa流程也影響了公司rpa處理效率和使用者的用戶體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問(wèn)題,本發(fā)明提供一種基于多模態(tài)視覺(jué)檢索的智能rpa交互方法、裝置及系統(tǒng)。利用本申請(qǐng)的技術(shù)方案,使用者可以通過(guò)不同模態(tài)的交互方式輕松制作rpa流程,實(shí)現(xiàn)了與業(yè)務(wù)系統(tǒng)的自動(dòng)化交互,提高工作效率。
2、本發(fā)明所采用的技術(shù)方案為:
3、在第一個(gè)方面,本申請(qǐng)公開(kāi)了一種基于多模態(tài)視覺(jué)檢索的智能rpa交互方法,包括步驟:
4、s1、構(gòu)建圖形用戶界面gui、網(wǎng)絡(luò)應(yīng)用程序和嵌入式應(yīng)用程序;
5、s2、打開(kāi)目標(biāo)網(wǎng)頁(yè)或者目標(biāo)界面,獲取當(dāng)前頁(yè)面的狀態(tài),捕獲整個(gè)應(yīng)用程序窗口或特定的區(qū)域;
6、s3、進(jìn)行圖像處理分析和定位gui中的元素,獲取對(duì)應(yīng)元素的定位坐標(biāo)信息;
7、s4、利用所述坐標(biāo)信息,執(zhí)行javascript模板代碼,以模擬用戶在gui上的操作;
8、s5、根據(jù)上述圖形用戶界面gui上的操作效果,保存這一環(huán)節(jié)的rpa交互模板,添加監(jiān)控報(bào)警環(huán)節(jié),對(duì)整個(gè)rpa任務(wù)的狀態(tài)進(jìn)行監(jiān)控,引入異常檢測(cè)機(jī)制;
9、s6、重復(fù)步驟s1-s5逐漸完善模板,直至rpa流程制作完成。
10、作為一種可選的技術(shù)方案,所述步驟s3包括:
11、s31、獲取圖像輸入、語(yǔ)音輸入和文字輸入;
12、s32、對(duì)所述圖像輸入進(jìn)行圖像特征編碼,獲得圖像特征;
13、s33、將所述語(yǔ)音輸入轉(zhuǎn)換為文字信息,與所述文字輸入構(gòu)成文本信息,對(duì)所述文本信息進(jìn)行文本特征編碼,獲得文本特征;
14、s34、將圖像特征和文本特征進(jìn)行融合,得到判別性特征,將判別性特征映射到邊框坐標(biāo)的預(yù)測(cè)空間;進(jìn)行歸一化,將坐標(biāo)值映射到預(yù)設(shè)范圍,定位具體元素的位置信息,將相對(duì)坐標(biāo)轉(zhuǎn)換為絕對(duì)坐標(biāo),獲得元素的定位坐標(biāo)信息。
15、作為一種可選的技術(shù)方案,步驟s33中將所述語(yǔ)音輸入轉(zhuǎn)換為文字信息包括:
16、s331、用戶輸入語(yǔ)音,調(diào)用通用語(yǔ)音識(shí)別whisper模型;
17、s332、輸入音頻被語(yǔ)音信號(hào)按照t秒一段進(jìn)行分割,每一段被轉(zhuǎn)換成log-mel頻譜圖;
18、s333、從語(yǔ)音信號(hào)中提取特征梅爾頻率倒譜系數(shù),提取語(yǔ)音特征,進(jìn)行后處理和解碼預(yù)測(cè)相應(yīng)的文本,并添加相應(yīng)標(biāo)記,轉(zhuǎn)換為最終的文本序列;
19、s334、輸出音頻的文字信息。
20、在第二個(gè)方面,本申請(qǐng)公開(kāi)了一種基于多模態(tài)視覺(jué)檢索的智能rpa交互裝置,包括:
21、構(gòu)建模塊,用于構(gòu)建圖形用戶界面gui、網(wǎng)絡(luò)應(yīng)用程序和嵌入式應(yīng)用程序;
22、捕獲模塊,用于打開(kāi)目標(biāo)網(wǎng)頁(yè)或者目標(biāo)界面,獲取當(dāng)前頁(yè)面的狀態(tài),捕獲整個(gè)應(yīng)用程序窗口或特定的區(qū)域;
23、坐標(biāo)信息獲取模塊,用于進(jìn)行圖像處理分析和定位gui中的元素,獲取對(duì)應(yīng)元素的定位坐標(biāo)信息;
24、模擬模塊,用于利用所述坐標(biāo)信息,執(zhí)行javascript模板代碼,以模擬用戶在gui上的操作;
25、監(jiān)控模塊,用于根據(jù)上述圖形用戶界面gui上的操作效果,保存這一環(huán)節(jié)的rpa交互模板,添加監(jiān)控報(bào)警環(huán)節(jié),對(duì)整個(gè)rpa任務(wù)的狀態(tài)進(jìn)行監(jiān)控,引入異常檢測(cè)機(jī)制;
26、循環(huán)調(diào)用模塊,用于重復(fù)調(diào)用上述構(gòu)建模塊、捕獲模塊、坐標(biāo)信息獲取模塊、模擬模塊以及監(jiān)控模塊,逐漸完善模板,直至rpa流程制作完成。
27、作為一種可選的技術(shù)方案,所述坐標(biāo)信息獲取模塊還包括:
28、獲取單元,用于獲取圖像輸入、語(yǔ)音輸入和文字輸入;
29、圖像特征提取單元,用于對(duì)所述圖像輸入進(jìn)行圖像特征編碼,獲得圖像特征;
30、文本特征提取單元,用于將所述語(yǔ)音輸入轉(zhuǎn)換為文字信息,與所述文字輸入構(gòu)成文本信息,對(duì)所述文本信息進(jìn)行文本特征編碼,獲得文本特征;
31、特征融合單元,用于將圖像特征和文本特征進(jìn)行融合,得到判別性特征,將判別性特征映射到邊框坐標(biāo)的預(yù)測(cè)空間;進(jìn)行歸一化,將坐標(biāo)值映射到預(yù)設(shè)范圍,定位具體元素的位置信息,將相對(duì)坐標(biāo)轉(zhuǎn)換為絕對(duì)坐標(biāo),獲得元素的定位坐標(biāo)信息。
32、作為一種可選的技術(shù)方案,文本特征提取單元還用于:
33、用戶輸入語(yǔ)音,調(diào)用通用語(yǔ)音識(shí)別whisper模型;
34、輸入音頻被語(yǔ)音信號(hào)按照t秒一段進(jìn)行分割,每一段被轉(zhuǎn)換成log-mel頻譜圖;
35、從語(yǔ)音信號(hào)中提取特征梅爾頻率倒譜系數(shù),提取語(yǔ)音特征,進(jìn)行后處理和解碼預(yù)測(cè)相應(yīng)的文本,并添加相應(yīng)標(biāo)記,轉(zhuǎn)換為最終的文本序列;
36、輸出音頻的文字信息。
37、在第三個(gè)方面,本申請(qǐng)還公開(kāi)了一種基于多模態(tài)視覺(jué)檢索的智能rpa交互系統(tǒng),包括如上述公開(kāi)的裝置。
38、在第四個(gè)方面,本申請(qǐng)還公開(kāi)了一種電子設(shè)備,包括:一個(gè)或多個(gè)處理器;一個(gè)或多個(gè)存儲(chǔ)器;所述一個(gè)或多個(gè)存儲(chǔ)器存儲(chǔ)有一個(gè)或多個(gè)計(jì)算機(jī)程序,所述一個(gè)或多個(gè)計(jì)算機(jī)程序包括指令,當(dāng)所述指令被所述一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得所述電子設(shè)備執(zhí)行如上述第一個(gè)方面公開(kāi)的方法。
39、在第五個(gè)方面,本申請(qǐng)還公開(kāi)了一種計(jì)算機(jī)可讀介質(zhì),包括計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí),使得所述計(jì)算機(jī)執(zhí)行如上述第一個(gè)方面公開(kāi)的方法。
40、本發(fā)明的有益效果為:傳統(tǒng)的rpa技術(shù)需要用戶對(duì)編程和應(yīng)用程序結(jié)構(gòu)有一定的專業(yè)知識(shí),而結(jié)合視覺(jué)語(yǔ)言定位模型后,用戶無(wú)需深入了解應(yīng)用程序的內(nèi)部結(jié)構(gòu),使得用戶可以更迅速地完成rpa流程的實(shí)現(xiàn)。通過(guò)圖像和語(yǔ)言的結(jié)合,用戶可以更方便地描述和理解任務(wù)的執(zhí)行流程,減少了開(kāi)發(fā)和調(diào)試的時(shí)間成本。rpa技術(shù)能夠自動(dòng)化執(zhí)行繁瑣、重復(fù)的任務(wù),如數(shù)據(jù)錄入、文件整理等,解放員工手動(dòng)操作的時(shí)間。rpa可以快速執(zhí)行各種業(yè)務(wù)流程,提高業(yè)務(wù)處理速度,縮短任務(wù)周期,以便更迅速地響應(yīng)市場(chǎng)需求,提高競(jìng)爭(zhēng)力。
1.基于多模態(tài)視覺(jué)檢索的智能rpa交互方法,其特征在于,包括步驟:
2.根據(jù)權(quán)利要求1所述的基于多模態(tài)視覺(jué)檢索的智能rpa交互方法,其特征在于,所述步驟s3包括:
3.根據(jù)權(quán)利要求2所述的基于多模態(tài)視覺(jué)檢索的智能rpa交互方法,其特征在于,步驟s33中將所述語(yǔ)音輸入轉(zhuǎn)換為文字信息包括:
4.基于多模態(tài)視覺(jué)檢索的智能rpa交互裝置,其特征在于,包括:
5.根據(jù)權(quán)利要求4所述的基于多模態(tài)視覺(jué)檢索的智能rpa交互裝置,其特征在于,所述坐標(biāo)信息獲取模塊還包括:
6.根據(jù)權(quán)利要求5所述的基于多模態(tài)視覺(jué)檢索的智能rpa交互裝置,其特征在于,文本特征提取單元還用于:
7.基于多模態(tài)視覺(jué)檢索的智能rpa交互系統(tǒng),其特征在于:包括如權(quán)利要求4-6任一項(xiàng)所述的裝置。
8.一種電子設(shè)備,其特征在于,包括:一個(gè)或多個(gè)處理器;一個(gè)或多個(gè)存儲(chǔ)器;所述一個(gè)或多個(gè)存儲(chǔ)器存儲(chǔ)有一個(gè)或多個(gè)計(jì)算機(jī)程序,所述一個(gè)或多個(gè)計(jì)算機(jī)程序包括指令,當(dāng)所述指令被所述一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得所述電子設(shè)備執(zhí)行如權(quán)利要求1-3中任一項(xiàng)所述的方法。
9.一種計(jì)算機(jī)可讀介質(zhì),其特征在于,包括計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí),使得所述計(jì)算機(jī)執(zhí)行如權(quán)利要求1-3中任一項(xiàng)所述的方法。