本技術涉及數據處理,特別是涉及數據提取方法及電子設備。
背景技術:
1、在很多應用場景中,都具有對網絡信息進行識別和精確結構化處理的需求。例如,一些公司可能需要從網絡中獲取一些潛在客戶的名稱、聯(lián)系方式等信息,并分配給銷售人員,由銷售人員通過對潛在客戶進行拜訪等方式,將其轉化為正式客戶,完成具體的銷售行為,等等。
2、但是,在當前的技術環(huán)境中,網絡信息的高效識別和精確結構化處理面臨著多重挑戰(zhàn)。例如,現有信息識別方法通??梢园ňW絡“爬蟲”、ocr(optical?characterrecognition,光學字符識別)以及html(hypertext?markup?language,超文本標記語言)源碼分析技術等,但是,這種識別技術往往無法適應網絡數據的多樣性和復雜性。例如,網絡“爬蟲”技術主要是一種按照一定的規(guī)則,自動地抓取網絡信息的程序或者腳本,但是,有些網頁可能設置了反爬蟲措施,無法通過爬蟲技術完成信息識別及抽取。并且,由于不同的頁面版面之間存在較大的差異,要想做到通用的爬蟲算法,難度較大。另外,即使技術上能夠爬取到網頁數據,也還可能存在法務風險。
3、ocr是采用光學技術進行字符識別的方法,利用文字識別技術將圖像信息轉化為可以使用的文本的計算機輸入技術。但是,如果想要通過ocr技術進行高效識別以及精確的結構化處理,則需要采用先進算法和深度學習模型,以提升ocr技術對復雜文檔版面的處理能力。另外,還需要提前利用不同的版面的頁面對這種算法模型進行訓練,否則可能會存在無法確定識別出的信息的含義等問題。例如,可能會將公司郵箱地址識別成普通文本,如果同一圖片中包括兩個網址信息,可能無法確定哪個才是公司主頁的網址,等等。但是,由于網絡信息存在非常復雜的多樣性特點,因此,ocr技術對非常規(guī)或非預期版面的處理可能仍有限,且在資源有限的環(huán)境下,高級算法的計算成本可能成為瓶頸,為了維持高準確度,可能需要大量的訓練數據,這在某些情況下可能難以獲得。
4、html源碼分析技術通過與多種解析算法和自適應技術相結合,能夠提升對復雜網頁源碼的理解和數據提取能力,可以處理更加復雜的網頁設計,但是,隨著網頁設計和技術標準的不斷演變,源碼分析工具需要不斷更新以適應新的變化,這增加了維護的難度和成本;另外,這種技術也無法對網頁中圖片里包含的信息進行提取,所以仍然無法做到全場景適用。
技術實現思路
1、本技術提供了數據提取方法及電子設備,能夠實現更具通用性的數據識別及提取方案,并提升數據提取的準確性。
2、本技術提供了如下方案:
3、一種數據提取方法,所述方法應用于為瀏覽器程序提供的插件程序中,所述插件程序的服務端側預置有數據提取對象的屬性字段信息,所述方法包括:
4、響應于用戶在通過所述瀏覽器程序瀏覽目標頁面的過程中,通過所述插件程序發(fā)起的數據提取操作請求,確定所述用戶在所述目標頁面中選取的焦點區(qū)域范圍;
5、對所述焦點區(qū)域范圍內的頁面內容進行圖像截??;
6、將所截取的圖像提交到所述服務端,以便所述服務端根據所述數據提取對象的屬性字段構造提示文本,并根據所截取到的圖像以及所述提示文本調用人工智能ai大規(guī)模參數模型,由所述ai大規(guī)模參數模型從所述截取的圖像中識別并提取出所述屬性字段上的數據。
7、其中,所述確定所述用戶在所述目標頁面中選取的焦點區(qū)域范圍,包括:
8、提供用于對所述目標頁面中的全部頁面內容進行全選或者對部分頁面內容進行裁切的操作選項,以便根據所述操作選項進行焦點區(qū)域范圍的選取。
9、其中,所述瀏覽器程序包括網頁瀏覽器程序,所述目標頁面包括目標網頁;
10、所述服務端還用于:
11、以所述目標網頁的網址以及所述提示文本為輸入參數,調用網頁文本識別模型,所述網頁文本識別模型用于通過對所述目標頁面的頁面代碼進行分析的方式,識別其中的文本類頁面元素,并提取對應屬性字段上的數據;
12、利用所述網頁文本識別模型提取出的部分屬性字段上的數據,對所述ai大規(guī)模參數模型截取出的對應屬性字段上的數據進行校驗。
13、其中,所述服務端還用于:對所述ai大規(guī)模參數模型的數據提取結果進行判斷,確定是否存在未能提取到數據的屬性字段,如果存在,則根據所述未能提取到數據的屬性字段重新構造提示文本,并根據所述截取的圖像以及所述重新構造的提示文本重新調用所述ai大規(guī)模參數模型,以重新對對應屬性字段上的數據進行提取。
14、其中,所述服務端還用于:將所述ai大規(guī)模參數模型返回的數據與預置的多種可能的錯誤類型進行匹配,判斷返回的數據是否存在錯誤,如果存在,則確定出對應的錯誤類型,并根據所述錯誤類型構造出提示文本,根據所述截取的圖像以及所述根據錯誤類型構造的提示文本重新調用所述ai大規(guī)模參數模型,以重新進行數據識別及提取。
15、其中,還包括:
16、對所述服務端返回的數據提取結果進行展示,并向所述用戶提供用于對數據提取結果進行確認或提出疑問的操作選項。
17、其中,所述數據提取對象包括客戶資源信息;
18、所述服務端還用于,根據所提取出的當前客戶資源在多個屬性字段上的數據,與客戶資源管理系統(tǒng)的數據庫中已保存的客戶資源的在對應屬性字段上的數據進行比對,以確定當前客戶資源是否已收錄在所述數據庫中,如果尚未收錄,則提供所述用于對數據提取結果進行確認或提出疑問的操作選項,并在接收到用戶的確認消息后,將所述當前客戶資源在多個屬性字段上的數據進行結構化處理,并錄入到所述數據庫中。
19、一種客戶資源數據處理方法,所述方法應用于為瀏覽器程序提供的插件程序中,所述插件程序的服務端側預置有客戶資源類數據提取對象的屬性字段信息,所述方法包括:
20、響應于用戶在通過所述瀏覽器程序瀏覽目標頁面的過程中,通過所述插件程序發(fā)起的數據提取操作請求,確定所述用戶在所述目標頁面中選取的焦點區(qū)域范圍;
21、對所述焦點區(qū)域范圍內的頁面內容進行圖像截?。?/p>
22、將所截取的圖像提交到所述服務端,以便所述服務端根據所述屬性字段構造提示文本,并根據所截取到的圖像以及所述提示文本調用人工智能ai大規(guī)模參數模型,由所述ai大規(guī)模參數模型從所述截取的圖像中識別并提取出所述目標頁面中包括的目標客戶資源在所述屬性字段上的數據,并通過與客戶資源管理系統(tǒng)中已有的客戶資源的屬性數據進行比對,對所述目標客戶資源進行排重確認后,將所述目標客戶資源收錄到所述客戶資源管理系統(tǒng)中,并建立所述用戶與所述目標客戶資源之間的關聯(lián)關系。
23、一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現前述任一項所述的方法的步驟。
24、一種電子設備,包括:
25、一個或多個處理器;以及
26、與所述一個或多個處理器關聯(lián)的存儲器,所述存儲器用于存儲程序指令,所述程序指令在被所述一個或多個處理器讀取執(zhí)行時,執(zhí)行前述任一項所述的方法的步驟。
27、一種計算機程序產品,包括計算機程序/計算機可執(zhí)行指令,所述計算機程序/計算機可執(zhí)行指令被電子設備中的處理器執(zhí)行時實現前述任一項所述方法的步驟。
28、根據本技術提供的具體實施例,本技術公開了以下技術效果:
29、本技術實施例通過為瀏覽器程序提供插件程序,使得用戶可以在通過所述瀏覽器程序瀏覽目標頁面的過程中,通過所述插件程序發(fā)起數據提取操作請求,并且可以由用戶指定具體的焦點區(qū)域范圍,之后,通過對焦點區(qū)域范圍內進行截圖,并利用截取到的圖像以及基于預置的數據提取對象對應的屬性字段構造的提示文本,調用ai大模型進行圖像理解,并從中識別并提取出對應屬性字段上的數據。也就是說,通過人機交互和先進ai技術的結合,不僅提供了一個創(chuàng)新的解決方案來應對ocr和html源碼分析等技術在數據識別提取過程中遇到的挑戰(zhàn),具備更好的跨域適應性,屬于一種更具通用性的數據識別及提取方案。另外,由于可以由用戶對焦點區(qū)域范圍進行選取,因此,可以減少無用信息對數據識別提取結果的干擾,減少識別錯誤或準確率損失。再者,由于插件程序可以運行在用戶的個人電腦等終端設備上,因此,使得具體的數據識別以及提取行為成為用戶的個人行為,插件程序可以是在用戶個性行為的觸發(fā)下幫助用戶完成數據的識別及提取工作,因此,也可以降低法務風險。
30、另外,本技術的可選實施例中還可以引入檢驗機制、“監(jiān)督機制”、閉環(huán)反饋機制等,通過輸出校驗、質量監(jiān)控以及閉環(huán)反饋,進一步提升了整體系統(tǒng)的可靠性和智能性。其中,“監(jiān)督機制”這一層的加入,使得大模型不斷通過實時反饋學習和自我優(yōu)化,確保了輸出質量,為用戶真正解決實際問題。
31、當然,實施本技術的任一產品并不一定需要同時達到以上所述的所有優(yōu)點。