本技術(shù)涉及人工智能開發(fā)與金融科技領(lǐng)域,尤其涉及基于人工智能的中文糾錯方法、裝置、計算機設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、在金融企業(yè)的日常運營中,確保信息的準確無誤是維護客戶信任、保障交易安全及提升服務(wù)質(zhì)量的基石。特別是在處理涉及大量文本數(shù)據(jù)的場景,如客戶資料錄入、交易記錄保存、財務(wù)報告編制等,文字的正確性尤為重要。然而,由于人為輸入錯誤、系統(tǒng)識別偏差或語言復(fù)雜性等因素,文本數(shù)據(jù)中難免會出現(xiàn)錯別字、筆誤等問題,這些問題若不及時糾正,可能引發(fā)誤解、數(shù)據(jù)錯誤乃至法律糾紛。
2、傳統(tǒng)上,金融企業(yè)針對中文文本中的錯誤糾正,廣泛采用了基于拼音編輯距離(pinyin?edit?distance)或鍵盤編輯距離(keyboard?edit?distance)的方法。這些方法的核心思想是通過模擬用戶可能的輸入錯誤(如誤擊、漏擊鍵盤鍵位),計算將錯誤字符串轉(zhuǎn)換為正確字符串所需的最小編輯操作數(shù)(包括插入、刪除、替換等),從而實現(xiàn)對錯誤文本的自動修正。盡管錯誤糾正方法在特定場景下展現(xiàn)了一定的有效性,但其固有的局限性也日益凸顯:1.計算復(fù)雜度高昂:由于需要對輸入的每一個字符與數(shù)據(jù)庫中所有可能的正確字符串進行逐一比對,并計算其編輯距離,導(dǎo)致算法的時間復(fù)雜度高達o(n*l),其中n代表字符總數(shù)(即數(shù)據(jù)庫中所有可能正確字符串的集合大小),l為待糾錯字符串的長度。隨著數(shù)據(jù)庫規(guī)模的擴大和文本長度的增加,這種計算負擔將急劇上升,影響系統(tǒng)的響應(yīng)速度和效率,導(dǎo)致糾錯處理的效率低下。2.強依賴數(shù)據(jù)庫內(nèi)容:此類方法高度依賴于預(yù)先建立的正確字符串數(shù)據(jù)庫。對于數(shù)據(jù)庫中不存在的詞匯或新出現(xiàn)的詞匯,則無法進行有效糾錯,限制了其適用范圍和靈活性,導(dǎo)致糾錯效果較差。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的目的在于提出一種基于人工智能的中文糾錯方法、裝置、計算機設(shè)備及存儲介質(zhì),以解決現(xiàn)有的金融企業(yè)針對中文文本中的錯誤糾正方式存在糾錯處理的效率低下,且糾錯效果較差的技術(shù)問題。
2、為了解決上述技術(shù)問題,本技術(shù)實施例提供一種基于人工智能的中文糾錯方法,采用了如下所述的技術(shù)方案:
3、獲取待處理的輸入文本,并對所述輸入文本進行分詞處理得到對應(yīng)的詞語;
4、對所述詞語進行編碼特征提取處理,得到對應(yīng)的目標編碼特征;
5、基于預(yù)設(shè)的錯誤檢測模型對所述目標編碼特征進行錯誤檢測處理,得到對應(yīng)的錯誤檢測結(jié)果;
6、若所述錯誤檢測結(jié)果為錯詞,則基于預(yù)設(shè)的錯誤類型推理模型對所述目標編碼特征進行錯誤類型推理處理,得到對應(yīng)的目標錯誤類型;
7、基于預(yù)設(shè)的錯誤糾正模型對所述目標編碼特征進行預(yù)測處理,得到所述目標編碼特征對應(yīng)于預(yù)設(shè)的各個候選替換漢字的第一替換概率值;
8、調(diào)用與所述目標錯誤類型對應(yīng)的目標預(yù)測模型對所述目標編碼特征進行預(yù)測處理,得到所述目標編碼特征對應(yīng)于各個所述候選替換漢字的第二替換概率值;
9、基于所述第一替換概率值與所述第二替換概率值,生成所述目標編碼特征對應(yīng)于各個所述候選替換漢字的修正替換概率值;
10、從所有所述候選替換漢字中篩選出修正替換概率值最高的目標替換漢字,并將所述目標替換漢字作為所述詞語的糾正詞。
11、進一步的,所述目標錯誤類型包括音似錯誤或形似錯誤,所述調(diào)用與所述目標錯誤類型對應(yīng)的目標預(yù)測模型對所述目標編碼特征進行預(yù)測處理,得到所述目標編碼特征對應(yīng)于各個所述候選替換漢字的第二替換概率值的步驟,具體包括:
12、若所述目標錯誤類型為音似錯誤,則調(diào)用預(yù)設(shè)的音似模型作為所述目標預(yù)測模型;
13、基于所述音似模型對所述目標編碼特征進行預(yù)測處理,得到所述目標編碼特征對應(yīng)于各個所述候選替換漢字的第一預(yù)測替換概率值;
14、將所述第一預(yù)測替換概率值作為所述第二替換概率值;
15、若所述目標錯誤類型為形似錯誤,則調(diào)用預(yù)設(shè)的形似模型作為所述目標預(yù)測模型;
16、基于所述形似模型對所述目標編碼特征進行預(yù)測處理,得到所述目標編碼特征對應(yīng)于各個所述候選替換漢字的第二預(yù)測替換概率值;
17、將所述第二預(yù)測替換概率值作為所述第二替換概率值。
18、進一步的,所述基于所述第一替換概率值與所述第二替換概率值,生成所述目標編碼特征對應(yīng)于各個所述候選替換漢字的修正替換概率值的步驟,具體包括:
19、獲取與指定候選替換漢字對應(yīng)的第一指定替換概率值與第二指定替換概率值;其中,所述指定候選替換漢字為所有所述候選替換漢字中的任意一個漢字;
20、獲取預(yù)設(shè)的相加策略;
21、基于所述相加策略,對所述第一指定替換概率值與第二指定替換概率值進行相加處理,得到對應(yīng)的指定替換概率和值;
22、將所述指定替換概率和值作為所述目標編碼特征對應(yīng)于所述指定候選替換漢字的修正替換概率值。
23、進一步的,所述對所述輸入文本進行分詞處理得到對應(yīng)的詞語的步驟,具體包括:
24、調(diào)用預(yù)設(shè)的分詞工具;
25、基于所述分詞工具對所述輸入文本進行分詞處理,得到對應(yīng)的分詞結(jié)果;
26、將所述分詞結(jié)果作為所述詞語。
27、進一步的,所述對所述詞語進行編碼特征提取處理,得到對應(yīng)的目標編碼特征的步驟,具體包括:
28、調(diào)用預(yù)訓(xùn)練語言模型;
29、基于所述預(yù)訓(xùn)練語言模型對所述詞語進行編碼處理,得到對應(yīng)的第一編碼特征;
30、對所述第一編碼特征進行正則化處理,得到對應(yīng)的第二編碼特征;
31、將所述第二編碼特征作為所述目標編碼特征。
32、進一步的,在所述基于預(yù)設(shè)的錯誤類型推理模型對所述目標編碼特征進行錯誤類型推理處理,得到對應(yīng)的目標錯誤類型的步驟之前,還包括:
33、獲取預(yù)先構(gòu)建的錯詞數(shù)據(jù)集;
34、對所述錯詞數(shù)據(jù)集進行特征編碼,得到對應(yīng)的編碼特征數(shù)據(jù);
35、對所述編碼特征數(shù)據(jù)進行預(yù)處理,得到對應(yīng)的錯詞樣本數(shù)據(jù);
36、調(diào)用預(yù)設(shè)的多層感知機分類器,并確定所述多層感知機分類器的網(wǎng)絡(luò)結(jié)構(gòu);
37、確定與所述多層感知機分類器對應(yīng)的目標激活函數(shù)與目標損失函數(shù);
38、基于所述目標激活函數(shù)與所述目標損失函數(shù),使用所述錯詞樣本數(shù)據(jù)對所述多層感知機分類器進行訓(xùn)練,得到符合預(yù)設(shè)構(gòu)建條件的指定模型;
39、將所述指定模型作為所述錯誤類型推理模型。
40、進一步的,在所述從所有所述候選替換漢字中篩選出修正替換概率值最高的目標替換漢字,并將所述目標替換漢字作為所述詞語的糾正詞的步驟之后,還包括:
41、基于所述糾正詞對所述輸入文本中的所述詞語進行相應(yīng)的替換處理,得到對應(yīng)的糾錯文本;
42、獲取與所述糾錯文本對應(yīng)的目標存儲方式;
43、基于所述目標存儲方式對所述糾錯文本進行存儲處理。
44、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種基于人工智能的中文糾錯裝置,采用了如下所述的技術(shù)方案:
45、分詞模塊,用于獲取待處理的輸入文本,并對所述輸入文本進行分詞處理得到對應(yīng)的詞語;
46、提取模塊,用于對所述詞語進行編碼特征提取處理,得到對應(yīng)的目標編碼特征;
47、檢測模塊,用于基于預(yù)設(shè)的錯誤檢測模型對所述目標編碼特征進行錯誤檢測處理,得到對應(yīng)的錯誤檢測結(jié)果;
48、推理模塊,用于若所述錯誤檢測結(jié)果為錯詞,則基于預(yù)設(shè)的錯誤類型推理模型對所述目標編碼特征進行錯誤類型推理處理,得到對應(yīng)的目標錯誤類型;
49、第一預(yù)測模塊,用于基于預(yù)設(shè)的錯誤糾正模型對所述目標編碼特征進行預(yù)測處理,得到所述目標編碼特征對應(yīng)于預(yù)設(shè)的各個候選替換漢字的第一替換概率值;
50、第二預(yù)測模塊,用于調(diào)用與所述目標錯誤類型對應(yīng)的目標預(yù)測模型對所述目標編碼特征進行預(yù)測處理,得到所述目標編碼特征對應(yīng)于各個所述候選替換漢字的第二替換概率值;
51、生成模塊,用于基于所述第一替換概率值與所述第二替換概率值,生成所述目標編碼特征對應(yīng)于各個所述候選替換漢字的修正替換概率值;
52、篩選模塊,用于從所有所述候選替換漢字中篩選出修正替換概率值最高的目標替換漢字,并將所述目標替換漢字作為所述詞語的糾正詞。
53、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種計算機設(shè)備,采用了如下所述的技術(shù)方案:
54、所述計算機設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)本技術(shù)實施例中提出的任一項所述的基于人工智能的中文糾錯方法的步驟。
55、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì),采用了如下所述的技術(shù)方案:
56、所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本技術(shù)實施例中提出的任一項所述的基于人工智能的中文糾錯方法的步驟。
57、與現(xiàn)有技術(shù)相比,本技術(shù)實施例主要有以下有益效果:
58、本技術(shù)在對獲取的輸入文本進行分詞并提取出與目標編碼特征后,通過使用錯誤檢測模型檢測輸入文本中的錯詞,并基于錯誤類型推理模型檢測該錯詞的目標錯誤類型,進而根據(jù)該目標錯誤類型利用相應(yīng)的目標預(yù)測模型建立對應(yīng)的第二替換概率值,并與基于錯誤糾正模型輸出的與該錯詞對應(yīng)的第一指定替換概率值進行對于目標錯誤類型的概率修正處理并得到相應(yīng)的修正替換概率值,使得后續(xù)根據(jù)該修正替換概率值進行詞語糾錯,可以有效地提高糾錯處理的處理效率,并且對文本中出現(xiàn)錯誤的詞的判斷更加準確,糾錯效果更好,有效地提高了糾錯效果。