基于全文檢索和大模型的法律監(jiān)督線索挖掘方法及系統(tǒng)與流程

文檔序號：40396424發(fā)布日期：2024-12-20 12:19閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)采集與數(shù)據(jù)檢索、圖像識別、知識庫和大模型應(yīng)用，特別是涉及一種基于全文檢索和大模型的法律監(jiān)督線索挖掘方法及系統(tǒng)。

背景技術(shù)：

1、近年來，隨著信息化技術(shù)特別是人工智能大語言模型的飛速發(fā)展，為法律監(jiān)督自動挖掘線索提供了可行的方向。2017年，google提出基于自注意力機制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——transformer架構(gòu)，奠定了大模型預(yù)訓(xùn)練算法架構(gòu)的基礎(chǔ)。2018年，openai和google分別發(fā)布了gpt-1與bert大模型，預(yù)訓(xùn)練大模型成為自然語言處理領(lǐng)域的主流。2022年底，openai推出其擁有強大的自然語言交互與生成能力的chatgpt轟動全球，2023年，openai多模態(tài)預(yù)訓(xùn)練大模型gpt-4發(fā)布，其具備多模態(tài)理解與多類型內(nèi)容生成能力。與此同時，國內(nèi)的ai大模型也涌現(xiàn)出如文心一言、通義千問、訊飛星火、華為盤古等，大模型產(chǎn)業(yè)呈現(xiàn)蓬勃發(fā)展的態(tài)勢，伴隨多家科技廠商推出的ai?大模型落地商用，各類通用、行業(yè)以及端側(cè)大模型已在多個領(lǐng)域取得了顯著的成果，如在金融、醫(yī)療、政務(wù)等領(lǐng)域，ai?大模型已成為提升服務(wù)質(zhì)量和效率的重要手段。大語言模型通過在海量無標注數(shù)據(jù)上進行大規(guī)模預(yù)訓(xùn)練，讓模型學習大量知識并進行指令微調(diào)，從而具備了面向多種任務(wù)的通用求解能力，ai技術(shù)的發(fā)展已經(jīng)由大語言模型相關(guān)技術(shù)引領(lǐng)。

2、但在實際法律監(jiān)督工作中，并未與信息化技術(shù)特別是人工智能大語言模型關(guān)聯(lián)起來，依然采用傳統(tǒng)的工作方法，只能使用人工一份份翻看業(yè)務(wù)文書，工作量大，效率低下還不準確，對文書數(shù)據(jù)的利用卻又較為困難。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種基于全文檢索和大模型的法律監(jiān)督線索挖掘方法及系統(tǒng)，從業(yè)人員不需要逐份翻閱各類案件的內(nèi)外部文書或卷宗材料，通過設(shè)定關(guān)鍵詞自動全文檢索收集基礎(chǔ)數(shù)據(jù)，再通過大模型的自動要素解析和對話推理分析，便可從海量的數(shù)據(jù)中挖掘出有價值的法律監(jiān)督線索。

2、本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的：基于全文檢索和大模型的法律監(jiān)督線索挖掘方法，包括以下步驟：

3、s1.梳理監(jiān)督規(guī)則和檢索關(guān)鍵詞：基于法律監(jiān)督專題進行任務(wù)拆解，梳理監(jiān)督規(guī)則和全文檢索的關(guān)鍵詞；

4、s101.將法律監(jiān)督問題進行專題分類，包括立案監(jiān)督、偵查活動監(jiān)督、裁判監(jiān)督和執(zhí)行監(jiān)督；

5、s102.針對不同類型的法律監(jiān)督問題，梳理是否區(qū)分案由，需要區(qū)分案由的法律監(jiān)督問題根據(jù)不同案由類型梳理監(jiān)督規(guī)則，不需要區(qū)分案由的法律監(jiān)督問題梳理通用的監(jiān)督規(guī)則；

6、s103.根據(jù)s102梳理的不同監(jiān)督規(guī)則分別梳理需要檢索的文書類型和關(guān)鍵詞。

7、s2.全文檢索：利用監(jiān)督專題梳理的關(guān)鍵詞和全文檢索系統(tǒng)進行數(shù)據(jù)檢索，從多種數(shù)據(jù)源收集指定時間段內(nèi)所有相關(guān)的圖文數(shù)據(jù)；

8、s201.獲取全文檢索系統(tǒng)的采集器的信息，配置數(shù)據(jù)源（文件路徑和數(shù)據(jù)庫地址）、圖像識別服務(wù)、分詞器，配置專業(yè)詞庫；

9、s202.根據(jù)不同監(jiān)督類型和案由配置檢索關(guān)鍵詞和時間范圍，開啟數(shù)據(jù)采集，過解析采集sql，從而組裝成flink任務(wù)，對結(jié)構(gòu)化數(shù)據(jù)進行采集；

10、s203.利用圖像識別服務(wù)結(jié)合關(guān)鍵詞對圖像數(shù)據(jù)進行檢索和采集；

11、s204.將采集的數(shù)據(jù)批量保存到elasticsearch中，再進行下一批次數(shù)據(jù)采集操作，直到采集的數(shù)據(jù)為空為止。

12、s3.信息蒸餾和信息過濾：利用大模型對收集的數(shù)據(jù)進行內(nèi)容摘要、要素解析和信息過濾；

13、s301.對s2采集的文本數(shù)據(jù)，利用大模型逐份進行解析和內(nèi)容摘要，建立標題-摘要-段落三層索引；

14、s302.對s2采集的文本數(shù)據(jù)，指定類型的文書利用大模型解析關(guān)鍵信息并結(jié)構(gòu)化，所述關(guān)鍵信息包括法律文書中的涉案人員信息、事實要素、案件情節(jié)，然后存入數(shù)據(jù)庫，解析涉案人員信息和涉案人員關(guān)系存入知識圖譜，為法律監(jiān)督線索挖掘需要進行的文書比對和人員關(guān)系挖掘提供數(shù)據(jù)源；

15、s303.對s2采集的圖像數(shù)據(jù)，利用ocr和圖像識別技術(shù)，識別圖像里的文字內(nèi)容，然后采用s302步驟利用大模型對文字內(nèi)容并進行摘要和結(jié)構(gòu)化，同時對圖像中的類似指紋、印章、簽名等關(guān)鍵證據(jù)要素進行識別和標記；

16、s304.對上述步驟s302、s303步驟解析和標記的數(shù)據(jù)建立篩選規(guī)則并進行信息過濾，篩選出需要分析的案件數(shù)據(jù)；

17、s4.構(gòu)建專題分析的知識庫：利用上一步大模型摘要和結(jié)構(gòu)化解析后的數(shù)據(jù)，構(gòu)建分層索引的向量知識庫、結(jié)構(gòu)化數(shù)據(jù)知識庫和圖數(shù)據(jù)知識庫；

18、s401.基于s3所有步驟獲取到的數(shù)據(jù)，構(gòu)建案件-文書-人物-要素的多層次關(guān)聯(lián)關(guān)系表；

19、s402.針對s301步驟處理完成的文本和摘要數(shù)據(jù)，利用ebemding詞嵌入模型分別構(gòu)建標題-摘要-段落三層索引的向量數(shù)據(jù)庫；

20、s403.針對s303、s304步驟處理得到的結(jié)構(gòu)化數(shù)據(jù)和圖譜數(shù)據(jù)，存入相應(yīng)的數(shù)據(jù)庫，并構(gòu)建查詢sql和圖數(shù)據(jù)庫查詢語言模板。

21、s5.知識庫檢索與排序：基于向量知識庫、結(jié)構(gòu)化數(shù)據(jù)知識庫和圖數(shù)據(jù)知識庫，采用向量相似度檢索、結(jié)構(gòu)化查詢和知識圖譜搜索相結(jié)合的方法進行聯(lián)合檢索，并利用相似度值閾值取出前n條數(shù)據(jù)，再利用重排模型對對檢索到的數(shù)據(jù)進行排序篩選；

22、s501.根據(jù)步驟s102梳理的需要結(jié)合文書分析的法律監(jiān)督規(guī)則，梳理出向量庫檢索的語句，所述檢索語句即需要查找目標數(shù)據(jù)的自然語言；例如：“找出所有具有某某情節(jié)的裁判文書”；

23、s502.將s501步驟構(gòu)建的向量庫檢索語句利用embedding詞嵌入模型向量化，為提高檢索的召回率還可將檢索問題利用大模型生成預(yù)設(shè)答案再向量化，然后利用知庫的向量相似度檢索器進行檢索，知識庫檢索器將根據(jù)上述s402步驟建立的三層索引進行“文書-段落-關(guān)鍵詞”逐層根據(jù)向量相似度檢索，設(shè)置返回最大個數(shù)或相似度閾值，找到符合條件的目標數(shù)據(jù)；

24、s503.利用重排模型bge-reranker-large對上一步s502檢索到的數(shù)據(jù)進行排序，取與目標問題最相關(guān)的前n條數(shù)據(jù)；

25、s504.根據(jù)s102梳理的需要結(jié)合結(jié)構(gòu)化數(shù)據(jù)分析的法律監(jiān)督規(guī)則，構(gòu)建關(guān)系數(shù)據(jù)庫和圖數(shù)據(jù)庫查詢規(guī)則，例如審判監(jiān)督的分析專題，需要檢索起訴和審判階段認定事實、情節(jié)、適用法律不一致的案件，將利用查詢模板語句從s403步驟構(gòu)建的數(shù)據(jù)庫中檢索出所有滿足條件的案件數(shù)據(jù)；

26、s505.將s503、s504檢索到的符合條件的數(shù)據(jù)利用s401的關(guān)聯(lián)表進行整合存儲。

27、s6.大模型智能分析與線索挖掘：構(gòu)建大模型交互對話的分析決策樹，對上一步檢索到的數(shù)據(jù)利用大模型逐個進行分析并得出結(jié)論，并對發(fā)現(xiàn)監(jiān)督線索的數(shù)據(jù)進行標記和輸出。

28、s601.針對上述s5梳理得到數(shù)據(jù)還需要進一步分析和過濾的法律監(jiān)督類型，根據(jù)不同的情形梳理不同的大模型的對話分析決策樹：

29、s602.通過上述s601構(gòu)建的大模型多輪對話分析推理決策流程，對每個分析節(jié)點大模型的回答可能出現(xiàn)的結(jié)果進行測驗和歸納，并做好下一步?jīng)Q策分析的預(yù)設(shè)對話輸入和異常處理機制；

30、s603.調(diào)用大模型對話接口，利用上述s601、s602步驟梳理的對話機制與大模型進行對話，并對大模型得出最終的結(jié)論列為法律監(jiān)督線索的案件進行記錄和預(yù)警。

31、基于全文檢索和大模型的法律監(jiān)督線索挖掘系統(tǒng)，包括數(shù)據(jù)檢索模塊、數(shù)據(jù)解析模塊、數(shù)據(jù)存儲模塊、規(guī)則配置模塊、大模型分析推理模塊和后臺管理模塊；

32、所述數(shù)據(jù)檢索模塊，即全文檢索模塊，包含數(shù)據(jù)采集、數(shù)據(jù)檢索、圖像識別、es監(jiān)控與運維，從多種數(shù)據(jù)源檢索并收集與法律監(jiān)督專題相關(guān)的數(shù)據(jù)；

33、所述數(shù)據(jù)解析模塊，利用大模型對全文檢索到的數(shù)據(jù)進行內(nèi)容摘要和要素解析，構(gòu)建向量庫、結(jié)構(gòu)化數(shù)據(jù)和圖數(shù)據(jù)庫；

34、所述數(shù)據(jù)存儲模塊，用于存儲法律監(jiān)督線索挖掘系統(tǒng)中數(shù)據(jù)檢索、數(shù)據(jù)解析、規(guī)則配置和大模型分析過程中的各種類型數(shù)據(jù)；

35、所述規(guī)則配置模塊，用于配置全文檢索的關(guān)鍵詞、大模型解析的要素項，以及大模型智能分析的對話流程和輸出結(jié)論的規(guī)則；

36、所述大模型分析推理模塊，利用大模型的分析推理能力進行文書內(nèi)容摘要、要素解析，基于配置的對話分析流程挖掘法律監(jiān)督線索；

37、所述后臺管理模塊，包括配置管理、數(shù)據(jù)源管理、詞庫管理、大模型管理。配置管理單元負責系統(tǒng)的各項設(shè)置與參數(shù)調(diào)整；數(shù)據(jù)源管理單元確保數(shù)據(jù)的有效接入與整合；詞庫管理單元維護專業(yè)術(shù)語和關(guān)鍵詞的更新；大模型管理單元則支持多種大模型的部署與優(yōu)化，共同保障平臺的高效運行與靈活性。

38、本發(fā)明的有益效果是：?（1）本發(fā)明支持多數(shù)據(jù)源采集，以及實時數(shù)據(jù)采集功能，還支持“以文搜圖”功能；

39、（2）本發(fā)明可以基于sql語句進行檢索，還提供了比較豐富的多組合關(guān)鍵字檢索以及多聚合檢索功能；

40、（3）本發(fā)明基于自然語言大模型的技術(shù)實現(xiàn)無標注訓(xùn)練自動解析文書，包括各類案件的基本信息、認定事實、案件要素等等；

41、（4）本發(fā)明實現(xiàn)了以大模型對話推理的方式，自動對相關(guān)法律監(jiān)督內(nèi)容的構(gòu)成要素進行分析判斷，極大地減輕了業(yè)務(wù)人員翻閱文書的工作量。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：方衛(wèi)洪,張兵,黃尚強,鄭佳勇,陳曦,席力凡,陳泉吉
技術(shù)所有人：同方賽威訊信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種具有導(dǎo)向限位結(jié)構(gòu)的壓鑄機的制作方法
上一篇：一種可移動雞養(yǎng)殖棚的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于全文檢索和大模型的法律監(jiān)督線索挖掘方法及系統(tǒng)與流程