国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建方法及系統(tǒng)與流程

      文檔序號(hào):39622346發(fā)布日期:2024-10-11 13:43閱讀:32來源:國知局
      一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建方法及系統(tǒng)與流程

      本發(fā)明屬于知識(shí)庫構(gòu)建,更具體地,涉及一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建方法及系統(tǒng)。


      背景技術(shù):

      1、通用大語言模型具有強(qiáng)大的推理邏輯,對簡單問題能夠?qū)崿F(xiàn)快速準(zhǔn)確推理。但是在軌道交通行業(yè),工程量大,專業(yè)多,專業(yè)復(fù)雜,工程特點(diǎn)明顯,大模型無法實(shí)時(shí)獲取最新的工程數(shù)據(jù)建設(shè)方案,導(dǎo)致大模型對軌道交通領(lǐng)域的復(fù)雜問題推理能力弱,準(zhǔn)確率低。雖然可以通過微調(diào)技術(shù),結(jié)合數(shù)據(jù)集實(shí)現(xiàn)推理能力提高,但是過程需要豐富的經(jīng)驗(yàn)和龐大的算力,成本高,時(shí)間周期長,不具備推廣條件。傳統(tǒng)的知識(shí)庫問答系統(tǒng),經(jīng)歷了數(shù)據(jù)庫查詢、文件搜索、知識(shí)圖譜等技術(shù),雖然準(zhǔn)確性和易用性有所提高,但是對用戶的語義理解和檢索結(jié)果缺少智能化處理,查詢的精度和效率低。

      2、通用的大語言模型雖然在處理簡單問題時(shí)表現(xiàn)出色,具備快速準(zhǔn)確的推理能力,但在面對軌道交通行業(yè)這一專業(yè)性強(qiáng)、工程量大、數(shù)據(jù)更新迅速的領(lǐng)域時(shí),其推理能力受限。軌道交通項(xiàng)目涉及眾多專業(yè)領(lǐng)域,每個(gè)領(lǐng)域都有其復(fù)雜性,且工程數(shù)據(jù)和建設(shè)方案持續(xù)更新,這對大模型的實(shí)時(shí)數(shù)據(jù)獲取能力提出了挑戰(zhàn)。盡管通過微調(diào)技術(shù)和結(jié)合特定數(shù)據(jù)集可以提升模型的推理能力,但這一過程不僅需要專業(yè)知識(shí)和豐富經(jīng)驗(yàn),還需要巨大的計(jì)算資源,導(dǎo)致成本高昂且周期長,難以廣泛應(yīng)用。

      3、傳統(tǒng)的知識(shí)庫問答系統(tǒng),盡管在數(shù)據(jù)庫查詢、文件搜索、知識(shí)圖譜等方面取得了一定的進(jìn)展,提高了系統(tǒng)的準(zhǔn)確性和易用性,但在語義理解與檢索結(jié)果的智能化處理方面仍有不足,導(dǎo)致查詢精度和效率不盡人意,llm+本地知識(shí)庫方案在多知識(shí)點(diǎn)聚合處理場景下,embedding-search召回精度較低的問題。


      技術(shù)實(shí)現(xiàn)思路

      1、為解決以上技術(shù)問題,本發(fā)明提出一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建方法,包括:

      2、獲取軌道交通領(lǐng)域的文本數(shù)據(jù),通過文本提取工具將不同格式的所述文本數(shù)據(jù)轉(zhuǎn)換為純文本文件,去除所述純文本文件中的無關(guān)格式標(biāo)記、頁眉頁腳、圖表和/或圖像,并對所述純文本文件進(jìn)行分詞和詞性標(biāo)注,生成多個(gè)文本塊;

      3、對所述文本塊進(jìn)行分詞、詞頻統(tǒng)計(jì)和位置權(quán)重分析,并提取關(guān)鍵詞,設(shè)置過濾閾值排除位置權(quán)重低于過濾閾值的關(guān)鍵詞,并按位置權(quán)重對剩余關(guān)鍵詞進(jìn)行排序,生成關(guān)鍵詞列表,將關(guān)鍵詞列表向量化,并構(gòu)建倒排索引,關(guān)聯(lián)關(guān)鍵詞向量與文本塊id,并生成知識(shí)庫;

      4、對用戶query進(jìn)行預(yù)處理,去除標(biāo)點(diǎn)、統(tǒng)一小寫、去除停用詞,并提取用戶query的關(guān)鍵詞,將用戶query的關(guān)鍵詞轉(zhuǎn)換為向量表示,計(jì)算用戶query的關(guān)鍵詞的向量與知識(shí)庫中關(guān)鍵詞向量之間的相似度,定位最相關(guān)的文本塊id,將最相關(guān)的文本塊id對應(yīng)的文本塊列表提供給用戶。

      5、進(jìn)一步的,通過文本提取工具將不同格式的所述文本數(shù)據(jù)轉(zhuǎn)換為純文本文件,其中,所述純文本文件為utf-8編碼的純文本文件。

      6、進(jìn)一步的,在進(jìn)行分詞和詞性標(biāo)注之前還包括:將所述純文本文件中所有文本轉(zhuǎn)換為小寫。

      7、進(jìn)一步的,對所述純文本文件進(jìn)行分詞和詞性標(biāo)注之后還包括:通過基于文本指紋的哈希算法檢測并去除標(biāo)注后的所述文本文件的重復(fù)數(shù)據(jù),確保知識(shí)庫中數(shù)據(jù)的唯一性。

      8、進(jìn)一步的,提取用戶query的關(guān)鍵詞之后還包括:通過深度神經(jīng)網(wǎng)絡(luò)識(shí)別用戶query的意圖,確定用戶想要檢索的知識(shí)庫類型。

      9、本發(fā)明還提出一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建系統(tǒng),包括:

      10、生成文本塊模塊,用于獲取軌道交通領(lǐng)域的文本數(shù)據(jù),通過文本提取工具將不同格式的所述文本數(shù)據(jù)轉(zhuǎn)換為純文本文件,去除所述純文本文件中的無關(guān)格式標(biāo)記、頁眉頁腳、圖表和/或圖像,并對所述純文本文件進(jìn)行分詞和詞性標(biāo)注,生成多個(gè)文本塊;

      11、生成知識(shí)庫模塊,用于對所述文本塊進(jìn)行分詞、詞頻統(tǒng)計(jì)和位置權(quán)重分析,并提取關(guān)鍵詞,設(shè)置過濾閾值排除位置權(quán)重低于過濾閾值的關(guān)鍵詞,并按位置權(quán)重對剩余關(guān)鍵詞進(jìn)行排序,生成關(guān)鍵詞列表,將關(guān)鍵詞列表向量化,并構(gòu)建倒排索引,關(guān)聯(lián)關(guān)鍵詞向量與文本塊id,并生成知識(shí)庫;

      12、提供知識(shí)模塊,用于對用戶query進(jìn)行預(yù)處理,去除標(biāo)點(diǎn)、統(tǒng)一小寫、去除停用詞,并提取用戶query的關(guān)鍵詞,將用戶query的關(guān)鍵詞轉(zhuǎn)換為向量表示,計(jì)算用戶query的關(guān)鍵詞的向量與知識(shí)庫中關(guān)鍵詞向量之間的相似度,定位最相關(guān)的文本塊id,將最相關(guān)的文本塊id對應(yīng)的文本塊列表提供給用戶。

      13、進(jìn)一步的,通過文本提取工具將不同格式的所述文本數(shù)據(jù)轉(zhuǎn)換為純文本文件,其中,所述純文本文件為utf-8編碼的純文本文件。

      14、進(jìn)一步的,在進(jìn)行分詞和詞性標(biāo)注之前還包括:將所述純文本文件中所有文本轉(zhuǎn)換為小寫。

      15、進(jìn)一步的,對所述純文本文件進(jìn)行分詞和詞性標(biāo)注之后還包括:通過基于文本指紋的哈希算法檢測并去除標(biāo)注后的所述文本文件的重復(fù)數(shù)據(jù),確保知識(shí)庫中數(shù)據(jù)的唯一性。

      16、進(jìn)一步的,提取用戶query的關(guān)鍵詞之后還包括:通過深度神經(jīng)網(wǎng)絡(luò)識(shí)別用戶query的意圖,確定用戶想要檢索的知識(shí)庫類型。

      17、通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下有益效果:

      18、本發(fā)明利用自然語言處理(nlp)技術(shù)、向量數(shù)據(jù)庫和大語言模型等先進(jìn)技術(shù),創(chuàng)建了一個(gè)智能化的問答平臺(tái),旨在提高問答的效率和準(zhǔn)確性,從而有效輔助現(xiàn)場決策。系統(tǒng)通過以下關(guān)鍵技術(shù)實(shí)現(xiàn)優(yōu)化:數(shù)據(jù)預(yù)處理、知識(shí)庫管理、關(guān)鍵詞提取、向量知識(shí)庫構(gòu)建、問題檢索、大模型加工處理、性能監(jiān)控與優(yōu)化。通過這些技術(shù)的融合與應(yīng)用,本發(fā)明的軌道交通知識(shí)庫問答系統(tǒng)能夠提供更加智能化、高效率的知識(shí)檢索服務(wù),滿足軌道交通行業(yè)對專業(yè)、準(zhǔn)確工程信息的需求,有效支持工程從業(yè)人員在現(xiàn)場的質(zhì)量安全管理工作。



      技術(shù)特征:

      1.一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建方法,其特征在于,包括:

      2.如權(quán)利要求1所述的一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建方法,其特征在于,通過文本提取工具將不同格式的所述文本數(shù)據(jù)轉(zhuǎn)換為純文本文件,其中,所述純文本文件為utf-8編碼的純文本文件。

      3.如權(quán)利要求1所述的一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建方法,其特征在于,在進(jìn)行分詞和詞性標(biāo)注之前還包括:將所述純文本文件中所有文本轉(zhuǎn)換為小寫。

      4.如權(quán)利要求1所述的一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建方法,其特征在于,對所述純文本文件進(jìn)行分詞和詞性標(biāo)注之后還包括:通過基于文本指紋的哈希算法檢測并去除標(biāo)注后的所述文本文件的重復(fù)數(shù)據(jù),確保知識(shí)庫中數(shù)據(jù)的唯一性。

      5.如權(quán)利要求1所述的一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建方法,其特征在于,提取用戶query的關(guān)鍵詞之后還包括:通過深度神經(jīng)網(wǎng)絡(luò)識(shí)別用戶query的意圖,確定用戶想要檢索的知識(shí)庫類型。

      6.一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建系統(tǒng),其特征在于,包括:

      7.如權(quán)利要求6所述的一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建系統(tǒng),其特征在于,通過文本提取工具將不同格式的所述文本數(shù)據(jù)轉(zhuǎn)換為純文本文件,其中,所述純文本文件為utf-8編碼的純文本文件。

      8.如權(quán)利要求6所述的一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建系統(tǒng),其特征在于,在進(jìn)行分詞和詞性標(biāo)注之前還包括:將所述純文本文件中所有文本轉(zhuǎn)換為小寫。

      9.如權(quán)利要求6所述的一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建系統(tǒng),其特征在于,對所述純文本文件進(jìn)行分詞和詞性標(biāo)注之后還包括:通過基于文本指紋的哈希算法檢測并去除標(biāo)注后的所述文本文件的重復(fù)數(shù)據(jù),確保知識(shí)庫中數(shù)據(jù)的唯一性。

      10.如權(quán)利要求6所述的一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建系統(tǒng),其特征在于,提取用戶query的關(guān)鍵詞之后還包括:通過深度神經(jīng)網(wǎng)絡(luò)識(shí)別用戶query的意圖,確定用戶想要檢索的知識(shí)庫類型。


      技術(shù)總結(jié)
      本發(fā)明公開一種基于大語言模型的軌道交通知識(shí)庫構(gòu)建方法及系統(tǒng),該方法包括:獲取軌道交通領(lǐng)域的文本數(shù)據(jù),通過文本提取工具將不同格式的所述文本數(shù)據(jù)轉(zhuǎn)換為純文本文件,去除所述純文本文件中的無關(guān)格式標(biāo)記、頁眉頁腳、圖表和/或圖像,并對所述純文本文件進(jìn)行分詞和詞性標(biāo)注,生成多個(gè)文本塊;提取關(guān)鍵詞,設(shè)置過濾閾值排除位置權(quán)重低于過濾閾值的關(guān)鍵詞,并按位置權(quán)重對剩余關(guān)鍵詞進(jìn)行排序,生成關(guān)鍵詞列表,將關(guān)鍵詞列表向量化,并構(gòu)建倒排索引,關(guān)聯(lián)關(guān)鍵詞向量與文本塊ID,并生成知識(shí)庫;提取用戶Query的關(guān)鍵詞,將用戶Query的關(guān)鍵詞轉(zhuǎn)換為向量表示,計(jì)算用戶Query的關(guān)鍵詞的向量與知識(shí)庫中關(guān)鍵詞向量之間的相似度,定位最相關(guān)的文本塊ID。

      技術(shù)研發(fā)人員:王臣,張鑫,段憲鋒,周明科,張波,王浩任,李佳蓉,馬骉,高晗
      受保護(hù)的技術(shù)使用者:北京城建設(shè)計(jì)發(fā)展集團(tuán)股份有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/10/10
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1