国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      利用大模型的信息抽取方法和系統(tǒng)與流程

      文檔序號(hào):40388700發(fā)布日期:2024-12-20 12:11閱讀:3來源:國知局
      利用大模型的信息抽取方法和系統(tǒng)與流程

      本發(fā)明涉及計(jì)算機(jī),尤其是涉及利用大模型的信息抽取方法和系統(tǒng)。


      背景技術(shù):

      1、在公共網(wǎng)頁中,包含著大量公開信息,例如商品價(jià)格、地址和電話號(hào)碼等,這些信息對(duì)于信息檢索和推薦等領(lǐng)域非常有價(jià)值。

      2、目前,主要采用兩種傳統(tǒng)方法進(jìn)行信息抽取,具體為:1)通過人工編寫規(guī)則和模板進(jìn)行信息抽取,這種方法需要耗費(fèi)大量的人力和物力,且很難針對(duì)不同的網(wǎng)站和頁面進(jìn)行適應(yīng)性調(diào)整。2)基于機(jī)器學(xué)習(xí)的方法進(jìn)行信息提取,這種方法需要提供大量的標(biāo)注數(shù)據(jù)以及人力來進(jìn)行模型訓(xùn)練。


      技術(shù)實(shí)現(xiàn)思路

      1、有鑒于此,本發(fā)明的目的在于提供利用大模型的信息抽取方法和系統(tǒng),可以利用大模型生成抽取屬性的多個(gè)方案,并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn),再利用大模型從網(wǎng)頁中抽取屬性的真值作為參考,過濾掉不正確的方案,可以提高抽取信息的效率、準(zhǔn)確性和魯棒性,節(jié)省人力資源和時(shí)間成本。

      2、第一方面,本發(fā)明實(shí)施例提供了利用大模型的信息抽取方法,所述方法包括:

      3、利用所述大模型抽取屬性的多個(gè)方案;

      4、所述大模型通過自然語言算法將每個(gè)所述方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;

      5、利用所述大模型對(duì)網(wǎng)頁進(jìn)行解析,抽取所述屬性的真值;

      6、將每個(gè)所述方案對(duì)應(yīng)的代碼應(yīng)用到所述網(wǎng)頁上,得到待驗(yàn)證的值;

      7、將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案。

      8、進(jìn)一步的,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

      9、進(jìn)一步的,利用所述大模型抽取屬性的多個(gè)方案,包括:

      10、利用所述大模型學(xué)習(xí)不同的網(wǎng)站和頁面的特征,對(duì)所述屬性進(jìn)行抽取,生成所述屬性的多個(gè)方案。

      11、進(jìn)一步的,所述方法還包括:

      12、采用投票方案從所述待驗(yàn)證的值中選取相同個(gè)數(shù)最多的值;

      13、將所述相同個(gè)數(shù)最多的值作為所述真值。

      14、進(jìn)一步的,將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案,包括:

      15、將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過濾掉不正確的正則表達(dá)式、不正確的css選擇器或不正確的xpath表達(dá)式。

      16、第二方面,本發(fā)明實(shí)施例提供了利用大模型的信息抽取系統(tǒng),所述系統(tǒng)包括:

      17、抽取模塊,用于利用所述大模型抽取屬性的多個(gè)方案;

      18、轉(zhuǎn)化模塊,用于所述大模型通過自然語言算法將每個(gè)所述方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;

      19、解析模塊,用于利用所述大模型對(duì)網(wǎng)頁進(jìn)行解析,抽取所述屬性的真值;

      20、應(yīng)用模塊,用于將每個(gè)所述方案對(duì)應(yīng)的代碼應(yīng)用到所述網(wǎng)頁上,得到待驗(yàn)證的值;

      21、對(duì)比模塊,用于將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案。

      22、進(jìn)一步的,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

      23、進(jìn)一步的,所述抽取模塊具體用于:

      24、利用所述大模型學(xué)習(xí)不同的網(wǎng)站和頁面的特征,對(duì)所述屬性進(jìn)行抽取,生成所述屬性的多個(gè)方案。

      25、第三方面,本發(fā)明實(shí)施例提供了電子設(shè)備,包括存儲(chǔ)器、處理器,所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的方法。

      26、第四方面,本發(fā)明實(shí)施例提供了具有處理器可執(zhí)行的非易失的程序代碼的計(jì)算機(jī)可讀介質(zhì),所述程序代碼使所述處理器執(zhí)行如上所述的方法。

      27、本發(fā)明實(shí)施例提供了利用大模型的信息抽取方法和系統(tǒng),包括:利用大模型抽取屬性的多個(gè)方案;大模型通過自然語言算法將每個(gè)方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;利用大模型對(duì)網(wǎng)頁進(jìn)行解析,抽取屬性的真值;將每個(gè)方案對(duì)應(yīng)的代碼應(yīng)用到網(wǎng)頁上,得到待驗(yàn)證的值;將待驗(yàn)證的值和屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案;可以利用大模型生成抽取屬性的多個(gè)方案,并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn),再利用大模型從網(wǎng)頁中抽取屬性的真值作為參考,過濾掉不正確的方案,可以提高抽取信息的效率、準(zhǔn)確性和魯棒性,節(jié)省人力資源和時(shí)間成本。

      28、本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。

      29、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。



      技術(shù)特征:

      1.一種利用大模型的信息抽取方法,其特征在于,所述方法包括:

      2.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法,其特征在于,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

      3.根據(jù)權(quán)利要求2所述的利用大模型的信息抽取方法,其特征在于,利用所述大模型抽取屬性的多個(gè)方案,包括:

      4.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法,其特征在于,所述方法還包括:

      5.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法,其特征在于,將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案,包括:

      6.一種利用大模型的信息抽取系統(tǒng),其特征在于,所述系統(tǒng)包括:

      7.根據(jù)權(quán)利要求6所述的利用大模型的信息抽取系統(tǒng),其特征在于,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。

      8.根據(jù)權(quán)利要求7所述的利用大模型的信息抽取系統(tǒng),其特征在于,所述抽取模塊具體用于:

      9.一種電子設(shè)備,包括存儲(chǔ)器、處理器,所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述權(quán)利要求1至5任一項(xiàng)所述的方法。

      10.一種具有處理器可執(zhí)行的非易失的程序代碼的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述程序代碼使所述處理器執(zhí)行所述權(quán)利要求1至5任一項(xiàng)所述的方法。


      技術(shù)總結(jié)
      本發(fā)明提供了利用大模型的信息抽取方法和系統(tǒng),包括:利用大模型抽取屬性的多個(gè)方案;大模型通過自然語言算法將每個(gè)方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;利用大模型對(duì)網(wǎng)頁進(jìn)行解析,抽取屬性的真值;將每個(gè)方案對(duì)應(yīng)的代碼應(yīng)用到網(wǎng)頁上,得到待驗(yàn)證的值;將待驗(yàn)證的值和屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案;可以利用大模型生成抽取屬性的多個(gè)方案,并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn),再利用大模型從網(wǎng)頁中抽取屬性的真值作為參考,過濾掉不正確的方案,可以提高抽取信息的效率、準(zhǔn)確性和魯棒性,節(jié)省人力資源和時(shí)間成本。

      技術(shù)研發(fā)人員:徐國榮,楊沅霖
      受保護(hù)的技術(shù)使用者:上海微問家信息技術(shù)有限公司
      技術(shù)研發(fā)日:
      技術(shù)公布日:2024/12/19
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1