本發(fā)明涉及計(jì)算機(jī),尤其是涉及利用大模型的信息抽取方法和系統(tǒng)。
背景技術(shù):
1、在公共網(wǎng)頁中,包含著大量公開信息,例如商品價(jià)格、地址和電話號(hào)碼等,這些信息對(duì)于信息檢索和推薦等領(lǐng)域非常有價(jià)值。
2、目前,主要采用兩種傳統(tǒng)方法進(jìn)行信息抽取,具體為:1)通過人工編寫規(guī)則和模板進(jìn)行信息抽取,這種方法需要耗費(fèi)大量的人力和物力,且很難針對(duì)不同的網(wǎng)站和頁面進(jìn)行適應(yīng)性調(diào)整。2)基于機(jī)器學(xué)習(xí)的方法進(jìn)行信息提取,這種方法需要提供大量的標(biāo)注數(shù)據(jù)以及人力來進(jìn)行模型訓(xùn)練。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供利用大模型的信息抽取方法和系統(tǒng),可以利用大模型生成抽取屬性的多個(gè)方案,并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn),再利用大模型從網(wǎng)頁中抽取屬性的真值作為參考,過濾掉不正確的方案,可以提高抽取信息的效率、準(zhǔn)確性和魯棒性,節(jié)省人力資源和時(shí)間成本。
2、第一方面,本發(fā)明實(shí)施例提供了利用大模型的信息抽取方法,所述方法包括:
3、利用所述大模型抽取屬性的多個(gè)方案;
4、所述大模型通過自然語言算法將每個(gè)所述方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;
5、利用所述大模型對(duì)網(wǎng)頁進(jìn)行解析,抽取所述屬性的真值;
6、將每個(gè)所述方案對(duì)應(yīng)的代碼應(yīng)用到所述網(wǎng)頁上,得到待驗(yàn)證的值;
7、將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案。
8、進(jìn)一步的,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。
9、進(jìn)一步的,利用所述大模型抽取屬性的多個(gè)方案,包括:
10、利用所述大模型學(xué)習(xí)不同的網(wǎng)站和頁面的特征,對(duì)所述屬性進(jìn)行抽取,生成所述屬性的多個(gè)方案。
11、進(jìn)一步的,所述方法還包括:
12、采用投票方案從所述待驗(yàn)證的值中選取相同個(gè)數(shù)最多的值;
13、將所述相同個(gè)數(shù)最多的值作為所述真值。
14、進(jìn)一步的,將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案,包括:
15、將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過濾掉不正確的正則表達(dá)式、不正確的css選擇器或不正確的xpath表達(dá)式。
16、第二方面,本發(fā)明實(shí)施例提供了利用大模型的信息抽取系統(tǒng),所述系統(tǒng)包括:
17、抽取模塊,用于利用所述大模型抽取屬性的多個(gè)方案;
18、轉(zhuǎn)化模塊,用于所述大模型通過自然語言算法將每個(gè)所述方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;
19、解析模塊,用于利用所述大模型對(duì)網(wǎng)頁進(jìn)行解析,抽取所述屬性的真值;
20、應(yīng)用模塊,用于將每個(gè)所述方案對(duì)應(yīng)的代碼應(yīng)用到所述網(wǎng)頁上,得到待驗(yàn)證的值;
21、對(duì)比模塊,用于將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案。
22、進(jìn)一步的,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。
23、進(jìn)一步的,所述抽取模塊具體用于:
24、利用所述大模型學(xué)習(xí)不同的網(wǎng)站和頁面的特征,對(duì)所述屬性進(jìn)行抽取,生成所述屬性的多個(gè)方案。
25、第三方面,本發(fā)明實(shí)施例提供了電子設(shè)備,包括存儲(chǔ)器、處理器,所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的方法。
26、第四方面,本發(fā)明實(shí)施例提供了具有處理器可執(zhí)行的非易失的程序代碼的計(jì)算機(jī)可讀介質(zhì),所述程序代碼使所述處理器執(zhí)行如上所述的方法。
27、本發(fā)明實(shí)施例提供了利用大模型的信息抽取方法和系統(tǒng),包括:利用大模型抽取屬性的多個(gè)方案;大模型通過自然語言算法將每個(gè)方案轉(zhuǎn)化為對(duì)應(yīng)的代碼;利用大模型對(duì)網(wǎng)頁進(jìn)行解析,抽取屬性的真值;將每個(gè)方案對(duì)應(yīng)的代碼應(yīng)用到網(wǎng)頁上,得到待驗(yàn)證的值;將待驗(yàn)證的值和屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案;可以利用大模型生成抽取屬性的多個(gè)方案,并針對(duì)每個(gè)方案生成相應(yīng)的代碼實(shí)現(xiàn),再利用大模型從網(wǎng)頁中抽取屬性的真值作為參考,過濾掉不正確的方案,可以提高抽取信息的效率、準(zhǔn)確性和魯棒性,節(jié)省人力資源和時(shí)間成本。
28、本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
29、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
1.一種利用大模型的信息抽取方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法,其特征在于,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。
3.根據(jù)權(quán)利要求2所述的利用大模型的信息抽取方法,其特征在于,利用所述大模型抽取屬性的多個(gè)方案,包括:
4.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的利用大模型的信息抽取方法,其特征在于,將所述待驗(yàn)證的值和所述屬性的真值進(jìn)行對(duì)比,過濾掉不正確的方案,包括:
6.一種利用大模型的信息抽取系統(tǒng),其特征在于,所述系統(tǒng)包括:
7.根據(jù)權(quán)利要求6所述的利用大模型的信息抽取系統(tǒng),其特征在于,所述大模型為nlp模型,所述nlp模型為使用深度學(xué)習(xí)算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型;所述屬性的多個(gè)方案包括正則表達(dá)式、css選擇器和xpath表達(dá)式。
8.根據(jù)權(quán)利要求7所述的利用大模型的信息抽取系統(tǒng),其特征在于,所述抽取模塊具體用于:
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器,所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述權(quán)利要求1至5任一項(xiàng)所述的方法。
10.一種具有處理器可執(zhí)行的非易失的程序代碼的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述程序代碼使所述處理器執(zhí)行所述權(quán)利要求1至5任一項(xiàng)所述的方法。