国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于大模型對抗惡意蜘蛛池的方法

      文檔序號:40369496發(fā)布日期:2024-12-20 11:51閱讀:11來源:國知局
      一種基于大模型對抗惡意蜘蛛池的方法

      本發(fā)明涉及網(wǎng)絡(luò)安全,特別涉及一種基于大模型對抗惡意蜘蛛池的方法。


      背景技術(shù):

      1、黑帽seo(blackhat?search?engine?optimization)是一種用于低價(jià)引流的新型業(yè)務(wù),經(jīng)營者構(gòu)建大量動(dòng)態(tài)的、包含長尾關(guān)鍵詞的簡易網(wǎng)頁,并具有若干跳轉(zhuǎn)至其他包含長尾關(guān)鍵詞簡易網(wǎng)站的鏈接,通過網(wǎng)頁跳轉(zhuǎn)形成閉環(huán),構(gòu)建復(fù)雜的循環(huán)結(jié)構(gòu),使搜索爬蟲困在循環(huán)中,這種閉環(huán)網(wǎng)絡(luò)稱為蜘蛛池。

      2、相關(guān)技術(shù)中,互聯(lián)網(wǎng)中廣泛存在使用黑帽seo來惡意提升排名的網(wǎng)站,對網(wǎng)絡(luò)環(huán)境的維護(hù)帶來負(fù)面影響,其中,目前可以通過詞性分析算法來提取長尾關(guān)鍵詞中的用戶實(shí)際搜索的目標(biāo)關(guān)鍵詞,幫助爬蟲識別相似頁面。

      3、然而,相關(guān)技術(shù)中,因長尾關(guān)鍵詞的定語通常包括多種詞性,具有復(fù)雜的詞匯結(jié)構(gòu),導(dǎo)致詞性分析算法處理長尾關(guān)鍵詞時(shí)誤差率較高,對目標(biāo)關(guān)鍵詞的詞性識別可能定位至定語中的名詞,從而產(chǎn)生識別錯(cuò)誤和識別偏差的情況,影響了目標(biāo)關(guān)鍵詞的識別準(zhǔn)確率,使爬蟲無法準(zhǔn)確識別相似頁面并逃出對應(yīng)的蜘蛛池,造成了網(wǎng)絡(luò)搜索資源的浪費(fèi),影響了用戶的搜索體驗(yàn),亟待解決。


      技術(shù)實(shí)現(xiàn)思路

      1、本發(fā)明提供一種基于大模型對抗惡意蜘蛛池的方法,以解決相關(guān)技術(shù)中,因長尾關(guān)鍵詞的定語通常包括多種詞性,具有復(fù)雜的詞匯結(jié)構(gòu),導(dǎo)致詞性分析算法處理長尾關(guān)鍵詞時(shí)誤差率較高,對目標(biāo)關(guān)鍵詞的詞性識別可能定位至定語中的名詞,從而產(chǎn)生識別錯(cuò)誤和識別偏差的情況,影響了目標(biāo)關(guān)鍵詞的識別準(zhǔn)確率,使爬蟲無法準(zhǔn)確識別相似頁面并逃出對應(yīng)的蜘蛛池,造成了網(wǎng)絡(luò)搜索資源的浪費(fèi),影響了用戶的搜索體驗(yàn)等問題。

      2、本發(fā)明第一方面實(shí)施例提供一種基于大模型對抗惡意蜘蛛池的方法,包括以下步驟:基于爬蟲在當(dāng)前工作周期下返回的當(dāng)前網(wǎng)頁,對當(dāng)前網(wǎng)頁數(shù)據(jù)包的純文本內(nèi)容進(jìn)行切割,得到所述當(dāng)前網(wǎng)頁數(shù)據(jù)包的所有長尾關(guān)鍵詞;基于預(yù)先訓(xùn)練的語義大模型,分別對每個(gè)長尾關(guān)鍵詞對應(yīng)的目標(biāo)關(guān)鍵詞進(jìn)行識別,以輸出所述當(dāng)前網(wǎng)頁數(shù)據(jù)包的所有目標(biāo)關(guān)鍵詞;根據(jù)所述所有目標(biāo)關(guān)鍵詞確認(rèn)所述當(dāng)前網(wǎng)頁數(shù)據(jù)包的當(dāng)前頁面特征向量,基于所述當(dāng)前頁面特征向量檢測所述當(dāng)前網(wǎng)頁是否滿足預(yù)設(shè)相似條件;在檢測到所述當(dāng)前網(wǎng)頁滿足所述預(yù)設(shè)相似條件的情況下,判定所述爬蟲處于惡意蜘蛛池,并停止所述爬蟲在所述當(dāng)前網(wǎng)頁進(jìn)行爬取。

      3、可選地,在本發(fā)明的一個(gè)實(shí)施例中,在基于預(yù)先訓(xùn)練的語義大模型,分別對每個(gè)長尾關(guān)鍵詞對應(yīng)的目標(biāo)關(guān)鍵詞進(jìn)行識別之前,還包括:獲取目標(biāo)語義大模型的目標(biāo)訓(xùn)練數(shù)據(jù)集,分別對所述目標(biāo)訓(xùn)練數(shù)據(jù)集中每個(gè)長尾關(guān)鍵詞進(jìn)行相鄰位置分組,得到所有詞匯組;基于所述所有詞匯組和所述每個(gè)長尾關(guān)鍵詞中目標(biāo)關(guān)鍵詞對應(yīng)的標(biāo)簽,對目標(biāo)語義大模型進(jìn)行迭代訓(xùn)練,直至所述目標(biāo)語義大模型滿足迭代停止條件,輸出所述預(yù)先訓(xùn)練的語義大模型。

      4、可選地,在本發(fā)明的一個(gè)實(shí)施例中,所述獲取目標(biāo)語義大模型的目標(biāo)訓(xùn)練數(shù)據(jù)集,包括:基于惡產(chǎn)目標(biāo)關(guān)鍵詞庫和惡產(chǎn)定語詞庫,生成惡產(chǎn)長尾關(guān)鍵詞庫,并根據(jù)所述惡產(chǎn)長尾關(guān)鍵詞庫中每個(gè)惡產(chǎn)目標(biāo)關(guān)鍵詞的位置確認(rèn)每個(gè)惡產(chǎn)長尾關(guān)鍵詞的惡產(chǎn)標(biāo)簽,基于所有惡產(chǎn)長尾關(guān)鍵詞和所有惡產(chǎn)標(biāo)簽構(gòu)建惡產(chǎn)數(shù)據(jù)集;基于用戶目標(biāo)關(guān)鍵詞庫爬取用戶定語詞庫,根據(jù)用戶目標(biāo)關(guān)鍵詞庫和所述用戶定語詞庫生成用戶長尾關(guān)鍵詞庫,并根據(jù)所述用戶長尾關(guān)鍵詞庫中每個(gè)用戶目標(biāo)關(guān)鍵詞的位置確認(rèn)每個(gè)用戶長尾關(guān)鍵詞的用戶標(biāo)簽,基于所有用戶長尾關(guān)鍵詞和所有用戶標(biāo)簽構(gòu)建用戶數(shù)據(jù)集;基于至少一個(gè)惡意蜘蛛池的爬取內(nèi)容獲取黑帽長尾關(guān)鍵詞庫,并利用預(yù)設(shè)大模型確認(rèn)所述黑帽長尾關(guān)鍵詞庫中每個(gè)黑帽目標(biāo)關(guān)鍵詞的位置,得到每個(gè)黑帽長尾關(guān)鍵詞的黑帽標(biāo)簽,基于所有黑帽長尾關(guān)鍵詞和所有黑帽標(biāo)簽構(gòu)建黑帽數(shù)據(jù)集;由所述惡產(chǎn)數(shù)據(jù)集、所述用戶數(shù)據(jù)集和所述黑帽數(shù)據(jù)集得到所述目標(biāo)訓(xùn)練數(shù)據(jù)集。

      5、可選地,在本發(fā)明的一個(gè)實(shí)施例中,在輸出所述預(yù)先訓(xùn)練的語義大模型之前,還包括:根據(jù)所述黑帽長尾關(guān)鍵詞庫生成目標(biāo)測試集,利用所述目標(biāo)測試集判斷訓(xùn)練后的目標(biāo)語義大模型的輸出正確率是否大于或等于預(yù)設(shè)正確率閾值;若所述輸出正確率大于或等于所述預(yù)設(shè)正確率閾值,則根據(jù)所述訓(xùn)練后的目標(biāo)語義大模型輸出所述預(yù)先訓(xùn)練的語義大模型,否則,調(diào)整所述目標(biāo)訓(xùn)練數(shù)據(jù)集中所述黑帽數(shù)據(jù)集的比例,并利用調(diào)整后的目標(biāo)訓(xùn)練數(shù)據(jù)集重新訓(xùn)練所述目標(biāo)語義大模型,直至輸出所述預(yù)先訓(xùn)練的語義大模型。

      6、可選地,在本發(fā)明的一個(gè)實(shí)施例中,所述基于所述當(dāng)前頁面特征向量檢測所述當(dāng)前網(wǎng)頁是否滿足預(yù)設(shè)相似條件,包括:基于預(yù)設(shè)回溯范圍,獲取所述當(dāng)前工作周期對應(yīng)的歷史工作周期的所有歷史頁面特征向量;分別計(jì)算每個(gè)歷史頁面特征向量和所述當(dāng)前頁面特征向量的頁面相似度,并確認(rèn)所述頁面相似度大于或等于預(yù)設(shè)相似度閾值的計(jì)數(shù)次數(shù);在所述計(jì)數(shù)次數(shù)達(dá)到預(yù)設(shè)計(jì)數(shù)閾值的情況下,判定所述當(dāng)前網(wǎng)頁滿足預(yù)設(shè)相似條件。

      7、本發(fā)明第二方面實(shí)施例提供一種基于大模型對抗惡意蜘蛛池的裝置,包括:切割模塊,用于基于爬蟲在當(dāng)前工作周期下返回的當(dāng)前網(wǎng)頁,對當(dāng)前網(wǎng)頁數(shù)據(jù)包的純文本內(nèi)容進(jìn)行切割,得到所述當(dāng)前網(wǎng)頁數(shù)據(jù)包的所有長尾關(guān)鍵詞;識別模塊,用于基于預(yù)先訓(xùn)練的語義大模型,分別對每個(gè)長尾關(guān)鍵詞對應(yīng)的目標(biāo)關(guān)鍵詞進(jìn)行識別,以輸出所述當(dāng)前網(wǎng)頁數(shù)據(jù)包的所有目標(biāo)關(guān)鍵詞;檢測模塊,用于根據(jù)所述所有目標(biāo)關(guān)鍵詞確認(rèn)所述當(dāng)前網(wǎng)頁數(shù)據(jù)包的當(dāng)前頁面特征向量,基于所述當(dāng)前頁面特征向量檢測所述當(dāng)前網(wǎng)頁是否滿足預(yù)設(shè)相似條件;判定模塊,用于在檢測到所述當(dāng)前網(wǎng)頁滿足所述預(yù)設(shè)相似條件的情況下,判定所述爬蟲處于惡意蜘蛛池,并停止所述爬蟲在所述當(dāng)前網(wǎng)頁進(jìn)行爬取。

      8、可選地,在本發(fā)明的一個(gè)實(shí)施例中,所述裝置還包括:獲取模塊,用于在基于預(yù)先訓(xùn)練的語義大模型,分別對每個(gè)長尾關(guān)鍵詞對應(yīng)的目標(biāo)關(guān)鍵詞進(jìn)行識別之前,獲取目標(biāo)語義大模型的目標(biāo)訓(xùn)練數(shù)據(jù)集,分別對所述目標(biāo)訓(xùn)練數(shù)據(jù)集中每個(gè)長尾關(guān)鍵詞進(jìn)行相鄰位置分組,得到所有詞匯組;迭代模塊,用于基于所述所有詞匯組和所述每個(gè)長尾關(guān)鍵詞中目標(biāo)關(guān)鍵詞對應(yīng)的標(biāo)簽,對目標(biāo)語義大模型進(jìn)行迭代訓(xùn)練,直至所述目標(biāo)語義大模型滿足迭代停止條件,輸出所述預(yù)先訓(xùn)練的語義大模型。

      9、可選地,在本發(fā)明的一個(gè)實(shí)施例中,所述獲取模塊包括:第一構(gòu)建單元,用于基于惡產(chǎn)目標(biāo)關(guān)鍵詞庫和惡產(chǎn)定語詞庫,生成惡產(chǎn)長尾關(guān)鍵詞庫,并根據(jù)所述惡產(chǎn)長尾關(guān)鍵詞庫中每個(gè)惡產(chǎn)目標(biāo)關(guān)鍵詞的位置確認(rèn)每個(gè)惡產(chǎn)長尾關(guān)鍵詞的惡產(chǎn)標(biāo)簽,基于所有惡產(chǎn)長尾關(guān)鍵詞和所有惡產(chǎn)標(biāo)簽構(gòu)建惡產(chǎn)數(shù)據(jù)集;第二構(gòu)建單元,用于基于用戶目標(biāo)關(guān)鍵詞庫爬取用戶定語詞庫,根據(jù)用戶目標(biāo)關(guān)鍵詞庫和所述用戶定語詞庫生成用戶長尾關(guān)鍵詞庫,并根據(jù)所述用戶長尾關(guān)鍵詞庫中每個(gè)用戶目標(biāo)關(guān)鍵詞的位置確認(rèn)每個(gè)用戶長尾關(guān)鍵詞的用戶標(biāo)簽,基于所有用戶長尾關(guān)鍵詞和所有用戶標(biāo)簽構(gòu)建用戶數(shù)據(jù)集;第三構(gòu)建單元,用于基于至少一個(gè)惡意蜘蛛池的爬取內(nèi)容獲取黑帽長尾關(guān)鍵詞庫,并利用預(yù)設(shè)大模型確認(rèn)所述黑帽長尾關(guān)鍵詞庫中每個(gè)黑帽目標(biāo)關(guān)鍵詞的位置,得到每個(gè)黑帽長尾關(guān)鍵詞的黑帽標(biāo)簽,基于所有黑帽長尾關(guān)鍵詞和所有黑帽標(biāo)簽構(gòu)建黑帽數(shù)據(jù)集;確認(rèn)單元,用于由所述惡產(chǎn)數(shù)據(jù)集、所述用戶數(shù)據(jù)集和所述黑帽數(shù)據(jù)集得到所述目標(biāo)訓(xùn)練數(shù)據(jù)集。

      10、可選地,在本發(fā)明的一個(gè)實(shí)施例中,所述迭代模塊還包括:生成單元,用于在輸出所述預(yù)先訓(xùn)練的語義大模型之前,根據(jù)所述黑帽長尾關(guān)鍵詞庫生成目標(biāo)測試集,利用所述目標(biāo)測試集判斷訓(xùn)練后的目標(biāo)語義大模型的輸出正確率是否大于或等于預(yù)設(shè)正確率閾值;調(diào)整單元,用于在所述輸出正確率大于或等于所述預(yù)設(shè)正確率閾值時(shí),根據(jù)所述訓(xùn)練后的目標(biāo)語義大模型輸出所述預(yù)先訓(xùn)練的語義大模型,否則,調(diào)整所述目標(biāo)訓(xùn)練數(shù)據(jù)集中所述黑帽數(shù)據(jù)集的比例,并利用調(diào)整后的目標(biāo)訓(xùn)練數(shù)據(jù)集重新訓(xùn)練所述目標(biāo)語義大模型,直至輸出所述預(yù)先訓(xùn)練的語義大模型。

      11、可選地,在本發(fā)明的一個(gè)實(shí)施例中,所述檢測模塊包括:獲取單元,用于基于預(yù)設(shè)回溯范圍,獲取所述當(dāng)前工作周期對應(yīng)的歷史工作周期的所有歷史頁面特征向量;計(jì)算單元,用于分別計(jì)算每個(gè)歷史頁面特征向量和所述當(dāng)前頁面特征向量的頁面相似度,并確認(rèn)所述頁面相似度大于或等于預(yù)設(shè)相似度閾值的計(jì)數(shù)次數(shù);判定單元,用于在所述計(jì)數(shù)次數(shù)達(dá)到預(yù)設(shè)計(jì)數(shù)閾值的情況下,判定所述當(dāng)前網(wǎng)頁滿足預(yù)設(shè)相似條件。

      12、本發(fā)明第三方面實(shí)施例提供一種電子設(shè)備,包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序,以實(shí)現(xiàn)如上述實(shí)施例所述的基于大模型對抗惡意蜘蛛池的方法。

      13、本發(fā)明第四方面實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上的基于大模型對抗惡意蜘蛛池的方法。

      14、本發(fā)明第五方面實(shí)施例提供一種計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被執(zhí)行時(shí)實(shí)現(xiàn)如上的基于大模型對抗惡意蜘蛛池的方法。

      15、本發(fā)明實(shí)施例可以利用預(yù)訓(xùn)練大模型提取當(dāng)前頁面所有長尾關(guān)鍵詞的對應(yīng)的目標(biāo)關(guān)鍵詞,并構(gòu)建網(wǎng)頁特征向量,檢測當(dāng)前網(wǎng)頁和先前網(wǎng)頁的關(guān)鍵詞相似程度,從而精準(zhǔn)識別長尾關(guān)鍵詞,以判斷未知網(wǎng)頁的相似性,快速診斷困入蜘蛛池的爬蟲,保障了網(wǎng)絡(luò)搜索的高效性和安全性,更加實(shí)用。由此,解決了相關(guān)技術(shù)中,因長尾關(guān)鍵詞的定語通常包括多種詞性,具有復(fù)雜的詞匯結(jié)構(gòu),導(dǎo)致詞性分析算法處理長尾關(guān)鍵詞時(shí)誤差率較高,對目標(biāo)關(guān)鍵詞的詞性識別可能定位至定語中的名詞,從而產(chǎn)生識別錯(cuò)誤和識別偏差的情況,影響了目標(biāo)關(guān)鍵詞的識別準(zhǔn)確率,使爬蟲無法準(zhǔn)確識別相似頁面并逃出對應(yīng)的蜘蛛池,造成了網(wǎng)絡(luò)搜索資源的浪費(fèi),影響了用戶的搜索體驗(yàn)等問題。

      16、本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1