專利名稱:一種批量提取網(wǎng)頁(yè)資源素材的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及瀏覽器領(lǐng)域,尤其是涉及一種能從網(wǎng)站上批量提取自定義配置類型文件的方法。
背景技術(shù):
現(xiàn)有技術(shù)主要包括兩種:一、HttpWatch,集成于Internet Explorer上的一款網(wǎng)頁(yè)數(shù)據(jù)分析插件,功能包括網(wǎng)頁(yè)摘要、Cookies管理、緩存管理、報(bào)告輸出等功能,在資源素材獲取方面也有涉及,但只能單個(gè)下載,無(wú)法批量提取網(wǎng)頁(yè)上的資源素材。二、HttpFox,與Httpwatch具備類似功能,以插件形式集成于FireFox上,但不具備文件下載功能,因此無(wú)法提取網(wǎng)頁(yè)上的資源素材。針對(duì)上述技術(shù)問題,現(xiàn)有技術(shù)中目前還沒有有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題是提供一種批量提取網(wǎng)頁(yè)資源素材的方法,本發(fā)明能讓使用者更便捷地提取網(wǎng)頁(yè)上的素材,并進(jìn)行安全檢測(cè)。本發(fā)明能批量下載資源素材,提高了提取資源素材的安全性,減少了人工工作量、提高了提取效率。為了解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)解決方案通過對(duì)瀏覽器和Web服務(wù)端的通信過程進(jìn)行監(jiān)聽,截取通信過程中傳輸?shù)臄?shù)據(jù),過濾信息并下載文件。具體包括:步驟一:客戶端連接Web服務(wù)端,所述客戶端向所述Web服務(wù)端提交請(qǐng)求;步驟二:所述We·b服務(wù)端接收并響應(yīng)所述請(qǐng)求,對(duì)所述請(qǐng)求對(duì)應(yīng)的文件類型和文件內(nèi)容進(jìn)行分析,生成所述請(qǐng)求對(duì)應(yīng)的文件類型和文件內(nèi)容的分析結(jié)果,再將所述含有分析結(jié)果的請(qǐng)求傳輸給素材處理器;步驟三:所述素材處理器接收所述含有分析結(jié)果的請(qǐng)求,所述素材處理器在網(wǎng)頁(yè)上搜尋所述請(qǐng)求對(duì)應(yīng)的資源素材,對(duì)搜尋到的所述請(qǐng)求對(duì)應(yīng)的資源素材進(jìn)行監(jiān)聽,監(jiān)聽過程中包括過濾和下載;步驟四:監(jiān)聽過程完成后,所述素材處理器將下載的所述資源素材傳輸給緩存服務(wù)器進(jìn)行緩存;步驟五:所述緩存服務(wù)器將所述下載的資源素材傳輸給所述Web服務(wù)端;步驟六:所述Web服務(wù)端將接收到的所述下載的資源素材自動(dòng)生成存放路徑,并生成匹配所述分析結(jié)果的資源素材;步驟七:所述客戶端接收所述Web服務(wù)端的反饋,根據(jù)所述存放路徑將所述匹配分析結(jié)果的資源素材進(jìn)行保存。優(yōu)選地,所述監(jiān)聽中的所述過濾包括:S1:所述素材處理器設(shè)置帶.*過濾選項(xiàng),所述素材處理器對(duì)在網(wǎng)頁(yè)上搜尋到的所述請(qǐng)求對(duì)應(yīng)的資源素材進(jìn)行分析,分析所述資源素材是否帶.*過濾選項(xiàng);S2:當(dāng)所述素材處理器接收到所述帶.*過濾選項(xiàng)的所述資源素材時(shí),則所述資源素材滿足過濾條件,執(zhí)行下述S3操作;當(dāng)所述素材處理器沒有接收到所述帶.*過濾選項(xiàng)的所述資源素材時(shí);所述素材處理器從數(shù)據(jù)庫(kù)中讀取所述資源素材設(shè)置的類型集合,所述素材處理器對(duì)是否從數(shù)據(jù)庫(kù)中查找已讀取的所述資源素材的類型集合的下一項(xiàng),進(jìn)行下述S2.A或下述S2.B處理;S2.A:當(dāng)所述素材處理器從數(shù)據(jù)庫(kù)中查找已讀取的所述資源素材的類型集合的下一項(xiàng)時(shí);進(jìn)行下述S2.A.a步驟,或進(jìn)行下述S2.A.bl至下述S2.A.b2步驟;S2.B:當(dāng)所述素材處理器沒有從數(shù)據(jù)庫(kù)中查找已讀取的所述資源素材的類型集合的下一項(xiàng)時(shí);進(jìn)行下述S2.A.b2步驟;S2.A.a:當(dāng)讀取的所述資源素材的類型集合超出所述素材處理器設(shè)置的類型集合的邊界,所述素材處理器重新在網(wǎng)頁(yè)上搜尋所述請(qǐng)求對(duì)應(yīng)的資源素材,回到所述Si步驟;S2.A.bl:當(dāng)讀取的所述資源素材的類型集合沒有超出所述素材處理器設(shè)置的類型集合的邊界,則所述素材處理器提取所述資源素材中URL數(shù)據(jù)的后綴部分;S2.A.b2:所述Web服務(wù)端生成的所述分析結(jié)果與讀取的所述資源素材設(shè)置的類型集合或提取所述資源素材中URL數(shù)據(jù)的后綴部分匹配,則所述資源素材滿足過濾條件,進(jìn)行下述S3操作;S3:所述素材處理器對(duì)滿足過濾條件的所述資源素材中的垃圾文件和病毒文件進(jìn)行查殺過濾,所述資源素材含有所述垃圾文件和所述病毒文件,進(jìn)行下述S3.A或下述S3.B處理;S3.A:當(dāng)所述素材處理器沒有過濾到所述資源素材含有所述垃圾文件和所述病毒文件時(shí),繼續(xù)執(zhí)行下載操作;S3.B:當(dāng)所述素材處理器過濾到所述資源素材含有所述垃圾文件和所述病毒文件時(shí),提示所述客戶端是選擇查殺病毒還是選擇繼續(xù)執(zhí)行下載步驟,進(jìn)行下述S3.B.a或下述S3.B.b 處理;S3.B.a:當(dāng)客戶端選擇繼續(xù)執(zhí)行下載時(shí),則跳過查殺過濾步驟,繼續(xù)執(zhí)行下載操作;S3.B.b:當(dāng)客戶端選擇查殺過濾時(shí),則對(duì)所述資源素材中的所述垃圾文件和所述病毒文件進(jìn)行查殺,直至所述資源素材安全,繼續(xù)進(jìn)行下載操作。優(yōu)選地,所述監(jiān)聽中的所述下載根據(jù)所述資源素材的數(shù)據(jù)長(zhǎng)度是否超過閾值,進(jìn)行下述NA或下述NB處理:NA:當(dāng)所述資源素材的數(shù)據(jù)長(zhǎng)度超過閾值時(shí),根據(jù)所述Web服務(wù)端對(duì)要下載的所述資源素材生成的存放路徑是否創(chuàng)建文件,進(jìn)行下述NA.al至下述NA.a4步驟或下述NA.b步驟;NA.al:當(dāng)根據(jù)所述Web服務(wù)端對(duì)要下載的所述資源素材生成的存放路徑直接創(chuàng)建文件時(shí),打開創(chuàng)建的所述文件,在過濾過程后接收所述資源素材的數(shù)據(jù),將接收的所述資源素材的數(shù)據(jù)寫入創(chuàng)建的所述文件;NA.a2:所述資源素材的數(shù)據(jù)接收完成;NA.a3:關(guān)閉創(chuàng)建的所述文件;NA.a4:下載完成;
NA.b:當(dāng)沒有創(chuàng)建所述文件時(shí),在過濾過程后不接收所述資源素材的數(shù)據(jù),所述素材處理器重新在網(wǎng)頁(yè)上搜尋所述請(qǐng)求對(duì)應(yīng)的資源素材,重新進(jìn)行過濾和下載;NB:當(dāng)所述資源素材的數(shù)據(jù)長(zhǎng)度沒有超過閾值時(shí),對(duì)在內(nèi)存中申請(qǐng)內(nèi)存空間是否足夠,進(jìn)行下述NB.al至下述NB.a3步驟或下述NB.b步驟;NB.al:當(dāng)在內(nèi)存中申請(qǐng)內(nèi)存空間足夠時(shí),在過濾過程后接收所述資源素材的數(shù)據(jù),將接收的所述資源素材的數(shù)據(jù)寫入內(nèi)存,回到所述NA.a2步驟;NB.a2:釋放所述內(nèi)存;NB.a3:下載完成;NB.b:當(dāng)在內(nèi)存中申請(qǐng)內(nèi)存空間不足時(shí),進(jìn)行所述NA.b步驟。優(yōu)選地,所述請(qǐng)求以數(shù)據(jù)流的形式進(jìn)行傳輸。優(yōu)選地,所述外部存儲(chǔ)器為軟盤、硬盤、光盤或U盤中的一種或幾種。優(yōu)選地,所述客戶端是手機(jī)、個(gè)人計(jì)算機(jī)、平板電腦中的一種或幾種。優(yōu)選地,所述網(wǎng)頁(yè)資源素材包括圖片、文檔、表格、可執(zhí)行腳本、照片、音頻、視頻中的一種或幾種。本發(fā)明的技術(shù)原理是:對(duì)瀏覽器和Web服務(wù)端的通信過程進(jìn)行監(jiān)聽,截取通信過程中傳輸?shù)臄?shù)據(jù)來(lái)達(dá)到過濾信息、下載文件的目的。程序中內(nèi)嵌瀏覽器控件,用戶通過本發(fā)明直接訪問網(wǎng)頁(yè),監(jiān)聽過程亦在此訪問網(wǎng)頁(yè)過程中完成,用戶無(wú)需做除訪問網(wǎng)頁(yè)外的其他操作。本發(fā)明與現(xiàn)有 技術(shù)相比,具有如下有益效果:用戶只需通過本發(fā)明提供的瀏覽器訪問頁(yè)面,用戶無(wú)需做其他任何操作,就能批量下載資源素材,且可以對(duì)所要提取的資源素材進(jìn)行監(jiān)聽,在監(jiān)聽的過程中進(jìn)行過濾和下載,提高了提取資源素材的安全性,減少了人工工作量,提高了提取效率。是一種具有推廣價(jià)值的新技術(shù)。
圖1示出了批量提取網(wǎng)頁(yè)資源素材的方法監(jiān)聽流程圖;圖2示出了批量提取網(wǎng)頁(yè)資源素材的方法過濾流程圖;圖3示出了批量提取網(wǎng)頁(yè)資源素材的方法下載流程圖。
具體實(shí)施例方式為了更好地理解本發(fā)明所解決的技術(shù)問題、所提供的技術(shù)方案,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。此處所描述的具體實(shí)施例僅用以解釋本發(fā)明的實(shí)施,但并不用于限定本發(fā)明。本發(fā)明所采用的具體實(shí)施方式
之一:S1、客戶端打開網(wǎng)頁(yè)輸入網(wǎng)址,點(diǎn)擊回車訪問所述網(wǎng)頁(yè);S2、客戶端同時(shí)按下Shift和F2按鍵,彈出下載信息面板;S3、所述下載信息面板顯示要下載的文件類型、下載進(jìn)度、文件路徑及資源素材的URL數(shù)據(jù)等信息;S4、對(duì)要下載的所述資源素材中的垃圾文件和病毒文件進(jìn)行查殺過濾,如果沒有過濾到所述垃圾文件和所述病毒文件,則進(jìn)行S5步驟;如果過濾到所述垃圾文件和所述病毒文件,會(huì)彈出對(duì)話框,例如“請(qǐng)選擇杳殺病毒i不是繼續(xù)下載”的字樣,提示客戶端是查殺病毒還是繼續(xù)執(zhí)行下載操作,如果客戶選擇點(diǎn)擊例如“繼續(xù)下載”的字樣,則跳過查殺過濾步驟,繼續(xù)S5步驟;如果客戶選擇點(diǎn)擊例如“杳殺過濾”的字樣,則對(duì)垃圾文件和病毒文件進(jìn)行查殺過濾,待所述文件安全會(huì)彈出例如“文件已安全,請(qǐng)繼續(xù)下載”的字樣,再繼續(xù)S5步驟。S5、在任一下載項(xiàng)上右鍵彈出菜單,點(diǎn)擊“打開文件夾”,直接瀏覽到所述文件的目錄下,點(diǎn)擊“復(fù)制URL”,直接復(fù)制所述文件的URL數(shù)據(jù);S6、在任一下載項(xiàng)上左鍵雙擊,直接打開所述文件;S7、點(diǎn)擊“保存”按鈕,彈出保存界面,系統(tǒng)默認(rèn)客戶端提交請(qǐng)求對(duì)應(yīng)的文件類型和文件內(nèi)容,并且自動(dòng)生成的所述文件的存放路徑,所述客戶端能在所述保存界面選擇與所述系統(tǒng)默認(rèn)不同的文件類型和所述文件的存放路徑,選擇下載所述文件的存放路徑有內(nèi)部存儲(chǔ)器和外部存儲(chǔ)器。在優(yōu)選的實(shí)施例中,所述請(qǐng)求以數(shù)據(jù)流的形式進(jìn)行傳輸。在優(yōu)選的實(shí)施例中,所述外部存儲(chǔ)器為軟盤、硬盤、光盤或U盤中的一種或幾種。在優(yōu)選的實(shí)施例中,所述客戶端是手機(jī)、個(gè)人計(jì)算機(jī)、平板電腦或者其他和網(wǎng)站取得通信并配置有演示素材的硬件(例如:處理器)和軟件(例如=FLASH軟件、windows操作系統(tǒng)等)的裝置。在優(yōu)選的實(shí)施例中,所述網(wǎng)頁(yè)資源素材包括圖片、文檔、表格、可執(zhí)行腳本、照片、音頻、視頻中的一種或幾種。以上通過具 體的實(shí)施例詳細(xì)的描述了本發(fā)明,但本領(lǐng)域技術(shù)人員應(yīng)該明白,本發(fā)明并不局限于以上所述實(shí)施例,凡在本發(fā)明的基本原理之內(nèi),所作的任何修改、組合及等同替換等,均包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種批量提取網(wǎng)頁(yè)資源素材的方法,其特征在于,包括: 步驟一:客戶端連接Web服務(wù)端,所述客戶端向所述Web服務(wù)端提交請(qǐng)求; 步驟二:所述Web服務(wù)端接收并響應(yīng)所述請(qǐng)求,對(duì)所述請(qǐng)求對(duì)應(yīng)的文件類型和文件內(nèi)容進(jìn)行分析,生成所述請(qǐng)求對(duì)應(yīng)的文件類型和文件內(nèi)容的分析結(jié)果,再將所述含有分析結(jié)果的請(qǐng)求傳輸給素材處理器; 步驟三:所述素材處理器接收所述含有分析結(jié)果的請(qǐng)求,所述素材處理器在網(wǎng)頁(yè)上搜尋所述請(qǐng)求對(duì)應(yīng)的資源素材,對(duì)搜尋到的所述請(qǐng)求對(duì)應(yīng)的資源素材進(jìn)行監(jiān)聽,監(jiān)聽過程中包括過濾和下載; 步驟四:監(jiān)聽過程完成后,所述素材處理器將下載的所述資源素材傳輸給緩存服務(wù)器進(jìn)行緩存; 步驟五:所述緩存服務(wù)器將所述下載的資源素材傳輸給所述Web服務(wù)端; 步驟六:所述Web服務(wù)端將接收到的所述下載的資源素材自動(dòng)生成存放路徑,并生成匹配所述分析結(jié)果的資源素材; 步驟七:所述客戶端接收所述Web服務(wù)端的反饋,根據(jù)所述存放路徑將所述匹配分析結(jié)果的資源素材進(jìn)行保存。
2.根據(jù)權(quán)利要求1所述的批量提取網(wǎng)頁(yè)資源素材的方法,其特征在于,所述監(jiān)聽中的所述過濾包括: S1:所述素材處理器設(shè)置帶.*過濾選項(xiàng),所述素材處理器對(duì)在網(wǎng)頁(yè)上搜尋到的所述請(qǐng)求對(duì)應(yīng)的資源素材進(jìn)行分析,分析所述資源素材是否帶.*過濾選項(xiàng); S2:當(dāng)所述素材處理器接收到所述帶.*過濾選項(xiàng)的所述資源素材時(shí),則所述資源素材滿足過濾條件,執(zhí)行下述S3操作; 當(dāng)所述素材處理器沒有接收到所述帶.*過濾選項(xiàng)的所述資源素材時(shí);所述素材處理器從數(shù)據(jù)庫(kù)中讀取所述資源素材設(shè)置的類型集合,所述素材處理器對(duì)是否從數(shù)據(jù)庫(kù)中查找已讀取的所述資源素材的類型集合的下一項(xiàng),進(jìn)行下述S2.A或下述S2.B處理; S2.A:當(dāng)所述素材處理器從數(shù)據(jù)庫(kù)中查找已讀取的所述資源素材的類型集合的下一項(xiàng)時(shí);進(jìn)行下述S2.A.a步驟,或進(jìn)行下述S2.A.bl至下述S2.A.b2步驟; S2.B:當(dāng)所述素材處理器沒有從數(shù)據(jù)庫(kù)中查找已讀取的所述資源素材的類型集合的下一項(xiàng)時(shí);進(jìn)行下述S2.A.b2步驟; S2.A.a:當(dāng)讀取的所述資源素材的類型集合超出所述素材處理器設(shè)置的類型集合的邊界,所述素材處理器重新在網(wǎng)頁(yè)上搜尋所述請(qǐng)求對(duì)應(yīng)的資源素材,回到所述SI步驟; S2.A.bl:當(dāng)讀取的所述資源素材的類型集合沒有超出所述素材處理器設(shè)置的類型集合的邊界,則所述素材處理器提取所述資源素材中URL數(shù)據(jù)的后綴部分; S2.A.b2:所述Web服務(wù)端生成的所述分析結(jié)果與讀取的所述資源素材設(shè)置的類型集合或提取所述資源素材中URL數(shù)據(jù)的后綴部分匹配,則所述資源素材滿足過濾條件,進(jìn)行下述S3操作; S3:所述素材處理器對(duì)滿足過濾條件的所述資源素材中的垃圾文件和病毒文件進(jìn)行查殺過濾,所述資源素材含有所述垃圾文件和所述病毒文件,進(jìn)行下述S3.A或下述S3.B處理; S3.A:當(dāng)所述素材處理器沒有過濾到所述資源素材含有所述垃圾文件和所述病毒文件時(shí),繼續(xù)執(zhí)行下載操作; S3.B:當(dāng)所述素材處理器過濾到所述資源素材含有所述垃圾文件和所述病毒文件時(shí),提示所述客戶端是選擇查殺病毒還是選擇繼續(xù)執(zhí)行下載步驟,進(jìn)行下述S3.B.a或下述S3.B.b 處理; S3.B.a:當(dāng)客戶端選擇繼續(xù)執(zhí)行下載時(shí),則跳過查殺過濾步驟,繼續(xù)執(zhí)行下載操作; S3.B.b:當(dāng)客戶端選擇查殺過濾時(shí),則對(duì)所述資源素材中的所述垃圾文件和所述病毒文件進(jìn)行查殺,直至所述資源素材安全,繼續(xù)進(jìn)行下載操作。
3.根據(jù)權(quán)利要求1所述的批量提取網(wǎng)頁(yè)資源素材的方法,其特征在于,所述監(jiān)聽中的所述下載根據(jù)所述資源素材的數(shù)據(jù)長(zhǎng)度是否超過閾值,進(jìn)行下述NA或下述NB處理: NA:當(dāng)所述資源素材的數(shù)據(jù)長(zhǎng)度超過閾值時(shí),根據(jù)所述Web服務(wù)端對(duì)要下載的所述資源素材生成的存放路徑是否創(chuàng)建文件,進(jìn)行下述NA.al至下述NA.a4步驟或下述NA.b步驟; NA.al:當(dāng)根據(jù)所述Web服務(wù)端對(duì)要下載的所述資源素材生成的存放路徑直接創(chuàng)建文件時(shí),打開創(chuàng)建的所述文件,在過濾過程后接收所述資源素材的數(shù)據(jù),將接收的所述資源素材的數(shù)據(jù)寫入創(chuàng)建的所述文件; NA.a2:所述資源素材的數(shù)據(jù)接收完成; NA.a3:關(guān)閉創(chuàng)建的所述文件; NA.a4:下載完成; NA.b:當(dāng)沒有創(chuàng)建所述文件時(shí) ,在過濾過程后不接收所述資源素材的數(shù)據(jù),所述素材處理器重新在網(wǎng)頁(yè)上搜尋所述請(qǐng)求對(duì)應(yīng)的資源素材,重新進(jìn)行過濾和下載; NB:當(dāng)所述資源素材的數(shù)據(jù)長(zhǎng)度沒有超過閾值時(shí),對(duì)在內(nèi)存中申請(qǐng)內(nèi)存空間是否足夠,進(jìn)行下述NB.al至下述NB.a3步驟或下述NB.b步驟; NB.al:當(dāng)在內(nèi)存中申請(qǐng)內(nèi)存空間足夠時(shí),在過濾過程后接收所述資源素材的數(shù)據(jù),將接收的所述資源素材的數(shù)據(jù)寫入內(nèi)存,回到所述NA.a2步驟; NB.a2:釋放所述內(nèi)存; NB.a3:下載完成; NB.b:當(dāng)在內(nèi)存中申請(qǐng)內(nèi)存空間不足時(shí),進(jìn)行所述NA.b步驟。
4.根據(jù)權(quán)利要求1所述的批量提取網(wǎng)頁(yè)資源素材的方法,其特征在于,所述請(qǐng)求以數(shù)據(jù)流的形式進(jìn)行傳輸。
5.根據(jù)權(quán)利要求1所述的批量提取網(wǎng)頁(yè)資源素材的方法,其特征在于,所述外部存儲(chǔ)器為軟盤、硬盤、光盤或U盤中的一種或幾種。
6.根據(jù)權(quán)利要求1所述的批量提取網(wǎng)頁(yè)資源素材的方法,其特征在于,所述客戶端是手機(jī)、個(gè)人計(jì)算機(jī)、平板電腦中的一種或幾種。
7.根據(jù)權(quán)利要求1所述的批量提取網(wǎng)頁(yè)資源素材的方法,其特征在于,所述網(wǎng)頁(yè)資源素材包括圖片、文檔、表格、可執(zhí)行腳本、照片、音頻、視頻中的一種或幾種。
全文摘要
本發(fā)明涉及瀏覽器領(lǐng)域,具體公開了一種批量提取網(wǎng)頁(yè)資源素材的方法,本發(fā)明通過對(duì)瀏覽器和Web服務(wù)端的通信過程進(jìn)行監(jiān)聽,素材處理器接收Web服務(wù)端的含有分析結(jié)果的請(qǐng)求,所述素材處理器配置所述請(qǐng)求對(duì)應(yīng)的資源素材,并對(duì)所述資源素材進(jìn)行監(jiān)聽,監(jiān)聽過程中包括過濾和下載;用戶通過本發(fā)明直接訪問網(wǎng)頁(yè),監(jiān)聽過程在訪問網(wǎng)頁(yè)的過程中完成,用戶無(wú)需做除訪問網(wǎng)頁(yè)外的其他操作。通過本發(fā)明提供的技術(shù),所述Web服務(wù)端將接收到的所述資源素材自動(dòng)生成存放路徑,并生成匹配所述分析結(jié)果對(duì)應(yīng)的文件類型和文件內(nèi)容的所述資源素材,達(dá)到批量下載資源素材,提高提取資源素材安全性,減少人工工作量、提高提取效率的目的。
文檔編號(hào)G06F17/30GK103235785SQ20131010524
公開日2013年8月7日 申請(qǐng)日期2013年3月28日 優(yōu)先權(quán)日2013年3月28日
發(fā)明者徐培鏢 申請(qǐng)人:四三九九網(wǎng)絡(luò)股份有限公司