一種數(shù)據(jù)推送方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種數(shù)據(jù)推送方法及裝置,該方法包括:根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件;將所述數(shù)據(jù)文件存儲在所述服務(wù)器中;向用戶推送用于訪問存儲在所述服務(wù)器中的數(shù)據(jù)文件的鏈接,以使用戶根據(jù)數(shù)據(jù)文件的鏈接訪問并搜索存儲在所述服務(wù)器中的數(shù)據(jù)文件。使得用戶可以快速的搜索到大量、全面的數(shù)據(jù)文件,提高了數(shù)據(jù)搜索的效率。
【專利說明】
一種數(shù)據(jù)推送方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及智能信息處理技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)推送方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為了用戶越來越依賴的獲取信息的途徑,用戶可以通過互聯(lián)網(wǎng)獲取各種類型的文件,如視頻、音頻、圖片及文檔等。
[0003]目前,視頻、音頻、圖片及文檔等數(shù)據(jù)散落在互聯(lián)網(wǎng)的各個(gè)地方,各個(gè)網(wǎng)站上的視頻、音頻、圖片及文檔等數(shù)據(jù)都是有限的、不全面的,用戶很難從單一的網(wǎng)站上獲取所需要的數(shù)據(jù)。以圖片為例,各個(gè)網(wǎng)站上的圖片均是依靠手動編輯從其它網(wǎng)站下載,或者通過用戶上傳,因此,單一的網(wǎng)站上只有少量、不全面的圖片,如果用戶在某一網(wǎng)站上沒有獲取到所需的圖片,則需要切換多個(gè)網(wǎng)站進(jìn)行查找,需要花費(fèi)用戶較長的時(shí)間,數(shù)據(jù)搜索效率較低。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例的目的在于提供一種數(shù)據(jù)推送方法及裝置,用于解決如何提高數(shù)據(jù)查找效率的問題。技術(shù)方案如下:
[0005]第一方面,本發(fā)明實(shí)施例提供一種數(shù)據(jù)推送方法,應(yīng)用于服務(wù)器,包括:
[0006]根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件;
[0007]將所述數(shù)據(jù)文件存儲在所述服務(wù)器中;
[0008]向用戶推送用于訪問存儲在所述服務(wù)器中的數(shù)據(jù)文件的鏈接,以使用戶根據(jù)數(shù)據(jù)文件的鏈接訪問并搜索存儲在所述服務(wù)器中的數(shù)據(jù)文件。
[0009]可選地,所述根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件,包括:
[0010]根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,利用分布式爬蟲技術(shù),從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。
[0011]可選地,預(yù)先設(shè)置用于存儲網(wǎng)頁URL的待抓取隊(duì)列;
[0012]所述根據(jù)預(yù)設(shè)的數(shù)據(jù)抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件,包括:
[0013]判斷所述待抓取隊(duì)列中是否存在網(wǎng)頁URL,其中,所述網(wǎng)頁URL為所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁URL;
[0014]如果存在,根據(jù)預(yù)設(shè)的數(shù)據(jù)抓取策略,基于所述待抓取隊(duì)列中存在的網(wǎng)頁URL抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。
[0015]可選地,還包括:
[0016]針對所述至少兩個(gè)網(wǎng)站包含的任一目標(biāo)網(wǎng)頁URL,判斷是否基于所述目標(biāo)網(wǎng)頁URL抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件;
[0017]如果否,將所述目標(biāo)網(wǎng)頁URL添加在所述待抓取隊(duì)列中。
[0018]可選地,還包括:
[0019]根據(jù)預(yù)設(shè)的提取規(guī)則,在所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁中提取與所述數(shù)據(jù)文件對應(yīng)的描述信息;
[0020]根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引。
[0021]可選地,所述根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引,包括:
[0022]將所述描述信息存儲在數(shù)據(jù)庫中;
[0023]定時(shí)或每隔預(yù)設(shè)時(shí)間段檢測所述數(shù)據(jù)庫中是否存在新增的描述信息;
[0024]如果存在,建立與所述新增的描述信息對應(yīng)的數(shù)據(jù)文件的索引。
[0025]可選地,在根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引之前,還包括:
[0026]利用分詞技術(shù),對所述描述信息進(jìn)行分詞,得到分詞結(jié)果;
[0027]所述根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引,包括:
[0028]根據(jù)所述分詞結(jié)果,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引。
[0029]第二方面,本發(fā)明實(shí)施例提供一種數(shù)據(jù)推送裝置,應(yīng)用于服務(wù)器,包括:抓取模塊、存儲模塊和推送模塊;
[0030]所述抓取模塊,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件;
[0031 ]所述存儲模塊,用于將所述數(shù)據(jù)文件存儲在所述服務(wù)器中;
[0032]所述推送模塊,用于向用戶推送用于訪問存儲在所述服務(wù)器中的數(shù)據(jù)文件的鏈接,以使用戶根據(jù)數(shù)據(jù)文件的鏈接訪問并搜索存儲在所述服務(wù)器中的數(shù)據(jù)文件。
[0033]可選地,所述抓取模塊,具體用于:
[0034]根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,利用分布式爬蟲技術(shù),從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。
[0035]可選地,預(yù)先設(shè)置用于存儲網(wǎng)頁URL的待抓取隊(duì)列;
[0036]所述抓取模塊,包括:判斷子模塊和抓取子模塊;
[0037]所述判斷子模塊,用于判斷所述待抓取隊(duì)列中是否存在網(wǎng)頁URL,其中,所述網(wǎng)頁URL為所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁URL;
[0038]所述抓取子模塊,用于在所述判斷子模塊判斷結(jié)果為是的情況下,根據(jù)預(yù)設(shè)的數(shù)據(jù)抓取策略,基于所述待抓取隊(duì)列中存在的網(wǎng)頁URL抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件。
[0039]可選地,還包括:判斷模塊和添加模塊;
[0040]所述判斷模塊,用于針對所述至少兩個(gè)網(wǎng)站包含的任一目標(biāo)網(wǎng)頁URL,判斷是否基于所述目標(biāo)網(wǎng)頁URL抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件;
[0041]所述添加模塊,用于所述判斷模塊判斷為否的情況下,將所述目標(biāo)網(wǎng)頁URL添加在所述待抓取隊(duì)列中。
[0042]可選地,還包括:提取模塊和索引建立模塊;
[0043]所述提取模塊,用于根據(jù)預(yù)設(shè)的提取規(guī)則,在所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁中提取與所述數(shù)據(jù)文件對應(yīng)的描述信息;
[0044]所述索引建立模塊,用于根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引,以使用戶根據(jù)數(shù)據(jù)文件的索引搜索存儲在所述服務(wù)器中的數(shù)據(jù)文件。
[0045]可選地,所述索引建立模塊,包括:存儲子模塊、檢測子模塊和索引建立子模塊;
[0046]所述存儲子模塊,用于將所述描述信息存儲在數(shù)據(jù)庫中;
[0047]所述檢測子模塊,用于定時(shí)或每隔預(yù)設(shè)時(shí)間段檢測所述數(shù)據(jù)庫中是否存在新增的描述信息;
[0048]所述索引建立子模塊,用于在所述檢測子模塊檢測為是的情況下,建立與所述新增的描述信息對應(yīng)的數(shù)據(jù)文件的索引。
[0049]可選地,還包括:分詞模塊;
[0050]所述分詞模塊,用于利用分詞技術(shù),對所述描述信息進(jìn)行分詞,得到分詞結(jié)果;
[0051 ]所述索引建立模塊,具體用于:
[0052]根據(jù)所述分詞結(jié)果,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引。
[0053]本發(fā)明實(shí)施例提供的一種數(shù)據(jù)推送方法及裝置,通過從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件,并將抓取到的數(shù)據(jù)文件的鏈接推送給用戶,用戶通過數(shù)據(jù)文件的鏈接對抓取到的數(shù)據(jù)文件進(jìn)行訪問和搜索。用戶不需要花費(fèi)大量的時(shí)間來回切換不同的網(wǎng)站進(jìn)行數(shù)據(jù)搜索,即可在短時(shí)間內(nèi)搜索到不同網(wǎng)站中的數(shù)據(jù),從而提高了數(shù)據(jù)查找效率。同時(shí),對抓取到的數(shù)據(jù)文件的描述信息進(jìn)行索引和分詞,在保證用戶可以快速搜索到大量、全面的數(shù)據(jù)的同時(shí),保證了數(shù)據(jù)搜索的準(zhǔn)確性。而且,對于網(wǎng)站運(yùn)營人員來說,克服了依靠編輯手動的從其它網(wǎng)站下載數(shù)據(jù),或者通過用戶上傳費(fèi)時(shí)費(fèi)力的缺點(diǎn),從而有助于網(wǎng)站引流和擴(kuò)展品牌知名度。
[0054]當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
【附圖說明】
[0055]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0056]圖1為本發(fā)明實(shí)施例提供的第一種數(shù)據(jù)推送方法的流程示意圖;
[0057]圖2為本發(fā)明實(shí)施例提供的第二種數(shù)據(jù)推送方法的流程示意圖;
[0058]圖3為本發(fā)明實(shí)施例提供的第三種數(shù)據(jù)推送方法的流程示意圖;
[0059]圖4為本發(fā)明實(shí)施例提供的第四種數(shù)據(jù)推送方法的流程示意圖;
[0060]圖5為本發(fā)明實(shí)施例提供的第一種數(shù)據(jù)推送裝置的結(jié)構(gòu)示意圖;
[0061 ]圖6為本發(fā)明實(shí)施例提供的第二種數(shù)據(jù)推送裝置的結(jié)構(gòu)示意圖;
[0062]圖7為本發(fā)明實(shí)施例提供的第三種數(shù)據(jù)推送裝置的結(jié)構(gòu)示意圖;
[0063]圖8為本發(fā)明實(shí)施例提供的第四種數(shù)據(jù)推送裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0064]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0065]圖1為本發(fā)明實(shí)施例提供的第一種數(shù)據(jù)推送方法的流程示意圖,應(yīng)用于服務(wù)器,可以包括:
[0066]S101、根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件;
[0067]需要說明的是,本實(shí)施例中的待抓取數(shù)據(jù)的類型包括視頻文件、音頻文件及圖片文件等,但本實(shí)施例不限定待抓取文件的具體類型,本領(lǐng)域技術(shù)人員可根據(jù)實(shí)際情況,設(shè)定其它的待抓取數(shù)據(jù)的類型。
[0068]需要說明的是,本實(shí)施例中的至少兩個(gè)網(wǎng)站的確定方式為:預(yù)先對各大網(wǎng)站進(jìn)行調(diào)研,確定要抓取的網(wǎng)站數(shù)量和類型。
[0069]需要說明的是,本實(shí)施例中可以根據(jù)用戶的需求的變化,對確定要抓取的網(wǎng)站數(shù)量、類型進(jìn)行增減、變更,以及對待抓取的數(shù)據(jù)的類型進(jìn)行變更時(shí)。
[0070]可選地,本實(shí)施例中的預(yù)設(shè)的數(shù)據(jù)文件抓取策略,包括抓取頻率、抓取順序和過濾條件。
[0071 ]需要說明的是,本實(shí)施例中的數(shù)據(jù)文件抓取策略包括的內(nèi)容僅為舉例說明,本實(shí)施例不限定數(shù)據(jù)文件抓取策略的具體內(nèi)容,本領(lǐng)域技術(shù)人員可根據(jù)實(shí)際情況,確定數(shù)據(jù)文件抓取策略的具體內(nèi)容。
[0072]下面對本實(shí)施例中的數(shù)據(jù)文件抓取策略中的抓取頻率、抓取順序和過濾條件在實(shí)際應(yīng)用中的情況進(jìn)行說明:
[0073]需要說明的是,在實(shí)際應(yīng)用中,本實(shí)施例中的抓取頻率的設(shè)置需要模擬正常用戶的搜索頻率,并且每次使用不同的IP地址進(jìn)行抓取,以防止由于使用同一個(gè)IP地址或者訪問頻率過快而導(dǎo)致訪問被禁止。
[0074]需要說明的是,本實(shí)施例中的過濾條件包括但不限于待抓取數(shù)據(jù)文件的大小、占用空間、文件格式、文件生成的時(shí)間等條件,本領(lǐng)域技術(shù)人員可根據(jù)實(shí)際情況,采用其它的過濾條件對數(shù)據(jù)文件進(jìn)行過濾。
[0075]在實(shí)際應(yīng)用中,通過設(shè)置不同的過濾條件,保證了抓取到的數(shù)據(jù)文件的準(zhǔn)確性。
[OO76 ]具體地,可采用布隆過濾算法(B1 omF i 11 er)、URL相似度過濾算法、關(guān)鍵字過濾算法以及其它過濾方法執(zhí)行上述根據(jù)過濾條件進(jìn)行過濾的過程。
[0077]需要說明的是,本實(shí)施例不限定具體的抓取頻率、具體的抓取順序和具體的過濾條件,本領(lǐng)域技術(shù)人員可根據(jù)實(shí)際情況,設(shè)置不同的抓取頻率和不同的過濾條件,進(jìn)行數(shù)據(jù)文件的抓取。
[0078]具體的,在實(shí)際應(yīng)用中,可以預(yù)先設(shè)置用于存儲網(wǎng)頁URL的待抓取隊(duì)列,根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件,可以判斷所述待抓取隊(duì)列中是否存在網(wǎng)頁URL,其中,所述網(wǎng)頁URL為所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁URL;如果存在,根據(jù)預(yù)設(shè)的數(shù)據(jù)抓取策略,基于所述待抓取隊(duì)列中存在的網(wǎng)頁URL抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。
[0079]需要說明的是,本發(fā)明實(shí)施例中的判斷待抓取隊(duì)列中是否存在網(wǎng)頁URL的過程與現(xiàn)有技術(shù)相同,此處不再贅述。
[0080]可以理解的是,若待抓取隊(duì)列中不存在網(wǎng)頁URL,則整個(gè)抓取過程結(jié)束。
[0081 ] S102、將所述數(shù)據(jù)文件存儲在所述服務(wù)器中;
[0082]具體地,將抓取到的數(shù)據(jù)文件存儲在服務(wù)器中或緩存在服務(wù)器中。
[0083]S103、向用戶推送用于訪問存儲在所述服務(wù)器中的數(shù)據(jù)文件的鏈接,以使用戶根據(jù)數(shù)據(jù)文件的鏈接訪問并搜索存儲在所述服務(wù)器中的數(shù)據(jù)文件。
[0084]可選地,服務(wù)器可以實(shí)時(shí)的、定時(shí)的或者每隔預(yù)設(shè)時(shí)間段向用戶推送用于訪問在所述服務(wù)器中的數(shù)據(jù)文件的鏈接,也可以根據(jù)用戶的觸發(fā)指令,向用戶推送用于訪問在所述服務(wù)器中的數(shù)據(jù)文件的鏈接。
[0085]在實(shí)際應(yīng)用中,本實(shí)施例中的根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件,可以包括:根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,利用分布式爬蟲技術(shù),從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。
[0086]需要說明的是,利用分布式爬蟲技術(shù)抓取數(shù)據(jù)文件為現(xiàn)有技術(shù),本發(fā)明實(shí)施例在此不再對其進(jìn)行贅述。
[0087]需要說明的是,本發(fā)明實(shí)施例提供的數(shù)據(jù)推送方法中采用的分布式爬蟲技術(shù)是一個(gè)快速、高層次的屏幕抓取和網(wǎng)頁抓取框架,用于抓取網(wǎng)站并從頁面中提取結(jié)構(gòu)化的據(jù),爬蟲技術(shù)用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試,而且,還可以根據(jù)實(shí)際情況的變化對該爬蟲框架進(jìn)行修改,具有更高的實(shí)用性。
[0088]還需要說明的是,本發(fā)明實(shí)施例中的爬蟲框架提供了多種類型的爬蟲基類,如BaseSpider、sitemap爬蟲等,本領(lǐng)域技術(shù)人員可根據(jù)實(shí)際情況選擇具體類型的爬蟲基類。
[0089]應(yīng)用本發(fā)明圖1所示實(shí)施例,通過從至少兩個(gè)網(wǎng)站抓取數(shù)據(jù)文件,將抓取到的數(shù)據(jù)文件存儲在服務(wù)器中,并向用戶推送用于訪問在服務(wù)器中的數(shù)據(jù)文件的鏈接,使用戶可以在短時(shí)間內(nèi)查找到至少兩個(gè)網(wǎng)站中的視頻、音頻、圖片、文檔等數(shù)據(jù),與傳統(tǒng)方法相比,不需要切換多個(gè)網(wǎng)站進(jìn)行搜索,即可搜索到大量、全面的數(shù)據(jù),從而提高了視頻、音頻、圖片、文檔等數(shù)據(jù)的搜索效率。
[0090]圖2為本發(fā)明實(shí)施例提供的第二種數(shù)據(jù)推送方法的流程示意圖,本發(fā)明圖2所示實(shí)施例在圖1所示實(shí)施例的基礎(chǔ)上,預(yù)先設(shè)置用于存儲網(wǎng)頁URL的待抓取隊(duì)列,增加以下兩個(gè)步驟:
[0091 ] S104、針對所述至少兩個(gè)網(wǎng)站包含的任一目標(biāo)網(wǎng)頁URL,判斷是否基于所述目標(biāo)網(wǎng)頁URL抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件,如果否,執(zhí)行S105;
[0092]S105、將所述目標(biāo)網(wǎng)頁URL添加在所述待抓取隊(duì)列中。
[0093]本實(shí)施例的SlOl可以包括SlOlA和S101B,其中,
[0094]S101A、判斷所述待抓取隊(duì)列中是否存在網(wǎng)頁URL,如果存在,執(zhí)行S101B,其中,所述網(wǎng)頁URL為所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁URL;
[0095]S101B、根據(jù)預(yù)設(shè)的數(shù)據(jù)抓取策略,基于所述待抓取隊(duì)列中存在的網(wǎng)頁URL抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。
[0096]需要說明的是,本發(fā)明實(shí)施例中的判斷待抓取隊(duì)列中是否存在網(wǎng)頁URL的過程與現(xiàn)有技術(shù)相同,此處不再贅述。
[0097]可以理解的是,若待抓取隊(duì)列中不存在網(wǎng)頁URL,則整個(gè)抓取過程結(jié)束。
[0098]具體地,根據(jù)預(yù)設(shè)的文件抓取策略中的抓取順序,基于所述待抓取隊(duì)列中存在的網(wǎng)頁URL抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。
[0099]需要說明的是,本實(shí)施例不限定具體的抓取順序,在實(shí)際應(yīng)用中,本領(lǐng)域技術(shù)人員可根據(jù)實(shí)際情況采用諸如先添加先抓取、先添加后抓取、隨機(jī)抓取或者其它的抓取順序。
[0100]可以理解的是,如果已經(jīng)基于該目標(biāo)網(wǎng)頁URL抓取過與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件,則不抓取該網(wǎng)頁URL。
[0101]可選地,本發(fā)明實(shí)施例中通過對已經(jīng)抓取過的網(wǎng)頁URL進(jìn)行標(biāo)記,并根據(jù)待抓取的網(wǎng)頁URL是否存在標(biāo)記,來判斷該網(wǎng)頁URL是否被抓取過。
[0102]需要說明的是,本發(fā)明實(shí)施例中的判斷網(wǎng)頁URL是否被抓取的方法僅為舉例說明,本實(shí)施例不限定具體的判斷網(wǎng)頁URL是否被抓取過的過程,本領(lǐng)域技術(shù)人員可根據(jù)實(shí)際情況,采用URL去重方法、URL相似性判斷方法等其它方法來判斷待抓取的網(wǎng)頁URL是否被抓取過。
[0103]應(yīng)用本發(fā)明圖2所示實(shí)施例,通過從至少兩個(gè)網(wǎng)站抓取數(shù)據(jù)文件,將抓取到的數(shù)據(jù)文件存儲在服務(wù)器中,并向用戶推送用于訪問在服務(wù)器中的數(shù)據(jù)文件的鏈接,使用戶可以在短時(shí)間內(nèi)查找到至少兩個(gè)網(wǎng)站中的視頻、音頻、圖片、文檔等數(shù)據(jù),與傳統(tǒng)方法相比,不需要切換多個(gè)網(wǎng)站進(jìn)行搜索,即可搜索到大量、全面的數(shù)據(jù),從而提高了視頻、音頻、圖片、文檔等數(shù)據(jù)的搜索效率。并且僅對未抓取的網(wǎng)頁進(jìn)行抓取,避免了重復(fù)抓取所消耗的資源,提高了資源利用率。
[0104]圖3為本發(fā)明實(shí)施例提供的第三種數(shù)據(jù)推送方法的流程示意圖,本發(fā)明圖3所示實(shí)施例在圖1所示實(shí)施例的基礎(chǔ)上,增加以下兩個(gè)步驟:
[0105]S106、根據(jù)預(yù)設(shè)的提取規(guī)則,在所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁中提取與所述數(shù)據(jù)文件對應(yīng)的描述信息;
[0106]可選地,預(yù)設(shè)的提取規(guī)則包括字符串匹配算法,例如KMP算法,AC算法等。
[0107]需要說明的是,數(shù)據(jù)文件對應(yīng)的描述信息包括至少兩個(gè)網(wǎng)站中的網(wǎng)頁中對抓取的數(shù)據(jù)文件的內(nèi)容的描述、標(biāo)題的描述及摘要的描述等內(nèi)容。
[0108]可選地,本實(shí)施例中將描述信息保存在DongoDB數(shù)據(jù)庫中。
[0109]需要說明的是,本實(shí)施例不限定具體的數(shù)據(jù)庫類型,本領(lǐng)域技術(shù)人員可根據(jù)實(shí)際情況將描述信息保存在NoSQL數(shù)據(jù)庫或redis數(shù)據(jù)庫等其它數(shù)據(jù)庫中。
[0110]S107、根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引。
[0111]具體地,在實(shí)際應(yīng)用中,將描述信息保存在DongoDB數(shù)據(jù)庫中后,后端程序利用ElasticSearch建立對應(yīng)數(shù)據(jù)文件的索引。
[0112]需要說明的是,ElasticSearch是一個(gè)基于Lucene的搜索服務(wù)器,它提供了一個(gè)分布式多用戶能力的全文搜索引擎,基于RESTful web接口 C3ElasticSearch是用Iava開發(fā)的,并作為Apache許可條款下的開放源碼分布,是流行的企業(yè)搜索引擎,應(yīng)用于云計(jì)算中,能夠達(dá)到穩(wěn)定、可靠、快速的實(shí)時(shí)搜索,而且安裝使用方便。
[0113]具體地,在實(shí)際應(yīng)用中,在建立數(shù)據(jù)文件的索引時(shí)后,根據(jù)數(shù)據(jù)文件的索引來搜索存儲在服務(wù)器中的數(shù)據(jù)文件。
[0114]具體地,本發(fā)明實(shí)施中的步驟:根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引,可以將所述描述信息存儲在數(shù)據(jù)庫中;定時(shí)或每隔預(yù)設(shè)時(shí)間段檢測所述數(shù)據(jù)庫中是否存在新增的描述信息;如果存在,建立與所述新增的描述信息對應(yīng)的數(shù)據(jù)文件的索引。
[0115]在實(shí)際應(yīng)用中,可以事先對各大網(wǎng)站的數(shù)據(jù)更新時(shí)間進(jìn)行調(diào)查,獲取各大網(wǎng)站數(shù)據(jù)更新頻率高的時(shí)間點(diǎn),比如中午十二點(diǎn)、晚上八點(diǎn)等時(shí)間點(diǎn),就可以設(shè)置每天中午十二點(diǎn)和每天晚上八點(diǎn)檢測數(shù)據(jù)庫中是否存在新增的描述信息。
[0116]需要說明的是,本領(lǐng)域技術(shù)人員可根據(jù)各個(gè)網(wǎng)站的實(shí)際情況,確定具體的間隔時(shí)間段,來檢測數(shù)據(jù)庫中的是否有新增的描述信息。
[0117]需要說明的是,在實(shí)際應(yīng)用中,還可以實(shí)時(shí)的或者根據(jù)相關(guān)人員的檢測指令來檢測數(shù)據(jù)庫中是否存在新增的描述信息。
[0118]需要說明的是,本發(fā)明實(shí)施例中的檢測數(shù)據(jù)庫中是否有新增的描述信息的過程與現(xiàn)有技術(shù)中的檢測過程相同,本領(lǐng)域技術(shù)人員可以通過查看數(shù)據(jù)庫日志等方式來檢測數(shù)據(jù)庫中是否有新增的描述信息,詳細(xì)過程,此處不再贅述。
[0119]具體地,在實(shí)際應(yīng)用中,本發(fā)明實(shí)施例中通過專門的API接口對索引進(jìn)行增加、查詢、更新、刪減等操作。舉例說明,可以根據(jù)用戶新的需求,增加或刪除相應(yīng)數(shù)據(jù)文件的索引,對數(shù)據(jù)文件的索引進(jìn)行更新。
[0120]需要說明的是,本實(shí)施例中的API接口,是一套簡單易用的接口,前端不需要考慮具體的索引接口和原理,通過簡單的http請求,即可創(chuàng)建、搜索、更新和刪除索引。
[0121]應(yīng)用本發(fā)明圖3所示實(shí)施例,通過從至少兩個(gè)網(wǎng)站中抓取待抓取的數(shù)據(jù)文件,并從至少兩個(gè)網(wǎng)站的網(wǎng)頁上提取與數(shù)據(jù)文件對應(yīng)的描述信息,然后根據(jù)描述信息建立對應(yīng)數(shù)據(jù)文件的索引,將數(shù)據(jù)文件的索引推送給用戶。使得用戶可以快速的搜索到大量、全面的數(shù)據(jù),提高數(shù)據(jù)搜索的效率,同時(shí)采用索引技術(shù),提高了搜索的準(zhǔn)確性。進(jìn)一步地提高了用戶體驗(yàn)。并且通過對數(shù)據(jù)庫中新增的描述信息進(jìn)行檢測,并根據(jù)新增的描述信息建立對應(yīng)的數(shù)據(jù)文件的索引,進(jìn)一步提高了通過索引搜索相關(guān)數(shù)據(jù)的準(zhǔn)確性和實(shí)時(shí)性,保證最新的數(shù)據(jù)文件可以被用戶搜索、瀏覽到。
[0122]圖4為本發(fā)明實(shí)施例提供的第四種數(shù)據(jù)推送方法的流程示意圖,本發(fā)明圖4所示實(shí)施例在圖3所示實(shí)施例的基礎(chǔ)上,在S107之前,增加S108、利用分詞技術(shù),對所述描述信息進(jìn)行分詞,得到分詞結(jié)果。
[0123]本發(fā)明實(shí)施例所示的S107為S107A:根據(jù)所述分詞結(jié)果,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引。
[0124]優(yōu)選地,本實(shí)施例中采用IK分詞技術(shù),對描述信息進(jìn)行分詞,得到分詞結(jié)果。
[0125]需要說明的是,本實(shí)施例不限定具體的分詞技術(shù),本領(lǐng)域技術(shù)人員可根據(jù)實(shí)際情況采用其他的分詞技術(shù)對描述信息進(jìn)行分詞。
[0126]本發(fā)明實(shí)施例提供的一種數(shù)據(jù)推送方法,通過對描述信息進(jìn)行分詞,并根據(jù)分詞結(jié)果,建立相應(yīng)數(shù)據(jù)文件的索引,使得用戶根據(jù)推送的用于訪問存儲在服務(wù)器中的數(shù)據(jù)文件的索引,可以快速、準(zhǔn)確的搜索所需數(shù)據(jù)。
[0127]具體地,本實(shí)施例中的前端通過調(diào)用API接口,向用戶提供了搜索展示界面,用戶在該界面上能對所需數(shù)據(jù)進(jìn)行搜索,并且對搜索到的喜歡的內(nèi)容進(jìn)行評分、點(diǎn)贊等操作。
[0128]舉例說明,用戶根據(jù)搜索到的圖片的畫質(zhì)是否清晰、圖片內(nèi)容是否搞笑等因素,在前端網(wǎng)站頁面上對搜索到的圖片進(jìn)行評分或者點(diǎn)贊,使得網(wǎng)站運(yùn)營人員能夠根據(jù)統(tǒng)計(jì)的圖片的分?jǐn)?shù)、點(diǎn)贊次數(shù),來逐漸的從海量的圖片內(nèi)容中找出優(yōu)質(zhì)的圖片。
[0129]應(yīng)用本發(fā)明圖4所示實(shí)施例,通過從至少兩個(gè)網(wǎng)站中抓取待抓取的數(shù)據(jù)文件,并從至少兩個(gè)網(wǎng)站的網(wǎng)頁上提取與數(shù)據(jù)文件對應(yīng)的描述信息,利用分詞技術(shù),對所述描述信息進(jìn)行分詞,得到分詞結(jié)果;根據(jù)所述分詞結(jié)果,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索弓丨,將數(shù)據(jù)文件的索引推送給用戶。使得用戶可以快速的搜索到大量、全面的數(shù)據(jù),提高數(shù)據(jù)搜索的效率,同時(shí)采用分詞技術(shù)和索引技術(shù),提高了搜索的準(zhǔn)確性。進(jìn)一步地提高了用戶體驗(yàn)。
[0130]與上述的方法實(shí)施例相對應(yīng),本發(fā)明實(shí)施例還提供一種數(shù)據(jù)推送裝置。
[0131]圖5為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)推送裝置的結(jié)構(gòu)示意圖,可以包括:抓取模塊201、存儲模塊202和推送模塊203;
[0132]抓取模塊201,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件;
[0133]存儲模塊202,用于將所述數(shù)據(jù)文件存儲在所述服務(wù)器中;
[0134]推送模塊203,用于向用戶推送用于訪問存儲在所述服務(wù)器中的數(shù)據(jù)文件的鏈接,以使用戶根據(jù)數(shù)據(jù)文件的鏈接訪問并搜索存儲在所述服務(wù)器中的數(shù)據(jù)文件。
[0135]在實(shí)際應(yīng)用中,本發(fā)明實(shí)施例所示的抓取模塊201,具體可以用于:
[0136]根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,利用分布式爬蟲技術(shù),從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。
[0137]在實(shí)際應(yīng)用中,可以預(yù)先設(shè)置用于存儲網(wǎng)頁URL的待抓取隊(duì)列,本發(fā)明實(shí)施例所示的抓取模塊201可以包括:判斷子模塊和抓取子模塊(圖中未示出),其中,
[0138]判斷子模塊,用于判斷所述待抓取隊(duì)列中是否存在網(wǎng)頁URL,其中,所述網(wǎng)頁URL為所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁URL;
[0139]抓取子模塊,用于在所述判斷子模塊判斷結(jié)果為是的情況下,根據(jù)預(yù)設(shè)的數(shù)據(jù)抓取策略,基于所述待抓取隊(duì)列中存在的網(wǎng)頁URL抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件。
[0140]應(yīng)用本發(fā)明圖5所示實(shí)施例,通過從至少兩個(gè)網(wǎng)站抓取數(shù)據(jù)文件,將抓取到的數(shù)據(jù)文件存儲在服務(wù)器中,并向用戶推送用于訪問在服務(wù)器中的數(shù)據(jù)文件的鏈接,使用戶可以在短時(shí)間內(nèi)查找到至少兩個(gè)網(wǎng)站中的視頻、音頻、圖片、文檔等數(shù)據(jù),與傳統(tǒng)方法相比,不需要切換多個(gè)網(wǎng)站進(jìn)行搜索,即可搜索到大量、全面的數(shù)據(jù),從而提高了視頻、音頻、圖片、文檔等數(shù)據(jù)的搜索效率。
[0141]圖6為本發(fā)明實(shí)施例提供的第二種數(shù)據(jù)推送裝置的結(jié)構(gòu)示意圖,預(yù)先設(shè)置用于存儲網(wǎng)頁URL的待抓取隊(duì)列;本發(fā)明圖6所示實(shí)施例在圖5所示實(shí)施例基礎(chǔ)上增加:判斷模塊204和添加模塊205;
[0142]判斷模塊204,用于針對所述至少兩個(gè)網(wǎng)站包含的任一目標(biāo)網(wǎng)頁URL,判斷是否基于所述目標(biāo)網(wǎng)頁URL抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件;
[0143]添加模塊205,用于在判斷模塊204判斷為否的情況下,將所述目標(biāo)網(wǎng)頁URL添加在所述待抓取隊(duì)列中。
[0144]本發(fā)明實(shí)施例所示的抓取模塊201可以包括:判斷子模塊和抓取子模塊(圖中未示出),其中,
[0145]判斷子模塊,用于判斷所述待抓取隊(duì)列中是否存在網(wǎng)頁URL,其中,所述網(wǎng)頁URL為所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁URL;
[0146]抓取子模塊,用于在所述判斷子模塊判斷結(jié)果為是的情況下,根據(jù)預(yù)設(shè)的數(shù)據(jù)抓取策略,基于所述待抓取隊(duì)列中存在的網(wǎng)頁URL抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件。
[0147]應(yīng)用本發(fā)明圖6所示實(shí)施例,通過從至少兩個(gè)網(wǎng)站抓取數(shù)據(jù)文件,將抓取到的數(shù)據(jù)文件存儲在服務(wù)器中,并向用戶推送用于訪問在服務(wù)器中的數(shù)據(jù)文件的鏈接,使用戶可以在短時(shí)間內(nèi)查找到至少兩個(gè)網(wǎng)站中的視頻、音頻、圖片、文檔等數(shù)據(jù),與傳統(tǒng)方法相比,不需要切換多個(gè)網(wǎng)站進(jìn)行搜索,即可搜索到大量、全面的數(shù)據(jù),從而提高了視頻、音頻、圖片、文檔等數(shù)據(jù)的搜索效率。并且僅對未抓取的網(wǎng)頁進(jìn)行抓取,避免了重復(fù)抓取所消耗的資源,提高了資源利用率。
[0148]圖7為本發(fā)明實(shí)施例提供的第三種數(shù)據(jù)推送裝置的結(jié)構(gòu)示意圖,本發(fā)明圖7所示實(shí)施例在圖5所示實(shí)施例的基礎(chǔ)上,增加:提取模塊206和索引建立模塊207;
[0149]提取模塊206,用于根據(jù)預(yù)設(shè)的提取規(guī)則,在所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁中提取與所述數(shù)據(jù)文件對應(yīng)的描述信息;
[0150]索引建立模塊207,用于根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引,以使用戶根據(jù)數(shù)據(jù)文件的索引搜索存儲在所述服務(wù)器中的數(shù)據(jù)文件。
[0151]本發(fā)明實(shí)施例所示的索引建立模塊207,可以包括:存儲子模塊、檢測子模塊和索引建立子模塊(圖中未不出);
[0152]存儲子模塊,用于將所述描述信息存儲在數(shù)據(jù)庫中;
[0153]檢測子模塊,用于定時(shí)或每隔預(yù)設(shè)時(shí)間段檢測所述數(shù)據(jù)庫中是否存在新增的描述信息;
[0154]索引建立子模塊,用于在所述檢測子模塊檢測為是的情況下,建立與所述新增的描述信息對應(yīng)的數(shù)據(jù)文件的索引。
[0155]應(yīng)用本發(fā)明圖7所示實(shí)施例,通過從至少兩個(gè)網(wǎng)站中抓取待抓取的數(shù)據(jù)文件,并從至少兩個(gè)網(wǎng)站的網(wǎng)頁上提取與數(shù)據(jù)文件對應(yīng)的描述信息,然后根據(jù)描述信息建立對應(yīng)數(shù)據(jù)文件的索引,將數(shù)據(jù)文件的索引推送給用戶。使得用戶可以快速的搜索到大量、全面的數(shù)據(jù),提高數(shù)據(jù)搜索的效率,同時(shí)采用索引技術(shù),提高了搜索的準(zhǔn)確性。進(jìn)一步地提高了用戶體驗(yàn)。并且通過對數(shù)據(jù)庫中新增的描述信息進(jìn)行檢測,并根據(jù)新增的描述信息建立對應(yīng)的數(shù)據(jù)文件的索引,進(jìn)一步提高了通過索引搜索相關(guān)數(shù)據(jù)的準(zhǔn)確性和實(shí)時(shí)性,保證最新的數(shù)據(jù)文件可以被用戶搜索、瀏覽到。
[0156]圖8為本發(fā)明實(shí)施例提供的第四種數(shù)據(jù)推送裝置的結(jié)構(gòu)示意圖,本發(fā)明圖8所示實(shí)施例在圖7所示實(shí)施例的基礎(chǔ)上,增加分詞模塊208;
[0157]分詞模塊208,用于利用分詞技術(shù),對所述描述信息進(jìn)行分詞,得到分詞結(jié)果。
[0158]本發(fā)明實(shí)施例所示的索弓I建立模塊207,具體可以用于:
[0159]根據(jù)所述分詞結(jié)果,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引。
[0160]應(yīng)用本發(fā)明圖8所示實(shí)施例,通過從至少兩個(gè)網(wǎng)站中抓取待抓取的數(shù)據(jù)文件,并從至少兩個(gè)網(wǎng)站的網(wǎng)頁上提取與數(shù)據(jù)文件對應(yīng)的描述信息,利用分詞技術(shù),對所述描述信息進(jìn)行分詞,得到分詞結(jié)果;根據(jù)所述分詞結(jié)果,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索弓丨,將數(shù)據(jù)文件的索引推送給用戶。使得用戶可以快速的搜索到大量、全面的數(shù)據(jù),提高數(shù)據(jù)搜索的效率,同時(shí)采用分詞技術(shù)和索引技術(shù),提高了搜索的準(zhǔn)確性。進(jìn)一步地提高了用戶體驗(yàn)。
[0161]需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0162]本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0163]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于計(jì)算機(jī)可讀取存儲介質(zhì)中,這里所稱得的存儲介質(zhì),如:R0M/RAM、磁碟、光盤等。
[0164]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種數(shù)據(jù)推送方法,應(yīng)用于服務(wù)器,其特征在于,包括: 根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件; 將所述數(shù)據(jù)文件存儲在所述服務(wù)器中; 向用戶推送用于訪問存儲在所述服務(wù)器中的數(shù)據(jù)文件的鏈接,以使用戶根據(jù)數(shù)據(jù)文件的鏈接訪問并搜索存儲在所述服務(wù)器中的數(shù)據(jù)文件。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件,包括: 根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,利用分布式爬蟲技術(shù),從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,預(yù)先設(shè)置用于存儲網(wǎng)頁URL的待抓取隊(duì)列; 所述根據(jù)預(yù)設(shè)的數(shù)據(jù)抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件,包括: 判斷所述待抓取隊(duì)列中是否存在網(wǎng)頁URL,其中,所述網(wǎng)頁URL為所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁URL; 如果存在,根據(jù)預(yù)設(shè)的數(shù)據(jù)抓取策略,基于所述待抓取隊(duì)列中存在的網(wǎng)頁URL抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括: 針對所述至少兩個(gè)網(wǎng)站包含的任一目標(biāo)網(wǎng)頁URL,判斷是否基于所述目標(biāo)網(wǎng)頁URL抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件; 如果否,將所述目標(biāo)網(wǎng)頁URL添加在所述待抓取隊(duì)列中。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 根據(jù)預(yù)設(shè)的提取規(guī)則,在所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁中提取與所述數(shù)據(jù)文件對應(yīng)的描述信息; 根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引,包括: 將所述描述信息存儲在數(shù)據(jù)庫中; 定時(shí)或每隔預(yù)設(shè)時(shí)間段檢測所述數(shù)據(jù)庫中是否存在新增的描述信息; 如果存在,建立與所述新增的描述信息對應(yīng)的數(shù)據(jù)文件的索引。7.根據(jù)權(quán)利要求5所述的方法,其特征在于,在根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引之前,還包括: 利用分詞技術(shù),對所述描述信息進(jìn)行分詞,得到分詞結(jié)果; 所述根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引,包括: 根據(jù)所述分詞結(jié)果,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引。8.一種數(shù)據(jù)推送裝置,應(yīng)用于服務(wù)器,其特征在于,包括:抓取模塊、存儲模塊和推送模塊; 所述抓取模塊,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件; 所述存儲模塊,用于將所述數(shù)據(jù)文件存儲在所述服務(wù)器中; 所述推送模塊,用于向用戶推送用于訪問存儲在所述服務(wù)器中的數(shù)據(jù)文件的鏈接,以使用戶根據(jù)數(shù)據(jù)文件的鏈接訪問并搜索存儲在所述服務(wù)器中的數(shù)據(jù)文件。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述抓取模塊,具體用于: 根據(jù)預(yù)設(shè)的數(shù)據(jù)文件抓取策略,利用分布式爬蟲技術(shù),從至少兩個(gè)網(wǎng)站抓取與待抓取數(shù)據(jù)的類型對應(yīng)的數(shù)據(jù)文件。10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,預(yù)先設(shè)置用于存儲網(wǎng)頁URL的待抓取隊(duì)列; 所述抓取模塊,包括:判斷子模塊和抓取子模塊; 所述判斷子模塊,用于判斷所述待抓取隊(duì)列中是否存在網(wǎng)頁URL,其中,所述網(wǎng)頁URL為所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁URL; 所述抓取子模塊,用于在所述判斷子模塊判斷結(jié)果為是的情況下,根據(jù)預(yù)設(shè)的數(shù)據(jù)抓取策略,基于所述待抓取隊(duì)列中存在的網(wǎng)頁URL抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件。11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,還包括:判斷模塊和添加模塊; 所述判斷模塊,用于針對所述至少兩個(gè)網(wǎng)站包含的任一目標(biāo)網(wǎng)頁URL,判斷是否基于所述目標(biāo)網(wǎng)頁URL抓取與待抓取數(shù)據(jù)類型對應(yīng)的數(shù)據(jù)文件; 所述添加模塊,用于所述判斷模塊判斷為否的情況下,將所述目標(biāo)網(wǎng)頁URL添加在所述待抓取隊(duì)列中。12.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括:提取模塊和索引建立模塊; 所述提取模塊,用于根據(jù)預(yù)設(shè)的提取規(guī)則,在所述至少兩個(gè)網(wǎng)站包含的網(wǎng)頁中提取與所述數(shù)據(jù)文件對應(yīng)的描述信息; 所述索引建立模塊,用于根據(jù)所述描述信息,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引,以使用戶根據(jù)數(shù)據(jù)文件的索引搜索存儲在所述服務(wù)器中的數(shù)據(jù)文件。13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述索引建立模塊,包括:存儲子模塊、檢測子模塊和索引建立子模塊; 所述存儲子模塊,用于將所述描述信息存儲在數(shù)據(jù)庫中; 所述檢測子模塊,用于定時(shí)或每隔預(yù)設(shè)時(shí)間段檢測所述數(shù)據(jù)庫中是否存在新增的描述信息; 所述索引建立子模塊,用于在所述檢測子模塊檢測為是的情況下,建立與所述新增的描述信息對應(yīng)的數(shù)據(jù)文件的索引。14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,還包括:分詞模塊; 所述分詞模塊,用于利用分詞技術(shù),對所述描述信息進(jìn)行分詞,得到分詞結(jié)果; 所述索引建立模塊,具體用于: 根據(jù)所述分詞結(jié)果,建立與所述描述信息對應(yīng)的數(shù)據(jù)文件的索引。
【文檔編號】G06F17/30GK105893559SQ201610201534
【公開日】2016年8月24日
【申請日】2016年3月31日
【發(fā)明人】林祖新
【申請人】北京奇藝世紀(jì)科技有限公司