專利名稱:網(wǎng)絡(luò)數(shù)據(jù)采集方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù),尤其涉及一種網(wǎng)絡(luò)數(shù)據(jù)采集方法及裝置。
背景技術(shù):
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)上信息量呈爆炸式增長(zhǎng),搜索引擎已經(jīng)成為人們?cè)诨ヂ?lián)網(wǎng)上搜索數(shù)據(jù)的主要手段。而搜索引擎的數(shù)據(jù)源是通過(guò)網(wǎng)絡(luò)采集器采集互聯(lián)網(wǎng)上的數(shù)據(jù)獲得的。但是,由于網(wǎng)絡(luò)上的數(shù)據(jù)更新速度塊,而現(xiàn)有的網(wǎng)絡(luò)采集器已經(jīng)無(wú)法跟上高速更新的網(wǎng)絡(luò)數(shù)據(jù),從而導(dǎo)致了大量數(shù)據(jù)的丟失。因而,如何提高網(wǎng)絡(luò)數(shù)據(jù)的采集效率已經(jīng)成為了亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種網(wǎng)絡(luò)數(shù)據(jù)采集方法及裝置,以提高網(wǎng)絡(luò)數(shù)據(jù)的采集效率。本發(fā)明實(shí)施例采用如下技術(shù)方案一種網(wǎng)絡(luò)數(shù)據(jù)采集方法,包括獲取各個(gè)采集節(jié)點(diǎn)的性能效益參數(shù)值,其中所述性能效益參數(shù)值用于表示所述各個(gè)采集節(jié)點(diǎn)處理性能的優(yōu)劣;根據(jù)所述性能效益參數(shù)值,確定具有最大性能效益參數(shù)值的采集節(jié)點(diǎn);為所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)分配任務(wù)。一種網(wǎng)絡(luò)數(shù)據(jù)采集裝置,包括信息獲取單元,用于周期性獲取各個(gè)采集節(jié)點(diǎn)的性能指標(biāo)參數(shù),其中所述性能指標(biāo)參數(shù)為CPU使用率、網(wǎng)絡(luò)帶寬使用率以及任務(wù)完成率;節(jié)點(diǎn)選取單元,用于根據(jù)所述性能指標(biāo)參數(shù)計(jì)算加權(quán)性能效益參數(shù)值,確定具有最大性能效益參數(shù)值的采集節(jié)點(diǎn);任務(wù)分配單元,用于為所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)分配任務(wù)。本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)采集方法及裝置,首先獲取各個(gè)采集節(jié)點(diǎn)的性能指標(biāo)參數(shù),并利用性能效益函數(shù)計(jì)算加權(quán)性能效益參數(shù)值,該值用于表示所述各個(gè)采集節(jié)點(diǎn)處理性能的優(yōu)劣,然后根據(jù)所述加權(quán)性能效益參數(shù)值,確定具有最大性能效益參數(shù)值的采集節(jié)點(diǎn),為所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)分配任務(wù)。通過(guò)上述可以看出,具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)的處理性能最優(yōu),也就是說(shuō)它當(dāng)前所要處理的任務(wù)最少,因此,可為所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)分配任務(wù),從而減輕其他采集節(jié)點(diǎn)的負(fù)擔(dān)。那么這樣,利用本發(fā)明實(shí)施例的技術(shù)方案,可保證在進(jìn)行網(wǎng)絡(luò)采集的過(guò)程中,各個(gè)采集節(jié)點(diǎn)都能正常的工作,采集到的數(shù)據(jù)全面,避免了現(xiàn)有技術(shù)中網(wǎng)絡(luò)采集過(guò)程中數(shù)據(jù)丟失的缺陷,從而提高了網(wǎng)絡(luò)采集的效率。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例一網(wǎng)絡(luò)數(shù)據(jù)采集方法的流程圖;圖2為本發(fā)明實(shí)施例二網(wǎng)絡(luò)數(shù)據(jù)采集方法的流程圖;圖3為本發(fā)明實(shí)施例三網(wǎng)絡(luò)數(shù)據(jù)采集裝置的示意圖;圖4為本發(fā)明實(shí)施例三網(wǎng)絡(luò)數(shù)據(jù)采集裝置的結(jié)構(gòu)圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。如圖1所示,本發(fā)明實(shí)施例一提供了一種網(wǎng)絡(luò)數(shù)據(jù)采集方法,包括步驟11、獲取各個(gè)采集節(jié)點(diǎn)的性能效益參數(shù)值。其中,所述性能效益參數(shù)值用于表示所述各個(gè)采集節(jié)點(diǎn)處理性能的優(yōu)劣。當(dāng)某個(gè)采集節(jié)點(diǎn)的處理性能好,它的性能效益參數(shù)值相對(duì)較大,而當(dāng)某個(gè)采集節(jié)點(diǎn)的處理性能差, 它的性能效益參數(shù)值相對(duì)較小。在本發(fā)明實(shí)施例中,在獲取各個(gè)采集節(jié)點(diǎn)的性能效益參數(shù)值時(shí),可首先獲取各個(gè)采集節(jié)點(diǎn)的各個(gè)性能指標(biāo)參數(shù),然后再分別對(duì)所述各個(gè)采集節(jié)點(diǎn)的各個(gè)性能指標(biāo)參數(shù)加權(quán)求和,獲取所述各個(gè)采集節(jié)點(diǎn)的性能效益參數(shù)值。其中,所述性能指標(biāo)參數(shù)可以包括采集節(jié)點(diǎn)的CPU使用率、網(wǎng)絡(luò)帶寬使用率、任務(wù)完成率?;蛘邽榱烁娴捏w現(xiàn)各個(gè)采集節(jié)點(diǎn)的處理性能,所述性能指標(biāo)參數(shù)還可包括內(nèi)存使用率。當(dāng)所述性能指標(biāo)參數(shù)所包括的參數(shù)種類越多,對(duì)各個(gè)采集節(jié)點(diǎn)性能的評(píng)價(jià)越全面,相應(yīng)的獲得的性能效益參數(shù)值越能反映出各個(gè)采集節(jié)點(diǎn)處理性能的優(yōu)劣,從而使得對(duì)各采集節(jié)點(diǎn)之間任務(wù)的調(diào)度更準(zhǔn)確。當(dāng)然,所述性能指標(biāo)參數(shù)還可不僅限于包括在此所列舉的幾種。其中,對(duì)于各個(gè)采集節(jié)點(diǎn)中的任何一個(gè)采集節(jié)點(diǎn),CPU使用率的計(jì)算方式為U(c) =exp(-y XCS),其中U(c)表示CPU使用率,CS表示所述采集節(jié)點(diǎn)當(dāng)前的CPU使用率,μ 為常數(shù);內(nèi)存使用率的計(jì)算方式為U(m) = l-eXp(-MS)/l-eXp(-TMS),其中U(m)表示內(nèi)存使用率,MS表示所述采集節(jié)點(diǎn)的可用內(nèi)存量,TMS表示所述采集節(jié)點(diǎn)的內(nèi)存總量;網(wǎng)絡(luò)帶寬使用率的計(jì)算方式為:U(n) =gXLn(HhXNS),其中U(n)表示網(wǎng)絡(luò)帶寬使用率,g為常數(shù),h為常數(shù),NS表示所述采集節(jié)點(diǎn)的當(dāng)前可用帶寬。如上所述的,對(duì)于某個(gè)采集節(jié)點(diǎn),其對(duì)應(yīng)的性能指標(biāo)參數(shù)加權(quán)求和即可獲得性能效益參數(shù)值。例如,當(dāng)性能指標(biāo)參數(shù)同時(shí)包括CPU使用率、網(wǎng)絡(luò)帶寬使用率和任務(wù)完成率時(shí),所述性能效益參數(shù)值的計(jì)算方式為
權(quán)利要求
1.一種網(wǎng)絡(luò)數(shù)據(jù)采集方法,其特征在于,包括獲取各個(gè)采集節(jié)點(diǎn)的性能效益參數(shù)值,其中所述性能效益參數(shù)值用于表示所述各個(gè)采集節(jié)點(diǎn)處理性能的優(yōu)劣;根據(jù)所述性能效益參數(shù)值,確定具有最大性能效益參數(shù)值的采集節(jié)點(diǎn); 為所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)分配任務(wù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取各個(gè)采集節(jié)點(diǎn)的性能效益參數(shù)值包括獲取所述各個(gè)采集節(jié)點(diǎn)的各性能指標(biāo)參數(shù);分別對(duì)所述各個(gè)采集節(jié)點(diǎn)的各性能指標(biāo)參數(shù)加權(quán)求和,獲取所述各個(gè)采集節(jié)點(diǎn)的性能效益參數(shù)值。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述性能指標(biāo)參數(shù)至少包括CPU使用率, 網(wǎng)絡(luò)帶寬使用率,任務(wù)完成率;其中,所述CPU使用率的計(jì)算方式為U(C) =exp(-y XCS),其中U(c)表示CPU使用率,CS表示所述采集節(jié)點(diǎn)當(dāng)前的CPU使用率,μ為常數(shù);所述網(wǎng)絡(luò)帶寬使用率的計(jì)算方式為U(n) = gXLn(hhXNS),其中U(n)表示網(wǎng)絡(luò)帶寬使用率,g為常數(shù),h為常數(shù),NS表示所述采集節(jié)點(diǎn)的當(dāng)前可用帶寬;所述性能效益參數(shù)值的計(jì)算方式為 2U(w) = S^j CokU(X) = δ [ω1· U{c) +ω2. U(n)],k=\其中,U(w)表示加權(quán)性能效益參數(shù)值,為常數(shù)且α^+ω2 = 1,U(c)表示CPU使用率,U(n)表示網(wǎng)絡(luò)帶寬使用率,δ表示任務(wù)完成率,為常數(shù)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述性能指標(biāo)參數(shù)還包括內(nèi)存使用率; 所述內(nèi)存使用率的計(jì)算方式為U(m) = l-exp(-MS)/l-exp(-TMS),其中U(m)表示內(nèi)存使用率,MS表示所述采集節(jié)點(diǎn)的可用內(nèi)存量,TMS表示所述采集節(jié)點(diǎn)的內(nèi)存總量;所述性能效益參數(shù)值的計(jì)算方式為U(w) = S^ω"υ(χ) = S-[ω1·U(c) + ω2 ·U{n) +ω3.U(m)],k=\其中,U(w)表示加權(quán)性能效益參數(shù)值,ωk為常數(shù)且α^+α^+ω3= l,u(c)表示CPU使用率,U(m)表示內(nèi)存使用率,U(n)表示網(wǎng)絡(luò)帶寬使用率,δ表示任務(wù)完成率,為常數(shù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述為所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)分配任務(wù)包括將所述采集節(jié)點(diǎn)中其他的節(jié)點(diǎn)的任務(wù)調(diào)度到所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn);或者將接收到的新的任務(wù)分配給所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)。
6.根據(jù)權(quán)利要求1-5任一所述的方法,其特征在于,所述方法還包括當(dāng)?shù)竭_(dá)設(shè)定的調(diào)度周期時(shí),獲取所述各個(gè)采集節(jié)點(diǎn)的當(dāng)前性能效益參數(shù)值,并確定具有最大當(dāng)前性能效益參數(shù)值的采集節(jié)點(diǎn);如果所述采集節(jié)點(diǎn)中至少一個(gè)第一采集節(jié)點(diǎn)的當(dāng)前性能效益參數(shù)值低于最小節(jié)點(diǎn)性能效益值,將所述第一采集節(jié)點(diǎn)的任務(wù)調(diào)度到具有所述最大當(dāng)前性能效益參數(shù)值的采集節(jié)點(diǎn)。如果全部采集節(jié)點(diǎn)的當(dāng)前性能效益參數(shù)值都低于最小節(jié)點(diǎn)性能效益值,延長(zhǎng)所述調(diào)度周期;如果全部采集節(jié)點(diǎn)的當(dāng)前性能效益參數(shù)值都低于最大節(jié)點(diǎn)性能效益值,縮短所述調(diào)度周期。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在所述采集節(jié)點(diǎn)中至少一個(gè)第一采集節(jié)點(diǎn)的當(dāng)前性能效益參數(shù)值低于最小節(jié)點(diǎn)性能效益值時(shí),將所述第一采集節(jié)點(diǎn)的任務(wù)調(diào)度到具有所述最大當(dāng)前性能效益參數(shù)值的采集節(jié)點(diǎn)包括將所述第一采集節(jié)點(diǎn)任務(wù)的W^倍的任務(wù)調(diào)度到具有所述最大當(dāng)前加權(quán)性能效益參數(shù)值的采集節(jié)點(diǎn),其中0< W^ < 1。
8.—種網(wǎng)絡(luò)數(shù)據(jù)采集裝置,其特征在于,包括信息獲取單元,用于周期性獲取各個(gè)采集節(jié)點(diǎn)的性能指標(biāo)參數(shù),其中所述性能指標(biāo)參數(shù)為CPU使用率、網(wǎng)絡(luò)帶寬使用率以及任務(wù)完成率;節(jié)點(diǎn)選取單元,用于根據(jù)所述性能指標(biāo)參數(shù)計(jì)算加權(quán)性能效益參數(shù)值,確定具有最大性能效益參數(shù)值的采集節(jié)點(diǎn);任務(wù)分配單元,用于為所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)分配任務(wù)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述信息獲取單元包括 第一參數(shù)獲取模塊,用于獲取所述各個(gè)采集節(jié)點(diǎn)的性能指標(biāo)參數(shù);第二參數(shù)獲取模塊,用于分別對(duì)所述各個(gè)采集節(jié)點(diǎn)的性能指標(biāo)參數(shù)加權(quán)求和,獲取所述各個(gè)采集節(jié)點(diǎn)的性能效益參數(shù)值。
10.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述任務(wù)分配單元具體用于將所述采集節(jié)點(diǎn)中其他的節(jié)點(diǎn)的任務(wù)調(diào)度到所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn);或者所述任務(wù)分配單元具體用于將接收到的新的任務(wù)分配給所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)。
11.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述裝置還包括信息處理單元,用于當(dāng)?shù)竭_(dá)設(shè)定的調(diào)度周期時(shí),獲取所述各個(gè)采集節(jié)點(diǎn)的當(dāng)前性能效益參數(shù)值,并確定具有最大當(dāng)前性能效益參數(shù)值的采集節(jié)點(diǎn);時(shí)間調(diào)整單元,用于在全部采集節(jié)點(diǎn)的當(dāng)前性能效益參數(shù)值都低于最小節(jié)點(diǎn)性能效益值時(shí),延長(zhǎng)所述調(diào)度周期;如果在采集節(jié)點(diǎn)的當(dāng)前性能效益參數(shù)值都高于最大節(jié)點(diǎn)性能效益值時(shí),縮短所述調(diào)度周期;所述任務(wù)分配單元還用于,在所述采集節(jié)點(diǎn)中至少一個(gè)第一采集節(jié)點(diǎn)的當(dāng)前性能效益參數(shù)值低于最小節(jié)點(diǎn)性能效益值時(shí),將所述第一采集節(jié)點(diǎn)的任務(wù)調(diào)度到具有所述最大當(dāng)前性能效益參數(shù)值的采集節(jié)點(diǎn)。
全文摘要
本發(fā)明實(shí)施例公開了一種網(wǎng)絡(luò)數(shù)據(jù)采集方法及裝置,涉及網(wǎng)絡(luò)技術(shù),為提高網(wǎng)絡(luò)數(shù)據(jù)的采集效率而發(fā)明。所述方法包括獲取各個(gè)采集節(jié)點(diǎn)的性能效益參數(shù)值,其中所述性能效益參數(shù)值用于表示所述各個(gè)采集節(jié)點(diǎn)處理性能的優(yōu)劣;根據(jù)所述性能效益參數(shù)值,確定具有最大性能效益參數(shù)值的采集節(jié)點(diǎn);為所述具有最大性能效益參數(shù)值的采集節(jié)點(diǎn)分配任務(wù)。本發(fā)明實(shí)施例能夠提高網(wǎng)絡(luò)數(shù)據(jù)的采集效率。
文檔編號(hào)H04L29/08GK102571854SQ20101060916
公開日2012年7月11日 申請(qǐng)日期2010年12月17日 優(yōu)先權(quán)日2010年12月17日
發(fā)明者于曉明, 吳新麗, 張濤, 楊建武, 王松 申請(qǐng)人:北京北大方正電子有限公司, 北京大學(xué), 北大方正集團(tuán)有限公司