專利名稱:一種多維數(shù)據(jù)分布方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)分布技木,尤其涉及ー種多維數(shù)據(jù)分布方法。
背景技術(shù):
對于大量數(shù)據(jù)的查找、遍歷、計算等操作來說,數(shù)據(jù)分布是影響數(shù)據(jù)操作的空間復(fù)雜度和時間復(fù)雜度的重要因素。傳統(tǒng)的數(shù)據(jù)分布,往往按照數(shù)據(jù)熱度或者按照特定的單ー維度或者將兩者結(jié)合將 數(shù)據(jù)分布到不同的服務(wù)器上,這種分布可以是均勻分布,也可以是非均勻分布。但是這些分布方法往往沒有結(jié)合用戶的需求,當進行數(shù)據(jù)的查找、計算時,數(shù)據(jù)的運算量通常較大。例如,數(shù)據(jù)只按照時間維度進行分布,當用戶查找某個城市的數(shù)據(jù)時,可能絕大部分數(shù)據(jù)不需要參與數(shù)據(jù)查找運算,這就導(dǎo)致計算性能低下,且計算資源浪費。因此,希望可以提出ー種用于解決上述問題的多維數(shù)據(jù)分布方法。
發(fā)明內(nèi)容
本發(fā)明的目的是提供ー種多維數(shù)據(jù)分布方法,可以結(jié)合用戶的需求,對數(shù)據(jù)進行分布,以提高數(shù)據(jù)查詢的效率。根據(jù)本發(fā)明的ー個方面,提供了ー種多維數(shù)據(jù)分布方法,包括將全集數(shù)據(jù)按照時間維度劃分為多級;對已經(jīng)按照時間維度劃分的數(shù)據(jù),按照數(shù)據(jù)維度,將每ー級數(shù)據(jù)進ー步劃分為均勻的份數(shù);建立索引文件,對已經(jīng)按照時間維度和數(shù)據(jù)維度劃分的數(shù)據(jù),按照業(yè)務(wù)需求的維度,將每ー份數(shù)據(jù)進ー步劃分到索引文件中。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點I)本發(fā)明通過對數(shù)據(jù)進行不同維度地劃分,提高了數(shù)據(jù)查詢的效率;2)本發(fā)明結(jié)合用戶需求進行數(shù)據(jù)的分布,節(jié)省了計算資源。
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯圖I為根據(jù)本發(fā)明的一個優(yōu)選實施例的多維數(shù)據(jù)分布方法的流程圖;圖2a為根據(jù)本發(fā)明的一個優(yōu)選實施例的所有數(shù)據(jù)的原始文檔;圖2b為根據(jù)本發(fā)明的一個優(yōu)選實施例的索引結(jié)構(gòu);圖2c為根據(jù)本發(fā)明的另ー個優(yōu)選實施例的索引結(jié)構(gòu);圖3為根據(jù)本發(fā)明的一個優(yōu)選實施例的多維數(shù)據(jù)分布模型;
具體實施方式
下面結(jié)合附圖對本發(fā)明作進ー步詳細描述。根據(jù)本發(fā)明的ー個方面,提供了ー種多維數(shù)據(jù)分布方法。參考圖1,圖I為根據(jù)本發(fā)明的一個優(yōu)選實施例的多維數(shù)據(jù)分布方法的流程圖。根據(jù)圖I,多維數(shù)據(jù)分布方法包括步驟S101,將全集數(shù)據(jù)按照時間維度劃分為多級,優(yōu)選為三級。具體地,全集數(shù)據(jù)指的是具有共同屬性的數(shù)據(jù)的集合,不同的網(wǎng)站所收錄的數(shù)據(jù) 通常存在數(shù)據(jù)量或數(shù)據(jù)內(nèi)容的差別,如生活信息類網(wǎng)站所收錄的數(shù)據(jù)通常和用戶的日常生活相關(guān),教育培訓(xùn)類網(wǎng)站所收錄的數(shù)據(jù)通常和教育相關(guān),當然,各網(wǎng)站所收錄的數(shù)據(jù)也存在包含、交叉的關(guān)系,如日常生活類的信息通常也包含教育信息。由此,本實施例中的全集數(shù)據(jù)尤指特定的網(wǎng)站所收錄的所有數(shù)據(jù),當然,這些數(shù)據(jù)是動態(tài)變化的。時間屬性,通常包括時、天、星期、月等単位,可以將數(shù)據(jù)按時、天、星期或月等単位進行劃分。本實施例中,優(yōu)選地,以天為単位,對全集數(shù)據(jù)進行劃分。根據(jù)實際測試發(fā)現(xiàn)用戶對近期的數(shù)據(jù)訪問頻繁,對遠期的數(shù)據(jù)訪問量降低,為了平衡服務(wù)器的負載以及提高數(shù)據(jù)訪問效率,優(yōu)選地將全集數(shù)據(jù)按照時間維度進行劃分和存儲。具體地,優(yōu)選地將全集數(shù)據(jù)劃分為三級。根據(jù)用戶對信息的時效性要求,第一級,從全集數(shù)據(jù)中劃分出N天以內(nèi)的數(shù)據(jù),N的取值為I到7之間,包括本數(shù)I和7 ;第二級,從全集數(shù)據(jù)中除第一級以外的數(shù)據(jù)中再次劃分出M天以內(nèi)的數(shù)據(jù),也就是N天以前、M天以內(nèi)的數(shù)據(jù);第三級,全集數(shù)據(jù)中除第一級和第二級以外的數(shù)據(jù)。當然,N和M的取值可以根據(jù)數(shù)據(jù)查詢量隨時間的變化來確定。預(yù)先設(shè)定每級數(shù)據(jù)可以滿足的查詢量的比例。假設(shè)第一級數(shù)據(jù)要求滿足10%的查詢量,第二級數(shù)據(jù)要求滿足60%的查詢量,第三級數(shù)據(jù)要求滿足30%的查詢量。N和M可以用更加一般性的時間標記tl和t2來表示。根據(jù)一段時間內(nèi)數(shù)據(jù)訪問量進行統(tǒng)計和數(shù)據(jù)劃分,選取tl和t2使得,tl時間內(nèi)的數(shù)據(jù)劃分為第一級數(shù)據(jù),對于第一級數(shù)據(jù)的訪問量占總訪問量的10% ;tl到t2時間內(nèi)的數(shù)據(jù)劃分為第二級數(shù)據(jù),使得對第二級數(shù)據(jù)的訪問量占總訪問量的60% ;t2時間以前的數(shù)據(jù)劃分為第三級數(shù)據(jù),使得對第三級數(shù)據(jù)的訪問量占總訪問量的30%。換而言之,第一級和第二級數(shù)據(jù)能夠滿足70%的需求,即,有70%比例的需求不需要參與全集運算,這極大的節(jié)省了計算資源,使得系統(tǒng)整體性能得以提升。全集數(shù)據(jù)通過時間維度劃分為多級數(shù)據(jù)后,當用戶需要獲取特定的數(shù)據(jù)時,首先檢索第一級數(shù)據(jù),若檢索到目標數(shù)據(jù),則直接返回數(shù)據(jù);若沒有檢索到目標數(shù)據(jù),則依次從第二級、第三級數(shù)據(jù)中進行檢索,直到檢索到目標數(shù)據(jù)。從數(shù)據(jù)量來看,三級數(shù)據(jù)的數(shù)據(jù)量依次増加。因此,可以將第一級數(shù)據(jù)存儲在存取速度最快的存儲器和服務(wù)器中,將第三級數(shù)據(jù)存儲在存取速度最慢但是存儲容量最大的存儲器和服務(wù)器中。這樣可以有效地提高數(shù)據(jù)檢索效率。步驟S102,對已經(jīng)按照時間維度劃分的數(shù)據(jù),按照數(shù)據(jù)維度,將每ー級數(shù)據(jù)進ー步劃分為均勻的份數(shù)。具體地,按照時間維度對全集數(shù)據(jù)劃分后,數(shù)據(jù)的查詢量可能還是較大,任意ー級數(shù)據(jù)的查詢延遲率可能還是較高。因此,對已經(jīng)按照時間維度劃分的數(shù)據(jù),按照數(shù)據(jù)維度進ー步劃分,而數(shù)據(jù)維度包括數(shù)據(jù)編號、用戶編號、數(shù)據(jù)的歸屬地或數(shù)據(jù)的類別等項,而各項都以數(shù)字的形式進行表示。其中,數(shù)據(jù)編號是數(shù)據(jù)的唯一標識,以產(chǎn)品數(shù)據(jù)為例,產(chǎn)品數(shù)據(jù)編號如產(chǎn)品的生產(chǎn)號,這些編號都是唯一的;其中,用戶編號,如數(shù)據(jù)編號一祥,對用戶進行唯一地標識;其中,數(shù)據(jù)的歸屬地,是指數(shù)據(jù)所歸屬的地域,如北京、天津地區(qū)的數(shù)據(jù);其中,數(shù)據(jù)的類別,是指按照不同網(wǎng)站的特征對數(shù)據(jù)進行分類,如生活信息類網(wǎng)站將數(shù)據(jù)分為租房、二手、招聘、生活服務(wù)等方面的數(shù)據(jù)??梢詫σ呀?jīng)按照時間維度劃分的數(shù)據(jù),按照數(shù)據(jù)維度的任意ー項,進一歩劃分為均勻的份數(shù),其中,劃分的方法為將已經(jīng)按照時間維度劃分的每ー級數(shù)據(jù),按照數(shù)據(jù)維度的任意一項進行取模運算,以得到多份隨機均勻分布的數(shù)據(jù)。下文以數(shù)據(jù)編號作為數(shù)據(jù)維度為例進行具體說明。例如,對已經(jīng)按照時間維度劃分為三級的數(shù)據(jù),將每ー級數(shù)據(jù)按照數(shù)據(jù)編號進ー步均勻劃分成多份,設(shè)將每ー級數(shù)據(jù)劃分成9份,具體的運算過程是首先,對每ー級所有按順序排列的數(shù)據(jù)編號通過散列函數(shù)(md5)進行隨機處理,得到隨機排列的數(shù)據(jù)編號作為每條數(shù)據(jù)的編號;然后,對這些隨機排列的數(shù)據(jù)編號都進行取模9的運算,并將每ー級數(shù)據(jù)按照已經(jīng)進行取模運算的數(shù)據(jù)編號均勻劃分成9份。由此,每ー份的數(shù)據(jù)編號是隨機的,每ー份的數(shù)據(jù)量是均勻的。同樣地,數(shù)據(jù)也可以按照用戶編號、數(shù)據(jù)的歸屬地或數(shù)據(jù)的類別進行相似的運算, 最終得到多份均勻的、隨機分布的數(shù)據(jù)。需要說明的是,現(xiàn)有技術(shù)中,數(shù)據(jù)編號的規(guī)則有多種,如順序遞增的編號、隨機排列的編號,本實施例中,數(shù)據(jù)編號的規(guī)則以不影響后續(xù)對數(shù)據(jù)進行隨機地、均勻地分布為佳。其中,現(xiàn)有技術(shù)中的散列函數(shù),通常包含128位數(shù)據(jù),本實施例,優(yōu)選散列函數(shù)的前64位或后64位數(shù)據(jù)進行運算。其中,對數(shù)據(jù)編號、用戶編號、數(shù)據(jù)的歸屬地或數(shù)據(jù)的類別等進行取模運算時,取模的分母根據(jù)服務(wù)器的數(shù)量和每臺服務(wù)器承載數(shù)據(jù)的能力進行確定,本發(fā)明優(yōu)選用于2 100臺服務(wù)器的情形。 步驟S103,建立索引文件,對已經(jīng)按照時間維度和數(shù)據(jù)維度劃分的數(shù)據(jù),按照業(yè)務(wù)需求的維度,將每ー份數(shù)據(jù)進ー步劃分到索引文件中。通常,全集數(shù)據(jù)通過時間維度和數(shù)據(jù)維度的劃分后,數(shù)據(jù)查找的效率大幅度提高,但是,每ー份數(shù)據(jù)的數(shù)量仍然較為龐大,因此,在此基礎(chǔ)上,將每ー份數(shù)據(jù)繼續(xù)按照業(yè)務(wù)需求的維度,劃分到不同的索引文件中。其中,業(yè)務(wù)需求是從大多數(shù)用戶的需求中抽取的特征,該抽取的特征必須符合兩個條件第一,絕大多數(shù)用戶需求中包含該特征,也就是最優(yōu)的特征,如大多數(shù)用戶經(jīng)常以地域的劃分為條件進行數(shù)據(jù)的查找;第二,數(shù)據(jù)在該特征上具有一定的分布特性。所謂分布特性,是指數(shù)據(jù)量的分布和用戶需要查找的數(shù)據(jù)量的分布是一致的,如以地域特征為業(yè)務(wù)需求,通常,海量用戶對每個城市的數(shù)據(jù)需求量是不一樣的,因此,為了提高數(shù)據(jù)的查找效率,需要根據(jù)用戶對城市的數(shù)據(jù)需求量,將數(shù)據(jù)分布在不同的城市,即每個城市的數(shù)據(jù)量的分布和用戶需要查找的每個城市的數(shù)據(jù)量是一致的,由此,數(shù)據(jù)分散地分布在不同的城市。數(shù)據(jù)分布的最終目的是為了提高數(shù)據(jù)查詢、遍歷的效率,而為了提高數(shù)據(jù)查詢、遍歷的效率,需要建立索引文件。常用的索引結(jié)構(gòu)有倒排索引結(jié)構(gòu),本實施例以倒排索引為例進行說明。倒排索引結(jié)構(gòu)的主要內(nèi)容為索引(key)和索引值(value),其中,索引值是每個索引項對應(yīng)的內(nèi)容。下文,將詳述數(shù)據(jù)與索引結(jié)構(gòu)關(guān)系。圖2a示出了所有數(shù)據(jù)的原始文檔,原始文檔中,包含了數(shù)據(jù)的文檔號、數(shù)據(jù)的歸屬地等內(nèi)容。圖2b示出了ー種索引結(jié)構(gòu),在該結(jié)構(gòu)中,索引設(shè)定為“租房”,索引值設(shè)定為“文檔的編號”,那么,索引“租房”對應(yīng)的索引值為“ 1、2、3、4” ;如果將索引的類別設(shè)定為“租房_城市”,索引值仍設(shè)定為“文檔的編號”,如圖2c所示,那么,索引“租房_北京”對應(yīng)的索引值為“1”,索引“租房_上海”對應(yīng)的索引值為“2”,依次類推。由上可以看出,如果將數(shù)據(jù)按照“租房_城市”劃分,則相對于數(shù)據(jù)按照“租房”劃分,索引所占的空間增長為4倍,索引值的長度縮短為1/4。為了進一歩降低數(shù)據(jù)存儲和計算所消耗的資源,需要對以業(yè)務(wù)特征進行分布的數(shù)據(jù)進行邏輯上的聚合。仍以地域特征為例,全國的城市,無論大小,有300多個。實踐中,海量用戶對每個城市的數(shù)據(jù)需求量是不一樣的,有的城市的數(shù)據(jù)可能是用戶捜索的熱點,有的城市的數(shù)據(jù)可能很少被用戶搜索。因此,在建立索引文件的時候,為了降低索引所占的空間,對多個城市的數(shù)據(jù)聚合為ー個邏輯的數(shù)據(jù),對應(yīng)ー個索引項,下文以示例進行具體說明,設(shè)所有用戶的總查詢數(shù)據(jù)量為1,所有城市的數(shù)據(jù)總量也為1,全國有A、B、C、D、E等城市,具體計算過程為 a)分別統(tǒng)計所有用戶對每個城市的數(shù)據(jù)查詢量;b)分別統(tǒng)計每個城市的數(shù)據(jù)量;c)綜合a)和b)的計算結(jié)果,對每個城市的數(shù)據(jù)量進行加權(quán)運算,加權(quán)的公式為rr=qr*r+dr*d,其中,rr表示姆個城市的數(shù)據(jù)量加權(quán)值,qr表示姆個城市的數(shù)據(jù)查詢量,dr表示每個城市的數(shù)據(jù)量,r和d分別表示qr和dr的加權(quán)系數(shù),并且,O ^ rr ^ I, O ^ qr ^ I,
r+d=l,其中,r和d的值根據(jù)具體的情況進行設(shè)定。d)將每個城市的數(shù)據(jù)量加權(quán)值按照從高到低或從低到高的順序排列,并將最高的加權(quán)值或者更高的加權(quán)值作為ー個邏輯單位的閾值,,將多個地域作為ー個邏輯單位,使得所述多個地域的數(shù)據(jù)量加權(quán)值之和大于所述邏輯単位的閾值。例如,按照從高到低的順序,A、B、C、D、E等城市的加權(quán)值分別為O. 3,0. 2,0. 2,0. 1,0. I等,由于A城市的加權(quán)值最高為O. 3,以O(shè). 3為ー個邏輯單位的閾值,那么將O. 3或者O. 3以上的數(shù)作為數(shù)據(jù)分布的ー個邏輯單位,以O(shè). 3作為數(shù)據(jù)分布的一個邏輯單位為例。那么,聚合的結(jié)果為A和加權(quán)值比O. I更小的城市的加權(quán)值之和大于O. 3、B和D以及加權(quán)值比O. I更小的城市的加權(quán)值之和大于O. 3、C和E以及加權(quán)值比O. I更小的城市的加權(quán)值之和大于O. 3,由于這些城市的加權(quán)值的之和分別大于一個邏輯単位的閾值O. 3,因此分別將上述城市的數(shù)據(jù)進行邏輯上的聚合。所述聚合并不是要把這些數(shù)據(jù)存儲在同一個服務(wù)器或數(shù)據(jù)庫中,而是將上述數(shù)據(jù)的城市索引用邏輯單位的索引來代替,以降低索引所占用的空間。對各城市的數(shù)據(jù)按照邏輯聚合后,為了進一歩降低索引所占的空間,對索引結(jié)構(gòu)進行改進。通常,將一條完整的數(shù)據(jù)稱為一條単位數(shù)據(jù),単位數(shù)據(jù)是組成海量數(shù)據(jù)的基本單位。進ー步細分,一條単位數(shù)據(jù)對應(yīng)ー個或多個屬性項的內(nèi)容,每個屬性項的內(nèi)容是組成一條單位數(shù)據(jù)的基本単位。實踐中,每個屬性項的查詢頻度是不同的,為了降低索引所占的空間,選取高頻訪問的屬性項,并將屬性項的內(nèi)容按照業(yè)務(wù)特征進行分布。換言之,采用空間換取計算時間的方式,提高數(shù)據(jù)的查詢效率。如數(shù)據(jù)按照地域特征分布后,由于存在跨城市的數(shù)據(jù)查詢,為滿足這種查詢需求,通常需要對數(shù)據(jù)進行并集運算,但是這種運算的代價高,因此,將數(shù)據(jù)按照業(yè)務(wù)需求的特征進行劃分時,冗余ー份數(shù)據(jù),而冗余度通常為100%,為減小這個冗余度,可以僅對數(shù)據(jù)的高頻查詢的屬性項的內(nèi)容進行冗余。雖然,大多數(shù)用戶的查找需求中包括上文中的業(yè)務(wù)特征,但是,還存在極小部分用戶的查找需求中不包括上文中的業(yè)務(wù)特征,由此,通過對該部分數(shù)據(jù)的屬性項的內(nèi)容進行冗余的方法,提高數(shù)據(jù)查找的效率。根據(jù)以上三個維度,可以將數(shù)據(jù)分布在不同的服務(wù)器中,具體分布的情況可以參考圖3所示的多維數(shù)據(jù)分布模型。如圖3所示,首先,將數(shù)據(jù)按照時間維度進行分為三級;然后,將每ー級數(shù)據(jù)按照數(shù)據(jù)維度劃分成多份(例如I到K份);最后,將每ー份數(shù)據(jù)按照業(yè)務(wù)維度劃分到多份索引文件中(例如I到z份索引文件)。通過以上三個維度,可以將數(shù)據(jù)均勻分割為多個數(shù)據(jù)子集,然后將每個數(shù)據(jù)子集存放于不同的服務(wù)器。當進行數(shù)據(jù)檢索時,可以同時向這些服務(wù)器發(fā)送請求,并收集匯總的結(jié)果予以返回,即進行并行化調(diào)取數(shù)據(jù),這樣可以提升單個服務(wù)器查詢的響應(yīng)時延。
與現(xiàn)有技術(shù)相比,本發(fā)明所提供的多維數(shù)據(jù)分布方法具有以下優(yōu)點I)本發(fā)明依次按照時間維度、數(shù)據(jù)維度、業(yè)務(wù)需求的維度進行數(shù)據(jù)的分布,減小了查詢響應(yīng)延遲,提升了系統(tǒng)整體性能。2)本發(fā)明提供的方法使得大部分的數(shù)據(jù)不需要參與全集運算,極大地節(jié)省了計算資源。3)據(jù)統(tǒng)計,在數(shù)據(jù)量過億的情況下,利用30臺左右的服務(wù)器(同類系統(tǒng)100臺)即可承載日均超過3億的請求量,且查詢平均響應(yīng)延遲僅10ms。以上所揭露的僅為本發(fā)明的ー種較佳實施例而已,當然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
權(quán)利要求
1.ー種多維數(shù)據(jù)分布方法,包括 將全集數(shù)據(jù)按照時間維度劃分為多級; 對已經(jīng)按照時間維度劃分的數(shù)據(jù),按照數(shù)據(jù)維度,將每ー級數(shù)據(jù)進ー步劃分為均勻的份數(shù); 建立索引文件,對已經(jīng)按照時間維度和數(shù)據(jù)維度劃分的數(shù)據(jù),按照業(yè)務(wù)需求的維度,將每ー份數(shù)據(jù)進ー步劃分到索引文件中。
2.根據(jù)權(quán)利要求I所述的分布方法,其中,將全集數(shù)據(jù)按照時間維度劃分為多級的步驟具體包括 將所述全集數(shù)據(jù)按照時間維度劃分為三級 第一級,從全集數(shù)據(jù)中劃分出最近的第一時間段以內(nèi)的數(shù)據(jù); 第二級,從全集數(shù)據(jù)中除第一級以外的數(shù)據(jù)中再次劃分出緊接著第一時間段并在第一時間段之前的第二時間段內(nèi)的數(shù)據(jù); 第三級,全集數(shù)據(jù)中除第一級數(shù)據(jù)和第二級數(shù)據(jù)以外的數(shù)據(jù)。
3.根據(jù)權(quán)利要求I或2所述的分布方法,其中,所述數(shù)據(jù)維度包括數(shù)據(jù)編號、用戶編號、數(shù)據(jù)的歸屬地或數(shù)據(jù)的類別。
4.根據(jù)權(quán)利要求I或2所述的分布方法,其中,所述的按照數(shù)據(jù)維度,將每ー級數(shù)據(jù)進ー步劃分為均勻的份數(shù),還包括 將所述每ー級數(shù)據(jù)的數(shù)據(jù)維度的任一項進行散列函數(shù)的運算; 將運算結(jié)果作為每條數(shù)據(jù)的編號對要分成的份數(shù)進行取模運算; 將根據(jù)取模結(jié)果將對應(yīng)的每ー級數(shù)據(jù)分為多份。
5.根據(jù)權(quán)利要求4所述的分布方法,其中,采用所述散列函數(shù)的前64位或后64位數(shù)據(jù)進行運算。
6.根據(jù)權(quán)利要求1-5任一項所述的分布方法,其中,所述業(yè)務(wù)需求特征為地域特征。
7.根據(jù)權(quán)利要求6所述的分布方法,其中,所述數(shù)據(jù)按照地域特征進行劃分,還包括 根據(jù)各個地域的數(shù)據(jù)查詢量,對以地域特征進行分布的數(shù)據(jù)作邏輯上的聚合。
8.根據(jù)權(quán)利要求7所述的分布方法,其中,根據(jù)各個地域的數(shù)據(jù)查詢量對以地域特征進行分布的數(shù)據(jù)作邏輯上的聚合的步驟包括如下步驟 a)分別統(tǒng)計各個地域的數(shù)據(jù)查詢量; b)分別統(tǒng)計各個地域的數(shù)據(jù)量; c)綜合a)和b)的計算結(jié)果,對各個地域的數(shù)據(jù)量進行加權(quán)運算,加權(quán)的公式為rr=qr*r+dr*d,其中,rr表示各個地域的數(shù)據(jù)量加權(quán)值,qr表示各個地域的數(shù)據(jù)查詢量,dr表示各個地域的數(shù)據(jù)量,r和d分布表示qr和dr的加權(quán)系數(shù),并且,0 < rr ^ 1,0 ^ qr ^ I,0 ^ dr ^ 1,0 ^ r ^ 1,0 ^ d ^ I, r+d=l ; d)將各個地域的數(shù)據(jù)量加權(quán)值按照從高到低或從低到高的順序排列,并將最高的加權(quán)值或者更高的加權(quán)值作為ー個邏輯單位的閾值,將多個地域作為ー個邏輯單位,使得所述多個地域的數(shù)據(jù)量加權(quán)值之和大于所述邏輯単位的閾值。
9.根據(jù)權(quán)利要求8所述的分布方法,還包括 統(tǒng)計所述數(shù)據(jù)各屬性項的訪問頻度; 選取所述數(shù)據(jù)的高頻訪問的屬性項;將所述高頻訪問的屬性項的內(nèi)容按地域特征進行分布; 其中,所述單位數(shù)據(jù)為數(shù)據(jù)的基本単位,所述屬性項為單位數(shù)據(jù)的基本単位。
10.根據(jù)權(quán)利要求1-9任一項所述的分布方法,還包括將所述均勻劃分的數(shù)據(jù)分別存儲在多個服務(wù)器上,在數(shù)據(jù)查詢時,向所述多個服務(wù)器并行發(fā)出查詢請求并調(diào)取所查詢數(shù)據(jù)。
全文摘要
本發(fā)明提供了一種多維數(shù)據(jù)分布方法,包括將全集數(shù)據(jù)按照時間維度劃分為多級;對已經(jīng)按照時間維度劃分的數(shù)據(jù),按照數(shù)據(jù)維度,將每一級數(shù)據(jù)進一步劃分為均勻的份數(shù);建立索引文件,對已經(jīng)按照時間維度和數(shù)據(jù)維度劃分的數(shù)據(jù),按照業(yè)務(wù)需求的維度,將每一份數(shù)據(jù)進一步劃分到索引文件中。本發(fā)明通過結(jié)合用戶的需求特征,運用多個維度對數(shù)據(jù)的分布提出了改進,提高了數(shù)據(jù)查詢的效率。
文檔編號G06F17/30GK102737123SQ201210194829
公開日2012年10月17日 申請日期2012年6月13日 優(yōu)先權(quán)日2012年6月13日
發(fā)明者孫海濤, 崔金峰, 龍誠 申請人:北京五八信息技術(shù)有限公司