本發(fā)明涉及大數(shù)據(jù)分析技術(shù)領(lǐng)域,具體地,涉及面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法及系統(tǒng)。
背景技術(shù):
隨著信息技術(shù),特別是網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,以互聯(lián)網(wǎng)為代表的網(wǎng)絡(luò)化已在社會的各個層面、各個行業(yè)展開,突破了時間和空間的限制,全球數(shù)據(jù)正以驚人的速度增長,人類社會正由IT時代進入DT時代,數(shù)字化改變了消費者的行為模式、價值觀念,改變了企業(yè)的商業(yè)模式和運營模式。Gartner研究表明,每天我們產(chǎn)生超過2.5EB的數(shù)據(jù),已進入E級時代,專家預(yù)測,到2020年,全球數(shù)據(jù)總量將超過40ZB。據(jù)統(tǒng)計,谷歌公司每天要處理超過24PB的數(shù)據(jù),其數(shù)據(jù)量是美國國家圖書館所有紙質(zhì)出版物所含數(shù)據(jù)的上千倍;FaceBook每天更新的照片量超過1000萬張,每天人們在網(wǎng)站上點擊“喜歡”按鈕或者寫評論超過30億次;YouTube視頻網(wǎng)站每月接待多達8億的訪客,平均每一秒就會有一段長度在一小時以上的視頻上傳;微信,作為我們身邊使用最多的社交媒體,每月活躍用戶已達到5.49億,用戶覆蓋200多個國家、超過20種語言,每天的數(shù)據(jù)量中光音頻聊天數(shù)據(jù)就超過2.8億分鐘;新浪微博在短短的三年多時間里已有注冊用戶近5億。
大數(shù)據(jù)的出現(xiàn)和發(fā)展,給我們的生活帶來巨大便利。同時,數(shù)據(jù)的多樣性、復雜性以及龐大體量也使數(shù)據(jù)分析處理面臨前所未有的挑戰(zhàn),如何更好地管理和利用大數(shù)據(jù)已成為普遍關(guān)注的話題。近些年出現(xiàn)了以Hadoop為代表的一批大數(shù)據(jù)平臺及相關(guān)的并行處理技術(shù),但卻始終缺乏更為有效的數(shù)據(jù)組織形式,這對數(shù)據(jù)的分析利用帶來很大阻礙,其大量性(Volume)、多樣性(Variety)、高速性(Velocity)和價值性(Value)的特征,使得人們分析數(shù)據(jù)面臨越來越多的挑戰(zhàn)。首先是數(shù)據(jù)復雜性的挑戰(zhàn),大數(shù)據(jù)的數(shù)據(jù)類型和模式具有更多的多樣性,聯(lián)系也較為復雜,數(shù)據(jù)的質(zhì)量良莠不齊,造成數(shù)據(jù)在理解、計算與表達上面臨了相當大的困難,語義的分析與情感的體會也變得非常復雜,很大程度上影響了數(shù)據(jù)組織模型的設(shè)計與制作。其次是計算復雜性的挑戰(zhàn),大數(shù)據(jù)的上述特點使得以往的機器學習、信息搜索以及數(shù)據(jù)收集得不到當前大數(shù)據(jù)的有效支持,不能夠進行全局式的數(shù)據(jù)分析與計算,因而需要在計算時適時脫離傳統(tǒng)計算的束縛。第三是系統(tǒng)復雜性的挑戰(zhàn),當前,即使是Hadoop等大數(shù)據(jù)處理平臺,在面臨數(shù)據(jù)大、結(jié)構(gòu)復雜的情況下也會存在計算周期長、難度較高的問題,這一問題不僅給大數(shù)據(jù)處理系統(tǒng)的整體結(jié)構(gòu)、計算機構(gòu)以及計算方式提供更加嚴峻的挑戰(zhàn),同時也在數(shù)據(jù)處理系統(tǒng)的運行速度及其耗能方面都造成了巨大的挑戰(zhàn)。
因此,將大數(shù)據(jù)的復雜本性定量化,有效研究數(shù)據(jù)所包含的內(nèi)在問題,梳理各個數(shù)據(jù)之間存在的內(nèi)部聯(lián)系,對復雜的模型系統(tǒng)進行有效的解析,降低其復雜程度,可在一定程度上幫助我們理解復雜的大數(shù)據(jù)模型,了解其所具有的本質(zhì)特征,進而更好的獲得抽象化的知識信息。在大數(shù)據(jù)的求解過程中,著眼數(shù)據(jù)生命周期,以數(shù)據(jù)為中心,在上述數(shù)據(jù)復雜本性定量化的基礎(chǔ)上,研究相應(yīng)有效的計算模型,合理改善數(shù)據(jù)計算模式,建立起更為規(guī)范化的數(shù)據(jù)模式,對大數(shù)據(jù)的相關(guān)理論進行深入研究,不斷探索充足的數(shù)據(jù),進行分層分類計算。
本發(fā)明提出了一種面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法,針對具體主體目標,將主體目標屬性層級化,將基于該主體目標的數(shù)據(jù)定量化后進行分層管理,為大數(shù)據(jù)條件下數(shù)據(jù)的組織歸類提供了參考,有效解決了海量數(shù)據(jù)的組織管理問題。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法及系統(tǒng)。
根據(jù)本發(fā)明提供的面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法,包括如下步驟:
步驟1:建立面向目標對象的洋蔥式層次化描述模型,所述目標對象包括:客觀存在的個體、組織、部門;
步驟2:根據(jù)步驟1建立的洋蔥式層次化描述模型為目標對象的每個層次設(shè)置相應(yīng)的權(quán)值;
步驟3:對目標對象進行量化;
步驟4:通過計算數(shù)據(jù)的洋蔥值來判定該數(shù)據(jù)對應(yīng)目標對象的重要程度,所述重要程度即等同于該數(shù)據(jù)在洋蔥式層次化描述模型中的分層位置;洋蔥值越高則相對于主體目標的重要程度越高;
步驟5:根據(jù)洋蔥值對數(shù)據(jù)進行分類存儲,建立基于洋蔥值的數(shù)據(jù)檢索。減少數(shù)據(jù)檢索空間,加快數(shù)據(jù)的分類檢索速度,提升數(shù)據(jù)挖掘分析效率。
優(yōu)選地,所述步驟1中的面向目標對象的洋蔥式層次化描述模型包括:n個層次,由內(nèi)到外依次為:核心層、內(nèi)核層以及外層,越靠近內(nèi)層的層次則與目標對象的相關(guān)度越高;其中:所述外層又包括若干個分層;n為大于等于2的自然數(shù)。
優(yōu)選地,所述步驟2包括:將洋蔥式層次化描述模型由內(nèi)到外的層次的權(quán)值分別記為λ1,λ2,...,λi,...,λn,權(quán)值的大小表示相對于目標對象的重要程度,越靠近核心層次的權(quán)值越大;定義λi表示第i層的權(quán)值,M為常數(shù)表示層次化模型中各層次的權(quán)值和。
優(yōu)選地,所述步驟3包括:將洋蔥式層次化描述模型第i層進行量化處理,用αi表示針對目標對象的洋蔥式層次化描述模型第i層的量化值,分別得到n個層次的量化值,記為α1,α2,...,αi,...,αn;并定義V表示為常數(shù),表示數(shù)據(jù)相對于目標對象的量化總值。
優(yōu)選地,所述步驟4中洋蔥值N的計算公式如下:
定義Yi,0≤i≤n,Y0>Y1>…>Yi>…>Yn,
式中:Yi表示第i個層級的洋蔥值邊界;
若Yi-1>N≥Yi,1≤i≤n,則數(shù)據(jù)屬于洋蔥式層次化描述模型的第i層。
優(yōu)選地,所述步驟5包括:以洋蔥值N建立數(shù)據(jù)索引,數(shù)據(jù)按照步驟4的描述進行分類存儲,洋蔥值接近的數(shù)據(jù)按序排列在一起。從而則在建立索引時,不但簡潔,而且速度快,提升數(shù)據(jù)的處理效率。
根據(jù)本發(fā)明提供的面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織系統(tǒng),包括如下模塊:
模型建立模塊,用于建立面向目標對象的洋蔥式層次化描述模型,所述目標對象包括:客觀存在的個體、組織、部門;
權(quán)值設(shè)定模塊,對建立的洋蔥式層次化描述模型為目標對象的每個層次設(shè)置相應(yīng)的權(quán)值;
量化模塊,用于對目標對象進行量化;
洋蔥值計算模塊,用于通過計算數(shù)據(jù)的洋蔥值來判定該數(shù)據(jù)對應(yīng)目標對象的重要程度,所述重要程度即等同于該數(shù)據(jù)在洋蔥式層次化描述模型中的分層位置;洋蔥值越高則相對于主體目標的重要程度越高;
檢索模塊,用于根據(jù)洋蔥值對數(shù)據(jù)進行分類存儲,建立基于洋蔥值的數(shù)據(jù)檢索。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
本發(fā)明提供的面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法及系統(tǒng)解決大數(shù)據(jù)條件下海量數(shù)據(jù)難以組織歸類的難題,以洋蔥值作為數(shù)據(jù)分類存儲的標準,并建立基于洋蔥值的數(shù)據(jù)索引,提升數(shù)據(jù)的檢索速度,提高數(shù)據(jù)挖掘分析的效率。
附圖說明
通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
圖1為針對主體目標的洋蔥式層次化描述模型框架圖;
圖2為針對個體目標的洋蔥式層次化描述模型框架圖;
圖3為針對社會組織的洋蔥式層次化描述模型框架圖;
圖4為針對部門機構(gòu)的洋蔥式層次化描述模型框架圖。
具體實施方式
下面結(jié)合具體實施例對本發(fā)明進行詳細說明。以下實施例將有助于本領(lǐng)域的技術(shù)人員進一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當指出的是,對本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變化和改進。這些都屬于本發(fā)明的保護范圍。
根據(jù)本發(fā)明提供的面向大數(shù)據(jù)分析的洋蔥式數(shù)據(jù)組織方法,為大數(shù)據(jù)條件下海量數(shù)據(jù)的組織歸類提供了參考,進而為針對主體目標開展深度數(shù)據(jù)挖掘、分析奠定基礎(chǔ)。首先,建立針對主體目標的洋蔥式層次化描述模型,將目標屬性分為若干層次,由內(nèi)至外可標注為核心層、內(nèi)核層以及外層等;各層設(shè)置相應(yīng)的權(quán)值,表示該類屬性對主體目標的重要程度,權(quán)值越大,重要性越高。其次,在大數(shù)據(jù)條件下,對與主體目標關(guān)聯(lián)的海量數(shù)據(jù)進行歸納分析,定義上述洋蔥式層次化模型中各層次的內(nèi)涵及數(shù)據(jù)屬性,根據(jù)數(shù)據(jù)所屬類別及重要程度,對數(shù)據(jù)各層次屬性進行量化描述。最后,定義數(shù)據(jù)對于主體目標的層級,根據(jù)上述模型層級權(quán)值和數(shù)據(jù)量化值,計算數(shù)據(jù)的洋蔥值,并判定在數(shù)據(jù)描述模型中所屬層級。
基于主體目標的洋蔥式層次化描述模型,具體如下:
(1)建立針對目標對象的洋蔥式層次化描述模型,如圖1所示。該模型將主體目標對象分為n個層次,由內(nèi)至外依次可標注為:核心層、內(nèi)核層以及外層等,核心數(shù)據(jù)主要影響或體現(xiàn)主體目標的特質(zhì),內(nèi)核數(shù)據(jù)更多影響或體現(xiàn)主體目標的內(nèi)涵,外層數(shù)據(jù)則主要體現(xiàn)主體目標的特征、外延等。
(2)針對該洋蔥式層次化模型,為目標對象各層設(shè)置相應(yīng)的權(quán)值,由內(nèi)到外,分別記為λ1,λ2,...,λi,…,λn,權(quán)值的大小表示重要程度,越接近核心和內(nèi)層,其重要程度越高,定義
(3)基于目標對象,對數(shù)據(jù)進行歸納分析,定義上述洋蔥式層次化模型中各層次的內(nèi)涵及數(shù)據(jù)屬性,根據(jù)數(shù)據(jù)所屬類別及重要程度,對數(shù)據(jù)各層次屬性進行量化描述。用記為α1,α2,…αi,…αn,并定義V為常數(shù),表示數(shù)據(jù)于目標對象的量化總值。
(4)計算數(shù)據(jù)的洋蔥值。洋蔥值N的計算公式:根據(jù)洋蔥值N,判定數(shù)據(jù)在描述模型中所屬層級,定義Yi(0≤i≤n)為每個層級的洋蔥值邊界,則Y0>Y1>…>Yi>…>Yn,判定標準如下:若Yi-1>N>Yi(1≤i≤n),則數(shù)據(jù)屬于第i層。
(5)將數(shù)據(jù)按照洋蔥值進行存儲,并建立基于洋蔥值的索引。
下面結(jié)合具體實施例對本發(fā)明中的技術(shù)方案做更加詳細的說明。
實施例1:社會個體
大數(shù)據(jù)條件下基于社會個體的洋蔥式數(shù)據(jù)組織方法。
1、基于社會個體的洋蔥式層次化描述模型,具體如下:
(1)建立針對社會個體的洋蔥式層次化描述模型,根據(jù)上述“一種基于主體目標的洋蔥式層次化描述模型”定義,我們可以將針對社會個體的洋蔥式層次化該模型分為3個層次,由內(nèi)至外依次可標注為核心層、內(nèi)核層以及外層,如圖2所示。核心層數(shù)據(jù)主要是影響或體現(xiàn)社會個體的個性和特質(zhì),如社會關(guān)系、人生經(jīng)歷等;內(nèi)核數(shù)據(jù)更多影響或體現(xiàn)個人的思想和三觀,如學習經(jīng)歷、行業(yè)職業(yè)等;外層數(shù)據(jù)則主要體現(xiàn)個人的知識技能、興趣愛好、生活習慣、健康狀況等方面的信息,具體描述請參見表1。
(2)針對該洋蔥式層次化模型,為目標各層設(shè)置相應(yīng)的權(quán)值,由內(nèi)到外,分別記為λ1、λ2、λ3,權(quán)值的大小表示重要程度,假定在該針對社會個體的模型中,令λ1=0.6,λ2=0.3,λ3=0.1,
2、作為本實施例進一步的方案:基于上述針對社會個體的洋蔥式層次化描述模型,我們提出了一種針對社會個體的數(shù)據(jù)組織方法,具體如下:
(1)基于社會個體,對收集到的大數(shù)據(jù)進行分析,以表1中定義的層次和數(shù)據(jù)作為元數(shù)據(jù),將數(shù)據(jù)通過該定義的元數(shù)據(jù)進行數(shù)據(jù)屬性抽取,定義數(shù)據(jù)面向目標各層次所屬類別及重要程度,對數(shù)據(jù)各層次屬性進行量化描述,假設(shè)用α1、α2、α3表示,α1表示數(shù)據(jù)中核心層的定量值,α2表示數(shù)據(jù)中內(nèi)核層的定量值,α3表示數(shù)據(jù)中外層的定量值,在該條件下,令
(2)計算數(shù)據(jù)的洋蔥值N,該值代表數(shù)據(jù)對目標的重要程度,計算方法如下:
根據(jù)洋蔥值N,判定數(shù)據(jù)在描述模型中所屬層級。定義Yi,0≤i≤3,如在該模型中,令Y0=60,Y1=46,Y2=27,Y3=10,判定標準如下:若Yi-1>N≥Yi(1≤i≤3),則數(shù)據(jù)屬于第i層。
假定某數(shù)據(jù)的α1=80、α2=10、α3=10,則該數(shù)據(jù)的洋蔥值則該數(shù)據(jù)處于第一層(為核心層數(shù)據(jù));假定某數(shù)據(jù)的α1=30、α2=40、α3=30,則該數(shù)據(jù)的洋蔥值則該數(shù)據(jù)處于第二層(為內(nèi)核層數(shù)據(jù))。
實施例2:社會組織
大數(shù)據(jù)條件下基于社會組織的洋蔥式數(shù)據(jù)組織方法。
1、基于社會組織目標的洋蔥式層次化描述模型,具體如下:
(1)建立針對社會組織的洋蔥式層次化描述模型,根據(jù)上述“一種基于目標的洋蔥式層次化描述模型”定義,我們可以將針對社會組織的洋蔥式層次化該模型若干層次(例如分解為3個層次),由內(nèi)至外依次可標注為核心層、內(nèi)核層以及外層,如圖3所示。針對社會組織,核心層數(shù)據(jù)主要體現(xiàn)社會組織的性質(zhì)、宗旨等,如所屬行業(yè)、定位宗旨等;內(nèi)核數(shù)據(jù)更多體現(xiàn)該組織的日常事務(wù),如組織活動、提供服務(wù)等;外層數(shù)據(jù)則主要體現(xiàn)該組織的一些對外窗口信息,如通知公告、聯(lián)系方式等。具體參見表2。
(2)針對該洋蔥式層次化模型,為目標各層設(shè)置相應(yīng)的權(quán)值,由內(nèi)到外,分別記為λ1、λ2、λ3,權(quán)值的大小表示重要程度,假設(shè)λ1=0.5,λ2=0.4,λ3=0.1,
2、作為本實施例進一步的方案:基于上述針對社會組織的洋蔥式層次化描述模型,我們提出了一種針對社會組織的數(shù)據(jù)組織方法,具體如下:
(1)基于社會組織,對收集到的大數(shù)據(jù)進行分析,以表2中定義的層次和數(shù)據(jù)作為元數(shù)據(jù),將數(shù)據(jù)通過該定義的元數(shù)據(jù)進行數(shù)據(jù)屬性抽取,定義數(shù)據(jù)面向目標各層次所屬類別及重要程度,對數(shù)據(jù)各層次屬性進行量化描述。用α1、α2、α3表示,αi表示第i層的量化值,定義
(2)計算數(shù)據(jù)的洋蔥值N,該值代表數(shù)據(jù)對目標的重要程度,計算方法如下:
(3)根據(jù)洋蔥值N,判定數(shù)據(jù)在描述模型中所屬層級。定義Yi,0≤i≤3,Y0=50,Y1=42,Y2=29,Y3=10,判定標準如下:若Yi-1>N≥Yi(1≤i≤3),則數(shù)據(jù)屬于第i層。
假定針對某社會組織的數(shù)據(jù),其α1=70、α2=20、α3=10,則該數(shù)據(jù)的洋蔥值=44,則該數(shù)據(jù)處于第一層(為核心層數(shù)據(jù));假定某數(shù)據(jù)的α1=20、α2=50、α3=30,則該數(shù)據(jù)的洋蔥值則該數(shù)據(jù)處于第二層(為內(nèi)核層數(shù)據(jù))。
實施例3:部門機構(gòu)
大數(shù)據(jù)條件下基于部門機構(gòu)的洋蔥式數(shù)據(jù)組織方法。
1、基于部門機構(gòu)目標的洋蔥式層次化描述模型,具體如下:
(1)建立針對政府機構(gòu)的洋蔥式層次化描述模型,根據(jù)上述“一種基于目標的洋蔥式層次化描述模型”定義,我們可以將針對部門機構(gòu)的洋蔥式層次化該模型若干層次(例如分解為3個層次),由內(nèi)至外依次可標注為核心層、內(nèi)核層以及外層,如圖4所示。核心層主要體現(xiàn)部門機構(gòu)的職能任務(wù),如職能、機構(gòu)設(shè)置等;內(nèi)核數(shù)據(jù)更多體現(xiàn)該部門的日常工作,如權(quán)威服務(wù)、民生發(fā)布等;外層數(shù)據(jù)則主要體現(xiàn)部門的一些對外窗口信息,如地理位置、聯(lián)系方式等。具體參見表3。
(2)針對該洋蔥式層次化模型,為目標各層設(shè)置相應(yīng)的權(quán)值,由內(nèi)到外,分別記為λ1、λ2、λ3,權(quán)值的大小表示重要程度,假設(shè)λ1=0.7,λ2=0.2,λ3=0.1,
2、作為本實施例進一步的方案:基于上述針對部門機構(gòu)的洋蔥式層次化描述模型,我們提出了一種針對部門機構(gòu)的數(shù)據(jù)組織方法,具體如下:
(1)基于部門機構(gòu),對收集到的大數(shù)據(jù)進行分析,以表3中定義的層次和數(shù)據(jù)作為元數(shù)據(jù),將數(shù)據(jù)通過該定義的元數(shù)據(jù)進行數(shù)據(jù)屬性抽取,定義數(shù)據(jù)面向目標各層次所屬類別及重要程度,對數(shù)據(jù)各層次屬性進行量化描述。用α1、α2、α3表示,αi表示第i層的量化值,并定義
(2)計算數(shù)據(jù)的洋蔥值N,該值代表數(shù)據(jù)對目標的重要程度,計算方法如下:
(3)根據(jù)洋蔥值N,判定數(shù)據(jù)在描述模型中所屬層級。定義Yi,0≤i≤3,Y0=70,Y1=54,Y2=23,Y3=10,判定標準如下:若Yi-1>N≥Yi(1≤i≤3),則數(shù)據(jù)屬于第i層。
假定針對某部門機構(gòu)的數(shù)據(jù),其α1=80、α2=10、α3=10,則該數(shù)據(jù)的洋蔥值則該數(shù)據(jù)處于第一層(為核心層數(shù)據(jù));假定某數(shù)據(jù)的α1=20、α2=60、α3=20,則該數(shù)據(jù)的洋蔥值則該數(shù)據(jù)處于第二層(為內(nèi)核層數(shù)據(jù))。
以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變化或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。在不沖突的情況下,本申請的實施例和實施例中的特征可以任意相互組合。