專(zhuān)利名稱(chēng):數(shù)據(jù)分析方法、設(shè)備以及數(shù)據(jù)分析輔助方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及數(shù)據(jù)處理技術(shù)。尤其涉及一種數(shù)據(jù)分析方法、數(shù)據(jù)分析設(shè)備,以及數(shù)據(jù)分析輔助方法。
背景技術(shù):
隨著商業(yè)活動(dòng)中信息數(shù)據(jù)量的增加,以及人們對(duì)商業(yè)分析價(jià)值認(rèn)識(shí)的提高,數(shù)據(jù)分析例如OLAP(在線分析處理)系統(tǒng)變得越來(lái)越普及。多維模型視圖是商業(yè)分析中最為自然的組織方式。OLAP數(shù)據(jù)分析提供對(duì)數(shù)據(jù)的多維概念視圖(包括對(duì)分級(jí)結(jié)構(gòu)的完全支持)。例如,用于銷(xiāo)售評(píng)估的OLAP數(shù)據(jù)分析模型可以被組織為二維“地理”和“時(shí)間”。時(shí)間維可以包括年、月、日各個(gè)級(jí)別。類(lèi)似地,地理維則可以細(xì)分為國(guó)家、省(州)、縣等。
OLAP數(shù)據(jù)分析系統(tǒng)將事實(shí)組織為維度。維度是對(duì)事實(shí)進(jìn)行歸類(lèi)以進(jìn)行分析的方式。在幫助評(píng)估收支平衡目標(biāo)、生成報(bào)告等方面,OLAP數(shù)據(jù)分析系統(tǒng)是有價(jià)值的、回報(bào)高的商業(yè)智能設(shè)備。這種方法允許用戶(hù)發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律和趨勢(shì),例如某個(gè)地域或者某個(gè)人群最喜歡的產(chǎn)品,某個(gè)公司或者某個(gè)產(chǎn)業(yè)的銷(xiāo)售業(yè)績(jī)等。
為此,OLAP數(shù)據(jù)分析按維把數(shù)據(jù)組織成所謂的“立方體”。OLAP數(shù)據(jù)立方體并非嚴(yán)格幾何意義上的立方體,而是可以有多于三個(gè)或者少于三個(gè)的維度。換句話說(shuō),“數(shù)據(jù)立方體”的表述僅是為了理解和說(shuō)明的方便,其實(shí)質(zhì)在于按照多維形式組織的數(shù)據(jù)。只要確定了維度(這取決于要分析的對(duì)象和目的),就確定了數(shù)據(jù)立方體。如果將其用圖表表示并且恰好是三維,則可以看見(jiàn)真正的立方體。
數(shù)據(jù)立方體的設(shè)計(jì)可以按照商業(yè)的劃分來(lái)構(gòu)造,比如銷(xiāo)售或者市場(chǎng)營(yíng)銷(xiāo)。數(shù)據(jù)立方體可以通過(guò)數(shù)據(jù)聚集將數(shù)據(jù)轉(zhuǎn)換為有用的信息。通過(guò)數(shù)據(jù)立方體,商業(yè)用戶(hù)可以根據(jù)商業(yè)分析的需要隨意對(duì)數(shù)據(jù)進(jìn)行切割。
一句話,由于其靈活性和強(qiáng)大的商業(yè)分析能力,OLAP數(shù)據(jù)分析是非常有價(jià)值的。一旦在OLAP數(shù)據(jù)分析服務(wù)器內(nèi)定義了事實(shí)和維度,數(shù)據(jù)分析設(shè)備就可以簡(jiǎn)單地拖放維度和事實(shí)來(lái)分析數(shù)據(jù)。
當(dāng)前,構(gòu)建OLAP數(shù)據(jù)分析模型的方法是通過(guò)直接定義立方體所應(yīng)具有的維度和指標(biāo)。這樣的方法只關(guān)注于定義所需要的維度,而忽略了各維度之間存在的關(guān)系和結(jié)構(gòu)。而且對(duì)于商業(yè)人士來(lái)說(shuō)這種方法難以重復(fù)利用這些維度。人們可能不得不在設(shè)計(jì)立方體時(shí)非常困難地尋找對(duì)分析有用的所有維度。使問(wèn)題進(jìn)一步復(fù)雜化的地方在于,可能有某些維度是依賴(lài)于時(shí)間的,例如公司的信用等級(jí)。大多數(shù)已有的數(shù)據(jù)分析系統(tǒng)在處理與時(shí)間相關(guān)的維度時(shí)不能產(chǎn)生正確的分析結(jié)果。因此,需要有一種方便的方法來(lái)解決這些問(wèn)題。
發(fā)明內(nèi)容
鑒于上述問(wèn)題,本發(fā)明的主要目的在于簡(jiǎn)化構(gòu)建OLAP數(shù)據(jù)分析模型的過(guò)程。本發(fā)明次要的目的在于解決由于存在與時(shí)間相關(guān)的維度而使分析結(jié)果不正確的問(wèn)題。
根據(jù)本發(fā)明的第一方面,上述主要目的是通過(guò)一種數(shù)據(jù)分析方法實(shí)現(xiàn)的。該方法包括建立語(yǔ)義實(shí)體庫(kù)的建庫(kù)步驟,該語(yǔ)義實(shí)體庫(kù)包括結(jié)構(gòu)化描述的實(shí)體及其屬性構(gòu)成的實(shí)體集,描述屬性的可能取值的參考范圍,以及實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射;選擇步驟,從所述語(yǔ)義實(shí)體庫(kù)中選擇要分析的實(shí)體、屬性和/或?qū)傩匀≈担恢笜?biāo)定義步驟,定義指標(biāo)的計(jì)算方式;以及數(shù)據(jù)裝載步驟,根據(jù)所述映射,裝載數(shù)據(jù)倉(cāng)庫(kù)中與所選擇的實(shí)體、屬性、屬性取值對(duì)應(yīng)的數(shù)據(jù),計(jì)算得到所定義的指標(biāo)。
根據(jù)本發(fā)明的第二方面,上述主要目的是通過(guò)一種數(shù)據(jù)分析設(shè)備輔助方法實(shí)現(xiàn)的。該方法包括提供語(yǔ)義實(shí)體庫(kù),該語(yǔ)義實(shí)體庫(kù)包括結(jié)構(gòu)化描述的實(shí)體及其屬性構(gòu)成的實(shí)體集,描述屬性的可能取值的參考范圍,以及實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射;提供選擇裝置,用于從所述語(yǔ)義實(shí)體庫(kù)中選擇要分析的實(shí)體、屬性和/或?qū)傩匀≈?;提供指?biāo)定義裝置,用于定義指標(biāo)的計(jì)算方式;提供數(shù)據(jù)裝載器,用于根據(jù)所述映射裝載數(shù)據(jù)倉(cāng)庫(kù)中與所選擇的實(shí)體、屬性、屬性取值對(duì)應(yīng)的數(shù)據(jù),計(jì)算得到所定義的指標(biāo)。
根據(jù)本發(fā)明的第三方面,上述主要目的是通過(guò)一種數(shù)據(jù)分析設(shè)備實(shí)現(xiàn)的。該設(shè)備包括語(yǔ)義實(shí)體庫(kù)存儲(chǔ)裝置,該語(yǔ)義實(shí)體庫(kù)包括結(jié)構(gòu)化描述的實(shí)體及其屬性構(gòu)成的實(shí)體集,描述屬性的可能取值的參考范圍,以及實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射;選擇裝置,用于從所述語(yǔ)義實(shí)體庫(kù)中選擇要分析的實(shí)體、屬性和/或?qū)傩匀≈担恢笜?biāo)定義裝置,用于定義指標(biāo)的計(jì)算方式;數(shù)據(jù)裝載器,用于根據(jù)所述映射裝載數(shù)據(jù)倉(cāng)庫(kù)中與所選擇的實(shí)體、屬性、屬性取值對(duì)應(yīng)的數(shù)據(jù),計(jì)算得到所定義的指標(biāo)。
本發(fā)明還提供了能夠?qū)崿F(xiàn)上述方法的程序產(chǎn)品。
根據(jù)上述技術(shù)方案,可能的維度的含義對(duì)于商業(yè)人員來(lái)說(shuō)含義清晰并易于理解,不需要技術(shù)人員的支持。同時(shí),對(duì)資產(chǎn)的重復(fù)使用變得方便、容易,不再需要臨時(shí)尋找要分析的實(shí)體和屬性。
為了實(shí)現(xiàn)上述次要目的,還可以對(duì)隨時(shí)間變化的維度作出標(biāo)記,并定義用于跟蹤所述變化的到數(shù)據(jù)倉(cāng)庫(kù)的映射,在與所述隨時(shí)間變化的屬性相關(guān)的指標(biāo)的計(jì)算方式中,包括進(jìn)與所述變化相關(guān)的調(diào)整項(xiàng)。
這樣,根據(jù)上述優(yōu)選方案,在裝載數(shù)據(jù)時(shí),基于實(shí)體的聚集能夠容易地支持隨時(shí)間變化的維度的聚集,從而避免由于隨時(shí)間變化的維度的存在而導(dǎo)致聚集結(jié)果不正確。
下面將結(jié)合附圖描述本發(fā)明的優(yōu)選實(shí)施例。在附圖中圖1是包含本發(fā)明的數(shù)據(jù)分析設(shè)備的一種實(shí)施方式的系統(tǒng)的框圖;圖2是用于解釋實(shí)體、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)立方體的示意圖;
圖3是語(yǔ)義實(shí)體庫(kù)的一個(gè)例子;圖4是在圖3所示的語(yǔ)義實(shí)體庫(kù)中選擇實(shí)體和屬性的例子;圖5是在圖4的基礎(chǔ)上選擇屬性的參考范圍的例子;圖6是指標(biāo)定義和形成數(shù)據(jù)立方體的一個(gè)例子;圖7的示意圖用于說(shuō)明傳統(tǒng)的數(shù)據(jù)聚集沒(méi)有考慮屬性隨時(shí)間的變化;圖8的示意圖用于說(shuō)明根據(jù)本發(fā)明的一種優(yōu)選實(shí)施方式,進(jìn)行數(shù)據(jù)聚集時(shí)考慮了屬性隨時(shí)間的變化;圖9是包含本發(fā)明的數(shù)據(jù)分析設(shè)備的幾種優(yōu)選實(shí)施方式的系統(tǒng)的框圖;圖10是本發(fā)明的數(shù)據(jù)分析設(shè)備的另一種優(yōu)選實(shí)施方式的示意圖;圖11是本發(fā)明的數(shù)據(jù)分析方法的一種實(shí)施方式的流程圖。
具體實(shí)施例方式
本申請(qǐng)?zhí)岢隽艘环N基于語(yǔ)義技術(shù)的構(gòu)建數(shù)據(jù)分析和報(bào)告系統(tǒng)的新方法和新設(shè)備。作為使用本發(fā)明的方法和設(shè)備的環(huán)境,圖1描述了數(shù)據(jù)分析系統(tǒng)的總體配置示意圖。
如圖1所示,作為被分析的對(duì)象的數(shù)據(jù)源自在線事務(wù)處理系統(tǒng)102(OLTP,On-Line Transaction Processing),經(jīng)過(guò)數(shù)據(jù)清洗系統(tǒng)104(ETL,Extraction,Transformation and Loading)的清洗,被存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)106中。
如背景部分所述,現(xiàn)有的構(gòu)建數(shù)據(jù)分析模型的方法是通過(guò)直接定義立方體所應(yīng)具有的維度和指標(biāo)。這樣的方法只關(guān)注于定義所需要的維度,而忽略了各維度之間存在的關(guān)系和結(jié)構(gòu)。而且對(duì)于商業(yè)人士來(lái)說(shuō)這種方法難以重復(fù)利用這些維度。人們可能不得不在設(shè)計(jì)立方體時(shí)非常困難地尋找對(duì)分析有用的所有維度。為解決此問(wèn)題,本發(fā)明的基本構(gòu)思是提供預(yù)先定義好的庫(kù),其中存儲(chǔ)可能的維度,從而使得用戶(hù)只需要從這個(gè)庫(kù)中選擇所需要的維度即可。為方便維度庫(kù)的定義和使用,本發(fā)明采用了語(yǔ)義技術(shù)。
下面對(duì)數(shù)據(jù)分析設(shè)備進(jìn)行詳細(xì)說(shuō)明。
如圖1中虛線框所示,本發(fā)明的數(shù)據(jù)分析設(shè)備100主要由四個(gè)部件構(gòu)成語(yǔ)義實(shí)體庫(kù)(SER,semantic entity repository)108、選擇裝置110、指標(biāo)定義裝置122以及從數(shù)據(jù)倉(cāng)庫(kù)向數(shù)據(jù)立方體裝載數(shù)據(jù)的數(shù)據(jù)裝載器112。下面依次說(shuō)明。
語(yǔ)義實(shí)體庫(kù)108每一個(gè)數(shù)據(jù)立方體涉及許多商業(yè)實(shí)體。每一個(gè)實(shí)體代表一個(gè)要分析的對(duì)象。例如,如圖2所示,在一個(gè)圖示地區(qū)A和地區(qū)B的所有超市的收入的簡(jiǎn)單的數(shù)據(jù)分析系統(tǒng)中,“超市”就是要分析的實(shí)體。
語(yǔ)義實(shí)體庫(kù)108是在其中存儲(chǔ)與數(shù)據(jù)分析相關(guān)的商業(yè)實(shí)體的庫(kù),包括三種主要的成員對(duì)實(shí)體138及其屬性140(見(jiàn)圖10)進(jìn)行結(jié)構(gòu)化描述的實(shí)體集118;一組預(yù)定義的參考范圍,描述屬性的可能范圍;以及語(yǔ)義實(shí)體庫(kù)實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射,使得在進(jìn)行數(shù)據(jù)聚集時(shí)能夠進(jìn)行數(shù)據(jù)檢索。
語(yǔ)義實(shí)體庫(kù)的功能是在設(shè)計(jì)數(shù)據(jù)立方體時(shí)提供參考和增強(qiáng)可重復(fù)使用性。通過(guò)在語(yǔ)義實(shí)體庫(kù)中定制相關(guān)的實(shí)體及其屬性,用戶(hù)可以方便地定義想要的任何數(shù)據(jù)分析模型。
語(yǔ)義實(shí)體庫(kù)中的一個(gè)實(shí)體表示一個(gè)商業(yè)概念。一個(gè)實(shí)體可以有多個(gè)屬性。語(yǔ)義實(shí)體庫(kù)中的實(shí)體的屬性可以具有三種功能。第一種功能是維護(hù)商業(yè)概念之間的邏輯關(guān)系,比如圖3中“有貸款”表示概念“客戶(hù)”和“貸款”之間的關(guān)系;屬性可以具有的第二種功能是用作數(shù)據(jù)立方體的“維度”,例如圖3中“客戶(hù)”的“信用等級(jí)”。如果某個(gè)屬性被選擇為一個(gè)維度,則稱(chēng)該屬性為維度屬性。維度屬性的范圍被稱(chēng)為該屬性的參考范圍。參考范圍中的每一個(gè)值被采用為維度的坐標(biāo)。屬性也可以用來(lái)定義數(shù)據(jù)立方體的指標(biāo)(關(guān)于指標(biāo)的說(shuō)明請(qǐng)見(jiàn)下文)。
語(yǔ)義實(shí)體庫(kù)實(shí)體可以被組織為分級(jí)結(jié)構(gòu)。一個(gè)實(shí)體能夠從其祖先那里繼承屬性。例如,商業(yè)概念“客戶(hù)”的實(shí)體是“公司”和“個(gè)人”的父概念。因此“公司”和“個(gè)人”從實(shí)體“客戶(hù)”繼承屬性“信用等級(jí)”和“地址”。作為舉例,在圖3到圖6中,空心箭頭表示屬性具有繼承關(guān)系,而實(shí)心箭頭則表示屬性沒(méi)有繼承關(guān)系。
參考范圍表示維度屬性可能具有的所有可能的值。
語(yǔ)義實(shí)體庫(kù)的另一個(gè)重要組成部分是語(yǔ)義實(shí)體庫(kù)實(shí)體屬性和數(shù)據(jù)倉(cāng)庫(kù)之間的映射。映射的作用是規(guī)定實(shí)體的實(shí)例及其屬性存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中什么地方。具體地,一個(gè)實(shí)體的映射指向存儲(chǔ)該實(shí)體的實(shí)例的表的主鍵。一個(gè)屬性的映射則指向存儲(chǔ)實(shí)例的屬性值的列。
通過(guò)映射,在聚集數(shù)據(jù)立方體時(shí),系統(tǒng)能夠自動(dòng)地找出從數(shù)據(jù)倉(cāng)庫(kù)中的什么地方檢索數(shù)據(jù)。
圖3圖示了顯示在圖形用戶(hù)界面上的具有實(shí)體和參考范圍的語(yǔ)義實(shí)體庫(kù)的一個(gè)例子。它可以用OWL表達(dá)如下<owl:Class rdf:about=″&sbst;Loan″/>
<owl:Class rdf:about=″&sbst;Customer″/>
<owl:Class rdf:about=″&sbst;Company″>
<rdfs:subClassOf rdf:resource=”&sbst;Customer”/>
</owl:Class>
<owl:Class rdf:about=″&sbst;Individual″>
<rdfs:subClassOf rdf:resource=”&sbst;Customer”/>
</owl:Class>
<owl:ObjectProperty rdf:about=″&sbst;hasLoan″>
<rdfs:domain rdf:resource=″&sbst;Customer″/>
<rdfs:range rdf:resource=″&sbst;Loan″/>
</owl:ObjectProperty>
<owl:ObjectProperty rdf:about=″&sbst;productType″>
<rdfs:domainrdf:resource=″&sbst;ProductTypeRange″/>
<rdfs:range rdf:resource=″&sbst;Loan″/>
</owl:ObjectProperty>
<owl:DatatypePropertyrdf:about=″&sbst;loanAmount″>
<rdfs:domain rdf:resource=″&sbst;Customer″/>
<rdfs:rangerdf:resource=″http://www.w3.org/2001/XMLSchema#float″/>
</owl:DatatypeProperty>
<owl:Class rdf:about=”&sbst;ProductTypeRange”/>
<owl:Class rdf:about=”&sbst;FinancialService”>
<rdfs:subClassOf rdf:resource=”&sbst;ProductTypeRange”/>
</owl:Class>
<owl:Class rdf:about=”&sbst;TermLoanRange”/>
<rdfs:subClassOf rdf:resource=”&sbst;FinancialService”/>
</owl:Class>
<sbst:FinancialServicerdf:about=”&sbst;PreferenceShareLoan”/>
<sbst:FinancialService rdf:about=”&sbst;SharedEquityLoan”/>
<sbst:TermLoanRange rdf:about=”&sbst;MortgageLoan”/>
<sbst:TermLoanRange rdf:about=”&sbst;VehicleLoan”/>
<sbst:TermLoanRange rdf:about=”&sbst;HouseLoan”/>
圖3中,直角框表示實(shí)體,圓角框表示屬性的參考范圍。參考范圍內(nèi)的字符串表示直接屬于參考范圍的成員。例如,如圖3所示,其中圖示了四個(gè)實(shí)體公司,客戶(hù),個(gè)人和貸款。各個(gè)實(shí)體有自己的屬性。為了簡(jiǎn)明起見(jiàn),圖3中只詳細(xì)圖示了“貸款”的屬性產(chǎn)品類(lèi)型,擔(dān)保類(lèi)型和貸款日期。每一個(gè)屬性可以進(jìn)一步細(xì)分,稱(chēng)之為屬性的“參考范圍”,也就是屬性的取值范圍。該參考范圍中的取值可以進(jìn)一步分類(lèi)。因此,某個(gè)屬性的整個(gè)參考范圍可以組織為樹(shù)形結(jié)構(gòu)。例如,在保險(xiǎn)類(lèi)型的參考范圍的樹(shù)結(jié)構(gòu)中,根“保險(xiǎn)類(lèi)型”有三個(gè)子節(jié)點(diǎn)保證,抵押和質(zhì)押。而“保證”又有至少三個(gè)子節(jié)點(diǎn)銀行保證,外國(guó)FI以及合資企業(yè)FI等。
需要注意的是,屬性及其參考范圍有相對(duì)性。作為例子,雖然圖3所示的結(jié)構(gòu)是比較合理的,但是也完全可以將圖3中參考范圍的某個(gè)樹(shù)分解為兩個(gè)樹(shù),其根節(jié)點(diǎn)直接作為實(shí)體的不同屬性。例如,可以將圖3中保險(xiǎn)類(lèi)型的樹(shù)分解為以“保證”和“其他擔(dān)保類(lèi)型”為根節(jié)點(diǎn)的兩個(gè)樹(shù)?!氨WC”和“其他擔(dān)保類(lèi)型”直接作為實(shí)體“貸款”的屬性。同時(shí),樹(shù)的結(jié)構(gòu)本身也可以按照不同的標(biāo)準(zhǔn)進(jìn)行組織。
指標(biāo)定義裝置122指標(biāo)是要分析的目標(biāo)。例如在圖2所示的例子中,所分析的實(shí)體是圖2(A)所示的超市,其對(duì)應(yīng)于圖2(B)所示的數(shù)據(jù)倉(cāng)庫(kù)。圖2(C)是某一個(gè)分析所得到的“立方體”。該立方體涉及兩個(gè)實(shí)體,即“超市”和“收入”,這兩個(gè)實(shí)體之間的邏輯關(guān)系是“超市具有收入”。該立方體具有三個(gè)維度。第一個(gè)維度是“時(shí)間”(橫軸),它是“收入”的屬性,其參考范圍是第一季(Q1)到第四季(Q4),構(gòu)成“時(shí)間”維度上的坐標(biāo)。第二個(gè)維度是“地址”(在圖2(C)中用不同灰度表示),它是“超市”的屬性,其參考范圍是“地區(qū)A”和“地區(qū)B”,其構(gòu)成“地址”維度上的坐標(biāo)。
在該立方體中,“不同地區(qū)的超市在各季度的總收入”即為要分析的指標(biāo)。顯然,該指標(biāo)的計(jì)算方式為將圖2(B)所示的數(shù)據(jù)倉(cāng)庫(kù)中的收入列的數(shù)值(對(duì)應(yīng)于語(yǔ)義實(shí)體庫(kù)中的“收入”實(shí)體)按時(shí)間(時(shí)間列)和地區(qū)(地址列)加和。為了構(gòu)成平面圖示,圖2(C)的縱軸表示指標(biāo)刻度,并將“地址”維用帶灰度的柱圖區(qū)分。作為另一個(gè)例子,縱軸的含義可以變成另一個(gè)指標(biāo),例如“不同地區(qū)的所有超市在各季度的平均收入”,此時(shí)的計(jì)算方式就是將前述和除以相應(yīng)地區(qū)內(nèi)的超市數(shù)量。
指標(biāo)定義裝置122就是用來(lái)定義指標(biāo)。如果指標(biāo)不與語(yǔ)義實(shí)體庫(kù)中的實(shí)體或者屬性(或者數(shù)據(jù)倉(cāng)庫(kù)中的值)直接對(duì)應(yīng),則需要定義其計(jì)算方式(例如上述)。換句話說(shuō),定義了計(jì)算方式,也就定義了指標(biāo)。如果指標(biāo)與語(yǔ)義實(shí)體庫(kù)中的實(shí)體或者屬性(或者數(shù)據(jù)倉(cāng)庫(kù)中的值)直接對(duì)應(yīng),則只需要直接指定就可以了(也可以認(rèn)為定義了諸如“X=A”這樣的計(jì)算方式),例如,如果為了在立方體中直觀地顯示各超市的情況,可以構(gòu)建以“時(shí)間”、“店鋪名稱(chēng)(店鋪ID)”和作為指標(biāo)的“每季收入”為三維的立方體。此時(shí),該指標(biāo)“每季收入”就直接等于圖2(B)中“收入”列中的每一個(gè)數(shù)值。
顯然,指標(biāo)和計(jì)算方式的定義是與立方體的維度的選取相關(guān)的。因此指標(biāo)定義裝置同時(shí)還可以完成從語(yǔ)義實(shí)體庫(kù)中選擇所需的維度的工作。上述工作可以通過(guò)在例如圖3所顯示的圖形界面上進(jìn)行選擇來(lái)完成。當(dāng)然,從語(yǔ)義實(shí)體庫(kù)中選擇所需維度的工作也可以由選擇裝置110來(lái)完成,如圖1所示。
數(shù)據(jù)裝載器112選擇了所需的維度,并定義了指標(biāo)計(jì)算方式之后,就形成了數(shù)據(jù)立方體。之后,數(shù)據(jù)裝載器112可以根據(jù)在語(yǔ)義實(shí)體庫(kù)108中定義的映射關(guān)系,從數(shù)據(jù)倉(cāng)庫(kù)106中檢索數(shù)據(jù),將數(shù)據(jù)載入所述立方體計(jì)算并顯示結(jié)果。當(dāng)然,最方便的方式是進(jìn)行圖形化顯示和報(bào)告。但是當(dāng)然也可以是其他方式,比如簡(jiǎn)單列表的方式。
利用上面所描述的數(shù)據(jù)分析設(shè)備,用戶(hù)即可方便地進(jìn)行數(shù)據(jù)分析,在語(yǔ)義實(shí)體庫(kù)中定義好的實(shí)體和屬性等可以直接拿來(lái)作為參考,無(wú)需臨時(shí)分析概念和建立概念之間的聯(lián)系。
下面對(duì)數(shù)據(jù)分析方法以及數(shù)據(jù)分析設(shè)備的其他優(yōu)選實(shí)施方式進(jìn)行說(shuō)明。
下面結(jié)合圖11的流程圖以及其他示意圖具體描述用戶(hù)利用該數(shù)據(jù)分析設(shè)備進(jìn)行數(shù)據(jù)分析時(shí)的步驟。
首先,用戶(hù)需要建立語(yǔ)義實(shí)體庫(kù)。建立語(yǔ)義實(shí)體庫(kù)的方式有多種。在本發(fā)明的數(shù)據(jù)分析方法的第一種實(shí)施方式中,使用前述數(shù)據(jù)分析設(shè)備預(yù)先提供的基本語(yǔ)義實(shí)體庫(kù)。也就是說(shuō),一旦載入前述數(shù)據(jù)分析設(shè)備,就完成了對(duì)語(yǔ)義實(shí)體庫(kù)的建立(未圖示)。這種實(shí)施方式要求預(yù)先提供比較完備的基本語(yǔ)義實(shí)體庫(kù)。
在本發(fā)明的數(shù)據(jù)分析方法的第二種實(shí)施方式中,可以考慮到基本語(yǔ)義實(shí)體庫(kù)可能不是很完備,因此可能需要對(duì)基本語(yǔ)義實(shí)體庫(kù)加以修改。也就是說(shuō),如果基本語(yǔ)義實(shí)體庫(kù)中的實(shí)體、屬性或者屬性的參考范圍、邏輯關(guān)系等與實(shí)際使用需要不符或者需要加以充實(shí),則用戶(hù)可以對(duì)基本語(yǔ)義實(shí)體庫(kù)中的元素進(jìn)行修改、添加或者刪除等工作,從而完成語(yǔ)義實(shí)體庫(kù)的建立。
在本發(fā)明的數(shù)據(jù)分析方法的第三種實(shí)施方式中,考慮到用戶(hù)需求的多樣化和成本問(wèn)題,可以使數(shù)據(jù)分析設(shè)備所提供的基本語(yǔ)義實(shí)體庫(kù)為具有基于本發(fā)明的結(jié)構(gòu)的空庫(kù),用戶(hù)可以按照數(shù)據(jù)分析設(shè)備所建立的結(jié)構(gòu)從頭建立自己的語(yǔ)義實(shí)體庫(kù)(也可以認(rèn)為是對(duì)具有特定邏輯結(jié)構(gòu)的空庫(kù)的修改)。
與此相應(yīng),在本發(fā)明的數(shù)據(jù)分析設(shè)備的更為優(yōu)選的實(shí)施方式中,該數(shù)據(jù)分析設(shè)備還可以包括修改語(yǔ)義實(shí)體庫(kù)的修改裝置,通過(guò)創(chuàng)建、修改、刪除實(shí)體、屬性、屬性參考范圍等來(lái)修改語(yǔ)義實(shí)體庫(kù)。
具體來(lái)說(shuō),如圖9所示,在本發(fā)明的數(shù)據(jù)分析設(shè)備100的一個(gè)優(yōu)選實(shí)施方案中,該數(shù)據(jù)分析設(shè)備100還可以包括修改裝置124。其可以具體包括實(shí)體集描述裝置128,用于添加、刪除或修改所述實(shí)體集中的實(shí)體及其屬性;參考范圍描述裝置130,用于描述或者修改屬性的可能取值的參考范圍;以及數(shù)據(jù)映射裝置124,用于建立、刪除或者修改實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射。
與此相應(yīng),就數(shù)據(jù)分析方法的上述第二種和第三種實(shí)施方式而言,如圖11所示,本發(fā)明的數(shù)據(jù)分析方法的建庫(kù)步驟包括實(shí)體集描述步驟1102,參考范圍描述步驟1104以及數(shù)據(jù)映射步驟1106。需要說(shuō)明的是,參考范圍的描述要基于對(duì)屬性的描述,屬性的描述要基于對(duì)實(shí)體的描述。而數(shù)據(jù)映射要基于對(duì)實(shí)體、屬性和參考范圍的描述。所以,就某一個(gè)實(shí)體的某一個(gè)屬性而言,這三個(gè)步驟具有前述敘述順序那樣的邏輯順序。但是,對(duì)于多個(gè)實(shí)體及其屬性而言,這三個(gè)步驟可以交替進(jìn)行。
還需要說(shuō)明的是,建立語(yǔ)義實(shí)體庫(kù)的工作是進(jìn)行具體的數(shù)據(jù)分析工作之前的基礎(chǔ)工作,其在時(shí)間上與下面將要描述的維度選擇、指標(biāo)定義和數(shù)據(jù)裝載等步驟不一定是緊密相連的。但是,在進(jìn)行具體的數(shù)據(jù)分析工作的時(shí)候可能會(huì)發(fā)現(xiàn)語(yǔ)義實(shí)體庫(kù)需要予以修改或者補(bǔ)充,此時(shí),建立語(yǔ)義實(shí)體庫(kù)的步驟又是與下面所述的步驟相互交織的。
接下來(lái)是維度選擇步驟1108(圖11),利用選擇裝置110(圖1)從語(yǔ)義實(shí)體庫(kù)108中選擇構(gòu)成維度的實(shí)體和屬性,以及構(gòu)成維度上的坐標(biāo)的屬性取值范圍,以及指標(biāo)定義步驟1110(圖11),利用指標(biāo)定義裝置122(圖1)定義指標(biāo)及其計(jì)算方式。
如上面所述,在本發(fā)明的數(shù)據(jù)分析方法的又一種優(yōu)選實(shí)施方式中,如果在維度選擇步驟1108和/或指標(biāo)定義步驟1110中發(fā)現(xiàn)沒(méi)有所要的實(shí)體、屬性、屬性取值范圍,則可以使用前述實(shí)體集描述裝置128、參考范圍描述裝置130和數(shù)據(jù)映射裝置124創(chuàng)立并將其保存在語(yǔ)義實(shí)體庫(kù)中。選中的實(shí)體會(huì)被用作基本聚集單元,被選為維度屬性的屬性會(huì)被用作維度。
圖4圖示了在圖3所示圖形用戶(hù)界面上選擇實(shí)體及其屬性的一個(gè)例子。圖中的突出現(xiàn)實(shí)的框(粗線框)表示已經(jīng)被選中的實(shí)體,突出顯示的文字(黑體字)表示選中的維度屬性。
選擇了實(shí)體及其維度屬性之后,也就確定了數(shù)據(jù)分析的維度。例如圖4中的選擇結(jié)果即針對(duì)“公司”的具有“貸款”的“客戶(hù)”的情況構(gòu)成五個(gè)維度公司的產(chǎn)業(yè)類(lèi)別,客戶(hù)的信用等級(jí),以及貸款的產(chǎn)品類(lèi)型、擔(dān)保類(lèi)型和貸款日期。
然后是選擇維度屬性的可能的值。這一步可以通過(guò)用選擇裝置110定制語(yǔ)義實(shí)體庫(kù)中維度屬性的參考范圍來(lái)完成(也就是在參考范圍中進(jìn)行選擇)。
在本發(fā)明的數(shù)據(jù)分析方法的又一種優(yōu)選實(shí)施方式中,可以考慮到在有時(shí)候,維度屬性的實(shí)際范圍與指定的參考范圍可能不相同。在這種情況下,用戶(hù)可以定義實(shí)際范圍和參考范圍之間的值映射(圖11中未圖示)。例如,實(shí)體“貸款”的屬性“貸款額”的實(shí)際范圍是實(shí)際的數(shù)值。但是其參考范圍可能被定義為{大額,小額}。在這種情況下,值映射需要將所述實(shí)際的數(shù)值轉(zhuǎn)換為“大額”或者“小額”。與此相應(yīng),前述數(shù)據(jù)分析設(shè)備100的又一種優(yōu)選實(shí)施方式還可以包括參考范圍映射裝置134(圖9),用于將屬性的實(shí)際取值范圍映射到語(yǔ)義實(shí)體庫(kù)中定義的參考范圍。
圖5給出了在圖3所示的圖形用戶(hù)界面上對(duì)維度屬性定制參考范圍的一個(gè)例子。如圖所示,被選中的屬性參考范圍(圓角框)變?yōu)橥怀鲲@示(粗線框)。
接著還要用指標(biāo)定義裝置122定義指標(biāo)及其計(jì)算方式。指標(biāo)表示在數(shù)據(jù)分析中要評(píng)估的數(shù)據(jù)值,前文已有詳細(xì)討論。為了定義用于數(shù)據(jù)分析的指標(biāo),用戶(hù)可以使用概念的屬性以及預(yù)定的統(tǒng)計(jì)功能來(lái)定義如何計(jì)算指標(biāo)。例如總貸款額=貸款額之和總還款額=還款額之和平均貸款額=總貸款額/“客戶(hù)”的數(shù)量平均還款額=總還款額/“客戶(hù)”的數(shù)量完成了實(shí)體、屬性及其取值范圍的選擇以及指標(biāo)及其計(jì)算方式的定義之后,如前文所述,也就完成了數(shù)據(jù)立方體114的邏輯建構(gòu)。因?yàn)檎Z(yǔ)義實(shí)體庫(kù)中已經(jīng)包含了實(shí)體、屬性及其取值范圍之間的邏輯關(guān)系,并且已經(jīng)定義了指標(biāo)的計(jì)算方式,也就是指標(biāo)與所選擇的實(shí)體、屬性和屬性取值范圍之間的關(guān)系。也就是說(shuō),所選取和定義的實(shí)體、屬性、屬性的取值范圍、指標(biāo)已經(jīng)形成一個(gè)唯一的、內(nèi)在邏輯關(guān)系確定的集合。
但是,在一種優(yōu)選實(shí)施方式中,為了使該集合對(duì)用戶(hù)來(lái)說(shuō)直觀易懂,可以將其構(gòu)建成數(shù)據(jù)立方體圖形來(lái)在圖形用戶(hù)界面上顯示。為此,所述數(shù)據(jù)分析設(shè)備還可以包括圖形化裝置132(圖9)來(lái)進(jìn)行這樣的操作。具體地,該圖形化裝置提取被選為維度屬性的所有屬性,將每一個(gè)維度屬性轉(zhuǎn)換為數(shù)據(jù)立方體的一個(gè)維度,維度屬性的參考范圍中的被選取的成員則作為相應(yīng)維度上的坐標(biāo),并根據(jù)指標(biāo)定義建立數(shù)據(jù)立方體的指標(biāo)。
圖6圖示了生成數(shù)據(jù)立方體圖形顯示的一個(gè)例子。其中,為簡(jiǎn)明起見(jiàn),并沒(méi)有顯示在圖4和圖5中所選擇的全部?jī)?nèi)容。如圖6所示,被選中的屬性產(chǎn)品類(lèi)型、信用等級(jí)和貸款日期(時(shí)間)作為三個(gè)維度。上述屬性的具體取值則作為各個(gè)維度上的坐標(biāo)。其中,對(duì)于產(chǎn)品類(lèi)型,由于其取值范圍為樹(shù)形結(jié)構(gòu),所以該維度上的坐標(biāo)也可以被組織為分級(jí)結(jié)構(gòu)。在該維度上(圖6中的橫軸),最高級(jí)坐標(biāo)為“金融服務(wù)”(如果在圖5中也選擇了“保險(xiǎn)服務(wù)”,則在該橫軸上可以有另一個(gè)坐標(biāo)“保險(xiǎn)服務(wù)”與“金融服務(wù)”并列),其下一級(jí)坐標(biāo)為“優(yōu)先股貸款”和“定期貸款”?!皟?yōu)先股貸款”沒(méi)有下一級(jí)坐標(biāo),而“定期貸款”的下一級(jí)還有“房屋貸款”和“汽車(chē)貸款”。另外,“信用評(píng)級(jí)”維度有A、B、C三個(gè)取值,“時(shí)間”維度有按月份的坐標(biāo)(圖中顯示了三個(gè)月份)。這樣,三個(gè)坐標(biāo)軸及其上面的坐標(biāo)就構(gòu)成了一個(gè)數(shù)據(jù)立方體。在圖6所示的數(shù)據(jù)立方體中,按每一個(gè)取值范圍樹(shù)形結(jié)構(gòu)的葉節(jié)點(diǎn)計(jì),包括3×3×3=27個(gè)數(shù)據(jù)點(diǎn)。例如,離原點(diǎn)最近的數(shù)據(jù)點(diǎn)是“2001年1月信用評(píng)級(jí)為A級(jí)的客戶(hù)的優(yōu)先股貸款”。
該數(shù)據(jù)分析方法的最后一步,則是用數(shù)據(jù)裝載器112根據(jù)前述語(yǔ)義實(shí)體庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)結(jié)構(gòu)之間的映射,按照指標(biāo)的定義計(jì)算指標(biāo)并將有關(guān)數(shù)據(jù)裝載到上述數(shù)據(jù)立方體中的數(shù)據(jù)裝載步驟1112(圖11)。在從數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行聚集時(shí),使用數(shù)據(jù)倉(cāng)庫(kù)和語(yǔ)義實(shí)體庫(kù)之間的映射,數(shù)據(jù)裝載器112可以找到每一個(gè)實(shí)體的對(duì)應(yīng)數(shù)據(jù),并按照指標(biāo)的計(jì)算方式的定義計(jì)算指標(biāo)。例如,對(duì)于前述數(shù)據(jù)點(diǎn)“2001年1月信用評(píng)級(jí)為A級(jí)的客戶(hù)的優(yōu)先股貸款”,可以計(jì)算“總貸款額”、“平均總貸款額”等指標(biāo),并將計(jì)算結(jié)果載入上述立方體。
在立方體圖形化的情況下,也可以由前述圖形化裝置132用圖形來(lái)在各個(gè)數(shù)據(jù)點(diǎn)顯示所述指標(biāo)(圖11中未圖示)。該圖形可以是數(shù)字本身,或者不同的顏色,或者與數(shù)據(jù)大小相應(yīng)大小的圖形,或者前述方式的組合等等。
下面對(duì)隨時(shí)間變化的屬性進(jìn)行說(shuō)明。
發(fā)明人還注意到,時(shí)間是一個(gè)特殊的維度。其指示隨著時(shí)間的改變不同事件的發(fā)生。根據(jù)本發(fā)明的更為優(yōu)選的實(shí)施方式,區(qū)別于傳統(tǒng)的數(shù)據(jù)分析系統(tǒng),當(dāng)裝載數(shù)據(jù)進(jìn)入數(shù)據(jù)分析數(shù)據(jù)時(shí),擴(kuò)展到隨時(shí)間變化的維度。說(shuō)一個(gè)維度是隨時(shí)間變化的,意思是該維度的某些實(shí)例的值不是靜態(tài)的,會(huì)隨時(shí)間而變。例如,客戶(hù)的信用評(píng)級(jí)會(huì)隨時(shí)間而變。傳統(tǒng)的OLAP數(shù)據(jù)分析系統(tǒng)不能支持隨時(shí)間變化的維度,它們假設(shè)所有的維度都是靜態(tài)的。這樣會(huì)導(dǎo)致數(shù)據(jù)分析結(jié)果的誤差。
例如,在圖7所示的例子中,(A)和(B)是基于銀行數(shù)據(jù)倉(cāng)庫(kù)中的貸款表格(D)和客戶(hù)表格(E)的數(shù)據(jù)立方體。其中(A)表示不同信用評(píng)級(jí)的公司在各月份的貸款額,(B)表示不同信用評(píng)級(jí)的公司在各月份的累計(jì)貸款額。但是在(B)的立方體中,未能考慮到ABC公司的信用評(píng)級(jí)已在2001年2月由A變?yōu)锽(圖7(E))。在2001年2月之后,ABC公司的貸款會(huì)按照貸款人的評(píng)級(jí)為B來(lái)計(jì)算,如果需要計(jì)算在2001年2或3月累計(jì)貸給A級(jí)客戶(hù)的貸款總額,則ABC公司在2001年1月的貸款也不應(yīng)計(jì)算在內(nèi)。
為了在數(shù)據(jù)立方體中支持隨時(shí)間變化的維度,用戶(hù)首先需要定義哪些維度屬性是隨時(shí)間變化的,并定義其額外的到數(shù)據(jù)倉(cāng)庫(kù)的映射,跟蹤隨時(shí)間變化的屬性的值的變化。這可以通過(guò)用戶(hù)界面來(lái)實(shí)現(xiàn)。為此,所述數(shù)據(jù)分析設(shè)備100還可以包括標(biāo)記裝置136(圖10),用于標(biāo)記可能隨時(shí)間變化的屬性140(維度),并定義用于跟蹤所述變化的映射(如圖8中的虛線雙箭頭所示)。
其次,為了支持對(duì)隨時(shí)間變化的維度的聚集,用戶(hù)需要對(duì)每一個(gè)相關(guān)指標(biāo)定義一個(gè)額外的列。該列稱(chēng)為該指標(biāo)的調(diào)整列。該列的功能是捕捉隨時(shí)間發(fā)生了值的改變的隨時(shí)間變化的維度帶來(lái)的指標(biāo)的變化?;谠摿?,就可以對(duì)數(shù)據(jù)進(jìn)行正確的聚集。這個(gè)過(guò)程可以由數(shù)據(jù)分析設(shè)備中的指標(biāo)定義裝置122來(lái)完成。例如,如圖8(D)所示,針對(duì)諸如“累計(jì)總貸款額”這樣的指標(biāo),設(shè)置“調(diào)整列”。在該列中,“-200”表示由于ABC公司在2001年1月由A級(jí)降為B級(jí),需在A級(jí)公司2001年2月累計(jì)總貸款額中減去ABC公司在A級(jí)期間的“200”的貸款額,相應(yīng)地,在B級(jí)公司2001年2月累計(jì)總貸款額中應(yīng)加上ABC公司在A級(jí)期間的“200”的貸款額。這樣,在定義所述指標(biāo)的計(jì)算方式時(shí),除了按照傳統(tǒng)方式進(jìn)行簡(jiǎn)單加和外,還要加入所述調(diào)整列。這樣,對(duì)就能夠正確地進(jìn)行對(duì)隨時(shí)間變化的維度的聚集,正確地計(jì)算包含前述指標(biāo)的數(shù)據(jù)立方體,如圖2(E)所示。
下面對(duì)數(shù)據(jù)分析輔助方法進(jìn)行說(shuō)明。
本發(fā)明還提供了一種方法,為用戶(hù)配置數(shù)據(jù)分析設(shè)備,該方法包括提供數(shù)據(jù)分析設(shè)備中各個(gè)裝置的步驟,所述各個(gè)裝置可以使用戶(hù)使用或者修改已建立的語(yǔ)義實(shí)體庫(kù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行數(shù)據(jù)聚集。具體而言,該方法包括提供語(yǔ)義實(shí)體庫(kù)存儲(chǔ)裝置的步驟,其中該語(yǔ)義實(shí)體庫(kù)包括結(jié)構(gòu)化描述的實(shí)體及其屬性構(gòu)成的實(shí)體集,描述屬性的可能取值的參考范圍,以及實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射;提供選擇裝置的步驟,其中該選擇裝置用于從所述語(yǔ)義實(shí)體庫(kù)中選擇要分析的實(shí)體、屬性和/或?qū)傩匀≈担惶峁┲笜?biāo)定義裝置的步驟,其中該指標(biāo)定義裝置用于定義指標(biāo)的計(jì)算方式;提供數(shù)據(jù)裝載器的步驟,其中該數(shù)據(jù)裝載器用于根據(jù)所述映射裝載數(shù)據(jù)倉(cāng)庫(kù)中與所選擇的實(shí)體、屬性、屬性取值對(duì)應(yīng)的數(shù)據(jù),計(jì)算得到所定義的指標(biāo)。其中,語(yǔ)義實(shí)體庫(kù)以及各種裝置已在前面的部分進(jìn)行了詳細(xì)的說(shuō)明,在此不再贅述。
如本領(lǐng)域的普通技術(shù)人員所能理解的,本發(fā)明的方法和設(shè)備的全部或者任何步驟或者部件,可以在任何計(jì)算設(shè)備(包括處理器、存儲(chǔ)介質(zhì)等)或者計(jì)算設(shè)備的網(wǎng)絡(luò)中,以硬件、固件、軟件或者它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在了解本發(fā)明的內(nèi)容的情況下運(yùn)用他們的基本編程技能就能實(shí)現(xiàn)的,因此不需在此具體說(shuō)明。
此外,顯而易見(jiàn)的是,在上面的說(shuō)明中涉及到選擇、指定、修改、增加、刪除、定義等動(dòng)作的時(shí)候,無(wú)疑要使用與任何計(jì)算設(shè)備相連的任何顯示設(shè)備和任何輸入設(shè)備、相應(yīng)的接口和控制程序??偠灾?jì)算機(jī)、計(jì)算機(jī)系統(tǒng)或者計(jì)算機(jī)網(wǎng)絡(luò)中的相關(guān)硬件、軟件和實(shí)現(xiàn)本發(fā)明的前述方法中的各種操作的硬件、固件、軟件或者它們的組合,即構(gòu)成本發(fā)明的數(shù)據(jù)分析設(shè)備及其各組成部件。在此意義上,本說(shuō)明書(shū)中所涉及的“語(yǔ)義實(shí)體庫(kù)”等,可以理解成邏輯上的庫(kù),也可以理解成構(gòu)成本發(fā)明的數(shù)據(jù)分析設(shè)備的組成結(jié)構(gòu)之一。
因此,基于上述理解,本發(fā)明的目的還可以通過(guò)在任何信息處理設(shè)備上運(yùn)行一個(gè)程序或者一組程序來(lái)實(shí)現(xiàn)。所述信息處理設(shè)備可以是公知的通用設(shè)備。因此,本發(fā)明的目的也可以?xún)H僅通過(guò)提供包含實(shí)現(xiàn)所述方法或者設(shè)備的程序代碼的程序產(chǎn)品來(lái)實(shí)現(xiàn)。也就是說(shuō),這樣的程序產(chǎn)品也構(gòu)成本發(fā)明,并且存儲(chǔ)有這樣的程序產(chǎn)品的存儲(chǔ)介質(zhì)也構(gòu)成本發(fā)明。顯然,所述存儲(chǔ)介質(zhì)可以是本領(lǐng)域技術(shù)人員已知的,或者將來(lái)所開(kāi)發(fā)出來(lái)的任何類(lèi)型的存儲(chǔ)介質(zhì),因此也沒(méi)有必要在此對(duì)各種存儲(chǔ)介質(zhì)一一列舉。
在本發(fā)明的設(shè)備和方法中,顯然,各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應(yīng)視為本發(fā)明的等效方案。
權(quán)利要求
1.一種數(shù)據(jù)分析方法,包括建立語(yǔ)義實(shí)體庫(kù)的建庫(kù)步驟,該語(yǔ)義實(shí)體庫(kù)包括結(jié)構(gòu)化描述的實(shí)體及其屬性構(gòu)成的實(shí)體集,描述屬性的可能取值的參考范圍,以及實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射;選擇步驟,從所述語(yǔ)義實(shí)體庫(kù)中選擇要分析的實(shí)體、屬性和/或?qū)傩匀≈?;指?biāo)定義步驟,定義指標(biāo)的計(jì)算方式;以及,數(shù)據(jù)裝載步驟,根據(jù)所述映射,裝載數(shù)據(jù)倉(cāng)庫(kù)中與所選擇的實(shí)體、屬性、屬性取值對(duì)應(yīng)的數(shù)據(jù),計(jì)算得到所定義的指標(biāo)。
2.如權(quán)利要求1所述的數(shù)據(jù)分析方法,其特征在于,所述建庫(kù)步驟包括修改已有的語(yǔ)義實(shí)體庫(kù),其中,所述已有的語(yǔ)義實(shí)體庫(kù)中的所述實(shí)體集、所述參考范圍和所述映射至少為可以添加新成員的空集;其中,修改已有的語(yǔ)義實(shí)體庫(kù)的步驟包括實(shí)體集描述步驟,添加、刪除或修改所述實(shí)體集中的實(shí)體及其屬性;參考范圍描述步驟,描述或者修改屬性的可能取值的參考范圍;以及數(shù)據(jù)映射步驟,建立、刪除或者修改實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射。
3.如權(quán)利要求2所述的數(shù)據(jù)分析方法,其特征在于,還包括參考范圍映射步驟當(dāng)所述參考范圍和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的實(shí)際范圍不一致時(shí),在所述參考范圍和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的實(shí)際范圍之間建立映射。
4.如權(quán)利要求1所述的數(shù)據(jù)分析方法,其特征在于,還包括參考范圍映射步驟當(dāng)所述參考范圍和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的實(shí)際范圍不一致時(shí),在所述參考范圍和數(shù)據(jù)倉(cāng)庫(kù)中真實(shí)數(shù)據(jù)的實(shí)際范圍之間建立映射。
5.如權(quán)利要求1到4之一所述的數(shù)據(jù)分析方法,其特征在于,還包括圖形化步驟生成所選擇的實(shí)體、屬性、屬性取值和所定義的指標(biāo)以及所述計(jì)算結(jié)果的圖形顯示。
6.如權(quán)利要求1到4之一所述的數(shù)據(jù)分析方法,其特征在于還包括標(biāo)記步驟標(biāo)記可能隨時(shí)間變化的屬性,并定義用于跟蹤所述變化的到數(shù)據(jù)倉(cāng)庫(kù)的映射,其中,所述指標(biāo)定義步驟包括在與所述隨時(shí)間變化的屬性相關(guān)的指標(biāo)的計(jì)算方式中,包括進(jìn)與所述變化相關(guān)的調(diào)整項(xiàng)。
7.一種數(shù)據(jù)分析設(shè)備,包括語(yǔ)義實(shí)體庫(kù)存儲(chǔ)裝置,該語(yǔ)義實(shí)體庫(kù)包括結(jié)構(gòu)化描述的實(shí)體及其屬性構(gòu)成的實(shí)體集,描述屬性的可能取值的參考范圍,以及實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射;選擇裝置,用于從所述語(yǔ)義實(shí)體庫(kù)中選擇要分析的實(shí)體、屬性和/或?qū)傩匀≈?;指?biāo)定義裝置,用于定義指標(biāo)的計(jì)算方式;數(shù)據(jù)裝載器,用于根據(jù)所述映射裝載數(shù)據(jù)倉(cāng)庫(kù)中與所選擇的實(shí)體、屬性、屬性取值對(duì)應(yīng)的數(shù)據(jù),計(jì)算得到所定義的指標(biāo)。
8.如權(quán)利要求7所述的數(shù)據(jù)分析設(shè)備,其特征在于,所述實(shí)體集、所述參考范圍和所述映射至少為可以添加新成員的空集,并且該方法還包括修改所述語(yǔ)義實(shí)體庫(kù)的修改裝置,該修改裝置包括實(shí)體集描述裝置,用于添加、刪除或修改所述實(shí)體集中的實(shí)體及其屬性;參考范圍描述裝置,用于描述或者修改屬性的可能取值的參考范圍;以及數(shù)據(jù)映射裝置,用于建立、刪除或者修改實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射。
9.如權(quán)利要求8所述的數(shù)據(jù)分析設(shè)備,其特征在于,還包括在所述參考范圍和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的實(shí)際范圍之間建立映射的參考范圍映射裝置。
10.如權(quán)利要求7所述的數(shù)據(jù)分析設(shè)備,其特征在于,還包括在所述參考范圍和數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的實(shí)際范圍之間建立映射的參考范圍映射裝置。
11.如權(quán)利要求7到10之一所述的數(shù)據(jù)分析設(shè)備,其特征在于,還包括生成所選擇的實(shí)體、屬性、屬性取值和所定義的指標(biāo)以及所述計(jì)算結(jié)果的圖形顯示的圖形化裝置。
12.如權(quán)利要求7到10之一所述的數(shù)據(jù)分析設(shè)備,其特征在于還包括標(biāo)記裝置,用于標(biāo)記可能隨時(shí)間變化的屬性,并定義用于跟蹤所述變化的到數(shù)據(jù)倉(cāng)庫(kù)的映射,其中,所述指標(biāo)定義裝置在與所述隨時(shí)間變化的屬性相關(guān)的指標(biāo)的計(jì)算方式中,包括進(jìn)與所述變化相關(guān)的調(diào)整項(xiàng)。
13.一種為用戶(hù)配置數(shù)據(jù)分析設(shè)備的方法,該方法包括提供語(yǔ)義實(shí)體庫(kù)存儲(chǔ)裝置的步驟,其中該語(yǔ)義實(shí)體庫(kù)包括結(jié)構(gòu)化描述的實(shí)體及其屬性構(gòu)成的實(shí)體集,描述屬性的可能取值的參考范圍,以及實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射;提供選擇裝置的步驟,其中該選擇裝置用于從所述語(yǔ)義實(shí)體庫(kù)中選擇要分析的實(shí)體、屬性和/或?qū)傩匀≈?;提供指?biāo)定義裝置的步驟,其中該指標(biāo)定義裝置用于定義指標(biāo)的計(jì)算方式;提供數(shù)據(jù)裝載器的步驟,其中該數(shù)據(jù)裝載器用于根據(jù)所述映射裝載數(shù)據(jù)倉(cāng)庫(kù)中與所選擇的實(shí)體、屬性、屬性取值對(duì)應(yīng)的數(shù)據(jù),計(jì)算得到所定義的指標(biāo)。
14.一種程序產(chǎn)品,包括存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的程序代碼,所述程序代碼用于完成前述權(quán)利要求1-6或13中任何一個(gè)權(quán)利要求的操作。
全文摘要
本申請(qǐng)涉及數(shù)據(jù)分析方法、設(shè)備,以及數(shù)據(jù)分析輔助方法。其中,預(yù)先建立語(yǔ)義實(shí)體庫(kù),該語(yǔ)義實(shí)體庫(kù)包括結(jié)構(gòu)化描述的實(shí)體及其屬性構(gòu)成的實(shí)體集,描述屬性的可能取值的參考范圍,以及實(shí)體和屬性與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)結(jié)構(gòu)之間的映射。在進(jìn)行數(shù)據(jù)聚集時(shí),從所述語(yǔ)義實(shí)體庫(kù)中選擇要分析的實(shí)體、屬性和/或?qū)傩匀≈担x指標(biāo)的計(jì)算方式,并根據(jù)所述映射裝載數(shù)據(jù)倉(cāng)庫(kù)中與所選擇的實(shí)體、屬性、屬性取值對(duì)應(yīng)的數(shù)據(jù),計(jì)算得到所定義的指標(biāo)。
文檔編號(hào)G06F17/30GK101089846SQ200610092849
公開(kāi)日2007年12月19日 申請(qǐng)日期2006年6月16日 優(yōu)先權(quán)日2006年6月16日
發(fā)明者裘照明, 楊洋, 謝國(guó)彤, 馬立, 潘越 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司