国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法

      文檔序號:6606817閱讀:488來源:國知局
      專利名稱:一種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種多準(zhǔn)則信息處理方法,尤其是涉及一種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法。
      背景技術(shù)
      如何從海量數(shù)據(jù)中快速分析出有用的信息,并為企業(yè)各管理層提供有效的決策支持是提高企業(yè)經(jīng)濟效益和市場競爭力的一個重要手段。近年來,研究人員主要從聯(lián)機分析處理(Online Analytical Processing)和數(shù)據(jù)挖掘(Data Mining)這兩個方面來為企業(yè)提供高質(zhì)量的決策支持。聯(lián)機分析處理旨在通過一系列復(fù)雜的多維聯(lián)機查詢(如Top-n查詢、KNN查詢、Rank查詢、Range查詢以及冰山查詢等)來探索和透視整個企業(yè)數(shù)據(jù),并返回海量數(shù)據(jù)的概括性信息。這樣,用戶就可以根據(jù)小數(shù)據(jù)量的概括性信息來完成相關(guān)的信息分析。然而,IBM公司Almaden研究院的R. Agrawal教授在2000年的HGMOD國際會議上指出,傳統(tǒng)的多維聯(lián)機查詢需要用戶預(yù)先提供分析空間上的偏好權(quán)重向量(!^reference Weight-Vector),而這在實際應(yīng)用中是不可能的。因此,傳統(tǒng)多維聯(lián)機查詢技術(shù)無法應(yīng)用于與無權(quán)重分析處理相關(guān)的領(lǐng)域。為了有效支持企業(yè)用戶進行無權(quán)重分析處理,在2001年的 ICDE國際會議上,德國帕紹大學(xué)的S. Borzsonyi教授首次提出多準(zhǔn)則信息查詢的概念和技術(shù)。通過定義分析空間上的支配操作符,多準(zhǔn)則信息查詢返回企業(yè)數(shù)據(jù)中位于各支配序鏈最頂端的對象元組。目前,多準(zhǔn)則信息查詢技術(shù)廣泛應(yīng)用于商業(yè)智能分析、城市導(dǎo)航系統(tǒng)、 數(shù)據(jù)挖掘和可視化、智能防御系統(tǒng)、以及地理信息系統(tǒng)等領(lǐng)域。隨著企業(yè)對數(shù)據(jù)采集需求的不斷深化和提高,不確定性數(shù)據(jù)(Uncertain Data)得到廣泛的重視。在多數(shù)實際行業(yè)中(例如先進制造、物流、金融、電信、航空航天等行業(yè)), 企業(yè)由于受數(shù)據(jù)采集設(shè)備的精度、數(shù)據(jù)自身的模糊和不完整性等因素的制約,使得數(shù)據(jù)的不確定性在企業(yè)內(nèi)部數(shù)據(jù)源中普遍存在,不確定性數(shù)據(jù)正扮演著關(guān)鍵的角色。由于不確定數(shù)據(jù)需要引入關(guān)系表/屬性字段的概率分布信息以及可能世界實例(Possible Worlds)語義,因此相對于傳統(tǒng)關(guān)系數(shù)據(jù)庫,不確定數(shù)據(jù)庫在數(shù)據(jù)模型、代數(shù)操作規(guī)則、函數(shù)依賴、數(shù)據(jù)存儲以及查詢語義等要素上比傳統(tǒng)關(guān)系數(shù)據(jù)庫更為復(fù)雜。從而,傳統(tǒng)關(guān)系數(shù)據(jù)庫上的多準(zhǔn)則信息查詢技術(shù)無法直接運用于不確定數(shù)據(jù)庫上。例如L. Antova教授在2008年的I⑶E 國際會議上指出對于BNL算法,在傳統(tǒng)關(guān)系數(shù)據(jù)庫上的分析代價為PTIME時間復(fù)雜度,而在康奈爾大學(xué)開發(fā)的MayBMS不確定數(shù)據(jù)庫系統(tǒng)上的析代價為coNP-Complete時間復(fù)雜度。目前不確定數(shù)據(jù)上的多準(zhǔn)則信息查詢技術(shù)主要存在如下四個重要不足(1)現(xiàn)有技術(shù)沒有考慮不確定數(shù)據(jù)底層的數(shù)據(jù)表示體系,只是簡單地將不確定數(shù)據(jù)存儲于同一張帶概率分布信息的關(guān)系數(shù)據(jù)表中,而這在實際應(yīng)用中是不現(xiàn)實的。(2)現(xiàn)有技術(shù)只針對固定分析空間來設(shè)計不確定數(shù)據(jù)上的多準(zhǔn)則信息查詢算法,而且它們所使用的R-樹、kd-樹以及 AR-樹索引均是標(biāo)量型的,無法擴展到任意分析空間的應(yīng)用場景中。然而在實際應(yīng)用中,無權(quán)重的多準(zhǔn)則信息查詢是面向任意用戶分析空間的。(3)現(xiàn)有技術(shù)沒有將多準(zhǔn)則信息查詢集成進目前主流不確定數(shù)據(jù)庫(U-Relational數(shù)據(jù)庫、ULDB數(shù)據(jù)庫和UDBMS數(shù)據(jù)庫等)的查詢優(yōu)化器中,因此,當(dāng)不確定數(shù)據(jù)庫上的多準(zhǔn)則信息查詢涉及Conf、Merge、Ujoin等代數(shù)操作時,主流不確定數(shù)據(jù)庫的查詢優(yōu)化器不能夠提供有效的查詢執(zhí)行計劃,從而嚴(yán)重影響用戶的等待時間。(4)現(xiàn)有技術(shù)沒有充分考慮多準(zhǔn)則信息對象集的概率信息計算效率,相關(guān)技術(shù)給出的概率信息計算方法的時間復(fù)雜度均為#P-Hard,因此在現(xiàn)實應(yīng)用中,僅多準(zhǔn)則信息對象的概率信息計算時間用戶就無法容忍。

      發(fā)明內(nèi)容
      本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種提高企業(yè)的經(jīng)濟效益和市場競爭力的不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法。本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn)—種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法,其特征在于,包括以下步驟(1)對面向不確定數(shù)據(jù)的多準(zhǔn)則信息查詢進行等價重寫;(2)對概率關(guān)系部件上的多準(zhǔn)則信息查詢進行優(yōu)化;(3)查詢優(yōu)化器生成概率關(guān)系部件上多準(zhǔn)則信息查詢執(zhí)行計劃;(4)查詢處理器根據(jù)步驟( 生成的計劃對面向不確定數(shù)據(jù)的多準(zhǔn)則信息進行查詢,并將結(jié)果通過顯示器顯示。所述的步驟(1)對面向不確定數(shù)據(jù)的多準(zhǔn)則信息查詢進行等價重寫包括以下步驟1)同個關(guān)系對象的多個概率實例被組織成一張帶約束條件的G-Tabset信息表沢;2)沢被因子分解成多項式個數(shù)的概率關(guān)系部件,其中每個概率關(guān)系部件為若干個概率關(guān)系表實例的合取,其中概率關(guān)系部件集W = {WSD1,... , WSDnj,WSDi為第i個概率關(guān)系部件;Datalog 語言規(guī)則集 D = {DL1,· · ·,DLn},其中 DLi 為 WSDi -Insil". · · "Insim, 表示概率關(guān)系部件WSDi由m個概率關(guān)系表實例合取而成。所述的步驟(2)對概率關(guān)系部件上的多準(zhǔn)則信息查詢進行優(yōu)化過程如下;經(jīng)步驟⑴后,系統(tǒng)中生成U個多準(zhǔn)則信息查詢V(WSDi),...,V(WSDl),其中
      每個查詢V(WSD))的輸入?yún)?shù)為一個概率關(guān)系部件WSD' i e W,系統(tǒng)不直接獲取這u 個概率關(guān)系部件WSD' 1;...,WSD' u上的多準(zhǔn)則信息查詢結(jié)果集,而是從概率關(guān)系部件集W = {WSD1,WSDnj中基于代價的方式挑選出最優(yōu)的ν (v < u)個概率關(guān)系部件 WSD"WSD〃 v,其中通過概率關(guān)系部件WSD" Jl彡i彡ν)的多準(zhǔn)則信息對象集來
      回答WSD' 1;...,WSD' u中若干個概率關(guān)系部件上的多準(zhǔn)則信息查詢。所述的步驟C3)查詢優(yōu)化器生成概率關(guān)系部件上多準(zhǔn)則信息查詢執(zhí)行計劃過程如下1)設(shè)計出一套正確的多準(zhǔn)則信息查詢操作▽與各種不確定關(guān)系操作執(zhí)行順序間的等價變換規(guī)則;2)查詢優(yōu)化器基于等價變換規(guī)則集獲取多準(zhǔn)則信息查詢執(zhí)行計劃。所述的步驟(4)查詢處理器根據(jù)步驟( 生成的計劃對面向不確定數(shù)據(jù)的多準(zhǔn)則信息進行查詢過程如下1)查詢處理器組織和索引不確定關(guān)系對象,使得系統(tǒng)能夠快速獲取任意分析空間上的多準(zhǔn)則信息對象集合;
      2)查詢處理器計算多準(zhǔn)則信息對象集合在可能世界實例語義下的存在概率。與現(xiàn)有技術(shù)相比,本發(fā)明提高企業(yè)不確定數(shù)據(jù)上的多準(zhǔn)則信息查詢效率為核心, 設(shè)計一套適合可能世界實例語義、能夠有效處理用戶任意分析空間需求,且能與不確定數(shù)據(jù)庫產(chǎn)品優(yōu)化器和處理器無縫集成的多準(zhǔn)則信息查詢技術(shù)及其實現(xiàn)算法,為企業(yè)各管理層提供有效的決策支持,從而能夠提高企業(yè)的經(jīng)濟效益和市場競爭力。


      圖1為本發(fā)明的流程圖;圖2為本發(fā)明的硬件結(jié)構(gòu)示意圖。
      具體實施例方式下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細(xì)說明。實施例1如圖1、如圖2所示,一種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法,包括以下步驟步驟一預(yù)處理器1對面向不確定數(shù)據(jù)的多準(zhǔn)則信息查詢進行等價重寫。由于目前主流的不確定數(shù)據(jù)庫產(chǎn)品(如MayBMS數(shù)據(jù)庫、ULDB數(shù)據(jù)庫和UDBMS 數(shù)據(jù)庫等)均基于可能世界實例模型,因此相對于傳統(tǒng)數(shù)據(jù)庫的一個關(guān)系對象,它們需要存儲指數(shù)級個數(shù)的概率關(guān)系表實例。為了便于管理和查詢,這些產(chǎn)品均通過兩個階段來存儲不確定數(shù)據(jù),在第一階段中,同個關(guān)系對象的多個概率實例被組織成一張帶約束條件的G-Tabset信息表沢,而在第二個階段中,9 被因子分解成多項式個數(shù)的概率關(guān)系部件,其中每個概率關(guān)系部件為若干個概率關(guān)系表實例的合取。在許多現(xiàn)實應(yīng)用中,企業(yè)通常不存儲大規(guī)模的概率關(guān)系表實例,而只存儲兩類等價數(shù)據(jù)①小規(guī)模的概率關(guān)系部件集W = (WSD1, ...,WSDJ ;② Datalog 語言規(guī)則集 D = (DL1, ...,DLj,其中 DLi 形式為 WSDi :-Ιη8η". . . "Insim,表示概率關(guān)系部件WSDi由m個概率關(guān)系表實例合取而成。在企業(yè)商業(yè)信息分析時,為了便于理解,用戶所提交多準(zhǔn)則信息查詢SQ的輸入?yún)?shù)往往是概率關(guān)系表實例,即形如SQ:-V(InslA.../Jnsz),所表達(dá)的語義為獲取輸入數(shù)據(jù) Ins1"... - 上的多準(zhǔn)則信息對象集合。然而主流的不確定數(shù)據(jù)庫產(chǎn)品通常不存儲大規(guī)模的概率關(guān)系表實例,而只保存概率關(guān)系部件集和Datalog語言規(guī)則集,因此為了讓查詢優(yōu)化器能夠識別和解析不確定數(shù)據(jù)上的多準(zhǔn)則信息查詢語句,在企業(yè)中間應(yīng)用層中,本發(fā)明設(shè)計出高效的等價重寫算法將SQ等價轉(zhuǎn)換為若干個概率關(guān)系部件上的多準(zhǔn)則信息查詢。步驟二 對概率關(guān)系部件上的多準(zhǔn)則信息查詢進行優(yōu)化。在第一個發(fā)明步驟中,將概率關(guān)系表實例合取上的多準(zhǔn)則信息查詢等價重寫為若干個概率關(guān)系部件上多準(zhǔn)則信息查詢的合取。因此經(jīng)過等價重寫之后,系統(tǒng)中存在u個多準(zhǔn)則信息查詢V(WSDI)^V(WSDh),其中每個查詢V(WSD))的輸入?yún)?shù)為一個概率關(guān)系部件WSD' ^ff0為了返回完整的多準(zhǔn)則信息查詢結(jié)果集,一個直接做法就是分別獲取這u個概率關(guān)系部件上的多準(zhǔn)則信息查詢結(jié)果集。發(fā)現(xiàn)這種直接的處理方式雖然實現(xiàn)起來較為簡單,但是它存在兩個嚴(yán)重的性能缺陷①由于多準(zhǔn)則信息查詢是CPU敏感的,因此這種直接的處理方式將花費大量的CPU時間開銷;②在企業(yè)級的應(yīng)用中,每個概率關(guān)系部件通常占較大的存儲空間,因此從磁盤調(diào)入這u個概率關(guān)系部件進內(nèi)存將花費大量的I/O開銷。為了能夠有效克服以上兩個性能缺陷,需要改進企業(yè)系統(tǒng)應(yīng)用層中這種簡單的處理方式。本發(fā)明設(shè)計一種共享處理機制,并從理論上證明了在最優(yōu)情況下,共享處理機制比直接處理方式節(jié)省1/e ^ 37%的CPU時間開銷以及(e_l)/e 63%的I/O開銷。共享處理機制的原理是系統(tǒng)不直接獲取這u個概率關(guān)系部件WSD' 1;...,WSD' u上的多準(zhǔn)則信息查詢結(jié)果集,而是從概率關(guān)系部件集W = (WSD1, WSDnj中基于代價的方式挑選出最優(yōu)的ν (ν < u)個概率關(guān)系部件WSD" ,WSD" v,其中概率關(guān)系部件WSD" ^ i ^ ν) 的多準(zhǔn)則信息對象集可以用來回答WSD' . . .,WSD' u中若干個概率關(guān)系部件上的多準(zhǔn)則信息查詢,從而只需要較少的多準(zhǔn)則信息查詢次數(shù)和較小規(guī)模的概率關(guān)系部件作為輸入數(shù)據(jù)。步驟三查詢優(yōu)化器2生成概率關(guān)系部件上多準(zhǔn)則信息查詢執(zhí)行計劃。當(dāng)系統(tǒng)應(yīng)用層得到ν個優(yōu)化的概率關(guān)系部件WSD" !,...,WSD",之后,對于其中的每個概率關(guān)系部件WSD" i,在獲取它上面的多準(zhǔn)則信息對象集之前,查詢優(yōu)化器需要從邏輯層面,產(chǎn)生有效的多準(zhǔn)則信息查詢執(zhí)行計劃。這個執(zhí)行計劃需要從優(yōu)化實施代價的角度,提供多準(zhǔn)則信息查詢操作▽與不確定關(guān)系操作(如Uselection、Conf, Merge和Ujoin 等)間的執(zhí)行順序。由于現(xiàn)有不確定數(shù)據(jù)庫查詢優(yōu)化器沒有包含一套多準(zhǔn)則信息查詢操作與不確定關(guān)系操作執(zhí)行順序之間等價變換的規(guī)則,因此為了能獲取正確的多準(zhǔn)則信息對象集,查詢優(yōu)化器只是簡單地將多準(zhǔn)則信息查詢操作放于左深度合取樹(Left-de印Conjunctive Tree)的根節(jié)點位置,并基于樹上各操作節(jié)點的先后順序來提供多準(zhǔn)則信息查詢執(zhí)行計劃。 經(jīng)分析,這種多準(zhǔn)則信息查詢執(zhí)行計劃的一個嚴(yán)重缺陷是由于多準(zhǔn)則信息查詢操作必須在所有不確定關(guān)系操作都執(zhí)行完畢之后才能實施,因此系統(tǒng)需要在大規(guī)模臨時存儲的數(shù)據(jù)上執(zhí)行多準(zhǔn)則信息查詢,從而導(dǎo)致實施多準(zhǔn)則信息查詢的效率極其低下。為了有效解決查詢優(yōu)化器的上述不足,本發(fā)明設(shè)計出一套多準(zhǔn)則信息查詢操作▽ 與各種不確定關(guān)系操作執(zhí)行順序間的等價變換規(guī)則,以及變換前后的代價評估。同時,從理論上證明等價變換規(guī)則集的正確性。另一方面,在給定多準(zhǔn)則信息查詢SQ’:-V(WSD)’)以及查詢中所涉及的若干個不確定關(guān)系操作(如helectioruConf、Merge和Ujoin等)的情況下,本發(fā)明使用等價變換規(guī)則集修改左深度合取樹,從而改進查詢優(yōu)化器提供的多準(zhǔn)則信息查詢執(zhí)行計劃。步驟四查詢處理器3根據(jù)步驟C3)生成的計劃對面向不確定數(shù)據(jù)的多準(zhǔn)則信息進行查詢,并將結(jié)果通過顯示器4顯示。查詢優(yōu)化器將生成的多準(zhǔn)則信息查詢查詢執(zhí)行計劃提交給查詢處理器。之后,查詢處理器按照預(yù)先制定的執(zhí)行計劃,從物理層面上對多準(zhǔn)則信息查詢查詢進行實施,并獲取多準(zhǔn)則信息查詢對象集及其在可能世界實例語義下的存在概率。發(fā)現(xiàn),如果將現(xiàn)有不確定數(shù)據(jù)上的多準(zhǔn)則信息查詢查詢實施方法集成進查詢處理器中,那么在實際應(yīng)用中至少會出現(xiàn)以下兩個問題①現(xiàn)有的實施方法只針對固定分析空間,而且它們所使用的R-樹、kd_樹以及 AR-樹索引均是標(biāo)量型的。由于標(biāo)量型的索引結(jié)構(gòu)將多維空間的坐標(biāo)映射為一維的實數(shù)值, 因此損失了絕大部分位置信息,從而無法擴展到任意分析空間的應(yīng)用場景中。
      ②現(xiàn)有的實施方法沒有充分考慮計算多準(zhǔn)則信息查詢對象集在可能世界實例語義下存在概率的效率,這些方法獲取多準(zhǔn)則信息查詢對象集存在概率值的時間復(fù)雜度均是 SP-Hard0因此,系統(tǒng)僅完成這項工作的時間代價用戶就無法容忍。為了能夠向查詢處理器提供有效的多準(zhǔn)則信息查詢查詢物理實施方案,在給定輸入數(shù)據(jù)集Ψ和任意分析空間U上的多準(zhǔn)則信息查詢操作▽的前提下,本發(fā)明設(shè)計出一套高效的算法,從ψ中快速獲取U上的多準(zhǔn)則信息對象集及其在可能世界實例語義下的存在概率。實施例2當(dāng)企業(yè)用戶在異構(gòu)不確定數(shù)據(jù)庫上,提交任意分析空間上的多準(zhǔn)則信息查詢SQ 后,本發(fā)明以存儲于不確定數(shù)據(jù)庫中的概率關(guān)系部件集W= {WSD^.^WSDJ以及Datalog 語言規(guī)則集D = (DL1, DLJ為中心,首先將SQ進行等價重寫,并生成u個概率關(guān)系部件上的多準(zhǔn)則信息查詢,即 SQ:-V(WSDi)AV(WSD2)/\.../\V(WSD’ ),其中 V(WSD);^
      概率關(guān)系部件WSD' , e W上的多準(zhǔn)則信息查詢,且u彡η。然后,使用共享處理機制從從概率關(guān)系部件集W = (WSD1, WSDnj中基于代價的方式挑選出最優(yōu)的ν (v < u)個概率關(guān)系部件WSD" !,...,WSD" v,其中概率關(guān)系部件WSD" i(l彡i彡ν)的多準(zhǔn)則信息對象集可以用來回答WSD' 1;...,WSD' u中若干個概率關(guān)系部件上的多準(zhǔn)則信息查詢。接著, 本發(fā)明定義一個正確性經(jīng)過嚴(yán)格證明的等價變換規(guī)則集,該規(guī)則集包括了多準(zhǔn)則信息查詢操作▽與各種不確定關(guān)系操作執(zhí)行順序間的等價變換規(guī)則,并對于最優(yōu)化后的每個多準(zhǔn)則信息查詢▽( WSD丨)(l v),使用等價變換規(guī)則集來修改左深度合取樹,來獲取最佳多準(zhǔn)則信息查詢執(zhí)行計劃。最后,本發(fā)明針對最佳多準(zhǔn)則信息查詢執(zhí)行計劃,來高效生成多準(zhǔn)則信息對象集及其在可能世界實例語義下的存在概率。從用戶提交任意分析空間上的多準(zhǔn)則信息查詢SQ到生成多準(zhǔn)則信息對象集及其在可能世界實例語義下的存在概率,本發(fā)明的實施經(jīng)過四個步驟。對于第一個步驟(即對面向不確定數(shù)據(jù)的多準(zhǔn)則信息查詢進行等價重寫),本發(fā)明首先采用Datalog工具和一階謂詞邏輯為重寫描述語言,并以此定義不確定數(shù)據(jù)上多準(zhǔn)則信息查詢等價重寫的形式化語義。然后,通過兩個階段來完成不確定數(shù)據(jù)的多準(zhǔn)則信息查詢等價重寫。在第一階段中,本發(fā)明基于Datalog語言規(guī)則集D,使用普林斯頓大學(xué)A. Levy教授提出的反轉(zhuǎn)規(guī)則技術(shù),在多項式時間復(fù)雜度內(nèi)過濾掉與查詢SQ無關(guān)的概率關(guān)系部件集合M ;并在第二階段中,本發(fā)明首先確定用于等價重寫查詢SQ的最小概率關(guān)系部件個數(shù)u,接著針對概率關(guān)系部件集W-M,以謂詞同構(gòu)為過濾特征,利用Apriori性質(zhì)獲取所有基數(shù)等于u的候選概率關(guān)系部件子集,并從中選取任意一個滿足等價重寫外延條件的子集Ω,= {WSD' 1; ...,WSD' J作為算法的輸出結(jié)果,即 SQ:-V(WSDi)aV(WSD2)a...aV( WSD’u)。對于第二個步驟(即對概率關(guān)系部件上的多準(zhǔn)則信息查詢進行優(yōu)化),為了提高其實施效率,本發(fā)明對u分兩種情況來考慮。(i)當(dāng)6時,系統(tǒng)通常需要花較少的代價來完成多多準(zhǔn)則信息查詢優(yōu)化的任務(wù)。在這種情況下,本發(fā)明首先構(gòu)造加權(quán)有向二部圖,將概率關(guān)系部件集W和S映射為二部圖的頂點集,同時基于多準(zhǔn)則信息查詢代價模型,將各概率關(guān)系部件之間推導(dǎo)的代價信息映射為二部圖的頂點集和邊集上。然后,本發(fā)明將概率關(guān)系部件上的多準(zhǔn)則信息查詢優(yōu)化問題等價轉(zhuǎn)換為二部圖上的最小加權(quán)集覆蓋(MinimumWeighted Set Cover)問題,來從W中精確獲取ν個最優(yōu)的概率關(guān)系部件。(ii)根據(jù)圖理論可知,最小加權(quán)集覆蓋問題的理論時間復(fù)雜度為NPC,因此,當(dāng)u > 6時,加權(quán)有向二部圖的規(guī)模將迅速膨脹,此時系統(tǒng)需要花費較大的代價來完成多準(zhǔn)則信息查詢優(yōu)化的任務(wù)。在這種情況下,本發(fā)明基于圖最短路徑優(yōu)化理論,首先通過引入一個虛擬頂點,在常數(shù)時間復(fù)雜度內(nèi),將(i)中所構(gòu)造的加權(quán)有向二部圖轉(zhuǎn)換為Steiner加權(quán)路徑圖。然后,在OLAP物化視圖選擇技術(shù)的基礎(chǔ)上,本發(fā)明在多項式時間復(fù)雜度內(nèi)生成路徑圖中的有向Steiner樹, 進而獲取多準(zhǔn)則信息查詢優(yōu)化問題的近似最優(yōu)解。根據(jù)有向Steiner樹理論,近似算法的時間復(fù)雜度PT與優(yōu)化下界OB可通過不小于1的正數(shù)來調(diào)整和權(quán)衡。對于第三個步驟(查詢優(yōu)化器生成概率關(guān)系部件上多準(zhǔn)則信息查詢執(zhí)行計劃), 本發(fā)明主要完成兩個方面的工作(i)設(shè)計出一套正確的多準(zhǔn)則信息查詢操作▽與各種不確定關(guān)系操作執(zhí)行順序間的等價變換規(guī)則;(ii)基于等價變換規(guī)則集獲取有效的多準(zhǔn)則信息查詢執(zhí)行計劃。在(i)中,本發(fā)明以關(guān)系數(shù)據(jù)庫中的關(guān)系代數(shù)理論為基礎(chǔ),設(shè)計出39 個正確性經(jīng)過嚴(yán)格證明的等價變換規(guī)則,這些規(guī)則定義了多準(zhǔn)則信息查詢操作與各種不確定關(guān)系操作(如helection、Merge、UPro jection和Ujoin等)之間所滿足的運算律,如交換律、結(jié)合律、分組律和重復(fù)消除律等,并通過這些運算律來支持不同操作執(zhí)行順序間的等價變換。在(ii)中,本發(fā)明將查詢優(yōu)化器提供的簡單多準(zhǔn)則信息查詢執(zhí)行計劃作為優(yōu)化基點,利用不同的等價變換規(guī)則,在左深度合取樹上,通過上移/下推操作節(jié)點、合并/分裂操作節(jié)點以及變換操作節(jié)點等策略來生成各種不同的候選操作執(zhí)行序列。然后,基于多準(zhǔn)則信息查詢代價模型評估器來計算各候選序列的時間開銷,并從中選取一條最優(yōu)序列來產(chǎn)生代價最小的多準(zhǔn)則信息查詢執(zhí)行計劃。對于第四個步驟(查詢處理器根據(jù)步驟C3)生成的計劃對面向不確定數(shù)據(jù)的多準(zhǔn)則信息進行查詢,并將結(jié)果通過顯示器顯示),本發(fā)明也主要完成兩個方面的工作(i)有效組織和索引不確定關(guān)系對象,使得系統(tǒng)能夠快速獲取任意分析空間上的多準(zhǔn)則信息對象集合;(ii)高效計算多準(zhǔn)則信息對象集合在可能世界實例語義下的存在概率。在(i)中, 本發(fā)明設(shè)計出正規(guī)柵結(jié)構(gòu)(Regular Grid hdex)來組織和索引不確定關(guān)系對象,該正規(guī)柵索引結(jié)構(gòu)能夠滿足任何分析空間上的多準(zhǔn)則信息查詢。然后通過兩個階段來顯著降低獲取多準(zhǔn)則信息對象集合的時間開銷在第一階段,本發(fā)明基于最小描述長度(MDL =Minimal Description Length)原則來自動刪除正規(guī)柵中用戶不感興趣的可能世界實例;而在第二階段,本發(fā)明利用正規(guī)柵中單元格間的支配和互斥關(guān)系來縮減可能世界實例間的比較次數(shù)。在(ii)中,本發(fā)明將計算多準(zhǔn)則信息對象集合在可能世界實例語義下的存在概率等價轉(zhuǎn)換為計算DNF范式的真賦值個數(shù),并且設(shè)計兩種不同的方法來解決該問題。第一種方法利用人工智能領(lǐng)域的Davis-Putnam函數(shù)來精確獲取DNF范式的真賦值個數(shù)。給定一個DNF 范式,本發(fā)明將該范式Davis-Putnam化為多個獨立且不共享變量的子DNF范式,并通過遞歸的方式來精確統(tǒng)計真賦值個數(shù)。而第二種方法使用Karp-Luby隨機算法,在多項式時間內(nèi)獲取具有精度下界保證的真賦值個數(shù)近似值。Karp-Luby隨機算法基于蒙托卡羅(Monte Carlo)思想,通過N步的隨機仿真來確定真賦值個數(shù)的近似值。
      權(quán)利要求
      1.一種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法,其特征在于,包括以下步驟(1)對面向不確定數(shù)據(jù)的多準(zhǔn)則信息查詢進行等價重寫;(2)對概率關(guān)系部件上的多準(zhǔn)則信息查詢進行優(yōu)化;(3)查詢優(yōu)化器生成概率關(guān)系部件上多準(zhǔn)則信息查詢執(zhí)行計劃;(4)查詢處理器根據(jù)步驟(3)生成的計劃對面向不確定數(shù)據(jù)的多準(zhǔn)則信息進行查詢, 并將結(jié)果通過顯示器顯示。
      2.根據(jù)權(quán)利要求1所述的一種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法,其特征在于,所述的步驟(1)對面向不確定數(shù)據(jù)的多準(zhǔn)則信息查詢進行等價重寫包括以下步驟1)同個關(guān)系對象的多個概率實例被組織成一張帶約束條件的G-Tabset信息表沢;2)沢被因子分解成多項式個數(shù)的概率關(guān)系部件,其中每個概率關(guān)系部件為若干個概率關(guān)系表實例的合取,其中概率關(guān)系部件集W= {WSD1,...,ffSDn}, WSDi為第i個概率關(guān)系部件;Datalog 語言規(guī)則集 D = {DL1,· · ·,DLn},其中 DLi 為 WSDi -Insil". · · 二nsim,表示概率關(guān)系部件WSDi由m個概率關(guān)系表實例合取而成。
      3.根據(jù)權(quán)利要求1所述的一種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法,其特征在于,所述的步驟(2)對概率關(guān)系部件上的多準(zhǔn)則信息查詢進行優(yōu)化過程如下;經(jīng)步驟⑴后,系統(tǒng)中生成u個多準(zhǔn)則信息查詢V(WSD丨),...,V(WSD;j,其中每個查詢V(WSD:)的輸入?yún)?shù)為一個概率關(guān)系部件WSD' , e W,系統(tǒng)不直接獲取這u個概率關(guān)系部件WSD' 1;...,WSD' u上的多準(zhǔn)則信息查詢結(jié)果集,而是從概率關(guān)系部件集W= {WSD1,. . . , ffSDn}中基于代價的方式挑選出最優(yōu)的v(v < u)個概率關(guān)系部件 WSD"WSD〃 v,其中通過概率關(guān)系部件WSD" Jl彡i彡ν)的多準(zhǔn)則信息對象集來回答WSD' 1;...,WSD' u中若干個概率關(guān)系部件上的多準(zhǔn)則信息查詢。
      4.根據(jù)權(quán)利要求1所述的一種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法,其特征在于,所述的步驟(3)查詢優(yōu)化器生成概率關(guān)系部件上多準(zhǔn)則信息查詢執(zhí)行計劃過程如下1)設(shè)計出一套正確的多準(zhǔn)則信息查詢操作▽與各種不確定關(guān)系操作執(zhí)行順序間的等價變換規(guī)則;2)查詢優(yōu)化器基于等價變換規(guī)則集獲取多準(zhǔn)則信息查詢執(zhí)行計劃。
      5.根據(jù)權(quán)利要求1所述的一種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法,其特征在于,所述的步驟(4)查詢處理器根據(jù)步驟( 生成的計劃對面向不確定數(shù)據(jù)的多準(zhǔn)則信息進行查詢過程如下1)查詢處理器組織和索引不確定關(guān)系對象,使得系統(tǒng)能夠快速獲取任意分析空間上的多準(zhǔn)則信息對象集合;2)查詢處理器計算多準(zhǔn)則信息對象集合在可能世界實例語義下的存在概率。
      全文摘要
      本發(fā)明涉及一種不確定數(shù)據(jù)上的多準(zhǔn)則信息處理方法,包括以下步驟(1)對面向不確定數(shù)據(jù)的多準(zhǔn)則信息查詢進行等價重寫;(2)對概率關(guān)系部件上的多準(zhǔn)則信息查詢進行優(yōu)化;(3)查詢優(yōu)化器生成概率關(guān)系部件上多準(zhǔn)則信息查詢執(zhí)行計劃;(4)查詢處理器根據(jù)步驟(3)生成的計劃對面向不確定數(shù)據(jù)的多準(zhǔn)則信息進行查詢,并將結(jié)果通過顯示器顯示。與現(xiàn)有技術(shù)相比,本發(fā)明具有提高企業(yè)的經(jīng)濟效益和市場競爭力等優(yōu)點。
      文檔編號G06F17/30GK102346873SQ20101024054
      公開日2012年2月8日 申請日期2010年7月29日 優(yōu)先權(quán)日2010年7月29日
      發(fā)明者伍申申, 劉立平, 向陽, 張波, 王棟, 陳千, 黃震華 申請人:同濟大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1