国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      優(yōu)化數(shù)據(jù)縮合器和方法

      文檔序號:10579237閱讀:354來源:國知局
      優(yōu)化數(shù)據(jù)縮合器和方法
      【專利摘要】一種數(shù)據(jù)縮合器和方法用于將數(shù)字、字母、詞語、短語和其它標(biāo)志無損縮合成數(shù)據(jù)對象值,這使得文件大小減小。所述數(shù)據(jù)縮合器和方法將數(shù)據(jù)分類為單個的數(shù)據(jù)對象或數(shù)據(jù)對象群組,并且區(qū)分重復(fù)(例如重現(xiàn))的項(xiàng)目。根據(jù)分類數(shù)據(jù)的數(shù)量優(yōu)化參考庫以使存儲要求最小化。向所述分類數(shù)據(jù)指派唯一值,所述唯一值填充所述參考文件。所述數(shù)據(jù)縮合器使用所述參考庫創(chuàng)建輸出文件以實(shí)現(xiàn)最優(yōu)無損縮合。一種數(shù)據(jù)恢復(fù)器和方法用于將例如數(shù)字、字母、詞語、短語和其它標(biāo)志的縮合數(shù)據(jù)對象恢復(fù)成未縮合數(shù)據(jù)對象,以便實(shí)現(xiàn)高效并且準(zhǔn)確的使用,而不會損失數(shù)據(jù)對象。
      【專利說明】優(yōu)化數(shù)據(jù)縮合器和方法
      【背景技術(shù)】
      [0001] 數(shù)據(jù)存儲是面臨解釋太字節(jié)、拍字節(jié)范圍和更高范圍的大量基因體和其它數(shù)據(jù)集 的令人怯步的難題的研究人員等人的重點(diǎn)問題。例如研究機(jī)構(gòu)和臨床機(jī)構(gòu)之間的協(xié)作和數(shù) 據(jù)的關(guān)鍵共享(在本地和遠(yuǎn)程)需要處理大量涌入的數(shù)據(jù)集,并且需要使得能夠高效并且準(zhǔn) 確地比較例如日志文件或參考基因組的無損數(shù)據(jù)壓縮的策略,聯(lián)邦政府需要其用于審計(jì)和 報(bào)告目的。運(yùn)些日志文件或參考基因組的數(shù)據(jù)存儲和安全傳送已通過將物理硬盤驅(qū)動器送 到本地或遠(yuǎn)程位置得W實(shí)現(xiàn),但是運(yùn)種做法繁瑣、成本高而且越來越不可持續(xù)。
      [0002] 在設(shè)及大型數(shù)據(jù)文件的選擇性壓縮、譯碼、編索引、注解、映射和對準(zhǔn)的算法和方 法領(lǐng)域存在可W自由獲得的基于研究的工具,還有其它申請和公開案,所述數(shù)據(jù)文件包含 (但不限于)重復(fù)序列集合、文本、二元文本圖像和數(shù)據(jù)庫。
      [0003] 高產(chǎn)量下一代測序技術(shù)的快速進(jìn)步,產(chǎn)生了 W指數(shù)速率累積的基因體數(shù)據(jù)集(完 整基因組和群體型基因組)??蒞公開獲得的基因體數(shù)據(jù)集通常存儲為純文本文件,數(shù)字存 儲、分析和安全傳輸?shù)呢?fù)擔(dān)越來越大。例如基因信息或其它大數(shù)據(jù)等大型數(shù)據(jù)文件的遠(yuǎn)程 存儲、共享、分析或下載是費(fèi)力的并且對于許多機(jī)構(gòu)幾乎是不可能的,尤其是世界上不能高 速接入因特網(wǎng)的地方。當(dāng)今,大型存儲站點(diǎn)花費(fèi)數(shù)百萬美元在存儲上,并且大規(guī)模數(shù)據(jù)傳送 始終是服務(wù)器和因特網(wǎng)的強(qiáng)制性負(fù)擔(dān)。技術(shù)上迫切地需要一種使得能夠進(jìn)行大型數(shù)據(jù)集的 存儲、共享、傳輸?shù)榷覕?shù)據(jù)不會發(fā)生損失或破壞的方案。使用目前的技術(shù),運(yùn)樣充其量是 費(fèi)力的,而且在許多情況下,對于例如機(jī)構(gòu)尤其是研究中屯、、醫(yī)院等許多實(shí)體幾乎是不可能 的。

      【發(fā)明內(nèi)容】

      [0004] 一種優(yōu)化數(shù)據(jù)縮合器和方法減少存儲媒體上的負(fù)擔(dān)(所述存儲媒體例如(但不限 于)是磁盤、固態(tài)、或任何形式的存儲媒體、固定或便攜式),還有與數(shù)據(jù)存儲相關(guān)聯(lián)的數(shù)據(jù) 傳送開銷(例如從下一代全基因組測序?qū)С龅模?。輸入文件可W包含但不限于BLAST格式、日 志/錯誤文件、數(shù)據(jù)庫和其它常見文件格式。
      [0005] 優(yōu)化數(shù)據(jù)縮合器和方法將例如數(shù)字、字母、詞語、短語和其它標(biāo)志的數(shù)據(jù)(也被稱 作數(shù)據(jù)對象)縮合成由手動限定的和/或自動優(yōu)化的十六進(jìn)制、二百五十六進(jìn)制(Base-256) 或其它NBase值限定的一或多個值。NBase(Nb)被定義為可變數(shù)字基礎(chǔ)系統(tǒng),其具有兩個基 礎(chǔ)單元(二進(jìn)制)的最小量度,并且沒有較高數(shù)字基礎(chǔ)限制。視需要,可W解碼運(yùn)個新縮合十 六進(jìn)制、Base-256或其它NBase文件的完整恢復(fù),W將數(shù)據(jù)恢復(fù)成原始格式,而數(shù)據(jù)沒有任 何損失。出于清楚起見,縮合過程不是一些zip檔案中看到的壓縮,而是產(chǎn)生縮合文件大小 的縮合。
      [0006] 庫含有一或多個參考文件。每個參考文件含有數(shù)據(jù)和/或數(shù)據(jù)分組與相關(guān)聯(lián)的所 指派的唯一十六進(jìn)制、Base-256或其它用于與所識別的數(shù)據(jù)對象相關(guān)的NBase代碼。運(yùn)樣的 所識別的數(shù)據(jù)對象W及復(fù)制的(即重復(fù)的)和庫中未找到的其它數(shù)據(jù)對象(被指派相關(guān)聯(lián)的 唯一代碼)添加到包含于庫中的原始參考文件的優(yōu)化版本。
      [0007] 與所指派的代碼相關(guān)聯(lián)的所產(chǎn)生的十六進(jìn)制、Base-256或其它NBase值存儲于格 式化的參考文件中,其中數(shù)據(jù)對象與可W經(jīng)由簡單請求(例如X軸、Y軸)定位的唯一十六進(jìn) 審lJ、Base-256或其它NBase值相關(guān)聯(lián)。縮合文件能夠水平地和垂直地?cái)U(kuò)展,運(yùn)一點(diǎn)不同于具 有需要增加的頁面W擴(kuò)展的限定的并且有限的列的文本文檔或數(shù)據(jù)庫??s合文件W無損格 式存儲。運(yùn)樣允許向數(shù)據(jù)對象指派縮合文件內(nèi)的十六進(jìn)制、Base-256或其它NBase值。通過 修改參考文件,可W設(shè)計(jì)專用版本和通用版本,而核屯、引擎保持一樣?;谖募笮∵x擇構(gòu) 造格式可W進(jìn)一步優(yōu)化文件存儲和處理。
      [0008] 縮合文件實(shí)際上隱藏了嵌入數(shù)據(jù)對象的真正性質(zhì),運(yùn)是因?yàn)橛糜谠谖募斜硎緮?shù) 據(jù)對象的各種十六進(jìn)制、Base-256、或其它NBase值不容易辨別,由此提供自然狀態(tài)的加密。 即使通過使用計(jì)算機(jī)分析區(qū)分了十六進(jìn)制、Base-256或其它NBase值,也沒辦法分辨它們代 表哪些數(shù)據(jù)對象,或者是否施加了交替的對準(zhǔn)順序。雖然可W在X、Y軸上創(chuàng)建縮合文件,并 且默認(rèn)從左到右、從上到下填充縮合文件,但是并沒有限制數(shù)據(jù)縮合器和方法使其在中間 開始并且逆時(shí)針填充的機(jī)制或者任何其它開始位置和/或填充方法。
      [0009] 在本申請的一個方面中,一種用于減少數(shù)據(jù)存儲和處理要求的無損數(shù)據(jù)縮合器包 括:數(shù)據(jù)存儲器,其包含:源文件,其具有有待縮合的數(shù)據(jù)對象;預(yù)定參考文件,其具有預(yù)定 數(shù)據(jù)對象和預(yù)定數(shù)據(jù)對象群組;高級參考文件,其具有從所述源文件和所述預(yù)定參考文件 中的至少一個獲得的W算法方式選擇的數(shù)據(jù)對象和W算法方式選擇的數(shù)據(jù)對象群組;縮合 文件,其包含縮合數(shù)據(jù)對象和縮合數(shù)據(jù)對象群組;W及數(shù)組文件,其包含所述縮合數(shù)據(jù)對象 與所述縮合數(shù)據(jù)對象群組的數(shù)組;W及縮合處理器,其操作W :至少部分地基于所述數(shù)據(jù)對 象的計(jì)數(shù),選擇至少一個數(shù)字基礎(chǔ)譯碼系統(tǒng);至少部分地基于所述數(shù)據(jù)對象的所述計(jì)數(shù),選 擇所述數(shù)組文件的包深度;至少部分地基于所述數(shù)據(jù)對象的所述計(jì)數(shù),限制所述至少一個 數(shù)字基礎(chǔ)譯碼系統(tǒng);分析所述源文件中的所述數(shù)據(jù)對象,W定位一或多個重現(xiàn)數(shù)據(jù)對象和 重現(xiàn)數(shù)據(jù)對象群組;向所述預(yù)定參考文件中的所述數(shù)據(jù)對象和數(shù)據(jù)對象群組指派第一唯一 代碼;向所述高級參考文件中的所選的重現(xiàn)數(shù)據(jù)對象和數(shù)據(jù)對象群組W及所選的非重現(xiàn)數(shù) 據(jù)對象和數(shù)據(jù)對象群組指派第二唯一代碼;將所述譯碼的數(shù)據(jù)對象和所述譯碼的數(shù)據(jù)對象 群組放入在所述縮合文件中;W及在所述數(shù)組文件中構(gòu)建所述縮合數(shù)據(jù)對象的數(shù)組,其中 所述無損數(shù)據(jù)縮合器允許高效并且準(zhǔn)確的無損數(shù)據(jù)存儲和傳送,其中所述縮合處理器具有 指派給預(yù)定數(shù)據(jù)對象和數(shù)據(jù)對象群組的base-256譯碼系統(tǒng),W及指派給非預(yù)定數(shù)據(jù)對象和 數(shù)據(jù)對象群組的base-16譯碼系統(tǒng),并且所述存儲器數(shù)組由譯碼的數(shù)據(jù)對象和數(shù)據(jù)對象群 組的總數(shù)的平方根限定,所述總數(shù)的平方根必要時(shí)舍入為整數(shù),并且必要時(shí)用空值數(shù)據(jù)對 象填充所述數(shù)組。
      [0010] 在本申請的另一方面中,一種用于執(zhí)行無損縮合操作的設(shè)備包括:數(shù)據(jù)源存儲器, 其具有包含數(shù)據(jù)對象的輸入數(shù)據(jù)的至少一個數(shù)據(jù)文件;縮合處理器,其被配置成區(qū)分?jǐn)?shù)據(jù) 對象群組與單個數(shù)據(jù)對象,并且區(qū)分重復(fù)次數(shù)超出所選闊值的重復(fù)數(shù)據(jù)對象群組;W及參 考庫,其包含定制文件,所述定制文件包含預(yù)定義數(shù)據(jù)對象和預(yù)定數(shù)據(jù)對象群組,其中所述 縮合處理器被進(jìn)一步配置成向所述重復(fù)數(shù)據(jù)對象和數(shù)據(jù)對象群組W及非重復(fù)數(shù)據(jù)對象和 數(shù)據(jù)對象群組指派唯一代碼W提供縮合文件。
      [0011] 在本申請的另一個方面中,一種用于減少數(shù)據(jù)存儲和處理要求的無損數(shù)據(jù)縮合器 包括:數(shù)據(jù)源存儲器,其具有包含數(shù)據(jù)對象的輸入數(shù)據(jù)的至少一個數(shù)據(jù)文件;縮合存儲器, 其具有數(shù)據(jù)對象群組,每個數(shù)據(jù)對象群組包含根據(jù)所述數(shù)據(jù)源存儲器中的數(shù)據(jù)對象的重復(fù) 模式的一或多個數(shù)據(jù)對象;縮合處理器,其操作W基于所述數(shù)據(jù)源存儲器中的數(shù)據(jù)對象和 數(shù)據(jù)對象群組的數(shù)目,選擇多個數(shù)字基礎(chǔ)譯碼系統(tǒng)中的至少一個;定制參考庫存儲器,其具 有被指派來自所選數(shù)字基礎(chǔ)譯碼系統(tǒng)中的至少一個的唯一代碼的預(yù)定義數(shù)據(jù)對象和預(yù)定 義數(shù)據(jù)對象群組;W及經(jīng)過制定的參考庫存儲器,其具有被指派來自所述數(shù)字基礎(chǔ)譯碼系 統(tǒng)中的至少一個的唯一代碼的重現(xiàn)和非重現(xiàn)數(shù)據(jù)對象和數(shù)據(jù)對象群組,連同所選的經(jīng)過譯 碼的預(yù)定義數(shù)據(jù)對象群組;W及所述制定的參考庫存儲器具有存儲器數(shù)組,所述存儲器數(shù) 組由經(jīng)過譯碼的數(shù)據(jù)對象和數(shù)據(jù)對象群組的總數(shù)的平方根限定,所述總數(shù)的平方根必要時(shí) 舍入成整數(shù),并且必要時(shí)用空值數(shù)據(jù)對象填充所述數(shù)組,所述存儲器數(shù)組的包深度基于所 述制定的參考庫中的經(jīng)過譯碼的數(shù)據(jù)對象和數(shù)據(jù)對象群組的總數(shù)的計(jì)數(shù)。
      [0012] 在本申請的另一個方面中,一種用于減少數(shù)據(jù)存儲和處理要求的無損數(shù)據(jù)縮合器 包括:數(shù)據(jù)存儲器,其具有至少一個源文件,所述源文件存儲包含有待縮合的多個重現(xiàn)和非 重現(xiàn)數(shù)據(jù)對象的輸入數(shù)據(jù);接口存儲器,其操作W從輸入數(shù)據(jù)接收和讀取數(shù)據(jù)對象;參考 庫,其存儲與對應(yīng)的數(shù)據(jù)對象相關(guān)的經(jīng)過譯碼的值;縮合處理器,其連接到所述參考庫W優(yōu) 化所述輸入數(shù)據(jù);W及縮合存儲器,其經(jīng)過連接W接收優(yōu)化輸入數(shù)據(jù)并且提供縮合輸出數(shù) 據(jù)。
      [0013] 在本申請的另一方面中,一種無損數(shù)據(jù)縮合系統(tǒng)包括:縮合處理器,其被配置成基 于數(shù)據(jù)對象群組的重復(fù)模式的所述數(shù)目從多個數(shù)字基礎(chǔ)譯碼系統(tǒng)中選擇至少一個數(shù)字基 礎(chǔ)譯碼系統(tǒng),并且向每個數(shù)據(jù)對象群組指派來自所述所選的數(shù)字基礎(chǔ)譯碼系統(tǒng)中的所述至 少一個的唯一代碼;W及縮合存儲器,其具有經(jīng)過譯碼的數(shù)據(jù)對象群組W提供縮合數(shù)據(jù)存 儲和數(shù)據(jù)傳送。
      [0014] 在本申請的另一方面中,一種無損數(shù)據(jù)縮合系統(tǒng)包括:縮合處理器,其被配置成向 包含數(shù)據(jù)對象的重復(fù)圖案的數(shù)據(jù)對象群組指派唯一代碼;W及存儲器數(shù)組,其存儲經(jīng)過譯 碼的數(shù)據(jù)對象群組,所述經(jīng)過譯碼的數(shù)據(jù)對象群組具有選擇成減少所述存儲器數(shù)組的存儲 要求的包深度。
      [0015] 在本申請的另一方面中,一種用W將縮合數(shù)據(jù)對象恢復(fù)成未縮合形式的設(shè)備包 括:數(shù)據(jù)存儲器,其包含:縮合文件,其具有縮合數(shù)據(jù)對象;用于未縮合數(shù)據(jù)對象的至少一個 目的地模式;參考文件,其具有經(jīng)過譯碼的重現(xiàn)和非重現(xiàn)縮合數(shù)據(jù)對象,W及識別與所述縮 合文件相關(guān)聯(lián)的至少一個或多個數(shù)字譯碼系統(tǒng)和適用的情況下的包深度的信息;W及恢復(fù) 處理器,其操作W :選擇有待恢復(fù)的所述縮合數(shù)據(jù)對象的至少一部分;選擇用于使用未縮合 數(shù)據(jù)對象的所述目的地模式;W及將所述縮合文件與所述參考文件鏈接,W將所述縮合數(shù) 據(jù)對象恢復(fù)成未縮合數(shù)據(jù)對象,W便高效并且準(zhǔn)確的使用,而不會損失所述數(shù)據(jù)對象。
      [0016] 在本申請的另一方面中,一種用于例如數(shù)字、字母、詞語、短語和其它標(biāo)志的數(shù)據(jù) 對象的無損數(shù)據(jù)縮合W允許高效并且準(zhǔn)確安全的數(shù)據(jù)評估、數(shù)據(jù)存儲和數(shù)據(jù)傳送的方法包 括:獲得有待縮合的數(shù)據(jù)對象集合;將所述數(shù)據(jù)對象集合放入源文件中;進(jìn)行所述源文件的 分析,包含所述數(shù)據(jù)對象的所述總數(shù)的計(jì)數(shù);讀取所述源文件,并且響應(yīng)于所述源文件內(nèi)的 數(shù)據(jù)對象的重復(fù)模式,創(chuàng)建數(shù)據(jù)對象群組,每個數(shù)據(jù)對象群組包含一或多個數(shù)據(jù)對象;為數(shù) 據(jù)對象群組的所述總數(shù)計(jì)數(shù);基于數(shù)據(jù)對象群組的所選數(shù)量,選擇一或多個數(shù)字基礎(chǔ)譯碼 系統(tǒng);建立預(yù)定義數(shù)據(jù)對象群組的一或多個庫參考文件;向每個預(yù)定義數(shù)據(jù)對象群組指派 來自所述所選譯碼系統(tǒng)的第一唯一代碼;識別各個重現(xiàn)數(shù)據(jù)對象群組與非重現(xiàn)數(shù)據(jù)對象群 組區(qū)分開來;向并非預(yù)定義數(shù)據(jù)對象群組的每個重現(xiàn)和非重現(xiàn)數(shù)據(jù)對象群組指派來自所述 所選譯碼系統(tǒng)的第二唯一代碼;將經(jīng)過譯碼的數(shù)據(jù)對象群組放入一或多個庫參考文件中; 讀取所述源文件并且為經(jīng)過譯碼的數(shù)據(jù)對象群組的所述總數(shù)計(jì)數(shù);選擇用于存儲器數(shù)組的 所述包深度;形成所述存儲器數(shù)組,所述存儲器數(shù)組由所選的經(jīng)過譯碼的數(shù)據(jù)對象群組的 所述總數(shù)的平方根限定,并且必要時(shí)舍入W建立整數(shù);添加空值的經(jīng)過譯碼的數(shù)據(jù)對象W 填充所述數(shù)組;W及將所述數(shù)組放入存儲媒體上。
      [0017] 在本申請的另一方面中,一種縮合數(shù)據(jù)W提供減少的數(shù)據(jù)存儲和處理的方法包 括:讀取包含多個數(shù)據(jù)對象的數(shù)據(jù)文件;識別重現(xiàn)數(shù)據(jù)對象群組與非重現(xiàn)數(shù)據(jù)對象群組區(qū) 分開來,每個重現(xiàn)數(shù)據(jù)對象群組包含一或多個數(shù)據(jù)對象;向每個重現(xiàn)和非重現(xiàn)數(shù)據(jù)對象群 組指派代碼;制定最佳大小的參考庫;W及將所述經(jīng)過譯碼的數(shù)據(jù)對象群組放入所述參考 庫中W用于數(shù)據(jù)存儲和處理。
      [0018] 在本申請的另一方面中,一種用于例如數(shù)字、字母、詞語、短語和其它標(biāo)志的縮合 數(shù)據(jù)對象的無損數(shù)據(jù)恢復(fù)的方法包括:獲得縮合數(shù)據(jù)對象的縮合文件;選擇有待恢復(fù)的所 述縮合數(shù)據(jù)對象的至少一部分;選擇用于恢復(fù)數(shù)據(jù)對象的目的地模式;獲得具有指派給重 現(xiàn)和非重現(xiàn)縮合數(shù)據(jù)對象的代碼的參考文件,所述參考文件具有識別與所述縮合文件相關(guān) 聯(lián)的至少一個或多個數(shù)字譯碼系統(tǒng)和適用的情況下的包深度的信息;W及基于與所述參考 文件的鏈接,讀取所述縮合文件,W將所述縮合數(shù)據(jù)對象恢復(fù)成未縮合數(shù)據(jù)對象,W便實(shí)現(xiàn) 高效并且準(zhǔn)確的使用,而不會損失所述數(shù)據(jù)對象。
      【附圖說明】
      [0019] 圖1是描繪本申請的數(shù)據(jù)文件的縮合方法的實(shí)施例的流程圖。
      [0020] 圖2是描繪本申請的將縮合文件恢復(fù)成其原始未縮合狀態(tài)的方法的實(shí)施例的流程 圖。
      [0021 ]圖3是本申請的優(yōu)化數(shù)據(jù)縮合器系統(tǒng)的示例性實(shí)施例的系統(tǒng)圖。
      【具體實(shí)施方式】
      [0022] 在本描述中,
      [0023] 為了簡潔、清晰和理解所W使用了某些術(shù)語。不應(yīng)由其施加超出現(xiàn)有技術(shù)要求的 不必要的限制,因?yàn)檫\(yùn)些術(shù)語僅僅是用于描述目的并且希望得到廣義的解釋。本文所述的 不同系統(tǒng)和方法可單獨(dú)使用或結(jié)合其它系統(tǒng)和方法使用。在所附權(quán)利要求書的范圍內(nèi),各 種等效物、替代方案和修改是可能的。只有在相應(yīng)限制中明確列舉了 "用于……的裝置"或 "用于……的步驟"運(yùn)些術(shù)語時(shí),所附權(quán)利要求書中的每項(xiàng)限制才希望援引35U.S.C.§112第 六段的解釋。
      [0024] 在W下【具體實(shí)施方式】中,參考隨附圖式,其構(gòu)成本文的一部分且其中W說明方式 展示可實(shí)踐的具體實(shí)施例。足夠詳細(xì)地描述運(yùn)些實(shí)施例W使所屬領(lǐng)域的技術(shù)人員能夠?qū)嵺` 所述實(shí)施例,并且應(yīng)理解可利用其它實(shí)施例,并且可在不背離實(shí)施例的范圍的情況下做出 邏輯、結(jié)構(gòu)、機(jī)械、電氣W及其它變化。因而W下【具體實(shí)施方式】不應(yīng)視為限制本發(fā)明的范圍。
      [0025] 本申請的系統(tǒng)和方法利用數(shù)據(jù)無損縮合(使得文件大小減?。鋵蝹€數(shù)字、字 母、詞語、短語和其它標(biāo)志縮合成十六進(jìn)制的Base-256或其它對于測序技術(shù)不可知的NBase 值W形成一或多個縮合文件。本申請的系統(tǒng)和方法利用無損縮合文件W保留其被讀取和寫 入的能力。本申請的系統(tǒng)和方法利用無損縮合文件使其恢復(fù)成其先前的原始未縮合狀態(tài), W用于不能夠與縮合文件(或數(shù)組文件)交互的應(yīng)用程序。因而,本申請的系統(tǒng)和方法利用 運(yùn)樣的設(shè)備和系統(tǒng):(a)尤其是對于大型數(shù)據(jù)文件明顯地減少存儲要求;(b)允許更快的數(shù) 據(jù)傳輸,尤其是大型文本或數(shù)據(jù)庫文件的數(shù)據(jù)傳輸;(C)允許包含其它數(shù)據(jù)(例如電子醫(yī)療 記錄、臨床元數(shù)據(jù)、相關(guān)審計(jì)記錄等)并且文件大小極少增加;(d)允許快速分析和修改縮合 文件;(e)提供自然狀態(tài)加密;和/或(f)充當(dāng)進(jìn)一步開發(fā)用的平臺,W便能夠?qū)嵤┗贕PU的 處理和數(shù)學(xué)/科學(xué)分析??s合數(shù)據(jù)的較小文件大小允許經(jīng)常存儲在??谙到y(tǒng)上的大型文件 現(xiàn)在更廣泛地存儲在較小容量的系統(tǒng)上,并且還減小網(wǎng)絡(luò)業(yè)務(wù)或通信中的必需帶寬。
      [0026] "數(shù)據(jù)對象"運(yùn)個術(shù)語可W在最廣泛的意義上用于包含表示為電子信號承載的a數(shù) (即數(shù)字)值的最小單個組成部分。每個數(shù)據(jù)對象被指派一或多個十六進(jìn)制、Base-256或其 它NBase(即數(shù)字)值。
      [0027] "包深度"運(yùn)個術(shù)語用于限定Base-16、Base-256或打包(存儲)在數(shù)組文件中的其 它NBase數(shù)據(jù)對象的數(shù)目。包深度的值必須是正整數(shù)+i,并且可W在轉(zhuǎn)換成縮合形式時(shí)被系 統(tǒng)設(shè)置成大于或等于一1)的默認(rèn)值,或者手動地設(shè)置成大于或等于一1)的值。
      [0028] 本文所述的優(yōu)化縮合器的技術(shù)優(yōu)點(diǎn)或技術(shù)效果是,縮合文件大小是比操作方式非 常不同的當(dāng)前壓縮系統(tǒng)中實(shí)現(xiàn)的原始文件大小要小很多的部分。運(yùn)一點(diǎn)不僅僅有用而且實(shí) 際上必需的一些顯而易見的實(shí)例包含(但不限于)遺傳學(xué)。
      [0029] 大多數(shù)當(dāng)前計(jì)算機(jī)利用二元數(shù)字(即"位"),其也被稱作"base-2"。一些計(jì)算機(jī)使 用8位集合(即"字節(jié)")操作,每個8位集合具有256個值。當(dāng)使用ASCII化nicode)格式時(shí),值0 到127總體上設(shè)及特定的字符,而值128到255總體上設(shè)及特殊項(xiàng)目,例如外語中的重音字 符。Windows里的記事本每個字符或空格使用一個字節(jié)的存儲空間。本文中所掲示的優(yōu)化數(shù) 據(jù)縮合器和方法可W使用各種基于數(shù)字的系統(tǒng),例如十六進(jìn)制、Base-256或其它NBase,運(yùn) 些系統(tǒng)是針對優(yōu)化手動地或自動地選擇的,并且不限于其中包含的實(shí)例中提供的W前稱為 十六進(jìn)制的base-16。
      [0030] 如果利用二進(jìn)制base-2系統(tǒng),則每個數(shù)據(jù)對象可包含一位或多個位來限定通過位 測量的值,或者在8位集合的情況下可包含一個字節(jié)。十六進(jìn)制是base-16系統(tǒng),并且每個單 個的十六進(jìn)制值等于4位的二元代碼。例如并且不限于:
      [0031 ] 1個十六進(jìn)制值=16個潛在的數(shù)據(jù)對象或4個位
      [0032] 2個十六進(jìn)制值= 256個潛在的數(shù)據(jù)對象或8位/1個字節(jié)
      [0033] 3個十六進(jìn)制值= 4096個潛在的數(shù)據(jù)對象或12個位
      [0034] 4個十六進(jìn)制值= 65536個潛在的數(shù)據(jù)對象或16位/2個字節(jié)
      [0035] 5個十六進(jìn)制值= 1048576個潛在的數(shù)據(jù)對象或20個位
      [0036] 6個十六進(jìn)制值= 16777218個潛在的數(shù)據(jù)對象或24個位/3個字節(jié)
      [0037] 7個十六進(jìn)制值= 268435456個潛在的數(shù)據(jù)對象或28個位
      [0038] 8個十六進(jìn)制值= 4294967296個潛在的數(shù)據(jù)對象或32個位/4個字節(jié)
      [0039] 十六進(jìn)制中需要用四分之一 (1/4)的空間表示二進(jìn)制中的相同數(shù)目個數(shù)據(jù)對象。
      [0040] 在另一個實(shí)施例中,如果利用二進(jìn)制base-2系統(tǒng),則每個數(shù)據(jù)對象可包含一位或 多個位來限定通過位測量的值,或者在8位集合的情況下可包含一個字節(jié)。二百五十六進(jìn)制 (Duocentosexapentagesimal)是base-256系統(tǒng)并且每個單個的值等于8位的二進(jìn)制代碼。 例如并且不限于:
      [0041 ] 1個二百五十六進(jìn)制值= 256個潛在的數(shù)據(jù)對象或8位/1個字節(jié)
      [0042] 2個二百五十六進(jìn)制值= 65536個潛在的數(shù)據(jù)對象或16位/2個字節(jié)
      [0043] 3個二百五十六進(jìn)制值= 16777216個潛在的數(shù)據(jù)對象或24位/3個字節(jié)
      [0044] 4個二百五十六進(jìn)制值= 4294967296個潛在的數(shù)據(jù)對象或32個位/4個字節(jié)
      [0045] 在另一個實(shí)施例中,如果利用二進(jìn)制base-2系統(tǒng),則每個數(shù)據(jù)對象可包含一位或 多個位來限定通過位測量的值,或者在8位集合的情況下可包含一個字節(jié)。NBase是可變基 礎(chǔ)系統(tǒng),base-N,其中N被定義為任何大于或等于一(>1)的正整數(shù)(+i),并且每個單個的值 是大于或等于二進(jìn)制代碼的一個(>1)位的正整數(shù)(+i)。數(shù)據(jù)對象可W通過包深度縮合,其 中包深度是大于或等于一(>1)的正整數(shù)(+i)。
      [0046] 1個NBase值>+i數(shù)據(jù)對象/s并且>+i包深度中的+i位
      [0047] 圖1和圖2是分別描繪將數(shù)據(jù)文件縮合成基本上更小大小的方法100和將更小大小 的文件恢復(fù)成原始數(shù)據(jù)文件大小而且不會發(fā)生數(shù)據(jù)損失(即無損)的方法200的示范性實(shí)施 例的流程圖。圖3中說明的優(yōu)化數(shù)據(jù)縮合器系統(tǒng)300總體上是計(jì)算系統(tǒng),其可W包含(但不限 于)臺式計(jì)算機(jī)、手持裝置、多處理器系統(tǒng)、個人數(shù)字助理(PDA)、膝上型計(jì)算機(jī)、網(wǎng)絡(luò)計(jì)算 機(jī)、云端服務(wù)器、微型計(jì)算機(jī)、大型主機(jī)計(jì)算機(jī)等等??s合器系統(tǒng)300包含接口 301、一或多個 處理器302和禪合到處理器302的存儲器303。處理器302從存儲器30巧日載和執(zhí)行軟件。當(dāng)由 縮合器系統(tǒng)300執(zhí)行時(shí),模塊304引導(dǎo)過程302如結(jié)合本文所述的縮合方法100或恢復(fù)方法 200所述般工作。
      [0048] 接口 301可包含鼠標(biāo)、鍵盤、語音輸入裝置、用于從用戶接收手勢的觸摸輸入裝置、 用于檢測用戶的非觸摸手勢和其它運(yùn)動的運(yùn)動輸入裝置,W及其它相當(dāng)?shù)妮斎胙b置和能夠 從用戶接收用戶輸入的相關(guān)聯(lián)的處理元件。例如視頻顯示器或圖形顯示器的輸出裝置可W 顯示另外與本文所掲示的系統(tǒng)和方法的實(shí)施例相關(guān)聯(lián)的界面。揚(yáng)聲器、打印機(jī)、觸覺裝置和 其它類型的輸出裝置也可包含于用戶接口 301中。另外,接口 301可W使得系統(tǒng)300能夠與例 如網(wǎng)絡(luò)服務(wù)器和外部數(shù)據(jù)庫的其它裝置通信。接口 301可W便于多種多樣的網(wǎng)絡(luò)和協(xié)議類 型內(nèi)的多種通信,運(yùn)些網(wǎng)絡(luò)和協(xié)議類型包含有線網(wǎng)絡(luò),例如局域網(wǎng)(LAN)、電纜等,和無線網(wǎng) 絡(luò),例如無線LAN(WLAN)、蜂窩網(wǎng)絡(luò)或衛(wèi)星。為此目的,接口301可W包含一或多個端口,用于 將多個計(jì)算系統(tǒng)彼此連接或連接到另一服務(wù)器計(jì)算機(jī)。
      [0049] 處理器302可W是單個處理單元或多個單元,其中所有處理單元可W包含多個計(jì) 算單元。處理器302可W實(shí)施為一或多個微處理器、微型計(jì)算機(jī)、微控制器、數(shù)字信號處理 器、中央處理單元、狀態(tài)機(jī)、邏輯電路和/或任何基于操作指令操控信號的裝置。處理器302 被配置成提取和執(zhí)行存儲于存儲器303中的計(jì)算機(jī)可讀指令和數(shù)據(jù),當(dāng)然還有其它功能。
      [0050] 存儲器303可W包含所屬領(lǐng)域中已知的任何計(jì)算機(jī)可讀媒體,包含例如:易失性存 儲器,例如靜態(tài)隨機(jī)存取存儲器(static random access memo巧,SRAM)和動態(tài)隨機(jī)存取存 儲器(dynamic random access memory,DRAM);和/或非易失性存儲器,例如只讀存儲器 (read only memo巧,ROM)、可擦除可編程ROM、快閃存儲器、硬盤、光盤W及磁帶。存儲器303 還包含模塊304和數(shù)據(jù)305。
      [0051] 模塊304尤其包含例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等,其執(zhí)行特定任務(wù)或?qū)嵤┨?定數(shù)據(jù)類型。模塊304進(jìn)一步包含接口模塊306、縮合模塊307、庫定制模塊308、可視查看器 模塊309、恢復(fù)模塊310和可能其它需要的模塊。其它模塊可W包含補(bǔ)充系統(tǒng)300上的應(yīng)用程 序的程序,例如操作系統(tǒng)中的程序。另一方面,數(shù)據(jù)存儲器305尤其充當(dāng)用于存儲模塊304中 的一或多個處理、接收和產(chǎn)生的數(shù)據(jù)的儲存庫。數(shù)據(jù)存儲器305包含:輸入數(shù)據(jù)311,其可W 包含源文件;庫數(shù)據(jù)312,其由參考文件314(例如預(yù)定參考文件和/或高級參考文件)組成; W及例如縮合文件和/或數(shù)組文件內(nèi)的輸出數(shù)據(jù)313。輸出數(shù)據(jù)313包含因?yàn)閃上模塊中的 一或多個的執(zhí)行而產(chǎn)生的數(shù)據(jù)。
      [0052] 為了執(zhí)行縮合,系統(tǒng)300與輸入數(shù)據(jù)311相關(guān)聯(lián)。例如源文件之類的輸入數(shù)據(jù)311可 W包含(但不限于)文本、圖像、電子表格或數(shù)據(jù)庫格式,并且由接口模塊306選擇且被提供 到系統(tǒng)300用于經(jīng)由模塊307縮合。模塊307將任選地激活庫定制模塊308W分析輸入數(shù)據(jù) 311并且優(yōu)化庫312??s合模塊307接著將使用庫312將輸入數(shù)據(jù)311縮合成輸出數(shù)據(jù)313。接 口模塊306W數(shù)據(jù)305的縮合文件(或數(shù)組文件)的形式返回輸出數(shù)據(jù)313,運(yùn)些文件可W從 存儲器303中的固定或便攜式存儲媒體存取。
      [0053] 為了執(zhí)行恢復(fù),系統(tǒng)300與例如縮合文件之類的輸入數(shù)據(jù)311相關(guān)聯(lián)。在運(yùn)種情況 下輸入數(shù)據(jù)是在上文具體描述的過程中產(chǎn)生的縮合文件(或數(shù)組文件)。輸入數(shù)據(jù)311由接 口模塊306選擇,并且被提供到系統(tǒng)300用于經(jīng)由模塊310恢復(fù)。接口模塊306將提供目的地 模式選項(xiàng)W恢復(fù)到文件或屏幕。如果選擇的是文件,則接口模塊306將激活恢復(fù)模塊310?;?復(fù)模塊310將使用來自庫312的參考文件將輸入數(shù)據(jù)311恢復(fù)成輸出數(shù)據(jù)313。接口模塊306 W數(shù)據(jù)文件305的形式返回輸出數(shù)據(jù)313,數(shù)據(jù)文件305可W包含但不限于文本、圖像、電子 表格或數(shù)據(jù)庫格式,并且可W從存儲器303中的固定或便攜式存儲媒體存取。如果選擇的是 屏幕,則接口模塊306將激活恢復(fù)模塊310?;謴?fù)模塊310將使用來自庫312的參考文件將輸 入數(shù)據(jù)311恢復(fù)成輸出數(shù)據(jù)313。接口模塊306將輸出數(shù)據(jù)313返回到可視查看器模塊309,其 使用接口模塊301在計(jì)算機(jī)監(jiān)視器或其它能夠用視覺上未縮合的可查看格式顯示的裝置上 顯示輸出數(shù)據(jù)313。
      [0054] 配合縮合模塊307,處理器302讀取源文件中的所有形式的數(shù)據(jù),例如字母、數(shù)字、 空格等,并且區(qū)分空格與其它類型的數(shù)據(jù)(例如字母、數(shù)字等)。配合縮合模塊307,處理器 302接著確定數(shù)據(jù)對象在整個源文件內(nèi)的重復(fù)(例如重現(xiàn))次數(shù)。
      [0055] 基于運(yùn)個數(shù)據(jù),處理器302編輯源文件或產(chǎn)生高級參考文件,并且將運(yùn)樣的參考文 件添加到庫中。重現(xiàn)不止一次的數(shù)據(jù)對象將被添加到高級參考文件。數(shù)據(jù)對象必須出現(xiàn)W 便被添加的次數(shù)量(闊值)可W由用戶手動地限定,或者由縮合模塊307自動地確定。
      [0056] 例如,數(shù)據(jù)縮合器可確定在使用ASCII (加icode)格式時(shí)在用于特定字符的常見 128個值之外,20個項(xiàng)目具有重復(fù)20次的5個字符,15個項(xiàng)具有重復(fù)15次的10個字符,并且5 個項(xiàng)目具有重復(fù)5次的50個字符。在運(yùn)個過程期間,數(shù)據(jù)縮合器確定存在總共40個內(nèi)部結(jié) 構(gòu),其符合超出Ascn格式內(nèi)的128個常見特定字符的闊值要求。
      [0057] 下文提供利用十六進(jìn)制法的實(shí)施例在數(shù)據(jù)文件中找到的5個、10個和50個字符的 優(yōu)化實(shí)例:
      [0058] 5個字符項(xiàng)目的數(shù)據(jù)對象(20),其中'r'指代重復(fù)次數(shù)。
      [0化9]
      [0060] 每個項(xiàng)目W項(xiàng)目數(shù)據(jù)對象的I: I形式被寫入到庫312-次,并且將表示超過闊值計(jì) 數(shù)的重現(xiàn)項(xiàng)目。每個項(xiàng)目數(shù)據(jù)對象將需要識別十六進(jìn)制數(shù)據(jù)對象加指針十六進(jìn)制數(shù)據(jù)對 象。運(yùn)將需要(20x5)+20個十六進(jìn)制數(shù)據(jù)對象,或總共120個十六進(jìn)制數(shù)據(jù)對象。
      [0061] 10個字符的項(xiàng)目(15),其中'r'指代重復(fù)次數(shù)。
      [0062]
      [0063] 每個項(xiàng)目W項(xiàng)目的1:1形式被寫入到庫312-次,并且將表示超過闊值計(jì)數(shù)的重現(xiàn) 項(xiàng)目。每個項(xiàng)目將需要標(biāo)識十六進(jìn)制數(shù)據(jù)對象加指針十六進(jìn)制數(shù)據(jù)對象。運(yùn)將需要(15x10) +15個十六進(jìn)制數(shù)據(jù)對象,或總共165個十六進(jìn)制數(shù)據(jù)對象。
      [0064] 50個字符的項(xiàng)目(5),其中'r'指代重復(fù)次數(shù)。
      [00化]項(xiàng)目01-巧0項(xiàng)目02-巧0項(xiàng)目01-r90項(xiàng)目01-r80項(xiàng)目01-r60
      [0066] 每個項(xiàng)目W項(xiàng)目的1:1形式被寫入到庫312-次,并且將表示超過闊值計(jì)數(shù)的重現(xiàn) 項(xiàng)目。每個項(xiàng)目將需要識別十六進(jìn)制數(shù)據(jù)對象加指針十六進(jìn)制數(shù)據(jù)對象。運(yùn)將需要巧巧〇)+ 5(位)十六進(jìn)制數(shù)據(jù)對象,或總共255個十六進(jìn)制數(shù)據(jù)對象。
      [0067] 對于如上文所說明限于5個、10個和50個字符的項(xiàng)目的重現(xiàn)優(yōu)化,對于將供應(yīng)到虛 擬存儲器前綴文件的總計(jì)540個十六進(jìn)制數(shù)據(jù)對象,被寫入到庫312的總內(nèi)容是120+165+ 255。運(yùn)樣的所說明的重現(xiàn)過程因而將52,500個字符替換成縮合數(shù)據(jù)中的540個十六進(jìn)制數(shù) 據(jù)對象。
      [006引代替使用闊值優(yōu)化,例如通過將重現(xiàn)過程限制于5個、10個和50個字符的項(xiàng)目,數(shù) 據(jù)縮合器和方法可W感測兩個或更多個字符的所有重現(xiàn),運(yùn)將使得必需使用的十六進(jìn)制 (或其它NBase)數(shù)據(jù)對象的總數(shù)明顯減少,并且仍然提供整個文件的無損縮合。
      [0069] 每個所識別的不重復(fù)的單個字符或字符群組與單個十六進(jìn)制(或其它NBase)數(shù)據(jù) 對象相關(guān)聯(lián)。在詞語錯誤拼寫的情況下,系統(tǒng)檢查所聲稱的詞語的字母,直到該詞語不再能 夠繼續(xù)為止;然后將單個字母縮合成十六進(jìn)制(或其它NBase)數(shù)據(jù)對象而不是完整的詞語。 運(yùn)樣允許補(bǔ)償內(nèi)部數(shù)據(jù)對象錯誤和缺陷,而沒有軟件故障或錯誤輸出。
      [0070] 在重現(xiàn)過程完成時(shí),數(shù)據(jù)縮合器和方法執(zhí)行庫312中包含的縮合數(shù)據(jù)的第二次計(jì) 數(shù),運(yùn)個數(shù)目總體上因?yàn)橹噩F(xiàn)而相對于初始計(jì)數(shù)明顯減小。
      [0071] 優(yōu)化庫可W使用用于存儲通過重現(xiàn)識別的實(shí)體的縮合文件,并且經(jīng)過優(yōu)化W減少 存儲縮合數(shù)據(jù)的容量要求。如果例如使用平方縮合數(shù)組文件,則數(shù)據(jù)縮合器和方法確定縮 合數(shù)據(jù)的總計(jì)數(shù)的平方根。如果平方根包含分?jǐn)?shù),則將平方根數(shù)調(diào)整成下一個更高整數(shù)W 防止數(shù)據(jù)損失。例如,456,840的平方根是675.8x 675.8。但是,數(shù)據(jù)縮合器和方法舍入成 676X 676(舍入的下一個最接近的整數(shù))。之后,在數(shù)組文件中填充來自縮合文件的所有十 六進(jìn)制、Base-256或其它NBase數(shù)據(jù)對象,而其余的空間中填充無值(例如空)數(shù)據(jù)對象直到 文件末尾。
      [0072] 在十六進(jìn)制實(shí)施例中,數(shù)據(jù)縮合器和方法提供但不限于通過各個十六進(jìn)制值的數(shù) 字標(biāo)示的多個預(yù)定十六進(jìn)制數(shù)據(jù)對象。運(yùn)樣的格式簡稱為"每個對象的十六進(jìn)制化ex Per Object,HP〇r,它可W基于縮合數(shù)據(jù)自動和/或手動地選擇W進(jìn)一步優(yōu)化數(shù)據(jù)處理和存儲。
      [0073] 十六進(jìn)制數(shù)據(jù)對象實(shí)例十進(jìn)制等效形式 每個對象的十六進(jìn)制形式最大值
      ..溫此類推
      [0074] 數(shù)據(jù)縮合器和方法因而將通過選擇結(jié)構(gòu)化格式W便進(jìn)一步優(yōu)化,借此減少存儲要 求。例如,利用化PO格式提供16,777,216個值,可能太多了,無法高效地優(yōu)化。如果假設(shè)英語 有大約130,000個常見詞語,包含變形(ing、ed、est等),則使用4hpo格式(65,536個值)太 小。相反,數(shù)據(jù)縮合器和方法可W選擇化PO格式1,〇48,576個值W作為優(yōu)化格式。作為另一 實(shí)例,外顯子/內(nèi)含子基因組序列的跨度長度大約是45,000,000到260,000,000個字符,數(shù) 據(jù)質(zhì)量平衡大約是每1,000,000個字符有1,000,000個位。在基因組序列中,僅僅存在8個可 能的字符,加上空/未讀值(N),W及文件末尾。不需要使用化po、4hpo或化PO格式。相反,提 供16個值的化PO格式已經(jīng)夠用了。在基因組序列中只有總共8個字符的情況下,發(fā)生重度重 現(xiàn)模式,因而確定優(yōu)化并且將其直接提供到預(yù)定參考文件314或庫312。例如染色體16含有 大約88,827,255個基因堿基對。當(dāng)放入文本文件中時(shí),可能必需大約88,830,625位,包含相 關(guān)聯(lián)的文件信息。當(dāng)通過數(shù)據(jù)縮合器和方法縮合時(shí),文件大小自動調(diào)整成9425X 9424,而不 會丟失堿基對。選擇化PO格式會使得文件減小為2,683,293位,運(yùn)大約是原始大小的3%。
      [0075] 數(shù)據(jù)縮合器和方法可W提供含有預(yù)定義數(shù)據(jù)對象的一或多個預(yù)定參考文件。數(shù)據(jù) 縮合器和方法使每個源文件中識別出的重復(fù)數(shù)據(jù)對象與預(yù)定參考文件中的預(yù)定數(shù)據(jù)對象 相關(guān),由此形成高級參考文件。位于高級參考文件中的新數(shù)據(jù)對象被指派唯一十六進(jìn)制(或 其它NBase)值,并且運(yùn)樣的新數(shù)據(jù)對象被加入新縮合文件中。在任一情況下,使用數(shù)據(jù)縮合 器和方法會將數(shù)字指針添加到縮合文件中的每個數(shù)據(jù)對象。例如,一個預(yù)定參考文件可W 含有130,000個常見的英語詞語,其中用化PO格式提供1,048,576個值。另一預(yù)定參考文件 可W含有完整染色體的外顯子/內(nèi)含子基因組序列,其中用Ihpo格式提供16個值。另一預(yù)定 參考文件可W含有化StQ多變量格式,其中用化PO格式提供4096個值。另一預(yù)定參考文件可 W包含常見語言與世界上每種常見語言的變化形式??蒞用化PO格式或高于化PO格式為預(yù) 定參考文件提供優(yōu)化。回車、例如文件末尾或行尾、細(xì)胞符號、列、行、制表鍵等空值區(qū)可W 建構(gòu)到常見庫和/或化StQ庫中。
      [0076] 預(yù)定參考文件可W構(gòu)造成允許多個數(shù)據(jù)對象合并W便通過單個十六進(jìn)制(或 NBase)數(shù)據(jù)對象標(biāo)示。因而,來自兩個(或更多)相關(guān)但是不相同的滑尺的值可W合并。當(dāng)處 理基因體數(shù)據(jù)時(shí),例如堿基對"A(腺嚷嶺)"可W與特定鏈和位置的公差內(nèi)的"tf'Phred分?jǐn)?shù) 組合,W創(chuàng)建一個通過單個十六進(jìn)制(或NBase)數(shù)據(jù)對象識別的值。
      [0077] 數(shù)據(jù)縮合器和方法向縮合文件(例如預(yù)定和/或高級參考文件)中的每一個指派唯 一的十六進(jìn)制(或NBase)對象代碼。作為一實(shí)例,數(shù)據(jù)"0 say can you see by the dawn's early Ii油t /'可W被指派如下十六進(jìn)制數(shù)據(jù)對象代碼值:
      [0078;
      [0079]
      [0080]
      [0081]數(shù)據(jù)縮合器和方法通過向存儲于庫中的縮合數(shù)據(jù)(例如縮合文件、數(shù)組文件等)指 派唯一的十六進(jìn)制、Base-256或其它NBase值而提供固有加密。接收方必須知道運(yùn)樣的十六 進(jìn)制、Base-256或其它NBase值才能使用縮合數(shù)據(jù)文件。
      [0082] 數(shù)據(jù)縮合器和方法通過為包含于縮合數(shù)據(jù)文件中的數(shù)據(jù)創(chuàng)建交替起始點(diǎn)、位置偏 移、錯誤數(shù)據(jù)對象、空白和非線性寫入模式,借此可W增強(qiáng)加密。
      [0083] 另外,數(shù)據(jù)縮合器和方法可W利用常規(guī)加密技術(shù),其允許選擇當(dāng)前日期、當(dāng)前時(shí) 間、關(guān)鍵詞或其它通用〇/數(shù)值輸入,W創(chuàng)建一次性密鑰對數(shù)據(jù)的記錄進(jìn)行加密。當(dāng)然,數(shù)據(jù) 的接收方還必須能存取密鑰才能解鎖和利用所述數(shù)據(jù)。數(shù)據(jù)縮合器和方法還準(zhǔn)許用戶創(chuàng)建 其自身的算法或提供增加的安全措施。例如,一個縮合數(shù)據(jù)文件可W用另一縮合數(shù)據(jù)文件 或標(biāo)準(zhǔn)數(shù)據(jù)文件加密。
      [0084] 數(shù)據(jù)縮合器和方法將在常規(guī)計(jì)算機(jī)處理單元(CPU)上工作,但是還將在比如(例 如)圖形處理單元(GPU)之類的其它處理單元上工作。
      [0085] 數(shù)據(jù)縮合器和方法提供的固有或特別加密將支持標(biāo)準(zhǔn)先進(jìn)先出(FIFO),但并不是 用所述格式操作所必需的。有可能在文件的隨機(jī)區(qū)域中開始,然后W非線性方式從坐標(biāo)跳 轉(zhuǎn)到坐標(biāo)。
      [0086] 在另一個實(shí)施例中,可W直接從化StQ文本文件的內(nèi)容填充縮合數(shù)據(jù)文件(例如縮 合文件、數(shù)組文件等)。對于每個化StQ數(shù)據(jù)包,將行1中的每個單個字符(例如數(shù)字或字母) 譯碼,然后是行尾標(biāo)記。組合每個FastQ數(shù)據(jù)包的行2和4, W將雙字母代碼縮合成十六進(jìn)制 (或NBase)數(shù)據(jù)對象,然后是行尾化oL)標(biāo)記,而行3被忽略。當(dāng)所有化StQ數(shù)據(jù)包縮合完成 時(shí),添加文件末尾標(biāo)記。接下來,處理器302將每個單個字母或雙字母代碼翻譯成十六進(jìn)制 (或NBase)數(shù)據(jù)對象,從而使得每個縮合數(shù)據(jù)文件元素構(gòu)成單個十六進(jìn)制(或NBase)數(shù)據(jù)對 象。在縮合數(shù)據(jù)文件的其余部分中填充無值(例如空)十六進(jìn)制(或NBase)數(shù)據(jù)對象,直到文 件末尾標(biāo)記化OF)。
      [0087] 在恢復(fù)過程中,縮合文件(或數(shù)組文件)文件中的十六進(jìn)制(或NBase)數(shù)據(jù)對象恢 復(fù)成源文件中的原始數(shù)據(jù)。在上文所說明的替代實(shí)施例中,使用處理器302將每個十六進(jìn)制 (或NBase)數(shù)據(jù)對象翻譯成單字母或雙字母未縮合數(shù)據(jù)對象。每個恢復(fù)后的化StQ數(shù)據(jù)包現(xiàn) 在是2行。對于每個化StQ數(shù)據(jù)包:(a)讀取所有十六進(jìn)制(或NBase)數(shù)據(jù)對象直到行尾,(b) 將每個十六進(jìn)制(或NBase)數(shù)據(jù)對象翻譯成單個字母,并且用文本填充數(shù)據(jù)文件,(C)將文 本的化StQ包行1寫入到未縮合數(shù)據(jù)對象,(d)讀取所有十六進(jìn)制(或NBase)數(shù)據(jù)對象直到行 尾巧oL),(e)將化StQ包行2讀取到未縮合數(shù)據(jù)文件中(每個元素將具有兩個文本字符),(f) 將每個未縮合數(shù)據(jù)文件元素的第一字符寫入到文本行(FastQ包行2),(g)寫入具有+字符的 文本行(FastQ包行3); W及化)將每個縮合數(shù)據(jù)文件元素的第二字符寫入到文本行(FastQ 包行4)。忽略文件末尾標(biāo)記化OF)和所有無值十六進(jìn)制數(shù)據(jù)對象。所得的文本文件不再縮 合,可W保存起來。
      [0088] 數(shù)據(jù)縮合器和方法可W利用具有不同數(shù)字系統(tǒng)的計(jì)算機(jī),所述數(shù)字系統(tǒng)例如(但 不限于)八進(jìn)制(base-8)、十進(jìn)制(base-10)、十四進(jìn)制(base-14)、十五進(jìn)制(base-15)、十 六進(jìn)制(base-16)、二十四進(jìn)制(base-24)、S 十二進(jìn)制(base-32)、S 十六進(jìn)制(base-36)、 六十四進(jìn)制(base-64)和二百五十六進(jìn)制(base-256)。
      [0089] 一些base-2計(jì)算機(jī)使用base-16(十六進(jìn)制)代碼表示計(jì)算機(jī)存儲器地址。運(yùn)樣的 十六進(jìn)制表示法提供二進(jìn)制譯碼值的人類友好型表示。運(yùn)種表示法使用十六個分區(qū)符號 (最經(jīng)常是符號0-9)表示值零到九,并且使用A、B、C、D、E和F(或替代地a-f)表示值十到十 五。一個十六進(jìn)制數(shù)字表示半字節(jié),運(yùn)是一個字節(jié)(8位)的一半。字節(jié)值的范圍可W是從0到 255 (十進(jìn)制),但是可W更方便地表示為00到FF范圍內(nèi)的兩個十六進(jìn)制數(shù)字。
      [0090]在Base-256實(shí)施例中,利用256個值的預(yù)定(例如預(yù)定義)參考文件轉(zhuǎn)換和縮合原 始數(shù)據(jù)源文件中可能發(fā)生的數(shù)據(jù)對象。在運(yùn)個實(shí)施例中,包含所有常見字符、a-數(shù)值和符 號,還有動作字符,例如(但不限于)換行符、制表鍵、文件末尾和空值。接著添加長項(xiàng)目,由 英語中最常用的多字符單詞來定義??蒞針對任何語言和/或話題構(gòu)造預(yù)定(例如預(yù)定義) 參考文件并且不限于英語。
      [0091 ] W下實(shí)例展示Base-256預(yù)定參考文件的使用。
      [0092] 用于轉(zhuǎn)換的原始文件:
      [0093] -The big brown rabbit likes green leafy carrots;he eats them all in the g曰rden.-
      [0094] W下詞語是在預(yù)定參考文件中已經(jīng)被指派Base-256值的常見詞語。
      [00 巧]The = 130 Likes = ISl he = 132 them=133 all = 134
      [0096] green = 135 brown = 136 big = 137
      [0097] 預(yù)定參考文件還包含所有常見的英語字母數(shù)字字符和符號,還有動作字符。
      [0098] 數(shù)據(jù)縮合器接著將原始源文件轉(zhuǎn)換成縮合數(shù)據(jù)對象。原始源文件含有81個數(shù)據(jù)對 象(字母數(shù)字字符、符號、動作字符)??s合原始數(shù)據(jù)對象可W通過W下方法減少所述數(shù)目。
      [0099] 兩次使用'the' =數(shù)據(jù)對象從總共6個減少為2個
      [0100] 'big'=3個減少為1個
      [0101 ] 'brown'=5個減少為 1 個
      [0102] ' likes'=5個減少為1 個
      [0103] 'green'=5 個減少為 1 個
      [0104] 'he'=2個減少為1個
      [0105] 'them'=4個減少為1個
      [0106] 'air =3個減少為1個
      [0107] 總共減少的數(shù)據(jù)對象(6+3巧巧巧+2+4+3) 33得到9個縮合數(shù)據(jù)對象。
      [0108] (81個原始數(shù)據(jù)對象,包含行尾和文件末尾-33)+9個所得縮合數(shù)據(jù)對象。
      [0109] 總縮合數(shù)據(jù)對象=總共57個數(shù)據(jù)對象。
      [0110] 于是用總數(shù)據(jù)對象計(jì)數(shù)57而不是81限定數(shù)組文件,確定平方根并且將其舍入成最 接近的整數(shù),并且如[00047 ]段中限定地填充數(shù)組文件。
      [0111] NBase實(shí)施例的縮合是用可變方法進(jìn)行的,可W選擇通過單個數(shù)據(jù)對象或許多數(shù) 據(jù)對象的重現(xiàn)(長讀取),還有用于單個原始源文件或許多原始文件的優(yōu)化方法進(jìn)行優(yōu)化選 擇。
      [0112] 短讀取NBase在創(chuàng)建優(yōu)化庫時(shí)僅僅利用單個字母數(shù)字字符、符號和動作字符。
      [0113] 在W下實(shí)例中,將使用短讀取NBase來優(yōu)化單個原始源文件。
      [0114] 用于轉(zhuǎn)換的原始源文件:
      [0115] -AACCTGGTccccTTTCCGGAAAANNNNNCCccttggaaaa-
      [0116] 短讀取優(yōu)化檢查文件中的數(shù)據(jù)對象并且確定總共存在42個,包含行尾和文件末尾 變量。NBase接著確定所使用的數(shù)據(jù)對象是A、C、T、G、a、c、t、g、N、行尾和文件末尾。原始源文 件中總共存在11個唯一數(shù)據(jù)對象,因此,NBase縮合文件將被定義為Base-11集合,僅僅需要 使用11個唯一數(shù)據(jù)對象。如[00047 ]段中所述創(chuàng)建數(shù)組文件。
      [0117] 長讀取NBase還讀取所有使用的單次使用字母數(shù)字字符、符號、和動作字符,且隨 后接著讀取所有詞語和/或短語,查找重現(xiàn)次數(shù)最多的W填充縮合文件中的其余空間。一旦 完成,就使用新縮合文件確定用于創(chuàng)建[00047]段中描述的數(shù)組文件的總共正式數(shù)據(jù)對象。
      [0118] NBase多文件優(yōu)化與第[00063]和[00064]段中描述的相同,只是要注意,不是讀取 單個原始源文件W限定優(yōu)化縮合文件,而是讀取一個W上文件W確定優(yōu)化縮合文件。
      [0119] 在Base-256 (或NBase)實(shí)施例中,包深度是通過[00047 ]段中的方法指派給打包到 一個縮合數(shù)組文件中W便寫入的值的Base-256(和/或NBase)的數(shù)目。包深度必須是大于或 等于一(>1)的正整數(shù)+i。
      [0120] 在下面的實(shí)例中,[DO]中的項(xiàng)目將表示為已經(jīng)與來自預(yù)定參考文件的值相關(guān)聯(lián)的 Base-256(或NBase)數(shù)據(jù)對象的實(shí)例。0里面的項(xiàng)目將被視為保持在由包深度限定的單個 縮合數(shù)據(jù)對象中。E化將保持行尾的數(shù)據(jù)對象參考,Eo問尋保持文件末尾的數(shù)據(jù)對象參考。
      [0121] 1的包深度:
      [0122] ([DO])([00])([00])([00])([00])([00])([00])([00])([00])([00])([00]) ([EoL])([EoF])
      [0123] 在W上實(shí)例中存在13個用于縮合的數(shù)據(jù)對象,包含EoL和EoF。因而,將用十= (13) 的平方根限定數(shù)組文件,從而使得將用[00047]段中描述的方式創(chuàng)建數(shù)組文件。
      [0124] 2的包深度:
      [0125] ([DO][DO])([00][DO])([00][DO])([00][DO])([00][DO])([00][EoL])([EoF] [NUliJ)
      [0126] 在W上實(shí)例中存在7個用于縮合的數(shù)據(jù)對象,包含EoL和EoF。因而,將用屯(7)的平 方根限定數(shù)組文件,從而使得將用[00047]段中描述的方式創(chuàng)建數(shù)組文件。
      [0127] 3的包深度:
      [0128] (巧0] [DO] [DO])(巧0]巧0] [DO])(巧0]巧0]巧0]) ([DO]巧0] UoL]) ([EoF] [N化L] [NUliJ)
      [0129] 在W上實(shí)例中存在5個用于縮合的數(shù)據(jù)對象,包含EoL和EoF。因而,將用五(5)的平 方根限定所述數(shù)組文件,從而使得將用[00047]段中描述的方式創(chuàng)建數(shù)組文件。
      [0130] 4的包深度:
      [0131] ([DO][DO][DO][DO])([DO][DO][DO][DO])([DO][DO][DO][EoL])([EoF][NULL]
      [0132] 在W上實(shí)例中存在4個用于縮合的數(shù)據(jù)對象,包含EoL和EoF。因而,將用四(4)的平 方根限定所述數(shù)組文件,從而使得將用[00047]段中描述的方式創(chuàng)建數(shù)組文件。
      [0133] 在上述兩個實(shí)施例中可W預(yù)設(shè)或手動地限定包深度。對于所有意圖和目的,W上 實(shí)例的包深度可W設(shè)置成十= (13),并且數(shù)組文件的大小將是一個(1)縮合數(shù)據(jù)對象,十= 個Base-256 (或NBase)值存儲在所述單個數(shù)組文件內(nèi)部。
      [0134] 圖1說明一種數(shù)據(jù)文件縮合方法100。如本申請各種地方所闡述,所述系統(tǒng)和方法 可W通過執(zhí)行存儲于存儲媒體中的計(jì)算機(jī)代碼的處理器來實(shí)現(xiàn)。
      [0135] 所述處理器可W包括微處理器和其它從存儲系統(tǒng)檢索和執(zhí)行軟件的電路。處理器 可W在單個處理裝置內(nèi)實(shí)施,但是也可W跨越在執(zhí)行程序指令時(shí)協(xié)作的多個處理裝置或子 系統(tǒng)分布。處理器的實(shí)例包含通用中央處理單元、專用處理器和邏輯裝置,W及任何其它類 型的處理裝置、處理裝置的組合或其變化形式。
      [0136] 存儲裝置可W包括任何處理器可讀的并且能夠存儲軟件的存儲媒體。存儲系統(tǒng)可 包含在任何方法或技術(shù)中實(shí)施用于存儲例如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它 數(shù)據(jù)等信息的易失性和非易失性W及可裝卸式和非可裝卸式媒體。存儲系統(tǒng)可W實(shí)施為單 個存儲裝置,但是也可W跨越多個存儲裝置或子系統(tǒng)實(shí)施。存儲系統(tǒng)可W進(jìn)一步包含額外 元件,例如能夠與處理器通信的控制器。
      [0137] 存儲媒體的實(shí)例包含隨機(jī)存取存儲器、只讀存儲器、磁盤、光盤、快閃存儲器、虛擬 存儲器和非虛擬存儲器、磁性組件、磁帶、磁盤存儲裝置或其它磁性存儲裝置,或者任何其 它可W用于存儲期望信息并且可W通過指令執(zhí)行系統(tǒng)存取的媒體,W及其任何組合或變化 形式或任何其它類型的存儲媒體。
      [0138] 步驟1.0包括啟動縮合軟件。用于縮合源文件的代碼基于其所在的操作系統(tǒng)平臺 執(zhí)行、運(yùn)行和/或起始。在運(yùn)個動作時(shí),縮合軟件將把適當(dāng)?shù)慕M件到有效存儲器(RAM)中,并 且將輔助組件加載到固定或便攜式存儲媒體上,W在縮合過程期間在需要時(shí)使用。
      [0139] 步驟1.1包括選擇要縮合的源文件,下文稱為源文件。源文件的選擇是通過縮合軟 件菜單執(zhí)行的。運(yùn)可W包含但不限于瀏覽菜單對話框、將文件拖放到縮合軟件中、和/或打 開和選擇文件選項(xiàng)。運(yùn)樣會加載用于縮合的文件,并且創(chuàng)建源文件的鏈接W用于縮合過程。
      [0140] 步驟1.2包括分析源文件。源文件分析可W包含W下各項(xiàng)中的一或多項(xiàng),并且不限 于所列的實(shí)例:
      [0141] ?為駐留在源文件中的所有數(shù)據(jù)對象計(jì)數(shù)。
      [0142] ?估計(jì)內(nèi)部格式化(例如電子表格、FastQ文件等)
      [0143] ?重現(xiàn)數(shù)據(jù)對象識別(例如限定群組)
      [0144] ?預(yù)定/繼承數(shù)據(jù)對象識別(例如來自預(yù)定參考文件)
      [0145] ?預(yù)定/手動輸入的算法(例如數(shù)字基礎(chǔ)譯碼系統(tǒng))
      [0146] 當(dāng)默認(rèn)或手動地確定的方法符合所有準(zhǔn)則時(shí),將設(shè)置并且已知那些數(shù)據(jù)對象(例 如一或多個ASCII文本字符)的總數(shù),從而準(zhǔn)許過程移動到下一個縮合步驟。
      [0147] 步驟1.3起始預(yù)定參考文件和縮合文件的任選的優(yōu)化。基于源文件分析,存在運(yùn)樣 的選項(xiàng):通過將十六進(jìn)制、Base-256或其它NBase值與數(shù)據(jù)對象相關(guān)聯(lián),并且為數(shù)組文件選 擇除了默認(rèn)值3之外的包深度,借此定制預(yù)定參考文件(和縮合文件)。定制的縮合優(yōu)化方法 可W手動指定或自動選擇。
      [0148] 步驟1.4設(shè)及建立數(shù)組文件W保持縮合數(shù)據(jù)。整個已知數(shù)據(jù)對象是一個整數(shù)。導(dǎo)出 數(shù)據(jù)對象的平方根。運(yùn)用于確定數(shù)組文件的X軸和Y軸的參數(shù)。由于大部分平方根利用小數(shù) 位,所W總縮合數(shù)據(jù)對象的導(dǎo)出平方根舍入成最接近的整數(shù),從而使得數(shù)組文件始終足夠 大,足W處理源文件的縮合,但是浪費(fèi)的空間從不多于對少于一個額外行的數(shù)據(jù)對象的額 外需要。在給定舍入至最靠近的整數(shù)的數(shù)據(jù)對象的平方根的情況下,縮合數(shù)組文件對于X軸 和Y軸將被定義為整數(shù)值。運(yùn)樣為形成數(shù)組的過程準(zhǔn)備虛擬存儲器。
      [0149] 步驟1.5起始縮合過程。在源文件上起始縮合是從確認(rèn)繼續(xù)開始。
      [0150] 步驟1.6設(shè)及將經(jīng)過評估的數(shù)據(jù)對象讀取到源文件中W供處理。讀取用于縮合的 數(shù)據(jù)對象是作為一或多種方法發(fā)生,但不限于所列實(shí)例:
      [0151] 參一次一個數(shù)據(jù)對象
      [0152] ?基于在步驟1.3中執(zhí)行的優(yōu)化分析
      [0153] ?預(yù)定/繼承結(jié)構(gòu)
      [0154] 將數(shù)據(jù)對象讀取到有效存儲器中W用于縮合處理。
      [0155] 步驟1.7設(shè)及尋址源文件W獲得針對經(jīng)過評估的數(shù)據(jù)對象和/或數(shù)據(jù)對象群組限 定的十六進(jìn)制、Base-256或其它NBase值。將有效存儲器中的數(shù)據(jù)對象與預(yù)定參考文件比 較,預(yù)定參考文件保持對于包含于原始源文件中的數(shù)據(jù)對象的所標(biāo)示的十六進(jìn)制、Base- 256 或其它 NBase 值指派。
      [0156] 步驟1.8設(shè)及用譯碼的數(shù)據(jù)填充縮合文件。寫入十六進(jìn)制、Base-256或其它NBase 值可W用不同的方法寫入到縮合文件,但不限于所列的實(shí)例:
      [0157] ?從左到右,從上到下(默認(rèn));
      [015引參從中屯、逆時(shí)針方向;
      [0159] ?自定義設(shè)計(jì)和指派模式;和/或
      [0160] ?碎片法
      [0161] ?流
      [0162] ?基于在步驟1.3中執(zhí)行的優(yōu)化分析
      [0163] 步驟1.9指代轉(zhuǎn)換循環(huán)??s合文件的填充將一直繼續(xù)到?jīng)]有額外數(shù)據(jù)對象要從源 文件中讀取為止。如果遇到額外數(shù)據(jù)對象縮合文件將繼續(xù)填充(參見步驟1.6),并且繼續(xù)再 次執(zhí)行步驟1.7和1.8。如果未遇到額外數(shù)據(jù)對象,則過程將繼續(xù)到步驟1.10,運(yùn)樣結(jié)束循環(huán) 過程。當(dāng)發(fā)生運(yùn)種情況時(shí),過程進(jìn)行到文件完成協(xié)議。
      [0164] 步驟1.10設(shè)及標(biāo)記縮合文件的末尾。將十六進(jìn)制、Base-256或其它NBase值指派給 文件末尾終結(jié)符。運(yùn)個十六進(jìn)制、Base-256或其它NBase值從不與任何其它十六進(jìn)制、Base- 256 或其它 NBase 值指派共用 ,而是出于多種多樣的原因在實(shí)際標(biāo)示的所指派的十六進(jìn)制、 Base-256或其它NBase值方面可能有所不同。運(yùn)個十六進(jìn)制、Base-256或其它NBase值在數(shù) 據(jù)文件中僅僅使用一次。
      [0165] 步驟1.11設(shè)及在縮合文件中的其余文件空間中填充用于空值的十六進(jìn)制、Base- 256 或其它NBase 值 ??罩狄脖环Q作空 白空間 并且類似于文件末尾 ,但是 ,由于文件末尾僅僅 可W用作終結(jié)符一次,所W根據(jù)縮合文件的結(jié)構(gòu)性要求,必須填充虛擬存儲器中駐留的縮 合文件中的任何其余的空間。將十六進(jìn)制、Base-256或其它NBase值指派給空值。運(yùn)個值從 不與任何其它十六進(jìn)制、Base-256或其它NBase值指派共用,而是出于多種多樣的原因,可 W在實(shí)際標(biāo)示的所指派的十六進(jìn)制、Base-256或其它NBase值方面是不同的。
      [0166] 步驟1.12設(shè)及為縮合文件命名??s合輸出文件可W存儲在任何具有縮合文件必需 的充分寫入空間的固定或便攜式存儲媒體上。此時(shí)可W為縮合文件確定名稱。運(yùn)個命名沒 有具體要求,并且可W專口確定或通過外部確定的標(biāo)準(zhǔn)來確定。
      [0167] 步驟1.13將縮合文件寫入到磁盤W供存儲。有效存儲器中的縮合文件被寫入到固 定或便攜式存儲媒體上的存儲空間,并且現(xiàn)在被稱作縮合數(shù)據(jù)輸出文件??s合文件可W視 需要從固定或便攜式存儲媒體存取,而無需修改其新縮合狀態(tài)。
      [0168] 步驟1.14關(guān)閉源文件和縮合文件。從有效存儲器中釋放源文件和縮合文件。
      [0169] 步驟1.15關(guān)閉縮合軟件。從有效存儲器中釋放縮合軟件。刪除軟件執(zhí)行中使用的 任何臨時(shí)數(shù)據(jù)文件。
      [0170] 圖2說明將縮合數(shù)據(jù)恢復(fù)成其原始未縮合狀態(tài)的一種恢復(fù)方法200。
      [0171] 步驟2.0設(shè)及啟動恢復(fù)程序。用于恢復(fù)縮合文件的代碼基于其所在的操作系統(tǒng)平 臺執(zhí)行、運(yùn)行和/或起始。運(yùn)個動作后,恢復(fù)軟件將把適當(dāng)?shù)慕M件加載到有效存儲器(RAM) 中,并且將輔助組件加載到固定或便攜式存儲媒體上,W便在恢復(fù)過程期間需要時(shí)使用。恢 復(fù)使用是圍繞運(yùn)樣的需要:在虛擬環(huán)境中快速查看一些縮合文件或恢復(fù)成完整源文件W供 傳送到無法使用含糊縮合數(shù)據(jù)文件技術(shù)的系統(tǒng)或?qū)嶓w。
      [0172] 步驟2.1設(shè)及通過恢復(fù)軟件菜單選擇縮合(例如縮合文件或恢復(fù)文件)文件??s合 文件的選擇是通過恢復(fù)軟件菜單執(zhí)行的。運(yùn)可W包含但不限于瀏覽菜單對話框、將縮合文 件拖放到恢復(fù)軟件中、和/或打開和選擇縮合文件選項(xiàng)。運(yùn)樣會加載要恢復(fù)的縮合文件,并 且創(chuàng)建縮合文件的鏈接W用于恢復(fù)過程。
      [0173] 步驟2.2設(shè)及要恢復(fù)的縮合數(shù)據(jù)文件數(shù)量。用戶可W指明小于縮合文件的100%的 一定數(shù)量來恢復(fù)。運(yùn)個數(shù)量可W是所選的百分比、行號或其它未列舉的方法。
      [0174] 步驟2.3設(shè)及選擇輸出方法。用戶可W指明輸出數(shù)據(jù)文件(例如目的地或虛擬文 件)或可視媒體上的查看窗的輸出。輸出數(shù)據(jù)文件可W存儲在任何具有輸出數(shù)據(jù)文件必需 的充分寫入空間的固定或便攜式存儲媒體上。此時(shí)可W為輸出數(shù)據(jù)文件確定名稱。運(yùn)個命 名沒有具體要求,并且可W??诖_定或通過外部確定的標(biāo)準(zhǔn)來確定。
      [0175] 步驟2.4設(shè)及讀取縮合文件??s合文件使用W下方法中的一種方法讀取,但不限于 所列的實(shí)例。
      [0176] ?從左到右從上到下(默認(rèn))
      [0177] ?從中屯、逆時(shí)針方向
      [0178] ?W算法方式指派的模式
      [0179] ?碎片法
      [0180] ?通過庫確定
      [0181] ?流
      [0182] 步驟2.5設(shè)及從縮合文件中讀取十六進(jìn)制、Base-256或其它NBase值。從縮合文件 中讀取十六進(jìn)、Base-256或其它NBase值。
      [0183] 步驟2.6指代協(xié)商高級參考文件和縮合文件中指定的包深度。對照庫限定十六進(jìn) 審lJ、Base-256或其它NBase值。庫將十六進(jìn)制、Base-256或其它NBase值與跟原始源文件相關(guān) 聯(lián)的所指派數(shù)據(jù)對象鏈接起來。
      [0184] 步驟2.7指代將所恢復(fù)的數(shù)據(jù)對象寫入到存儲器中的目的地?cái)?shù)據(jù)文件。接著用W 下方法中的一或多種將所恢復(fù)的數(shù)據(jù)對象填充到目的地文件中,但不限于列表中的實(shí)例。
      [0185] ?恢復(fù)預(yù)定/手動輸入的算法
      [0186] ?所識別的重現(xiàn)結(jié)構(gòu)性實(shí)體
      [0187] ?格式細(xì)節(jié) [018引 ?通過庫確定 [01例 ?流
      [0190]目的地文件駐留在有效存儲器(RAM)中。目的地文件的填充將一直繼續(xù)到在縮合 文件中遇到文件末尾化OF)的十六進(jìn)制、Base-256或其它NBase值(1.11)為止。目的地文件 將用與縮合之前的原始源文件相同的方式格式化,運(yùn)個原始源文件可W是W下類型之一的 文件,但不限于所列的實(shí)例:
      [0191 ]參 Word、Excel、文本文件
      [0192] ?數(shù)據(jù)庫文件
      [0193] ?電子醫(yī)療記錄
      [0194] ?日志文件
      [0195] 參FASTQ/基因組文件
      [0196] ?二進(jìn)制文件
      [0197] 步驟2.8指代恢復(fù)循環(huán)。寫入循環(huán)被定義為單個例子,其中恢復(fù)軟件必須將信息寫 入到有效存儲器或者固定或便攜式存儲媒體。如果系統(tǒng)限制將適應(yīng)將用戶規(guī)定的數(shù)量在 2.2或整個目的地文件中寫入到有效存儲器(RAM),則恢復(fù)軟件將認(rèn)識到僅僅需要單個寫入 循環(huán),并且目的地文件的填充將繼續(xù)到?jīng)]有額外的十六進(jìn)制、Base-256或其它NBase值要從 縮合文件中讀取為止。如果系統(tǒng)限制將不適應(yīng)將用戶規(guī)定的數(shù)量在2.2或整個目的地文件 中寫入到有效存儲器(RAM),則恢復(fù)程序?qū)⒂?jì)算將容許W多個部分填充目的地文件的大于 一(1)的寫入循環(huán)數(shù)量。應(yīng)當(dāng)如何計(jì)算寫入循環(huán)大小的確定可W是但不限于W下方法中的 一種:
      [0198] ?通過縮合數(shù)據(jù)文件中的行尾
      [0199] ?通過縮合文件的分?jǐn)?shù)或百分比
      [0200] ?使用可用RAM的分?jǐn)?shù)或百分比
      [0201] 步驟2.9指代恢復(fù)軟件確定它已達(dá)到它的最終寫入循環(huán)的末尾。如果已達(dá)到最終 寫入循環(huán)的末尾,則恢復(fù)軟件進(jìn)行到步驟2.10。如果尚未達(dá)到最終寫入循環(huán)的末尾,則恢復(fù) 軟件進(jìn)行到步驟2.9.5。
      [0202] 步驟2.9.5指代將目的地文件寫入到固定或便攜式存儲媒體上的臨時(shí)數(shù)據(jù)文件。 臨時(shí)數(shù)據(jù)文件特性遵循與步驟2.7中描述的目的地文件相同的規(guī)范和限制。
      [0203] 步驟2.10指代數(shù)據(jù)文件輸出或查看器輸出的較早選擇。(步驟2.3)所述過程此時(shí) 在到數(shù)據(jù)文件或查看器的輸出之間分叉。
      [0204] 步驟2.11設(shè)及將目的地文件寫入到固定或便攜式存儲媒體的過程的終結(jié)?;謴?fù)過 程中設(shè)及的臨時(shí)數(shù)據(jù)文件與有效存儲器中的目的地文件組合并且寫入到固定或便攜式存 儲媒體。目的地文件現(xiàn)在作為可W視需要從固定或便攜式存儲媒體存取的數(shù)據(jù)文件駐留。
      [0205] 步驟2.12關(guān)閉源數(shù)據(jù)文件和輸出數(shù)據(jù)文件。從有效存儲器中釋放源數(shù)據(jù)文件和輸 出數(shù)據(jù)文件。從固定或便攜式存儲媒體中刪除恢復(fù)過程中設(shè)及的臨時(shí)數(shù)據(jù)文件。
      [0206] 步驟2.13指代如果已選擇可視查看則創(chuàng)建查看窗(步驟2.3)。在有效存儲器中創(chuàng) 建能夠查看目的地文件的過程。
      [0207] 步驟2.14指代將恢復(fù)的目的地文件輸出到在步驟2.13中創(chuàng)建的查看器窗口?;謴?fù) 過程中設(shè)及的臨時(shí)數(shù)據(jù)文件和有效存儲器中的目的地文件經(jīng)過組合并且準(zhǔn)備W便在查看 器窗口中查看。運(yùn)是用于在可視媒體上顯示W(wǎng)便檢測或診斷/審閱內(nèi)容的傳輸過程。
      [0208] 步驟2.15關(guān)閉源目的地文件和查看器窗口。從有效存儲器中釋放目的地文件和查 看窗。從固定或便攜式存儲媒體中刪除恢復(fù)過程中設(shè)及的臨時(shí)數(shù)據(jù)文件。
      [0209] 步驟2.16關(guān)閉恢復(fù)軟件。從有效存儲器中釋放恢復(fù)軟件。刪除軟件執(zhí)行中使用的 任何臨時(shí)文件。
      [0210] 在前述描述中,為了簡潔、清晰和理解所W使用了某些術(shù)語。不應(yīng)由其推斷超出現(xiàn) 有技術(shù)要求的不必要的限制,因?yàn)檫\(yùn)些術(shù)語是用于描述目的并且希望得到廣義的解釋。本 文所述的不同配置、系統(tǒng)和方法步驟可單獨(dú)使用或結(jié)合其它配置、系統(tǒng)和方法步驟使用。預(yù) 期在所附權(quán)利要求書的范圍內(nèi),各種等效物、替代方案和修改是可能的。
      【主權(quán)項(xiàng)】
      1. 一種用于減少數(shù)據(jù)存儲和處理要求的無損數(shù)據(jù)縮合器,其包括: 數(shù)據(jù)存儲器,其包含: 源文件,其具有有待縮合的數(shù)據(jù)對象; 預(yù)定參考文件,其具有預(yù)定數(shù)據(jù)對象和預(yù)定數(shù)據(jù)對象群組; 高級參考文件,其具有從所述源文件和所述預(yù)定參考文件中的至少一個獲得的以算法 方式選擇的數(shù)據(jù)對象和以算法方式選擇的數(shù)據(jù)對象群組; 縮合文件,其包含縮合數(shù)據(jù)對象和縮合數(shù)據(jù)對象群組;以及 數(shù)組文件,其包含所述縮合數(shù)據(jù)對象與所述縮合數(shù)據(jù)對象群組的數(shù)組;以及 縮合處理器,其操作以: 至少部分地基于所述數(shù)據(jù)對象的計(jì)數(shù),選擇至少一個數(shù)字基礎(chǔ)譯碼系統(tǒng); 至少部分地基于所述數(shù)據(jù)對象的所述計(jì)數(shù),選擇所述數(shù)組文件的包深度; 至少部分地基于所述數(shù)據(jù)對象的所述計(jì)數(shù),限制所述至少一個數(shù)字基礎(chǔ)譯碼系統(tǒng); 分析所述源文件中的所述數(shù)據(jù)對象,以定位一或多個重現(xiàn)數(shù)據(jù)對象和重現(xiàn)數(shù)據(jù)對象群 組; 向所述預(yù)定參考文件中的所述數(shù)據(jù)對象和數(shù)據(jù)對象群組指派第一唯一代碼; 向所述高級參考文件中的所選的重現(xiàn)數(shù)據(jù)對象和數(shù)據(jù)對象群組以及所選的非重現(xiàn)數(shù) 據(jù)對象和數(shù)據(jù)對象群組指派第二唯一代碼; 將所述譯碼的數(shù)據(jù)對象和所述譯碼的數(shù)據(jù)對象群組放入在所述縮合文件中;以及 在所述數(shù)組文件中構(gòu)建所述縮合數(shù)據(jù)對象的數(shù)組, 其中所述無損數(shù)據(jù)縮合器允許高效并且準(zhǔn)確的無損數(shù)據(jù)存儲和傳送。2. 根據(jù)權(quán)利要求1所述的無損數(shù)據(jù)縮合器,其中所述縮合處理器具有指派給預(yù)定數(shù)據(jù) 對象和數(shù)據(jù)對象群組的base-256譯碼系統(tǒng),以及指派給非預(yù)定數(shù)據(jù)對象和數(shù)據(jù)對象群組的 base-16譯碼系統(tǒng)。3. 根據(jù)權(quán)利要求1所述的無損數(shù)據(jù)縮合器,其中所述存儲器數(shù)組由譯碼的數(shù)據(jù)對象和 數(shù)據(jù)對象群組的總數(shù)的平方根限定,所述總數(shù)的平方根必要時(shí)舍入為整數(shù),并且必要時(shí)用 空值數(shù)據(jù)對象填充所述數(shù)組。4. 一種用于執(zhí)行無損縮合操作的設(shè)備,其包括: 數(shù)據(jù)源存儲器,其具有包含數(shù)據(jù)對象的輸入數(shù)據(jù)的至少一個數(shù)據(jù)文件; 縮合處理器,其被配置成區(qū)分?jǐn)?shù)據(jù)對象群組與單個數(shù)據(jù)對象,并且區(qū)分重復(fù)次數(shù)超出 所選閾值的重復(fù)數(shù)據(jù)對象群組;以及 參考庫,其包含定制文件,所述定制文件包含預(yù)定義數(shù)據(jù)對象和預(yù)定數(shù)據(jù)對象群組, 其中所述縮合處理器被進(jìn)一步配置成向所述重復(fù)數(shù)據(jù)對象和數(shù)據(jù)對象群組以及非重 復(fù)數(shù)據(jù)對象和數(shù)據(jù)對象群組指派唯一代碼以提供縮合文件。5. 根據(jù)權(quán)利要求4所述的設(shè)備,其中所述縮合處理器向預(yù)定義數(shù)據(jù)對象和數(shù)據(jù)對象群 組指派base-256譯碼系統(tǒng),并且向非預(yù)定義數(shù)據(jù)對象和數(shù)據(jù)對象群組指派base-16譯碼系 統(tǒng)。6. 根據(jù)權(quán)利要求4所述的無損數(shù)據(jù)縮合器,其中所述存儲器數(shù)組由譯碼的數(shù)據(jù)對象和 數(shù)據(jù)對象群組的總數(shù)的平方根限定,所述總數(shù)的平方根必要時(shí)舍入為整數(shù),并且必要時(shí)用 空值數(shù)據(jù)對象填充所述數(shù)組。7. -種用于減少數(shù)據(jù)存儲和處理要求的無損數(shù)據(jù)縮合器,其包括: 數(shù)據(jù)源存儲器,其具有包含數(shù)據(jù)對象的輸入數(shù)據(jù)的至少一個數(shù)據(jù)文件; 縮合存儲器,其具有數(shù)據(jù)對象群組,每個數(shù)據(jù)對象群組包含根據(jù)所述數(shù)據(jù)源存儲器中 的數(shù)據(jù)對象的重復(fù)模式的一或多個數(shù)據(jù)對象; 縮合處理器,其操作以基于所述數(shù)據(jù)源存儲器中的數(shù)據(jù)對象和數(shù)據(jù)對象群組的數(shù)目, 選擇多個數(shù)字基礎(chǔ)譯碼系統(tǒng)中的至少一個; 定制參考庫存儲器,其具有被指派來自所選數(shù)字基礎(chǔ)譯碼系統(tǒng)中的至少一個的唯一代 碼的預(yù)定義數(shù)據(jù)對象和預(yù)定義數(shù)據(jù)對象群組;以及 經(jīng)過制定的參考庫存儲器,其具有被指派來自所述數(shù)字基礎(chǔ)譯碼系統(tǒng)中的至少一個的 唯一代碼的重現(xiàn)和非重現(xiàn)數(shù)據(jù)對象和數(shù)據(jù)對象群組,連同所選的經(jīng)過譯碼的預(yù)定義數(shù)據(jù)對 象群組;以及 所述制定的參考庫存儲器具有存儲器數(shù)組,所述存儲器數(shù)組由經(jīng)過譯碼的數(shù)據(jù)對象和 數(shù)據(jù)對象群組的總數(shù)的平方根限定,所述總數(shù)的平方根必要時(shí)舍入成整數(shù),并且必要時(shí)用 空值數(shù)據(jù)對象填充所述數(shù)組,所述存儲器數(shù)組的包深度基于所述制定的參考庫中的經(jīng)過譯 碼的數(shù)據(jù)對象和數(shù)據(jù)對象群組的總數(shù)的計(jì)數(shù)。8. -種用于減少數(shù)據(jù)存儲和處理要求的無損數(shù)據(jù)縮合器,其包括: 數(shù)據(jù)存儲器,其具有至少一個源文件,所述源文件存儲包含有待縮合的多個重現(xiàn)和非 重現(xiàn)數(shù)據(jù)對象的輸入數(shù)據(jù); 接口存儲器,其操作以從輸入數(shù)據(jù)接收和讀取數(shù)據(jù)對象; 參考庫,其存儲與對應(yīng)的數(shù)據(jù)對象相關(guān)的經(jīng)過譯碼的值; 縮合處理器,其連接到所述參考庫以優(yōu)化所述輸入數(shù)據(jù);以及 縮合存儲器,其經(jīng)過連接以接收優(yōu)化輸入數(shù)據(jù)并且提供縮合輸出數(shù)據(jù)。9. 根據(jù)權(quán)利要求8所述的無損數(shù)據(jù)縮合器,其中所述縮合處理器基于最優(yōu)縮合文件大 小指派數(shù)字基礎(chǔ)譯碼系統(tǒng)。10. 根據(jù)權(quán)利要求9所述的無損數(shù)據(jù)縮合器,其中所述縮合處理器向所述參考庫數(shù)據(jù)對 象指派base-256譯碼系統(tǒng),并且向數(shù)據(jù)存儲器數(shù)據(jù)對象指派base-16譯碼系統(tǒng)。11. 根據(jù)權(quán)利要求9所述的無損數(shù)據(jù)縮合器,其中所述縮合處理器至少部分地基于數(shù)據(jù) 對象群組的重復(fù)模式的數(shù)目指派數(shù)字基礎(chǔ)譯碼系統(tǒng)。12. 根據(jù)權(quán)利要求8所述的無損數(shù)據(jù)縮合器,其中所述縮合存儲器具有被選擇成減少存 儲要求的包深度。13. -種無損數(shù)據(jù)縮合系統(tǒng),其包括: 縮合處理器,其被配置成基于數(shù)據(jù)對象群組的重復(fù)模式的數(shù)目從多個數(shù)字基礎(chǔ)譯碼系 統(tǒng)中選擇至少一個數(shù)字基礎(chǔ)譯碼系統(tǒng),并且向每個數(shù)據(jù)對象群組指派來自所述所選的數(shù)字 基礎(chǔ)譯碼系統(tǒng)中的所述至少一個的唯一代碼;以及 縮合存儲器,其具有經(jīng)過譯碼的數(shù)據(jù)對象群組以提供縮合數(shù)據(jù)存儲和數(shù)據(jù)傳送。14. 一種無損數(shù)據(jù)縮合系統(tǒng),其包括: 縮合處理器,其被配置成向包含數(shù)據(jù)對象的重復(fù)圖案的數(shù)據(jù)對象群組指派唯一代碼; 以及 存儲器數(shù)組,其存儲經(jīng)過譯碼的數(shù)據(jù)對象群組,所述經(jīng)過譯碼的數(shù)據(jù)對象群組具有選 擇成減少所述存儲器數(shù)組的存儲要求的包深度。15. -種用于將縮合數(shù)據(jù)對象恢復(fù)成未縮合形式的設(shè)備,其包括: 數(shù)據(jù)存儲器,其包含: 縮合文件,其具有縮合數(shù)據(jù)對象; 用于未縮合數(shù)據(jù)對象的至少一個目的地模式; 參考文件,其具有經(jīng)過譯碼的重現(xiàn)和非重現(xiàn)縮合數(shù)據(jù)對象,以及識別與所述縮合文件 相關(guān)聯(lián)的至少一個或多個數(shù)字譯碼系統(tǒng)和適用的情況下的包深度的信息;以及 恢復(fù)處理器,其操作以: 選擇有待恢復(fù)的所述縮合數(shù)據(jù)對象的至少一部分; 選擇用于使用未縮合數(shù)據(jù)對象的所述目的地模式;以及 將所述縮合文件與所述參考文件鏈接,以將所述縮合數(shù)據(jù)對象恢復(fù)成未縮合數(shù)據(jù)對 象,以便高效并且準(zhǔn)確的使用,而不會損失所述數(shù)據(jù)對象。16. -種用于例如數(shù)字、字母、詞語、短語和其它標(biāo)志的數(shù)據(jù)對象的無損數(shù)據(jù)縮合以允 許高效并且準(zhǔn)確安全的數(shù)據(jù)評估、數(shù)據(jù)存儲和數(shù)據(jù)傳送的方法,所述方法包括: 獲得有待縮合的數(shù)據(jù)對象集合; 將所述數(shù)據(jù)對象集合放入源文件中; 進(jìn)行所述源文件的分析,包含所述數(shù)據(jù)對象的總數(shù)的計(jì)數(shù); 讀取所述源文件,并且響應(yīng)于所述源文件內(nèi)的數(shù)據(jù)對象的重復(fù)模式,創(chuàng)建數(shù)據(jù)對象群 組,每個數(shù)據(jù)對象群組包含一或多個數(shù)據(jù)對象; 為數(shù)據(jù)對象群組的總數(shù)計(jì)數(shù); 基于數(shù)據(jù)對象群組的所選數(shù)量,選擇一或多個數(shù)字基礎(chǔ)譯碼系統(tǒng); 建立預(yù)定義數(shù)據(jù)對象群組的一或多個庫參考文件; 向每個預(yù)定義數(shù)據(jù)對象群組指派來自所述所選譯碼系統(tǒng)的第一唯一代碼; 識別各個重現(xiàn)數(shù)據(jù)對象群組與非重現(xiàn)數(shù)據(jù)對象群組區(qū)分開來; 向并非預(yù)定義數(shù)據(jù)對象群組的每個重現(xiàn)和非重現(xiàn)數(shù)據(jù)對象群組指派來自所述所選譯 碼系統(tǒng)的第二唯一代碼; 將經(jīng)過譯碼的數(shù)據(jù)對象群組放入一或多個庫參考文件中; 讀取所述源文件并且為經(jīng)過譯碼的數(shù)據(jù)對象群組的所述總數(shù)計(jì)數(shù); 選擇用于存儲器數(shù)組的包深度; 形成所述存儲器數(shù)組,所述存儲器數(shù)組由所選的經(jīng)過譯碼的數(shù)據(jù)對象群組的所述總數(shù) 的平方根限定,并且必要時(shí)舍入以建立整數(shù); 添加空值的經(jīng)過譯碼的數(shù)據(jù)對象以填充所述數(shù)組;以及 將所述數(shù)組放入存儲媒體上。17. -種縮合數(shù)據(jù)以提供減少的數(shù)據(jù)存儲和處理的方法,其包括: 讀取包含多個數(shù)據(jù)對象的數(shù)據(jù)文件; 識別重現(xiàn)數(shù)據(jù)對象群組與非重現(xiàn)數(shù)據(jù)對象群組區(qū)分開來,每個重現(xiàn)數(shù)據(jù)對象群組包含 一或多個數(shù)據(jù)對象; 向每個重現(xiàn)和非重現(xiàn)數(shù)據(jù)對象群組指派代碼; 制定最佳大小的參考庫;以及 將所述經(jīng)過譯碼的數(shù)據(jù)對象群組放入所述參考庫中以用于數(shù)據(jù)存儲和處理。18.-種用于例如數(shù)字、字母、詞語、短語和其它標(biāo)志的縮合數(shù)據(jù)對象的無損數(shù)據(jù)恢復(fù) 的方法,其包括: 獲得縮合數(shù)據(jù)對象的縮合文件; 選擇有待恢復(fù)的所述縮合數(shù)據(jù)對象的至少一部分; 選擇用于恢復(fù)數(shù)據(jù)對象的目的地模式; 獲得具有指派給重現(xiàn)和非重現(xiàn)縮合數(shù)據(jù)對象的代碼的參考文件,所述參考文件具有識 別與所述縮合文件相關(guān)聯(lián)的至少一個或多個數(shù)字譯碼系統(tǒng)和適用的情況下的包深度的信 息;以及 基于與所述參考文件的鏈接,讀取所述縮合文件,以將所述縮合數(shù)據(jù)對象恢復(fù)成未縮 合數(shù)據(jù)對象,以便實(shí)現(xiàn)高效并且準(zhǔn)確的使用,而不會損失所述數(shù)據(jù)對象。
      【文檔編號】H03M7/30GK105940611SQ201580006203
      【公開日】2016年9月14日
      【申請日】2015年1月29日
      【發(fā)明人】安德魯·J·古德溫, 馬修·P·費(fèi)舍爾
      【申請人】雷利肯分析有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1