国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種數(shù)據(jù)處理和查詢方法和裝置的制作方法

      文檔序號(hào):6598642閱讀:195來(lái)源:國(guó)知局

      專利名稱::一種數(shù)據(jù)處理和查詢方法和裝置的制作方法
      技術(shù)領(lǐng)域
      :本發(fā)明涉及通信
      技術(shù)領(lǐng)域
      ,特別是涉及一種數(shù)據(jù)處理和查詢方法和裝置。
      背景技術(shù)
      :電信業(yè)務(wù)⑶R(CallDetailRecord,呼叫詳細(xì)記錄)是電信網(wǎng)絡(luò)中提供的記錄用戶通話事件信息的數(shù)據(jù)。例如一條典型的通話CDR中包括用戶通信號(hào)碼、對(duì)方號(hào)碼、通話時(shí)間、業(yè)務(wù)類型等很多信息。隨著當(dāng)前電信業(yè)務(wù)的不斷豐富,這里為了方便,我們將記錄通話、短信、移動(dòng)互聯(lián)網(wǎng)等業(yè)務(wù)的記錄數(shù)據(jù)統(tǒng)稱為⑶R數(shù)據(jù)。例如一條典型的移動(dòng)上網(wǎng)⑶R中包括用戶通信號(hào)碼、URL(UniformResourceLocator,統(tǒng)一資源定位符)、HTTP(HyperiTextTransferfrotocol,超文本傳輸協(xié)議)狀態(tài)碼、會(huì)話時(shí)間、上下行流量等很多信息。CDR的最基本作用是用來(lái)計(jì)費(fèi),但當(dāng)前有更多的作用。在大規(guī)模的電信運(yùn)營(yíng)系統(tǒng)中,其用戶數(shù)可能達(dá)數(shù)千萬(wàn)甚至數(shù)億,每天產(chǎn)生的通話、短信、移動(dòng)互聯(lián)網(wǎng)等⑶R數(shù)據(jù)量非常巨大,例如每天產(chǎn)生約50億條記錄,約2TB(Terabytes,一萬(wàn)億)之巨。而電信運(yùn)營(yíng)商往往需要保存和管理相當(dāng)長(zhǎng)一段時(shí)間的CDR數(shù)據(jù),以上述舉例的數(shù)據(jù)產(chǎn)生速度為例,如果需要管理3個(gè)月的數(shù)據(jù),則共有2TB*90=180TB的數(shù)據(jù)量,因此數(shù)據(jù)量相當(dāng)巨大。存儲(chǔ)如此巨大的CDR數(shù)據(jù)是因?yàn)檫\(yùn)營(yíng)的需要,例如出于下列原因(1)客戶服務(wù)部門(mén)需要查詢客戶的歷史數(shù)據(jù)以處理客戶投訴,這類查詢一般需要快速實(shí)時(shí)的響應(yīng)(如在幾秒以內(nèi));(2)公共安全機(jī)構(gòu)需要查詢幾個(gè)月前的歷史數(shù)據(jù)以獲得調(diào)查線索,這類查詢一般也需要較快速的響應(yīng)(如在十秒以內(nèi));(3)CDR數(shù)據(jù)中蘊(yùn)藏著豐富的行為和商業(yè)信息,可以對(duì)其進(jìn)行深入的數(shù)據(jù)挖掘,指導(dǎo)網(wǎng)絡(luò)維護(hù)、運(yùn)營(yíng)和商業(yè)決策等,這種分析型查詢一般會(huì)耗時(shí)較長(zhǎng),有時(shí)甚至達(dá)到幾小時(shí),系統(tǒng)設(shè)計(jì)應(yīng)該盡量縮短分析時(shí)間。隨著網(wǎng)絡(luò)接入帶寬的提高和移動(dòng)通訊及移動(dòng)互聯(lián)網(wǎng)的普及,各類⑶R數(shù)據(jù)產(chǎn)生的速度還在不斷攀升,往往需要不斷擴(kuò)容,因此要求系統(tǒng)有很好的可擴(kuò)展性。這里存儲(chǔ)的CDR數(shù)據(jù)往往是最后的備份,因此要求系統(tǒng)有很高的可靠性和存儲(chǔ)安全性。數(shù)據(jù)量巨大,因此無(wú)論是數(shù)據(jù)導(dǎo)入還是分析和查詢,都要求很高的數(shù)據(jù)吞吐率和處理速度。現(xiàn)有技術(shù)中,⑶R數(shù)據(jù)查詢系統(tǒng)主要有以下三種方案(1)購(gòu)買(mǎi)和部署較成熟的商用數(shù)據(jù)庫(kù)系統(tǒng),或者基于數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)一步構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。將收集到的CDR數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)系統(tǒng)中,數(shù)據(jù)庫(kù)系統(tǒng)為其建立索引供以后快速查詢。這種方案在實(shí)施上比較直觀和簡(jiǎn)單。(2)將收集的⑶R數(shù)據(jù)文件存儲(chǔ)在密集的存儲(chǔ)系統(tǒng)(如SAN(StorageAreaNetwork,存儲(chǔ)區(qū)域網(wǎng)絡(luò))——中,根據(jù)查詢需要建立關(guān)鍵字段值到文件的索引,而不是精確索引到每條CDR記錄,通過(guò)HASH或B-Tree查找索引。例如將需要查詢的用戶通信號(hào)碼索引到它所在的所有文件,如果一個(gè)文件中出現(xiàn)多個(gè)包含該用戶通信號(hào)碼的CDR記錄,只需記錄一條索引就可以了。在查詢包含該關(guān)鍵字段值的CDR記錄時(shí),首先從索引中查詢其對(duì)應(yīng)的文件列表,然后再在這些文件中順序查找(類似gr印)對(duì)應(yīng)的CDR記錄。對(duì)該方案的優(yōu)化包括將文件按照日期進(jìn)行分目錄存儲(chǔ),查詢多個(gè)文件時(shí)采用多線程并行查詢等。(3)采用并行計(jì)算方法和工具實(shí)現(xiàn)。這種方案采用并行計(jì)算模型GnMapReduce),通過(guò)對(duì)大量數(shù)據(jù)的順序查找獲得結(jié)果。在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下問(wèn)題對(duì)于現(xiàn)有技術(shù)1面對(duì)巨大的數(shù)據(jù)量,數(shù)據(jù)庫(kù)導(dǎo)入數(shù)據(jù)的速度將難以跟上數(shù)據(jù)的產(chǎn)生速度,數(shù)據(jù)庫(kù)的索引數(shù)據(jù)也會(huì)越來(lái)越龐大以致超出系統(tǒng)的容量。如果要對(duì)大塊的數(shù)據(jù)進(jìn)行分析或數(shù)據(jù)挖掘,就需要從數(shù)據(jù)庫(kù)中將這些數(shù)據(jù)讀取出來(lái),這不僅需要很長(zhǎng)時(shí)間,而且嚴(yán)重影響數(shù)據(jù)庫(kù)的性能。系統(tǒng)的可擴(kuò)展性和可靠性也比較差。而且這種數(shù)據(jù)庫(kù)系統(tǒng)和其需要的計(jì)算機(jī)設(shè)備往往非常昂貴。對(duì)于現(xiàn)有技術(shù)2:因?yàn)椴捎孟∈璧乃饕呗?,這種方案的索引占用的空間比較小,建立索引的耗時(shí)也比較短。也因?yàn)椴捎盟饕檎液晚樞虿檎一旌系牟樵儾呗裕谖募许樞虿檎业男瘦^低,響應(yīng)時(shí)間比較慢。系統(tǒng)的可擴(kuò)展性和可靠性也比較差。這種索引技術(shù)在個(gè)人信息或個(gè)人文件系統(tǒng)查詢或搜索中用的比較多。對(duì)于現(xiàn)有技術(shù)3:這種方式雖然是目前比較流行的方式,但查詢響應(yīng)速度往往也比較慢,當(dāng)數(shù)據(jù)量很大時(shí),每次查詢需要占用非常多的計(jì)算和IO資源,往往需要非常大的計(jì)算機(jī)集群才能達(dá)到一定的查詢性能。
      發(fā)明內(nèi)容本發(fā)明的實(shí)施例提供一種數(shù)據(jù)處理和查詢方法和裝置,用于提高了大量數(shù)據(jù)的查詢速度。本發(fā)明的實(shí)施例提供一種數(shù)據(jù)處理的方法,包括為數(shù)據(jù)建立第一級(jí)索引,所述數(shù)據(jù)存儲(chǔ)在至少一個(gè)文件中,所述第一級(jí)索引用于索引各文件,所述文件中存儲(chǔ)有相應(yīng)的數(shù)據(jù);在各文件中分別建立第二級(jí)索引,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù)。其中,所述數(shù)據(jù)存儲(chǔ)在文件中的方法具體為根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,并根據(jù)文件的設(shè)定容量和所述關(guān)鍵字對(duì)數(shù)據(jù)進(jìn)行分割,將分割得到的不超過(guò)所述設(shè)定容量的每部分?jǐn)?shù)據(jù)存儲(chǔ)到相應(yīng)的文件中,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí)。其中,建立第一級(jí)索引的方法具體為根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第一級(jí)索引,所述第一級(jí)索引中包括所述關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí)。其中,建立第二級(jí)索引的方法具體為根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第二級(jí)索引,所述第二級(jí)索引中包括所述關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量。其中,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù),各文件中的呼叫記錄數(shù)據(jù)按照用戶通信號(hào)碼歸類存儲(chǔ),每個(gè)用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)按呼叫記錄數(shù)據(jù)的時(shí)間屬性排序;將數(shù)據(jù)存儲(chǔ)在文件中的方法具體為提取數(shù)據(jù)的日期屬性,按照日期值將數(shù)據(jù)存儲(chǔ)到各文件中,每個(gè)文件中的數(shù)據(jù)具有相同的日期值,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí);建立第一級(jí)索引的方法具體為根據(jù)呼叫記錄數(shù)據(jù)的日期和用戶通信號(hào)碼屬性建立第一級(jí)索引,所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期所產(chǎn)生的呼叫記錄數(shù)據(jù);建立第二級(jí)索引的方法具體為針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;或者,針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼和通信時(shí)間屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,通信時(shí)間以及該用戶通信號(hào)碼在該通信時(shí)間產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量。其中,建立第二級(jí)索引后,還包括對(duì)文件進(jìn)行壓縮。其中,采用多個(gè)并行執(zhí)行的任務(wù)執(zhí)行數(shù)據(jù)處理,所述多個(gè)任務(wù)分布在多個(gè)節(jié)點(diǎn),每個(gè)任務(wù)處理所述數(shù)據(jù)中的部分?jǐn)?shù)據(jù)。本發(fā)明的實(shí)施例提供一種數(shù)據(jù)查詢方法,數(shù)據(jù)具有第一級(jí)索引和第二級(jí)索引,所述第一級(jí)索引用于在各文件中索引存儲(chǔ)相應(yīng)數(shù)據(jù)的文件,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù),該方法包括根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件,該文件存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù);根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)。其中,所述第一級(jí)索引中包括關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí);根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件,從第一級(jí)索引中查找該與查詢條件匹配的關(guān)鍵字所對(duì)應(yīng)的文件標(biāo)識(shí),根據(jù)所述文件標(biāo)識(shí)確定對(duì)應(yīng)文件為存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。其中,各文件中的數(shù)據(jù)按照設(shè)定的關(guān)鍵字排序;所述第二級(jí)索引包括關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量;根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件,從第二級(jí)索引中查找與該查詢條件匹配的關(guān)鍵詞所對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量,根據(jù)所述數(shù)據(jù)在文件中的位置偏移量確定所請(qǐng)求查詢的數(shù)據(jù)。其中,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù),所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期產(chǎn)生的呼叫記錄數(shù)據(jù);根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中提取所查詢的日期值和用戶通信號(hào)碼;根據(jù)提取出的日期值和用戶通信號(hào)碼,在第一級(jí)索引中查找與該日期值和通信號(hào)碼所對(duì)應(yīng)的文件標(biāo)識(shí);根據(jù)查找到的文件標(biāo)識(shí)確定出存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。其中,所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼;根據(jù)提取出的用戶通信號(hào)碼,在第二級(jí)索引中查找與該用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)。或者,所述第二級(jí)索引包括用戶通信號(hào)碼和通信時(shí)間,以及該用戶通信號(hào)碼在該通信時(shí)間所產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼和通信時(shí)間;根據(jù)提取出的用戶通信號(hào)碼和通信時(shí)間,在第二級(jí)索引中查找與該用戶通信號(hào)碼和該通信時(shí)間所對(duì)應(yīng)的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)。其中,當(dāng)文件為壓縮文件時(shí),在根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找之前還包括對(duì)文件進(jìn)行解壓。本發(fā)明的實(shí)施例提供一種數(shù)據(jù)處理裝置,包括第一索引建立模塊,用于為數(shù)據(jù)建立第一級(jí)索引,所述數(shù)據(jù)存儲(chǔ)在至少一個(gè)文件中,所述第一級(jí)索引用于索引各文件,所述文件中存儲(chǔ)有相應(yīng)的數(shù)據(jù);第二索引建立模塊,在各文件中分別建立第二級(jí)索引,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù)。其中,還包括存儲(chǔ)模塊,用于根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,并根據(jù)文件的設(shè)定容量和所述關(guān)鍵字對(duì)數(shù)據(jù)進(jìn)行分割,將分割得到的不超過(guò)所述設(shè)定容量的每部分?jǐn)?shù)據(jù)存儲(chǔ)到相應(yīng)的文件中,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí)。其中,所述第一索引建立模塊具體用于根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第一級(jí)索引,所述第一級(jí)索引中包括所述關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí)。其中,所述第二索引建立模塊具體用于根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第二級(jí)索引,所述第二級(jí)索引中包括所述關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量。其中,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù),各文件中的呼叫記錄數(shù)據(jù)按照用戶通信號(hào)碼歸類存儲(chǔ),每個(gè)用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)按呼叫記錄數(shù)據(jù)的時(shí)間屬性排序;還包括存儲(chǔ)模塊,用于提取數(shù)據(jù)的日期屬性,按照日期值將數(shù)據(jù)存儲(chǔ)到各文件中,每個(gè)文件中的數(shù)據(jù)具有相同的日期值,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí);所述第一索引建立模塊還用于根據(jù)呼叫記錄數(shù)據(jù)的日期和用戶通信號(hào)碼屬性建立第一級(jí)索引,所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期所產(chǎn)生的呼叫記錄數(shù)據(jù);所述第二索引建立模塊還用于針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;或者,針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼和通信時(shí)間屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,通信時(shí)間以及該用戶通信號(hào)碼在該通信時(shí)間產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量。本發(fā)明的實(shí)施例提供一種數(shù)據(jù)查詢裝置,數(shù)據(jù)具有第一級(jí)索引和第二級(jí)索引,所述第一級(jí)索引用于在各文件中索引存儲(chǔ)相應(yīng)數(shù)據(jù)的文件,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù),該裝置包括第一查詢模塊,用于根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件,該文件存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù);第二查詢模塊,用于根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)。其中,所述第一級(jí)索引中包括關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí);所述第一查詢模塊包括第一獲取子模塊,用于從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件;第一查詢子模塊,用于從第一級(jí)索引中查找該與查詢條件匹配的關(guān)鍵字所對(duì)應(yīng)的文件標(biāo)識(shí),根據(jù)所述文件標(biāo)識(shí)確定對(duì)應(yīng)文件為存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。其中,各文件中的數(shù)據(jù)按照設(shè)定的關(guān)鍵字排序;所述第二級(jí)索引包括關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量;所述第二查詢模塊包括第二獲取子模塊,用于從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件;第二查詢子模塊,用于從第二級(jí)索引中查找與該查詢條件匹配的關(guān)鍵詞所對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量,根據(jù)所述數(shù)據(jù)在文件中的位置偏移量確定所請(qǐng)求查詢的數(shù)據(jù)。其中,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù),所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期產(chǎn)生的呼叫記錄數(shù)據(jù);所述第一查詢模塊包括第一獲取子模塊,用于從所述數(shù)據(jù)查詢請(qǐng)求中提取所查詢的日期值和用戶通信號(hào)碼;第一查詢子模塊,用于根據(jù)提取出的日期值和用戶通信號(hào)碼,在第一級(jí)索引中查找與該日期值和通信號(hào)碼所對(duì)應(yīng)的文件標(biāo)識(shí);根據(jù)查找到的文件標(biāo)識(shí)確定出存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。其中,所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;所述第二查詢模塊包括第二獲取子模塊,用于從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼;第二查詢子模塊,用于根據(jù)提取出的用戶通信號(hào)碼,在第二級(jí)索引中查找與該用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)?;蛘?,所述第二級(jí)索引包括用戶通信號(hào)碼和通信時(shí)間,以及該用戶通信號(hào)碼在該通信時(shí)間所產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;所述第二查詢模塊包括第二獲取子模塊,從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼和通信時(shí)間;第二查詢子模塊,用于根據(jù)提取出的用戶通信號(hào)碼和通信時(shí)間,在第二級(jí)索引中查找與該用戶通信號(hào)碼和該通信時(shí)間所對(duì)應(yīng)的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)。本發(fā)明的實(shí)施例提供一種數(shù)據(jù)處理裝置,包括第一級(jí)索引,所述第一級(jí)索引用于索引各文件,所述文件中存儲(chǔ)有相應(yīng)的數(shù)據(jù);第二級(jí)索引,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù)。其中,所述第一索引中包括關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí);所述關(guān)鍵字根據(jù)數(shù)據(jù)的字段屬性值設(shè)置。其中,所述第二級(jí)索引中包括關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量;所述關(guān)鍵字根據(jù)數(shù)據(jù)的字段屬性值設(shè)置。其中,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù);所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期所產(chǎn)生的呼叫記錄數(shù)據(jù);所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;或者,所述第二級(jí)索引包括用戶通信號(hào)碼,通信時(shí)間以及該用戶通信號(hào)碼在該通信時(shí)間產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量。本發(fā)明實(shí)施例通過(guò)兩級(jí)索引進(jìn)行數(shù)據(jù)查詢,且第二級(jí)索引在數(shù)據(jù)文件內(nèi),從而為大量數(shù)據(jù)的查詢提供較快的查詢速度。為了更清楚地說(shuō)明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)本發(fā)明或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單的介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1(a)為本發(fā)明的實(shí)施例中的一種數(shù)據(jù)處理方法的流程圖;圖1(b)為本發(fā)明的實(shí)施例中的一種數(shù)據(jù)查詢方法的流程圖;圖2為本發(fā)明的實(shí)施例中的一種數(shù)據(jù)查詢系統(tǒng)的結(jié)構(gòu)示意圖;圖3a為本發(fā)明的實(shí)施例中的第一級(jí)索引結(jié)構(gòu);圖北為本發(fā)明的實(shí)施例中的第一級(jí)索引在HBase中的數(shù)據(jù)模型;圖4為本發(fā)明的實(shí)施例中的第二級(jí)索引結(jié)構(gòu);圖5為本發(fā)明的實(shí)施例中分布式系統(tǒng);圖6為本發(fā)明的實(shí)施例中的一種數(shù)據(jù)處理的方法的流程圖;圖7a為本發(fā)明的實(shí)施例中的一種數(shù)據(jù)處理的方法的流程圖;圖7b為本發(fā)明的實(shí)施例中的一種數(shù)據(jù)處理的方法的流程圖;圖8為本發(fā)明的實(shí)施例中的另一種數(shù)據(jù)查詢方法的流程圖;圖9為本發(fā)明的實(shí)施例中的一種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖10為本發(fā)明的實(shí)施例中的一種數(shù)據(jù)查詢裝置的結(jié)構(gòu)示意圖。具體實(shí)施例方式下面將結(jié)合本發(fā)明中的附圖,對(duì)本發(fā)明中的技術(shù)方案進(jìn)行清楚、完整的描述,顯然,所描述的實(shí)施例是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。如圖1(a)所示,為本發(fā)明的實(shí)施例中的一種數(shù)據(jù)處理方法,具體包括以下步驟步驟101、為數(shù)據(jù)建立第一級(jí)索引,所述數(shù)據(jù)存儲(chǔ)在至少一個(gè)文件中,所述第一級(jí)索引用于索引各文件,所述文件中存儲(chǔ)有相應(yīng)的數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)在文件中的方法具體為根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,并根據(jù)文件的設(shè)定容量和所述關(guān)鍵字對(duì)數(shù)據(jù)進(jìn)行分割,將分割得到的不超過(guò)所述設(shè)定容量的每部分?jǐn)?shù)據(jù)存儲(chǔ)到相應(yīng)的文件中,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí)。建立第一級(jí)索引的方法具體為根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第一級(jí)索引,所述第一級(jí)索引中包括所述關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí)。步驟102、在各文件中分別建立第二級(jí)索引,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù)。根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第二級(jí)索引,所述第二級(jí)索引中包括所述關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量。建立第二級(jí)索引后,還包括對(duì)文件進(jìn)行壓縮。此外,采用多個(gè)并行執(zhí)行的任務(wù)執(zhí)行數(shù)據(jù)處理,所述多個(gè)任務(wù)分布在多個(gè)節(jié)點(diǎn),每個(gè)任務(wù)處理所述數(shù)據(jù)中的部分?jǐn)?shù)據(jù)。對(duì)于上述技術(shù)方案,當(dāng)數(shù)據(jù)為呼叫記錄數(shù)據(jù)時(shí),該數(shù)據(jù)處理方法為(1)各文件中的呼叫記錄數(shù)據(jù)按照用戶通信號(hào)碼歸類存儲(chǔ),每個(gè)用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)按呼叫記錄數(shù)據(jù)的時(shí)間屬性排序;將數(shù)據(jù)存儲(chǔ)在文件中的方法具體為提取數(shù)據(jù)的日期屬性,按照日期值將數(shù)據(jù)存儲(chǔ)到各文件中,每個(gè)文件中的數(shù)據(jù)具有相同的日期值,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí)。(2)建立第一級(jí)索引的方法具體為根據(jù)呼叫記錄數(shù)據(jù)的日期和用戶通信號(hào)碼屬性建立第一級(jí)索引,所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期所產(chǎn)生的呼叫記錄數(shù)據(jù)。(3)建立第二級(jí)索引的方法具體為針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量?;蛘?,針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼和通信時(shí)間屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,通信時(shí)間以及該用戶通信號(hào)碼在該通信時(shí)間產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量。本發(fā)明實(shí)施例中以根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼和通信時(shí)間屬性建立第二級(jí)索引為例進(jìn)行說(shuō)明。優(yōu)選地,建立第二級(jí)索引后,還包括對(duì)文件進(jìn)行壓縮。優(yōu)選地,采用多個(gè)并行執(zhí)行的任務(wù)執(zhí)行數(shù)據(jù)處理,所述多個(gè)任務(wù)分布在多個(gè)節(jié)點(diǎn),每個(gè)任務(wù)處理所述數(shù)據(jù)中的部分?jǐn)?shù)據(jù)。如圖1(a)所示,為本發(fā)明的實(shí)施例中的一種數(shù)據(jù)查詢方法,數(shù)據(jù)具有第一級(jí)索引和第二級(jí)索引,所述第一級(jí)索引用于在各文件中索引存儲(chǔ)相應(yīng)數(shù)據(jù)的文件,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù),該方法具體包括以下步驟步驟111、根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件,該文件存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)。所述第一級(jí)索引中包括關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí);根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件,從第一級(jí)索引中查找該與查詢條件匹配的關(guān)鍵字所對(duì)應(yīng)的文件標(biāo)識(shí),根據(jù)所述文件標(biāo)識(shí)確定對(duì)應(yīng)文件為存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。步驟112、根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)。各文件中的數(shù)據(jù)按照設(shè)定的關(guān)鍵字排序;所述第二級(jí)索引包括關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量;根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件,從第二級(jí)索引中查找與該查詢條件匹配的關(guān)鍵詞所對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量,根據(jù)所述數(shù)據(jù)在文件中的位置偏移量確定所請(qǐng)求查詢的數(shù)據(jù)。對(duì)于上述技術(shù)方案,當(dāng)數(shù)據(jù)為呼叫記錄數(shù)據(jù)時(shí),該數(shù)據(jù)查詢方法為(1)所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期產(chǎn)生的呼叫記錄數(shù)據(jù);根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中提取所查詢的日期值和用戶通信號(hào)碼;根據(jù)提取出的日期值和用戶通信號(hào)碼,在第一級(jí)索引中查找與該日期值和通信號(hào)碼所對(duì)應(yīng)的文件標(biāo)識(shí);根據(jù)查找到的文件標(biāo)識(shí)確定出存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。(2)根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)的方法包括以下兩種情況中的任一種方式一、所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼;根據(jù)提取出的用戶通信號(hào)碼,在第二級(jí)索引中查找與該用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)。方式二、所述第二級(jí)索引包括用戶通信號(hào)碼和通信時(shí)間,以及該用戶通信號(hào)碼在該通信時(shí)間所產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼和通信時(shí)間;根據(jù)提取出的用戶通信號(hào)碼和通信時(shí)間,在第二級(jí)索引中查找與該用戶通信號(hào)碼和該通信時(shí)間所對(duì)應(yīng)的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)。本發(fā)明實(shí)施例中以所述第二級(jí)索引包括用戶通信號(hào)碼和通信時(shí)間,以及該用戶通信號(hào)碼在該通信時(shí)間所產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量為例進(jìn)行說(shuō)明。需要說(shuō)明的是,本發(fā)明實(shí)施例中的二級(jí)索引結(jié)構(gòu)一種優(yōu)選實(shí)施方式,本發(fā)明的技術(shù)方案也可以擴(kuò)展到多級(jí)索引結(jié)構(gòu),只要最后一級(jí)索引與被所索引的數(shù)據(jù)在同一存儲(chǔ)實(shí)體中,例如同在一個(gè)文件夾內(nèi),均屬于本發(fā)明的保護(hù)范圍。本發(fā)明實(shí)施例中的數(shù)據(jù)可以是任何形式的數(shù)據(jù),以下本發(fā)明數(shù)據(jù)為呼叫記錄數(shù)據(jù),即CDR數(shù)據(jù)為優(yōu)選實(shí)施例進(jìn)行說(shuō)明,但并不限于此。其中,設(shè)定的關(guān)鍵字為CDR數(shù)據(jù)的字段屬性,如⑶R數(shù)據(jù)所屬的日期、用戶通信號(hào)碼和通信時(shí)間等。設(shè)定的關(guān)鍵字可以為一個(gè)字段屬性或多個(gè)字段屬性的組合。本發(fā)明實(shí)施例提供一種數(shù)據(jù)查詢方法和系統(tǒng),更好地滿足電信行業(yè)管理和查詢大規(guī)模的CDR數(shù)據(jù)時(shí)的系統(tǒng)可擴(kuò)展性、數(shù)據(jù)可靠性、快速數(shù)據(jù)導(dǎo)入和快速查詢響應(yīng)能力、可擴(kuò)展的數(shù)據(jù)分析能力,以及較低成本的要求。根據(jù)CDR數(shù)據(jù)管理和查詢的特點(diǎn)可知CDR數(shù)據(jù)是一種時(shí)間序列數(shù)據(jù),其歷史數(shù)據(jù)不需要被修改,即歷史數(shù)據(jù)是相對(duì)靜態(tài)的數(shù)據(jù);而且,對(duì)特定的歷史記錄,其訪問(wèn)不是經(jīng)常性的。因此本發(fā)明的實(shí)施例基于上述特點(diǎn),提出了一種數(shù)據(jù)查詢的方法,舍棄了商用數(shù)據(jù)庫(kù)系統(tǒng)中復(fù)雜且用不到的眾多功能,實(shí)現(xiàn)快速地處理和索引數(shù)據(jù),而不會(huì)出現(xiàn)數(shù)據(jù)處理和索引的速度比數(shù)據(jù)生成的速度還慢的問(wèn)題,且存儲(chǔ)的數(shù)據(jù)量遠(yuǎn)大于商業(yè)數(shù)據(jù)庫(kù)系統(tǒng),并且可以根據(jù)需要不斷擴(kuò)展。從而減少了歷史靜態(tài)數(shù)據(jù)占用的系統(tǒng)資源,提高了查詢速度。由于CDR數(shù)據(jù)具有海量的特性,優(yōu)選地,本發(fā)明的實(shí)施例中對(duì)數(shù)據(jù)的存儲(chǔ)和處理采用分布式文件系統(tǒng)和并行處理的系統(tǒng),從而提高系統(tǒng)的可靠性和高效性。具體地,利用分布式文件系統(tǒng)進(jìn)行多份存儲(chǔ)(數(shù)據(jù)更安全),有針對(duì)性地建立簡(jiǎn)單實(shí)用的索引系統(tǒng),使索引的速度和索引占用的空間大大減?。挥薪M織的CDR數(shù)據(jù)文件方式存放,使數(shù)據(jù)分析和數(shù)據(jù)挖掘工作更方便和高效地實(shí)現(xiàn),從而大大降低系統(tǒng)投資。為了實(shí)現(xiàn)上述本發(fā)明實(shí)施例中的一種數(shù)據(jù)查詢的方法,本發(fā)明提供了下述數(shù)據(jù)查詢系統(tǒng)。本發(fā)明實(shí)施例中的一種數(shù)據(jù)查詢的系統(tǒng),如圖2所示,該系統(tǒng)包括預(yù)處理模塊210、存儲(chǔ)模塊220、查詢模塊230和用戶界面(UI)M0。預(yù)處理模塊210具體為采用MapReduce并行計(jì)算框架(ApacheHadoopMapReduce)構(gòu)建高性能的CDR數(shù)據(jù)預(yù)處理和索引過(guò)程以及數(shù)據(jù)分析平臺(tái)。該模塊主要用于并行地批量處理每天收集的原始CDR文件,對(duì)原始CDR文件進(jìn)行排序、分組和建立索引,生成CDR數(shù)據(jù)文件及其索引。存儲(chǔ)模塊220包括索引存儲(chǔ)子模塊221和數(shù)據(jù)存儲(chǔ)子模塊222。其中,索引存儲(chǔ)子模塊221,用于存儲(chǔ)由預(yù)處理模塊210生成的CRD數(shù)據(jù)索弓丨,其中采用類似GoogleBigtable的分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)模型(如ApacheHadoopHBase)或其他具有海量Key-Value對(duì)的存儲(chǔ)系統(tǒng)構(gòu)建高可靠性的和可擴(kuò)展的分布式索引存儲(chǔ)系統(tǒng)。數(shù)據(jù)存儲(chǔ)子模塊222,用于將由預(yù)處理模塊210生成的⑶R文件(⑶RFile)按照特定的目錄結(jié)構(gòu)進(jìn)行存儲(chǔ),其中采用類似GoogleGFS的分布式文件系統(tǒng)模型(ApacheHadoopHDFS)構(gòu)建高的可靠性和可擴(kuò)展的分布式文件系統(tǒng)作為基礎(chǔ)平臺(tái)和實(shí)現(xiàn)CDR文件的存儲(chǔ)。優(yōu)選地,本發(fā)明實(shí)施例中采用兩級(jí)索引結(jié)構(gòu),其中索引存儲(chǔ)子模塊221使用的HBase的數(shù)據(jù)模型以類似分布式B+Tree的形式為系統(tǒng)構(gòu)建了全局的第一級(jí)索引系統(tǒng),第二級(jí)索引建立在每個(gè)文件內(nèi)部。如圖3a所示,為本發(fā)明實(shí)施例中的第一級(jí)索引結(jié)構(gòu),優(yōu)選地,采用用戶通信號(hào)碼和日期作為關(guān)鍵字Key,索引中的Value為CDR文件名(為CDR文件的文件標(biāo)識(shí))、還可以包括起始和結(jié)束時(shí)間標(biāo)簽、記錄數(shù)等,如果某個(gè)用戶在某日期沒(méi)有CDR記錄,對(duì)應(yīng)索引就為空。由于第一級(jí)索引非常稀疏,占用空間非常小,因此可以大大加快預(yù)處理和建立索引階段的處理速度。為每批CDR數(shù)據(jù)建立的索引數(shù)據(jù)以臨時(shí)壓縮文件的形式暫時(shí)存儲(chǔ)在分布式文件系統(tǒng)HDFS中,其內(nèi)容是簡(jiǎn)單的Key-Value形式的索引記錄。為了將這批索引數(shù)據(jù)合并加載到全局的索引結(jié)構(gòu)中,同樣采用MapReduce并行作業(yè)讀取臨時(shí)索引文件,并插入到全局的HBase索引表中。如圖北所示,為第一級(jí)索引在HBase中的數(shù)據(jù)模型,其中Rowkey(行標(biāo)識(shí))為用戶通信號(hào)碼,ColumnQualifier(列標(biāo)識(shí))為日期,單元的時(shí)間標(biāo)簽(即起始時(shí)間標(biāo)簽)為該用戶在該CDR文件中的第一條CDR數(shù)據(jù)的通信時(shí)間,單元內(nèi)存儲(chǔ)CDR文件名、結(jié)束時(shí)間標(biāo)簽、記錄數(shù)等。如圖4所示,為本發(fā)明實(shí)施例中包含第二級(jí)索引結(jié)構(gòu)的CDR數(shù)據(jù)文件,將CDR數(shù)據(jù)按照從其字段屬性中提取的關(guān)鍵字排序并按塊(塊大小可以設(shè)定,缺省為64KB)索引和壓縮。其中,CDR數(shù)據(jù)文件包括各個(gè)數(shù)據(jù)塊,數(shù)據(jù)塊索引、變長(zhǎng)元數(shù)據(jù)和固定長(zhǎng)尾部元數(shù)據(jù)等等。其中,數(shù)據(jù)塊索引為上述每一個(gè)數(shù)據(jù)塊的索引,包括每一個(gè)數(shù)據(jù)塊的起始關(guān)鍵字(為每一個(gè)數(shù)據(jù)塊對(duì)應(yīng)的第一條⑶R數(shù)據(jù)的關(guān)鍵字Key,如用戶通信號(hào)碼和通信時(shí)間)和位置偏移量(即Value,為該關(guān)鍵字對(duì)應(yīng)的CDR數(shù)據(jù)在文件中的位置);變長(zhǎng)元數(shù)據(jù)中的起始關(guān)鍵字為數(shù)據(jù)塊1的關(guān)鍵字,結(jié)束關(guān)鍵字為數(shù)據(jù)塊η的關(guān)鍵字,關(guān)鍵字比較器用于在查詢時(shí)對(duì)關(guān)鍵字進(jìn)行比較;固定長(zhǎng)尾部元數(shù)據(jù)包括變長(zhǎng)元數(shù)據(jù)偏移量、數(shù)據(jù)塊索引偏移量、數(shù)據(jù)塊數(shù)量、總記錄數(shù)量、壓縮前數(shù)據(jù)字節(jié)數(shù)、壓縮算法和版本號(hào)。上述為一種優(yōu)選的第二級(jí)索引結(jié)構(gòu),但并不限于此,凡是能夠進(jìn)行第二級(jí)索引的結(jié)構(gòu)均屬于本發(fā)明的保護(hù)范圍。該第二級(jí)索引結(jié)構(gòu)建立在處理后的CDR數(shù)據(jù)文件內(nèi)部,通過(guò)數(shù)據(jù)塊索引中的起始關(guān)鍵字(如用戶通信號(hào)碼和由通信時(shí)間而得的時(shí)間標(biāo)簽)和位置偏移量定位到某一數(shù)據(jù)塊中的第一條CDR數(shù)據(jù)(所要查詢的CDR數(shù)據(jù)在該數(shù)據(jù)塊中),并可以從此位置順序訪問(wèn),直到在結(jié)束時(shí)間標(biāo)簽內(nèi)查找到所要查詢的CDR數(shù)據(jù)。例如文件1中存儲(chǔ)了用戶A的100條CDR數(shù)據(jù),以每10條CDR數(shù)據(jù)為一個(gè)數(shù)據(jù)塊進(jìn)行壓縮存儲(chǔ),數(shù)據(jù)塊索引中包括每一個(gè)數(shù)據(jù)塊的起始關(guān)鍵字(即每一個(gè)數(shù)據(jù)塊中第一條CDR數(shù)據(jù)的關(guān)鍵字)以及位置偏移量。當(dāng)用戶所查詢的CDR數(shù)據(jù)為該文件中的第15條CDR數(shù)據(jù)時(shí),首先通過(guò)數(shù)據(jù)塊2的關(guān)鍵字和位置偏移量查找到數(shù)據(jù)塊2,并在數(shù)據(jù)塊2中順序訪問(wèn),查找到第15條CDR數(shù)據(jù)。需要說(shuō)明的是,CDR文件中的CDR數(shù)據(jù)可以不以數(shù)據(jù)塊的形式索引和存儲(chǔ),而是以每一條CDR數(shù)據(jù)的形式索引和存儲(chǔ),二者的查詢?cè)眍愃?,但由于CDR數(shù)據(jù)的數(shù)據(jù)量龐大,以數(shù)據(jù)塊的形式索引和存儲(chǔ)可以提高查詢效率。兩種方式并無(wú)實(shí)質(zhì)的區(qū)別。其中上述每一個(gè)部分所包括的內(nèi)容是一種優(yōu)選實(shí)施方式,但并不限于此,可以根據(jù)索引需求進(jìn)行改變,凡是根據(jù)該第二級(jí)索引進(jìn)行查詢的均屬于本發(fā)明的保護(hù)范圍。優(yōu)選地,第一級(jí)索引的關(guān)鍵字和第二級(jí)索引的關(guān)鍵字可以相同,也可以不相同,可以根據(jù)查詢的粒度進(jìn)行設(shè)置。查詢模塊230,包括查詢子模塊231和并行數(shù)據(jù)分析子模塊232。其中,查詢子模塊231用于接收用戶界面240所發(fā)送的查詢請(qǐng)求,并根據(jù)查詢請(qǐng)求在索引存儲(chǔ)子模塊221中進(jìn)行查詢。必要時(shí)(數(shù)據(jù)量大時(shí)),啟動(dòng)并行數(shù)據(jù)分析子模塊232,與查詢子模塊231配合,進(jìn)行并行查詢。由于上述所有基礎(chǔ)構(gòu)件都采用分布式模型,因此系統(tǒng)可以通過(guò)增加或減少PC服務(wù)器節(jié)點(diǎn)來(lái)擴(kuò)展或縮小。數(shù)據(jù)的可靠性通過(guò)在分布式文件系統(tǒng)中配置3份數(shù)據(jù)塊備份保證,這樣集群中的服務(wù)器故障不會(huì)造成數(shù)據(jù)的丟失。并對(duì)CDR文件和索引數(shù)據(jù)采用塊壓縮方式壓縮存儲(chǔ),對(duì)⑶R數(shù)據(jù)的壓縮比可達(dá)到81,對(duì)索引數(shù)據(jù)的壓縮比可達(dá)到51。壓縮一方面節(jié)約了存儲(chǔ)空間,另一方面減少了數(shù)據(jù)訪問(wèn)時(shí)占用的IO帶寬。如圖5所示,將上述數(shù)據(jù)查詢系統(tǒng)中的分布式文件系統(tǒng)、分布式結(jié)構(gòu)化存儲(chǔ)系統(tǒng)、并行數(shù)據(jù)處理系統(tǒng)和查詢系統(tǒng)都分布式地運(yùn)行在所有這些節(jié)點(diǎn)上組成一個(gè)整體,均衡地利用各節(jié)點(diǎn)的存儲(chǔ)和計(jì)算能力。其中作為查詢負(fù)荷分擔(dān)的LVS服務(wù)器也可以運(yùn)行在主控節(jié)點(diǎn)上。其中,根據(jù)待管理的數(shù)據(jù)容量和查詢性能的要求,估算PC服務(wù)器集群的節(jié)點(diǎn)數(shù)和配置。如圖5所示,在PC服務(wù)器集群上部署系統(tǒng)中上述各模塊。其中分布式文件系統(tǒng)HDFS是基礎(chǔ)模塊,在其上部署HBase模塊和MapReduce模塊,然后部署其他模塊。當(dāng)然,上述各模塊的部署只是優(yōu)選的實(shí)施方式,凡是可以完成上述功能的模塊布置均屬于本發(fā)明的保護(hù)范圍。如圖6所示,為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理的方法,通過(guò)對(duì)原始CDR數(shù)據(jù)進(jìn)行預(yù)處理,獲得處理后的CDR數(shù)據(jù)文件及其用于查詢的索引,具體包括以下步驟步驟601、導(dǎo)入原始⑶R文件。首先,用戶定義原始CDR文件格式,例如CSV格式。原始CDR數(shù)據(jù)存儲(chǔ)在原始CDR文件中,將原始CDR文件導(dǎo)入到分布式文件系統(tǒng)HDFS中的待處理目錄中等待預(yù)處理索引程序的批量處理。步驟602、判斷導(dǎo)入的原始⑶R文件是否滿足預(yù)設(shè)的預(yù)處理啟動(dòng)條件。當(dāng)判斷導(dǎo)入的原始CDR文件滿足預(yù)設(shè)的預(yù)處理啟動(dòng)條件時(shí),轉(zhuǎn)到步驟603;當(dāng)判斷導(dǎo)入的原始CDR文件不滿足預(yù)設(shè)的預(yù)處理啟動(dòng)條件時(shí),轉(zhuǎn)到步驟601。其中,預(yù)設(shè)的預(yù)處理啟動(dòng)條件為原始CDR數(shù)據(jù)達(dá)到預(yù)設(shè)容量或到原始CDR數(shù)據(jù)導(dǎo)入到分布式文件系統(tǒng)的時(shí)間達(dá)到預(yù)設(shè)的時(shí)間周期或事件觸發(fā)(例如每次定時(shí)(如M小時(shí)等)CDR數(shù)據(jù)導(dǎo)入后)。當(dāng)然,也可為其他可供判斷的預(yù)處理啟動(dòng)條件,如接收到預(yù)處理請(qǐng)求等,因此上述預(yù)處理啟動(dòng)條件不應(yīng)視為對(duì)本發(fā)明的限制。步驟603、啟動(dòng)預(yù)處理作業(yè)。具體地,啟動(dòng)預(yù)處理作業(yè)具體包括以下步驟(1)對(duì)原始⑶R數(shù)據(jù)按照用戶通信號(hào)碼和時(shí)間排序。具體地,將同一用戶同一日期的原始⑶R數(shù)據(jù)歸類在一起。(2)按照日期生成一批處理后的⑶R文件和臨時(shí)的第一級(jí)索引文件,其中第二級(jí)索引文件位于處理后的CDR文件中。需要說(shuō)明的是,該作業(yè)將運(yùn)行一段時(shí)間,該時(shí)間由原始⑶R文件容量不同而不同。步驟604、判斷預(yù)處理作業(yè)是否成功。當(dāng)判斷預(yù)處理作業(yè)成功時(shí),轉(zhuǎn)到步驟605;當(dāng)判斷預(yù)處理作業(yè)失敗時(shí),轉(zhuǎn)到步驟603,重復(fù)進(jìn)行預(yù)處理作業(yè)和索引作業(yè)。步驟605、進(jìn)行相關(guān)更新操作。當(dāng)判斷預(yù)處理作業(yè)成功時(shí),按順序進(jìn)行如下處理(1)將生成的處理后的CDR文件搬移到最終存儲(chǔ)目錄,該存儲(chǔ)目錄用于存儲(chǔ)所有處理后的CDR文件,即將本批處理后的文件更新到存儲(chǔ)所有處理后的文件處。其中,處理后的⑶R數(shù)據(jù)按照固定的大小形成處理后的⑶R文件,如64KB。若數(shù)據(jù)在輸出時(shí)形成了小容量的CDR文件,如1KB,則當(dāng)存在多個(gè)小容量的CDR文件時(shí),可以對(duì)其進(jìn)行合并。(2)刪除本批處理的原始⑶R文件。(3)啟動(dòng)更新索引的另一個(gè)MapReduce并行作業(yè)。其中,更新索引的另一個(gè)MapReduce并行作業(yè)將把本批生成的索引數(shù)據(jù)加載到HBase中的索引表中。優(yōu)選地,步驟605中任一操作發(fā)生失敗時(shí),系統(tǒng)將自動(dòng)進(jìn)行報(bào)警提醒,自行進(jìn)行處理或等待指令。步驟606、判斷相關(guān)更新操作是否成功。當(dāng)判斷相關(guān)更新操作均成功時(shí),轉(zhuǎn)到步驟607;否則,則暫時(shí)保留臨時(shí)的第一級(jí)索引文件,等待與下批數(shù)據(jù)一同更新,轉(zhuǎn)到步驟601。步驟607、刪除臨時(shí)的第一級(jí)索引文件。需要說(shuō)明的是,本發(fā)明實(shí)施例中采用用戶通信號(hào)碼和日期作為關(guān)鍵字只是一種優(yōu)選的實(shí)施方式,凡是CDR數(shù)據(jù)的某一屬性作為關(guān)鍵字方案均屬于本發(fā)明的保護(hù)范圍,如每一條⑶R數(shù)據(jù)的容量等。如圖7a和圖7b所示,為本發(fā)明實(shí)施例提供的一種數(shù)據(jù)理方法,具體包括以下步驟步驟701、分配原始⑶R文件。首先,預(yù)處理和索引作業(yè)把待處理的原始CDR文件分成多份均勻指派到各個(gè)節(jié)點(diǎn)上并行處理。步驟702、啟動(dòng)預(yù)處理作業(yè)。具體地,啟動(dòng)預(yù)處理作業(yè)包括以下步驟(1)每個(gè)Map任務(wù)讀取和解析原始⑶R記錄,清除格式錯(cuò)誤的⑶R,將⑶R記錄按照“日期-用戶通信號(hào)碼-時(shí)間”排序。具體地,每個(gè)Reduce任務(wù)將同一用戶同一日期的⑶R分組歸并在一起,并按日期分別輸出不同的CDR文件。每一個(gè)CDR文件有預(yù)設(shè)的容量,當(dāng)該CDR文件達(dá)到容量后,建立新的CDR文件并輸出,直到將此次批處理的原始CDR數(shù)據(jù)輸出完畢。當(dāng)然,也可以將⑶R記錄僅按照日期排序,但按照“日期-用戶通信號(hào)碼-時(shí)間”排序更優(yōu),有助于后續(xù)索引的建立和查詢。(2)根據(jù)排序后的⑶R記錄生成索引文件。根據(jù)預(yù)設(shè)規(guī)則,建立第一級(jí)索引和第二級(jí)索引。其中,第一級(jí)索引用于對(duì)多個(gè)本批處理后的文件進(jìn)行索引,第二級(jí)索引在本批處理后的文件中,用于對(duì)本批處理后的文件中的多個(gè)本批原始數(shù)據(jù)進(jìn)行索引。具體地,根據(jù)呼叫記錄數(shù)據(jù)的日期和用戶通信號(hào)碼屬性建立第一級(jí)索引,所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),還可以包括起始和結(jié)束時(shí)間標(biāo)簽、記錄數(shù)等。所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期所產(chǎn)生的呼叫記錄數(shù)據(jù)。如果某個(gè)用戶在某日期沒(méi)有CDR記錄,對(duì)應(yīng)索引就為空。建立第二級(jí)索引的方法具體為針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼和通信時(shí)間屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,通信時(shí)間以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量等。其中,⑶R數(shù)據(jù)按照關(guān)鍵字排序并按塊(塊大小可以設(shè)定,缺省為64KB)索引和壓縮。通過(guò)關(guān)鍵字(如用戶通信號(hào)碼和時(shí)間標(biāo)簽,即通信時(shí)間)定位到CDR記錄的起始位置,并可以從此位置順序訪問(wèn)。步驟703、輸出第一級(jí)索引數(shù)據(jù)到臨時(shí)索引文件中,第二級(jí)索引放置于對(duì)應(yīng)的文件中。本發(fā)明實(shí)施例提供一種數(shù)據(jù)查詢方法,如圖8所示,具體包括以下步驟步驟801、查詢服務(wù)器接收來(lái)自用戶的查詢請(qǐng)求。查詢服務(wù)器是基于HTTP服務(wù)器的服務(wù)器端程序,查詢客戶端是基于瀏覽器的Web用戶界面。查詢服務(wù)器接收來(lái)自用戶的查詢請(qǐng)求,如“特定用戶通信號(hào)碼和一個(gè)時(shí)間段”。步驟802、根據(jù)查詢請(qǐng)求,按照第一級(jí)索引進(jìn)行查詢,獲取處理后的相關(guān)⑶R文件。首先從查詢請(qǐng)求中提取所查詢的日期值和用戶通信號(hào)碼;然后根據(jù)第一級(jí)索引,快速?gòu)闹蝎@取可能涉及的處理后的CDR文件列表,并可根據(jù)索引中提供的起始時(shí)間標(biāo)簽和結(jié)束時(shí)間標(biāo)簽過(guò)濾掉不相關(guān)的處理后的CDR文件。步驟803、根據(jù)查詢請(qǐng)求,按照第二級(jí)索引進(jìn)行查詢,獲?、荝數(shù)據(jù)。從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼和通信時(shí)間,優(yōu)選地,該通信時(shí)間可以為時(shí)間點(diǎn)或時(shí)間段;在從步驟802中獲取的相關(guān)處理后的CDR文件中,根據(jù)所提取的用戶通信號(hào)碼和通信時(shí)間快速定位到某一數(shù)據(jù)塊的起始位置,并開(kāi)始順序讀取,直到結(jié)束時(shí)間標(biāo)簽為止,從而獲取到所要查詢的⑶R數(shù)據(jù)。如果相關(guān)的⑶R文件數(shù)量較大(如大于10個(gè)),查詢服務(wù)器模塊可以啟動(dòng)并行查詢過(guò)程,將文件掃描工作分發(fā)到多個(gè)服務(wù)器中并行進(jìn)行,并匯總結(jié)果數(shù)據(jù)。需要說(shuō)明的是,對(duì)存儲(chǔ)的CDR數(shù)據(jù)進(jìn)行分析和數(shù)據(jù)挖掘時(shí),只需在系統(tǒng)現(xiàn)有的MapReduce框架上編寫(xiě)相應(yīng)的數(shù)據(jù)分析和數(shù)挖掘算法程序?qū)Υ鎯?chǔ)的CDR文件進(jìn)行讀取和分析。在實(shí)際生產(chǎn)系統(tǒng)中,可以通過(guò)配置使系統(tǒng)在夜晚集中進(jìn)行數(shù)據(jù)導(dǎo)入和預(yù)處理索引工作,而在白天可以接受分析型查詢?nèi)蝿?wù)。也可以通過(guò)配置使系統(tǒng)在數(shù)據(jù)導(dǎo)入和預(yù)處理索引工作的同時(shí)接受分析型查詢?nèi)蝿?wù)。需要說(shuō)明的是,本發(fā)明實(shí)施例中第一級(jí)索引和第二級(jí)索引各自的查詢粒度僅為一種優(yōu)選的實(shí)施方式,凡是通過(guò)二級(jí)索引最終查找到所要查詢的數(shù)據(jù)均屬于本發(fā)明的保護(hù)范圍,例如僅通過(guò)第一級(jí)索引查找到用戶在指定日期的CDR數(shù)據(jù)所在文件,再由第二級(jí)索引查找到最終的CDR數(shù)據(jù);或直接通過(guò)第一級(jí)索引查找到用戶在指定日期和指定時(shí)間段內(nèi)的CDR數(shù)據(jù)所在文件,再由第二級(jí)索引查找到最終的CDR數(shù)據(jù)。本發(fā)明實(shí)施例提供一種數(shù)據(jù)處理裝置,如圖9所示,該裝置900包括第一索引建立模塊910,用于為數(shù)據(jù)建立第一級(jí)索引,所述數(shù)據(jù)存儲(chǔ)在至少一個(gè)文件中,所述第一級(jí)索引用于索引各文件,所述文件中存儲(chǔ)有相應(yīng)的數(shù)據(jù);第二索引建立模塊920,在各文件中分別建立第二級(jí)索引,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù)。其中,還包括存儲(chǔ)模塊930,用于根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,并根據(jù)文件的設(shè)定容量和所述關(guān)鍵字對(duì)數(shù)據(jù)進(jìn)行分割,將分割得到的不超過(guò)所述設(shè)定容量的每部分?jǐn)?shù)據(jù)存儲(chǔ)到相應(yīng)的文件中,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí)。其中,所述第一索引建立模塊具體用于根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第一級(jí)索引,所述第一級(jí)索引中包括所述關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí)。其中,所述第二索引建立模塊具體用于根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第二級(jí)索引,所述第二級(jí)索引中包括所述關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量;或者,針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量?;蛘哚槍?duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼和通信時(shí)間屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,通信時(shí)間以及該用戶通信號(hào)碼在該通信時(shí)間產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量。本發(fā)明實(shí)施例提供一種數(shù)據(jù)查詢裝置,如圖10所示,數(shù)據(jù)具有第一級(jí)索引和第二級(jí)索引,所述第一級(jí)索引用于在各文件中索引存儲(chǔ)相應(yīng)數(shù)據(jù)的文件,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù),該裝置1000包括第一查詢模塊1010,用于根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件,該文件存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù);第二查詢模塊1020,用于根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)。其中,所述第一級(jí)索引中包括關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí);第一查詢模塊1010包括第一獲取子模塊1011,用于從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件;第一查詢子模塊1021,用于從第一級(jí)索引中查找該與查詢條件匹配的關(guān)鍵字所對(duì)應(yīng)的文件標(biāo)識(shí),根據(jù)所述文件標(biāo)識(shí)確定對(duì)應(yīng)文件為存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。當(dāng)所述數(shù)據(jù)為呼叫記錄數(shù)據(jù)時(shí),所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期產(chǎn)生的呼叫記錄數(shù)據(jù);第一獲取子模塊1011還用于從所述數(shù)據(jù)查詢請(qǐng)求中提取所查詢的日期值和用戶通信號(hào)碼;第一查詢子模塊1012還用于根據(jù)提取出的日期值和用戶通信號(hào)碼,在第一級(jí)索引中查找與該日期值和通信號(hào)碼所對(duì)應(yīng)的文件標(biāo)識(shí);根據(jù)查找到的文件標(biāo)識(shí)確定出存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。其中,各文件中的數(shù)據(jù)按照設(shè)定的關(guān)鍵字排序;所述第二級(jí)索引包括關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量;第二查詢模塊1020包括第二獲取子模塊1021,用于從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件;第二查詢子模塊1022,用于從第二級(jí)索引中查找與該查詢條件匹配的關(guān)鍵詞所對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量,根據(jù)所述數(shù)據(jù)在文件中的位置偏移量確定所請(qǐng)求查詢的數(shù)據(jù)。當(dāng)所述數(shù)據(jù)為呼叫記錄數(shù)據(jù)時(shí),所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;第二獲取子模塊1021還用于從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼;第二查詢子模塊1022還用于根據(jù)提取出的用戶通信號(hào)碼,在第二級(jí)索引中查找與該用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)?;蛘?,所述第二級(jí)索引包括用戶通信號(hào)碼和通信時(shí)間,以及該用戶通信號(hào)碼在該通信時(shí)間所產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;第二獲取子模塊1021還用于從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼和通信時(shí)間;第二查詢子模塊1022還用于根據(jù)提取出的用戶通信號(hào)碼和通信時(shí)間,在第二級(jí)索引中查找與該用戶通信號(hào)碼和該通信時(shí)間所對(duì)應(yīng)的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)。本發(fā)明的實(shí)施例提供一種數(shù)據(jù)處理裝置,包括第一級(jí)索引,所述第一級(jí)索引用于索引各文件,所述文件中存儲(chǔ)有相應(yīng)的數(shù)據(jù);第二級(jí)索引,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù)。其中,所述第一索引中包括關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí);所述關(guān)鍵字根據(jù)數(shù)據(jù)的字段屬性值設(shè)置。其中,所述第二級(jí)索引中包括關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量;所述關(guān)鍵字根據(jù)數(shù)據(jù)的字段屬性值設(shè)置。其中,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù);所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期所產(chǎn)生的呼叫記錄數(shù)據(jù);所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;或者,所述第二級(jí)索引包括用戶通信號(hào)碼,通信時(shí)間以及該用戶通信號(hào)碼在該通信時(shí)間產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量。本發(fā)明實(shí)施例通過(guò)兩級(jí)索引進(jìn)行數(shù)據(jù)查詢,且第二級(jí)索引在數(shù)據(jù)文件內(nèi),從而為大量數(shù)據(jù)的查詢提供較快的查詢速度。通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
      技術(shù)領(lǐng)域
      的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視本發(fā)明的保護(hù)范圍。權(quán)利要求1.一種數(shù)據(jù)處理的方法,其特征在于,包括為數(shù)據(jù)建立第一級(jí)索引,所述數(shù)據(jù)存儲(chǔ)在至少一個(gè)文件中,所述第一級(jí)索引用于索引各文件,所述文件中存儲(chǔ)有相應(yīng)的數(shù)據(jù);在各文件中分別建立第二級(jí)索引,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù)。2.如權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)存儲(chǔ)在文件中的方法具體為根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,并根據(jù)文件的設(shè)定容量和所述關(guān)鍵字對(duì)數(shù)據(jù)進(jìn)行分割,將分割得到的不超過(guò)所述設(shè)定容量的每部分?jǐn)?shù)據(jù)存儲(chǔ)到相應(yīng)的文件中,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí)。3.如權(quán)利要求1所述的方法,其特征在于,建立第一級(jí)索引的方法具體為根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第一級(jí)索引,所述第一級(jí)索引中包括所述關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí)。4.如權(quán)利要求1所述的方法,其特征在于,建立第二級(jí)索引的方法具體為根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第二級(jí)索引,所述第二級(jí)索引中包括所述關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量。5.如權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù),各文件中的呼叫記錄數(shù)據(jù)按照用戶通信號(hào)碼歸類存儲(chǔ),每個(gè)用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)按呼叫記錄數(shù)據(jù)的時(shí)間屬性排序;將數(shù)據(jù)存儲(chǔ)在文件中的方法具體為提取數(shù)據(jù)的日期屬性,按照日期值將數(shù)據(jù)存儲(chǔ)到各文件中,每個(gè)文件中的數(shù)據(jù)具有相同的日期值,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí);建立第一級(jí)索引的方法具體為根據(jù)呼叫記錄數(shù)據(jù)的日期和用戶通信號(hào)碼屬性建立第一級(jí)索引,所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期所產(chǎn)生的呼叫記錄數(shù)據(jù);建立第二級(jí)索引的方法具體為針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;或者,針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼和通信時(shí)間屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,通信時(shí)間以及該用戶通信號(hào)碼在該通信時(shí)間產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量。6.如權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,建立第二級(jí)索引后,還包括對(duì)文件進(jìn)行壓縮。7.如權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,采用多個(gè)并行執(zhí)行的任務(wù)執(zhí)行數(shù)據(jù)處理,所述多個(gè)任務(wù)分布在多個(gè)節(jié)點(diǎn),每個(gè)任務(wù)處理所述數(shù)據(jù)中的部分?jǐn)?shù)據(jù)。8.一種數(shù)據(jù)查詢方法,其特征在于,數(shù)據(jù)具有第一級(jí)索引和第二級(jí)索引,所述第一級(jí)索引用于在各文件中索引存儲(chǔ)相應(yīng)數(shù)據(jù)的文件,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù),該方法包括根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件,該文件存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù);根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)。9.如權(quán)利要求8所述的方法,其特征在于,所述第一級(jí)索引中包括關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí);根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件,從第一級(jí)索引中查找該與查詢條件匹配的關(guān)鍵字所對(duì)應(yīng)的文件標(biāo)識(shí),根據(jù)所述文件標(biāo)識(shí)確定對(duì)應(yīng)文件為存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。10.如權(quán)利要求8所述的方法,其特征在于,各文件中的數(shù)據(jù)按照設(shè)定的關(guān)鍵字排序;所述第二級(jí)索引包括關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量;根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件,從第二級(jí)索引中查找與該查詢條件匹配的關(guān)鍵詞所對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量,根據(jù)所述數(shù)據(jù)在文件中的位置偏移量確定所請(qǐng)求查詢的數(shù)據(jù)。11.如權(quán)利要求8所述的方法,其特征在于,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù),所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期產(chǎn)生的呼叫記錄數(shù)據(jù);根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中提取所查詢的日期值和用戶通信號(hào)碼;根據(jù)提取出的日期值和用戶通信號(hào)碼,在第一級(jí)索引中查找與該日期值和通信號(hào)碼所對(duì)應(yīng)的文件標(biāo)識(shí);根據(jù)查找到的文件標(biāo)識(shí)確定出存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。12.如權(quán)利要求11所述的方法,其特征在于,所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼;根據(jù)提取出的用戶通信號(hào)碼,在第二級(jí)索引中查找與該用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)?;蛘?,所述第二級(jí)索引包括用戶通信號(hào)碼和通信時(shí)間,以及該用戶通信號(hào)碼在該通信時(shí)間所產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)的方法具體為從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼和通信時(shí)間;根據(jù)提取出的用戶通信號(hào)碼和通信時(shí)間,在第二級(jí)索引中查找與該用戶通信號(hào)碼和該通信時(shí)間所對(duì)應(yīng)的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)。13.如權(quán)利要求8-12任一項(xiàng)所述的方法,其特征在于,當(dāng)文件為壓縮文件時(shí),在根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找之前還包括對(duì)文件進(jìn)行解壓。14.一種數(shù)據(jù)處理裝置,其特征在于,包括第一索引建立模塊,用于為數(shù)據(jù)建立第一級(jí)索引,所述數(shù)據(jù)存儲(chǔ)在至少一個(gè)文件中,所述第一級(jí)索引用于索引各文件,所述文件中存儲(chǔ)有相應(yīng)的數(shù)據(jù);第二索引建立模塊,在各文件中分別建立第二級(jí)索引,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù)。15.如權(quán)利要求14所述的裝置,其特征在于,還包括存儲(chǔ)模塊,用于根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,并根據(jù)文件的設(shè)定容量和所述關(guān)鍵字對(duì)數(shù)據(jù)進(jìn)行分割,將分割得到的不超過(guò)所述設(shè)定容量的每部分?jǐn)?shù)據(jù)存儲(chǔ)到相應(yīng)的文件中,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí)。16.如權(quán)利要求14所述的裝置,其特征在于,所述第一索引建立模塊具體用于根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第一級(jí)索引,所述第一級(jí)索引中包括所述關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí)。17.如權(quán)利要求14所述的裝置,其特征在于,所述第二索引建立模塊具體用于根據(jù)數(shù)據(jù)的字段屬性值設(shè)置關(guān)鍵字,根據(jù)所述關(guān)鍵字建立第二級(jí)索引,所述第二級(jí)索引中包括所述關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量。18.如權(quán)利要求14所述的裝置,其特征在于,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù),各文件中的呼叫記錄數(shù)據(jù)按照用戶通信號(hào)碼歸類存儲(chǔ),每個(gè)用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)按呼叫記錄數(shù)據(jù)的時(shí)間屬性排序;還包括存儲(chǔ)模塊,用于提取數(shù)據(jù)的日期屬性,按照日期值將數(shù)據(jù)存儲(chǔ)到各文件中,每個(gè)文件中的數(shù)據(jù)具有相同的日期值,每一個(gè)文件具有對(duì)應(yīng)的文件標(biāo)識(shí);所述第一索引建立模塊還用于根據(jù)呼叫記錄數(shù)據(jù)的日期和用戶通信號(hào)碼屬性建立第一級(jí)索引,所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期所產(chǎn)生的呼叫記錄數(shù)據(jù);所述第二索引建立模塊還用于針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;或者,針對(duì)每個(gè)文件,根據(jù)文件中的呼叫記錄數(shù)據(jù)的用戶通信號(hào)碼和通信時(shí)間屬性建立第二級(jí)索引,所述第二級(jí)索引包括用戶通信號(hào)碼,通信時(shí)間以及該用戶通信號(hào)碼在該通信時(shí)間產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量。19.一種數(shù)據(jù)查詢裝置,其特征在于,數(shù)據(jù)具有第一級(jí)索引和第二級(jí)索引,所述第一級(jí)索引用于在各文件中索引存儲(chǔ)相應(yīng)數(shù)據(jù)的文件,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù),該裝置包括第一查詢模塊,用于根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件,該文件存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù);第二查詢模塊,用于根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)。20.如權(quán)利要求19所述的裝置,其特征在于,所述第一級(jí)索引中包括關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí);所述第一查詢模塊包括第一獲取子模塊,用于從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件;第一查詢子模塊,用于從第一級(jí)索引中查找該與查詢條件匹配的關(guān)鍵字所對(duì)應(yīng)的文件標(biāo)識(shí),根據(jù)所述文件標(biāo)識(shí)確定對(duì)應(yīng)文件為存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。21.如權(quán)利要求19所述的裝置,其特征在于,各文件中的數(shù)據(jù)按照設(shè)定的關(guān)鍵字排序;所述第二級(jí)索引包括關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量;所述第二查詢模塊包括第二獲取子模塊,用于從所述數(shù)據(jù)查詢請(qǐng)求中獲取查詢條件;第二查詢子模塊,用于從第二級(jí)索引中查找與該查詢條件匹配的關(guān)鍵詞所對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量,根據(jù)所述數(shù)據(jù)在文件中的位置偏移量確定所請(qǐng)求查詢的數(shù)據(jù)。22.如權(quán)利要求19所述的裝置,其特征在于,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù),所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期產(chǎn)生的呼叫記錄數(shù)據(jù);所述第一查詢模塊包括第一獲取子模塊,用于從所述數(shù)據(jù)查詢請(qǐng)求中提取所查詢的日期值和用戶通信號(hào)碼;第一查詢子模塊,用于根據(jù)提取出的日期值和用戶通信號(hào)碼,在第一級(jí)索引中查找與該日期值和通信號(hào)碼所對(duì)應(yīng)的文件標(biāo)識(shí);根據(jù)查找到的文件標(biāo)識(shí)確定出存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù)的文件。23.如權(quán)利要求22所述的裝置,其特征在于,所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;所述第二查詢模塊包括第二獲取子模塊,用于從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼;第二查詢子模塊,用于根據(jù)提取出的用戶通信號(hào)碼,在第二級(jí)索引中查找與該用戶通信號(hào)碼對(duì)應(yīng)的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)?;蛘?,所述第二級(jí)索引包括用戶通信號(hào)碼和通信時(shí)間,以及該用戶通信號(hào)碼在該通信時(shí)間所產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;所述第二查詢模塊包括第二獲取子模塊,從所述數(shù)據(jù)查詢請(qǐng)求中提取用戶通信號(hào)碼和通信時(shí)間;第二查詢子模塊,用于根據(jù)提取出的用戶通信號(hào)碼和通信時(shí)間,在第二級(jí)索引中查找與該用戶通信號(hào)碼和該通信時(shí)間所對(duì)應(yīng)的位置偏移量;根據(jù)查找到的位置偏移量,確定出該查詢請(qǐng)求所查詢的數(shù)據(jù)。24.一種數(shù)據(jù)處理裝置,其特征在于,包括第一級(jí)索引,所述第一級(jí)索引用于索引各文件,所述文件中存儲(chǔ)有相應(yīng)的數(shù)據(jù);第二級(jí)索引,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù)。25.如權(quán)利要求M所述的裝置,其特征在于,所述第一索引中包括關(guān)鍵字以及與所述關(guān)鍵字對(duì)應(yīng)的文件標(biāo)識(shí);所述關(guān)鍵字根據(jù)數(shù)據(jù)的字段屬性值設(shè)置。26.如權(quán)利要求M所述的裝置,其特征在于,所述第二級(jí)索引中包括關(guān)鍵字、與所述關(guān)鍵字對(duì)應(yīng)的數(shù)據(jù)在文件中的位置偏移量;所述關(guān)鍵字根據(jù)數(shù)據(jù)的字段屬性值設(shè)置。27.如權(quán)利要求M所述的裝置,其特征在于,所述數(shù)據(jù)為呼叫記錄數(shù)據(jù);所述第一級(jí)索引包括日期值、用戶通信號(hào)碼和文件標(biāo)識(shí),所述文件標(biāo)識(shí)對(duì)應(yīng)的文件存儲(chǔ)有該用戶通信號(hào)碼在該日期所產(chǎn)生的呼叫記錄數(shù)據(jù);所述第二級(jí)索引包括用戶通信號(hào)碼,以及該用戶通信號(hào)碼產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量;或者,所述第二級(jí)索引包括用戶通信號(hào)碼,通信時(shí)間以及該用戶通信號(hào)碼在該通信時(shí)間產(chǎn)生的呼叫記錄數(shù)據(jù)在文件中的位置偏移量。全文摘要本發(fā)明的實(shí)施例公開(kāi)了一種數(shù)據(jù)處理和查詢的方法和裝置,該處理方法包括為數(shù)據(jù)建立第一級(jí)索引,所述數(shù)據(jù)存儲(chǔ)在至少一個(gè)文件中,所述第一級(jí)索引用于索引各文件,所述文件中存儲(chǔ)有相應(yīng)的數(shù)據(jù);在各文件中分別建立第二級(jí)索引,所述第二級(jí)索引用于在相應(yīng)文件中索引相應(yīng)的數(shù)據(jù)。該查詢方法包括根據(jù)接收到的數(shù)據(jù)查詢請(qǐng)求、利用第一級(jí)索引在各個(gè)文件中查找,得到查詢到的文件,該文件存儲(chǔ)有該查詢請(qǐng)求所查詢的數(shù)據(jù);根據(jù)所述數(shù)據(jù)查詢請(qǐng)求、利用第二級(jí)索引在所查詢到的文件中查找,得到該查詢請(qǐng)求所查詢的數(shù)據(jù)。通過(guò)本發(fā)明,提高了大量數(shù)據(jù)的查詢速度。文檔編號(hào)G06F17/30GK102193917SQ201010115869公開(kāi)日2011年9月21日申請(qǐng)日期2010年3月1日優(yōu)先權(quán)日2010年3月1日發(fā)明者孫少陵,張衛(wèi)平,張松波,羅治國(guó),郭磊濤,錢(qián)嶺,齊驥申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1