用于大數(shù)據(jù)的數(shù)據(jù)接入方法、裝置及系統(tǒng)的制作方法
【專利摘要】一種用于大數(shù)據(jù)的數(shù)據(jù)接入方法、裝置及系統(tǒng),用于大數(shù)據(jù)的數(shù)據(jù)接入方法包括:接收至少一種數(shù)據(jù),所述至少一種數(shù)據(jù)中,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源的數(shù)據(jù)采用相同或不同的傳輸協(xié)議;識(shí)別所述至少一種數(shù)據(jù)的基本特征,并根據(jù)所述基本特征和預(yù)先配置將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ);根據(jù)所述預(yù)先配置和基本特征,將所述至少一種數(shù)據(jù)中的至少一部分采用對(duì)應(yīng)的推送傳輸協(xié)議推送出去。本發(fā)明技術(shù)方案提高了數(shù)據(jù)接入的適用范圍。
【專利說(shuō)明】
用于大數(shù)據(jù)的數(shù)據(jù)接入方法、裝置及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種用于大數(shù)據(jù)的數(shù)據(jù)接入方法、裝置及系統(tǒng)?!颈尘凹夹g(shù)】
[0002]目前,隨著大數(shù)據(jù)時(shí)代的推進(jìn),會(huì)產(chǎn)生各種不同類型、不同內(nèi)容的數(shù)據(jù)。如何將不同來(lái)源、不同格式、不同量級(jí)的數(shù)據(jù)進(jìn)行統(tǒng)一接入、統(tǒng)一處理,是目前互聯(lián)網(wǎng)行業(yè)存在的一個(gè)問(wèn)題。
[0003]現(xiàn)有技術(shù)中,對(duì)于目前行業(yè)中常用的數(shù)據(jù)接入的處理方式通常是針對(duì)不同數(shù)據(jù)來(lái)源。對(duì)于每種來(lái)源的數(shù)據(jù),需要單獨(dú)開(kāi)發(fā)一套包含收集、接入、存儲(chǔ)、處理的數(shù)據(jù)整合系統(tǒng)。 對(duì)于同一數(shù)據(jù)的接入服務(wù),只能支持一種協(xié)議。在對(duì)數(shù)據(jù)處理的實(shí)時(shí)性要求比較高的場(chǎng)景中,接入數(shù)據(jù)量較大時(shí),服務(wù)承載能力弱,接入服務(wù)性能不能滿足高接入速度的要求,而且接入的數(shù)據(jù)孤立,導(dǎo)致數(shù)據(jù)復(fù)用性不足。
[0004]因此,亟需一種可以適配不同數(shù)據(jù)來(lái)源、不同數(shù)據(jù)格式、不同存儲(chǔ)方式、不同處理方法的系統(tǒng)來(lái)解決目前行業(yè)中存在的數(shù)據(jù)接入和數(shù)據(jù)處理的問(wèn)題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明解決的技術(shù)問(wèn)題是如何提高數(shù)據(jù)接入的適用范圍。
[0006]為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供一種用于大數(shù)據(jù)的數(shù)據(jù)接入方法,用于大數(shù)據(jù)的數(shù)據(jù)接入方法包括:接收至少一種數(shù)據(jù),所述至少一種數(shù)據(jù)中,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源的數(shù)據(jù)采用相同或不同的傳輸協(xié)議;識(shí)別所述至少一種數(shù)據(jù)的基本特征,并根據(jù)所述基本特征和預(yù)先配置將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ);根據(jù)所述預(yù)先配置和基本特征,將所述至少一種數(shù)據(jù)中的至少一部分采用對(duì)應(yīng)的推送傳輸協(xié)議推送出去。
[0007]可選的,接收至少一種數(shù)據(jù)之前還包括:確定所述預(yù)先配置,所述預(yù)先配置中包括所述基本特征與存儲(chǔ)方式的對(duì)應(yīng)關(guān)系以及與推送傳輸協(xié)議的對(duì)應(yīng)關(guān)系。
[0008]可選的,接收所述至少一種數(shù)據(jù)和將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)通過(guò)事務(wù)的方式實(shí)現(xiàn);將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)和將所述至少一種數(shù)據(jù)推送出去通過(guò)事務(wù)的方式實(shí)現(xiàn)。
[0009]可選的,根據(jù)所述預(yù)先配置和基本特征,將所述至少一種數(shù)據(jù)中的至少一部分采用對(duì)應(yīng)的推送傳輸協(xié)議推送出去包括:在所述至少一種數(shù)據(jù)中的至少一部分對(duì)應(yīng)的存儲(chǔ)位置獲取待推送數(shù)據(jù),并推送至所述待推送數(shù)據(jù)的所述預(yù)先配置指定的數(shù)據(jù)處理服務(wù)。
[0010]可選的,所述基本特征包括以下一種或多種:數(shù)據(jù)內(nèi)容和數(shù)據(jù)格式。
[0011]為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例還公開(kāi)了一種數(shù)據(jù)接入裝置,數(shù)據(jù)接入裝置包括:接入單元,適于接收至少一種數(shù)據(jù),所述至少一種數(shù)據(jù)中,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源的數(shù)據(jù)采用相同或不同的傳輸協(xié)議;存儲(chǔ)單元,適于識(shí)別所述至少一種數(shù)據(jù)的基本特征,并根據(jù)所述基本特征和預(yù)先配置將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ);推送單元,適于根據(jù)所述預(yù)先配置和基本特征,將所述至少一種數(shù)據(jù)中的至少一部分采用對(duì)應(yīng)的推送傳輸協(xié)議推送出去。
[0012]可選的,所述的數(shù)據(jù)接入裝置還包括:確定單元,適于確定所述預(yù)先配置,所述預(yù)先配置中包括所述基本特征與存儲(chǔ)方式的對(duì)應(yīng)關(guān)系以及與推送傳輸協(xié)議的對(duì)應(yīng)關(guān)系。
[0013]可選的,接收所述至少一種數(shù)據(jù)和將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)通過(guò)事務(wù)的方式實(shí)現(xiàn);,將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)和將所述至少一種數(shù)據(jù)推送出去通過(guò)事務(wù)的方式實(shí)現(xiàn)。
[0014]可選的,所述推送單元在所述至少一種數(shù)據(jù)中的至少一部分對(duì)應(yīng)的存儲(chǔ)位置獲取待推送數(shù)據(jù),并推送至所述待推送數(shù)據(jù)的所述預(yù)先配置指定的數(shù)據(jù)處理服務(wù)。
[0015]可選的,所述基本特征包括以下一種或多種:數(shù)據(jù)內(nèi)容和數(shù)據(jù)格式。
[0016]為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例還公開(kāi)了一種數(shù)據(jù)接入系統(tǒng),所述數(shù)據(jù)接入系統(tǒng)包括多個(gè)所述數(shù)據(jù)接入裝置,所述多個(gè)數(shù)據(jù)接入裝置分布式耦接。
[0017]與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例的技術(shù)方案具有以下有益效果:
[0018]本發(fā)明實(shí)施例中,接收至少一種數(shù)據(jù),所述至少一種數(shù)據(jù)中,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源的數(shù)據(jù)采用相同或不同的傳輸協(xié)議;識(shí)別所述至少一種數(shù)據(jù)的基本特征,并根據(jù)所述基本特征和預(yù)先配置將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ);根據(jù)所述預(yù)先配置和基本特征,將所述至少一種數(shù)據(jù)中的至少一部分采用對(duì)應(yīng)的推送傳輸協(xié)議推送出去。采用上述方案,使得數(shù)據(jù)的接入可以支持不同的多種傳輸協(xié)議,并且通過(guò)將接收到的至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ),實(shí)現(xiàn)了采用相同或不同的傳輸協(xié)議的至少一種數(shù)據(jù)可以采用相同或不同的推送傳輸協(xié)議推送出去,提高了數(shù)據(jù)接入的適用范圍。
[0019]進(jìn)一步,所述預(yù)先配置是預(yù)先確定的,所述預(yù)先配置中包括所述基本特征與存儲(chǔ)方式的對(duì)應(yīng)關(guān)系,以及所述基本特征與推送傳輸協(xié)議的對(duì)應(yīng)關(guān)系。對(duì)于數(shù)據(jù)的存儲(chǔ)方式、推送傳輸協(xié)議,可以通過(guò)預(yù)先配置的配置文件來(lái)指定。本發(fā)明實(shí)施例可以通過(guò)簡(jiǎn)單的配置完成數(shù)據(jù)的接入,具備高度可配置性?!靖綀D說(shuō)明】
[0020]圖1是本發(fā)明實(shí)施例一種數(shù)據(jù)接入方法的流程圖;[0021 ]圖2是本發(fā)明實(shí)施例一種數(shù)據(jù)接入過(guò)程的示意圖;
[0022]圖3是本發(fā)明實(shí)施例另一種數(shù)據(jù)接入過(guò)程的示意圖;
[0023]圖4是本發(fā)明實(shí)施例又一種數(shù)據(jù)接入過(guò)程的示意圖;
[0024]圖5是本發(fā)明實(shí)施例一種數(shù)據(jù)接入裝置的結(jié)構(gòu)示意圖。【具體實(shí)施方式】
[0025]如【背景技術(shù)】中所述,對(duì)于目前行業(yè)中常用的數(shù)據(jù)接入的處理方式通常是針對(duì)不同數(shù)據(jù)來(lái)源,對(duì)于每種來(lái)源的數(shù)據(jù),需要單獨(dú)開(kāi)發(fā)一套包含收集、接入、存儲(chǔ)、處理的數(shù)據(jù)整合系統(tǒng)。對(duì)于同一數(shù)據(jù)的接入服務(wù),只能支持一種協(xié)議。在對(duì)數(shù)據(jù)處理的實(shí)時(shí)性要求比較高的場(chǎng)景中,接入數(shù)據(jù)量較大時(shí),服務(wù)承載能力弱,接入服務(wù)性能不能滿足接入速度。接入的數(shù)據(jù)孤立,數(shù)據(jù)復(fù)用性不足。
[0026]現(xiàn)有技術(shù)中,在對(duì)接入和處理服務(wù)的一致性要求較高的場(chǎng)景,數(shù)據(jù)接入服務(wù)和數(shù)據(jù)處理服務(wù)通常需要做調(diào)整,才能保證數(shù)據(jù)接入和處理的順利進(jìn)行。例如,對(duì)于某一數(shù)據(jù)來(lái)源,傳輸協(xié)議是傳輸協(xié)議A,但是其數(shù)據(jù)處理服務(wù)的傳輸協(xié)議包含傳輸協(xié)議A、傳輸協(xié)議B、傳輸協(xié)議C等;如果數(shù)據(jù)處理服務(wù)要接入該來(lái)源的數(shù)據(jù),那么數(shù)據(jù)處理服務(wù)需要做調(diào)整,才能夠數(shù)據(jù)處理服務(wù)和數(shù)據(jù)能夠順利銜接。反之,接入數(shù)據(jù)來(lái)源采用的傳輸協(xié)議是傳輸協(xié)議A、 傳輸協(xié)議B、傳輸協(xié)議C等,對(duì)于這些數(shù)據(jù)要使用相同的數(shù)據(jù)處理服務(wù)進(jìn)行處理,那么數(shù)據(jù)來(lái)源需要做調(diào)整,才能夠使得數(shù)據(jù)能夠正常的被數(shù)據(jù)處理服務(wù)進(jìn)行處理。上述調(diào)整的過(guò)程給用戶使用帶來(lái)了不便。
[0027]為了解決大數(shù)據(jù)領(lǐng)域,多種來(lái)源的數(shù)據(jù)在統(tǒng)一接入、處理時(shí)存在的復(fù)雜性問(wèn)題,本發(fā)明實(shí)施例提供了一種可以支持不同數(shù)據(jù)來(lái)源、不同數(shù)據(jù)格式、不同存儲(chǔ)方式的解決方案。 [〇〇28]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例做詳細(xì)的說(shuō)明。
[0029]圖1是本發(fā)明實(shí)施例一種數(shù)據(jù)接入方法的流程圖。下面結(jié)合圖1對(duì)所述數(shù)據(jù)接入方法的具體步驟做詳細(xì)的說(shuō)明。
[0030]步驟S101:接收至少一種數(shù)據(jù)。
[0031]其中,所述至少一種數(shù)據(jù)中,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源的數(shù)據(jù)可以采用相同的傳輸協(xié)議,也可以采用不同的傳輸協(xié)議。
[0032]具體實(shí)施中,對(duì)于數(shù)據(jù)接收方式,可以支持多種傳輸協(xié)議,例如,超文本傳輸協(xié)議 (HyperText Transfer Protocol,HTTP)、thrift協(xié)議等。具體而言,目前的各種行業(yè)中,尤其是大數(shù)據(jù)領(lǐng)域,數(shù)據(jù)來(lái)源通常會(huì)根據(jù)業(yè)務(wù)需要選擇合適的傳輸協(xié)議來(lái)進(jìn)行數(shù)據(jù)傳輸,進(jìn)而導(dǎo)致在數(shù)據(jù)接收時(shí),不同數(shù)據(jù)來(lái)源的接收方式各不相同,因此,為了滿足目前行業(yè)中不同業(yè)務(wù)數(shù)據(jù)的順利接收,本發(fā)明實(shí)施例支持多種傳輸協(xié)議的接收。[〇〇33]步驟S102:識(shí)別所述至少一種數(shù)據(jù)的基本特征,并根據(jù)所述基本特征和預(yù)先配置將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)。
[0034]具體實(shí)施中,在數(shù)據(jù)接收之前,確定所述預(yù)先配置,所述預(yù)先配置中包括所述基本特征與存儲(chǔ)方式的對(duì)應(yīng)關(guān)系以及與推送傳輸協(xié)議的對(duì)應(yīng)關(guān)系。在數(shù)據(jù)接收之后,識(shí)別接收數(shù)據(jù)的基本特征,并根據(jù)預(yù)先配置將接收數(shù)據(jù)進(jìn)行存儲(chǔ)。也就是說(shuō),具備相同基本特征的數(shù)據(jù)作為同一類,可以被存儲(chǔ)在一起。
[0035]具體地,在接收多種數(shù)據(jù)來(lái)源的多種數(shù)據(jù)時(shí),根據(jù)數(shù)據(jù)的基本特征和預(yù)先配置將數(shù)據(jù)進(jìn)行分類存儲(chǔ)。例如,來(lái)自于不同的數(shù)據(jù)來(lái)源的數(shù)據(jù)可以具備不同的基本特征,且來(lái)自于同一數(shù)據(jù)來(lái)源的數(shù)據(jù)具備相同的基本特征,那么在分類存儲(chǔ)時(shí),可以直接根據(jù)數(shù)據(jù)來(lái)源進(jìn)行分類存儲(chǔ);或者,采用不同的傳輸協(xié)議的數(shù)據(jù)可以具備不同的基本特征,且采用相同傳輸協(xié)議的數(shù)據(jù)具備相同的基本特征,那么在分類存儲(chǔ)時(shí),可以直接根據(jù)傳輸協(xié)議進(jìn)行分類存儲(chǔ)。存儲(chǔ)方式可以是分布式發(fā)布訂閱消息系統(tǒng)(kafka),也可以是磁盤文件方式。當(dāng)以 kafka作為存儲(chǔ)介質(zhì)時(shí),同類的數(shù)據(jù)會(huì)被存儲(chǔ)到同一類別(topic)上;通過(guò)磁盤文件方式存儲(chǔ)時(shí),同類的數(shù)據(jù)會(huì)被存儲(chǔ)到指定目錄中。
[0036]具體而言,所述基本特征可以包括以下一種或多種:數(shù)據(jù)內(nèi)容和數(shù)據(jù)格式。
[0037]可以理解的是,數(shù)據(jù)的基本特征也可以包括其他任意可實(shí)施的特征,本發(fā)明實(shí)施例對(duì)此不做限制。[〇〇38]步驟S103:根據(jù)所述預(yù)先配置和基本特征,將所述至少一種數(shù)據(jù)中的至少一部分采用對(duì)應(yīng)的推送傳輸協(xié)議推送出去。
[0039]具體實(shí)施中,根據(jù)所述預(yù)先配置和基本特征,在所述至少一種數(shù)據(jù)中的至少一部分對(duì)應(yīng)的存儲(chǔ)位置獲取待推送數(shù)據(jù),并推送至所述待推送數(shù)據(jù)的所述預(yù)先配置指定的數(shù)據(jù)處理服務(wù)。具體而言,對(duì)于被推送出去的至少一部分?jǐn)?shù)據(jù),可以采用相同的傳輸協(xié)議推送出去,也可以采用不同的傳輸協(xié)議推送出去。
[0040]具體實(shí)施中,對(duì)于預(yù)先配置還未指定數(shù)據(jù)處理服務(wù)的數(shù)據(jù),可以將該數(shù)據(jù)只進(jìn)行存儲(chǔ)而不進(jìn)行推送,保留在存儲(chǔ)區(qū)域并維持設(shè)定時(shí)間。例如可以保留15天,在15天內(nèi)該數(shù)據(jù)若仍未推送出去,則將該數(shù)據(jù)刪除。
[0041]具體而言,接收所述至少一種數(shù)據(jù)和將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)通過(guò)事務(wù) (transact1n)的方式實(shí)現(xiàn)。將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)和將所述至少一種數(shù)據(jù)推送出去通過(guò)事務(wù)的方式實(shí)現(xiàn)。在數(shù)據(jù)接收、數(shù)據(jù)推送的整個(gè)過(guò)程,通過(guò)事務(wù)方式,在數(shù)據(jù)接收失敗和推送失敗時(shí),可以返回失敗狀態(tài),以避免數(shù)據(jù)在沒(méi)有被正確接收和推送的情況下被誤刪除的情況,保證了數(shù)據(jù)接收和推送的可靠性。具體地,當(dāng)推送操作失敗時(shí),支持相應(yīng)的數(shù)據(jù)回滾(ROLLBACK)。例如,事務(wù)的原子性操作可以包括:開(kāi)始事務(wù)請(qǐng)求(BEGIN TRANSACT1N);提交事務(wù)請(qǐng)求(COMMIT TRANSACT1N);回滾事務(wù)請(qǐng)求(ROLLBACK);其中,提交事務(wù)請(qǐng)求操作用于把事務(wù)造成的修改保存到數(shù)據(jù)庫(kù),將上一個(gè)提交事務(wù)請(qǐng)求或回滾操作之后的全部事務(wù)都保存到數(shù)據(jù)庫(kù)。同時(shí),在必要的請(qǐng)求中,可以使用異步調(diào)用方式,提高數(shù)據(jù)接收服務(wù)的吞吐量。
[0042]本發(fā)明實(shí)施例在接收數(shù)據(jù)到推送數(shù)據(jù)的過(guò)程中,將數(shù)據(jù)進(jìn)行存儲(chǔ),通過(guò)存儲(chǔ)可以有效的提高數(shù)據(jù)接入的吞吐能力,同時(shí)保障了后續(xù)多路推送的有效進(jìn)行。
[0043]在大數(shù)據(jù)時(shí)代,數(shù)據(jù)可以通過(guò)不同的渠道或者方式進(jìn)行收集,也就是說(shuō),數(shù)據(jù)可以通過(guò)不同的傳輸協(xié)議進(jìn)行接收。參照?qǐng)D2,圖2是本發(fā)明實(shí)施例一種數(shù)據(jù)接入過(guò)程的示意圖, 其示出了通過(guò)不同方式收集的數(shù)據(jù)被相同的數(shù)據(jù)處理服務(wù)或者處理單元進(jìn)行處理的場(chǎng)景。 [〇〇44]如圖2所示,來(lái)源于不同數(shù)據(jù)來(lái)源的數(shù)據(jù)分別采用傳輸協(xié)議1、傳輸協(xié)議2,…,傳輸協(xié)議n進(jìn)行傳輸,并經(jīng)步驟S201接收數(shù)據(jù)。接收數(shù)據(jù)后,經(jīng)步驟S202根據(jù)預(yù)先配置的配置文件將多種數(shù)據(jù)進(jìn)行分類存儲(chǔ)。具體而言,可以根據(jù)數(shù)據(jù)的基本特征與預(yù)先配置的存儲(chǔ)方式的對(duì)應(yīng)關(guān)系,將多種數(shù)據(jù)進(jìn)行分類存儲(chǔ)。
[0045]具體地,分類存儲(chǔ)的過(guò)程可以通過(guò)設(shè)置多個(gè)存儲(chǔ)區(qū)域?qū)崿F(xiàn),例如存儲(chǔ)區(qū)域可以包括存儲(chǔ)1、存儲(chǔ)2,…,存儲(chǔ)n,n為正整數(shù)。每個(gè)存儲(chǔ)區(qū)域存儲(chǔ)同類的數(shù)據(jù),同類的數(shù)據(jù)具備相同的基本特征。
[0046]步驟S203采用預(yù)先配置的配置文件指定的傳輸協(xié)議A將數(shù)據(jù)推送至統(tǒng)一的數(shù)據(jù)處理服務(wù)進(jìn)行處理。步驟S203在將數(shù)據(jù)推送到配置文件指定數(shù)據(jù)處理服務(wù)時(shí),會(huì)從相應(yīng)的存儲(chǔ)區(qū)域存儲(chǔ)1、存儲(chǔ)2,…,存儲(chǔ)n獲取待推送數(shù)據(jù)。[〇〇47]本發(fā)明一實(shí)施例還可以支持相同數(shù)據(jù)來(lái)源的數(shù)據(jù)推送至不同數(shù)據(jù)處理服務(wù)或者模塊進(jìn)行處理。在實(shí)際應(yīng)用場(chǎng)景中,存在對(duì)于同一數(shù)據(jù)來(lái)源的數(shù)據(jù),根據(jù)需要會(huì)被不同的處理服務(wù)或者模塊進(jìn)行處理,具體過(guò)程可參照?qǐng)D3,圖3是本發(fā)明實(shí)施例另一種數(shù)據(jù)接入過(guò)程的示意圖。[〇〇48]如圖3所示,來(lái)源于相同數(shù)據(jù)來(lái)源的數(shù)據(jù)采用傳輸協(xié)議1進(jìn)行傳輸,并經(jīng)步驟S301 接收數(shù)據(jù)。接收數(shù)據(jù)后,經(jīng)步驟S302根據(jù)預(yù)先配置的配置文件將數(shù)據(jù)進(jìn)行存儲(chǔ)。具體而言,可以根據(jù)數(shù)據(jù)的基本特征與預(yù)先配置的存儲(chǔ)方式的對(duì)應(yīng)關(guān)系,將多種數(shù)據(jù)進(jìn)行分類存儲(chǔ)。 其中,由于數(shù)據(jù)的數(shù)據(jù)來(lái)源相同,數(shù)據(jù)可以具備相同的基本特征,故此處可以設(shè)置同一存儲(chǔ)區(qū)域進(jìn)行統(tǒng)一存儲(chǔ)。
[0049]步驟S303根據(jù)預(yù)先配置的配置文件指定的多種推送傳輸協(xié)議,分別經(jīng)由不同的推送出口推送A、推送B,…,推送N從存儲(chǔ)區(qū)域獲取數(shù)據(jù),并采用不同的傳輸協(xié)議A、傳輸協(xié)議 B,…,傳輸協(xié)議N將數(shù)據(jù)推送至多種數(shù)據(jù)處理服務(wù)進(jìn)行處理;其中,不同的推送出口推送A、 推送B,…,推送N推送的數(shù)據(jù)分布對(duì)應(yīng)米用不同的傳輸協(xié)議A、傳輸協(xié)議B,…,傳輸協(xié)議N。具體而言,可以根據(jù)數(shù)據(jù)的基本特征與預(yù)先配置的推送傳輸協(xié)議對(duì)應(yīng)關(guān)系,將多種數(shù)據(jù)進(jìn)行推送出去。
[0050]本發(fā)明另一實(shí)施例還可以支持不同數(shù)據(jù)來(lái)源的數(shù)據(jù)推送至不同數(shù)據(jù)處理服務(wù)或者模塊進(jìn)行處理。具體過(guò)程可參照?qǐng)D4,圖4是本發(fā)明實(shí)施例又一種數(shù)據(jù)接入過(guò)程的示意圖。
[0051]如圖4所示,來(lái)源于不同數(shù)據(jù)來(lái)源的數(shù)據(jù)分別采用傳輸協(xié)議1、傳輸協(xié)議2,…,傳輸協(xié)議n進(jìn)行傳輸,并經(jīng)步驟S401接收數(shù)據(jù)。接收數(shù)據(jù)后,經(jīng)步驟S402根據(jù)預(yù)先配置的配置文件將多種數(shù)據(jù)進(jìn)行分類存儲(chǔ)。具體而言,可以根據(jù)數(shù)據(jù)的基本特征與預(yù)先配置的存儲(chǔ)方式的對(duì)應(yīng)關(guān)系,將多種數(shù)據(jù)分類存儲(chǔ)。
[0052]具體地,分類存儲(chǔ)的過(guò)程可以通過(guò)設(shè)置多個(gè)存儲(chǔ)區(qū)域?qū)崿F(xiàn),例如存儲(chǔ)區(qū)域可以包括存儲(chǔ)1、存儲(chǔ)2,…,存儲(chǔ)n。每個(gè)存儲(chǔ)區(qū)域存儲(chǔ)同類的數(shù)據(jù),同類的數(shù)據(jù)具備相同的基本特征。[〇〇53]步驟S403根據(jù)預(yù)先配置的配置文件可以獲取要處理待推送數(shù)據(jù)的數(shù)據(jù)處理服務(wù)的數(shù)量以及對(duì)應(yīng)的推送傳輸協(xié)議。分別經(jīng)由不同的推送出口推送A、推送B,…,推送N從指定的存儲(chǔ)區(qū)域獲取數(shù)據(jù),并采用不同的傳輸協(xié)議A、傳輸協(xié)議B,…,傳輸協(xié)議N將數(shù)據(jù)推送至多種數(shù)據(jù)處理服務(wù)進(jìn)行處理。[〇〇54]具體而言,預(yù)先配置對(duì)于已經(jīng)接收的數(shù)據(jù)未指定要推送的數(shù)據(jù)處理服務(wù)時(shí),則將該數(shù)據(jù)存儲(chǔ)在存儲(chǔ)區(qū)域,例如,存儲(chǔ)方式可以是kafka和磁盤文件;后續(xù)要推送該數(shù)據(jù)時(shí),可以進(jìn)行配置,將該數(shù)據(jù)推送到相應(yīng)的處理服務(wù)。
[0055]本發(fā)明實(shí)施例通過(guò)結(jié)合內(nèi)存和磁盤存儲(chǔ)的方式,保證在存儲(chǔ)設(shè)備宕機(jī)、重啟的情況下,已存儲(chǔ)數(shù)據(jù)不會(huì)丟失,提高了數(shù)據(jù)接入的安全性。
[0056]上述實(shí)施例中的配置文件可以是預(yù)先配置,可以包括數(shù)據(jù)來(lái)源(Sources)、數(shù)據(jù)存儲(chǔ)位置(channe 1 s )、數(shù)據(jù)推送采用的傳輸協(xié)議(type)和推送位置(Consumers)。對(duì)于數(shù)據(jù)的存儲(chǔ)、推送傳輸協(xié)議,可以通過(guò)配置文件來(lái)指定。本發(fā)明實(shí)施例還可以提供通用的存儲(chǔ)方案和推送方式,以便可以通過(guò)簡(jiǎn)單的修改或覆寫,即可完成數(shù)據(jù)的接收和推送。[〇〇57]例如配置文件可以包括以下內(nèi)容:
[0058]//接收來(lái)源為si,s2,s3Sources = sl,s2,s3;
[0059]//分類存儲(chǔ)位置為cl,c2,c3channels = cl,c2,c3;
[0060]//推送位置為kl,k2,k3…Consumers = kl,k2,k3;
[0061]//接收來(lái)源為s 1 的相關(guān)配置Sources ? s 1 ? type = http Sources ? s 1 ? bind = 0.0.0.0Sources.s1.port = 8081 ;[〇〇62]//匹配規(guī)則以及分類存儲(chǔ)方式
[0063] Sources ? s 1 ? mapping = “type = l”:cl,’’type = 2”:c2,Sources.s2.type =thrift;
[0064]Sources.s2.bind = 0.0.0.0Sources.s2.port = 8082 ;
[0065]Sources.s2.mapping= “a.b = l”:cl,”a.b = 2”:c2;
[0066]Sources.s3.type = thrift;
[0067]Sources?s3?bind = 0?0?0?0;
[0068]Sources.s3.port = 8082;
[0069]Sources?s3.mapping “b?c = 1”:c3;[〇〇7〇] //推送相關(guān)配置[0071 ]Consumers.kl ? channel = cl;//數(shù)據(jù)來(lái)源為分類到cl的數(shù)據(jù)
[0072]Consumers.kl.type = http ;[〇〇73]//推送類型以及接受地址
[0074]Consumers, kl.1p = 10.10.10.1;
[0075]Consumers.kl.port = 9091 ;
[0076]Consumers.k2.channe1 = c1;
[0077]Consumers.k2.type = thrift;
[0078]Consumers.k2.1p = 10.10.11.2;
[0079]Consumers.k2.port = 9092;
[0080]Consumers.k3.channe1 = c2;[0081 ]Consumers.k3.type = http ;
[0082]Consumers.k3.1p = 10.10.12.3;
[0083]Consumers.k3.port = 9093;[〇〇84]//還未指定要被處理的數(shù)據(jù),保留在存儲(chǔ)區(qū)域,保留15天
[0085]Consumers.k4.channe1 = c3;
[0086]Consumers.k4.type = null ;
[0087]Consumers.k4.retent1ns = 15days 〇[〇〇88]請(qǐng)參照?qǐng)D5,圖5是本發(fā)明實(shí)施例一種數(shù)據(jù)接入裝置的結(jié)構(gòu)示意圖。[〇〇89]數(shù)據(jù)接入裝置50可以包括:接入單元501、存儲(chǔ)單元502和推送單元503。[〇〇9〇]其中,接入單元501適于接收至少一種數(shù)據(jù),所述至少一種數(shù)據(jù)中,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源的數(shù)據(jù)采用相同或不同的傳輸協(xié)議;
[0091]存儲(chǔ)單元502適于識(shí)別所述至少一種數(shù)據(jù)的基本特征,并根據(jù)所述基本特征和預(yù)先配置將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ);
[0092]推送單元503適于根據(jù)所述預(yù)先配置和基本特征,將所述至少一種數(shù)據(jù)中的至少一部分采用對(duì)應(yīng)的推送傳輸協(xié)議推送出去。
[0093]具體而言,推送單元503在所述至少一種數(shù)據(jù)中的至少一部分對(duì)應(yīng)的存儲(chǔ)位置獲取待推送數(shù)據(jù),并推送至所述待推送數(shù)據(jù)的所述預(yù)先配置指定的數(shù)據(jù)處理服務(wù)。
[0094]具體實(shí)施中,數(shù)據(jù)接入裝置50還可以包括確定單元(圖未示),確定單元適于確定所述預(yù)先配置,所述預(yù)先配置中包括所述基本特征與存儲(chǔ)方式的對(duì)應(yīng)關(guān)系,以及所述基本特征與推送傳輸協(xié)議的對(duì)應(yīng)關(guān)系。
[0095]具體地,所述基本特征可以包括以下一種或多種:數(shù)據(jù)內(nèi)容和數(shù)據(jù)格式。
[0096]具體實(shí)施中,接收所述至少一種數(shù)據(jù)和將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)通過(guò)事務(wù)的方式實(shí)現(xiàn)。將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)和將所述至少一種數(shù)據(jù)推送出去通過(guò)事務(wù)的方式實(shí)現(xiàn)。
[0097]本發(fā)明實(shí)施例的【具體實(shí)施方式】可參照前述相應(yīng)實(shí)施例,此處不再贅述。
[0098]本發(fā)明實(shí)施例還公開(kāi)了一種數(shù)據(jù)接入系統(tǒng),所述數(shù)據(jù)接入系統(tǒng)包括多個(gè)數(shù)據(jù)接入裝置50,多個(gè)數(shù)據(jù)接入裝置50可以分布式耦接。
[0099]本發(fā)明實(shí)施例可以通過(guò)水平擴(kuò)展數(shù)據(jù)接入裝置50來(lái)提供靠高性能的服務(wù)體系。也就是說(shuō),數(shù)據(jù)接入裝置50可以分布式部署,無(wú)限水平擴(kuò)展,以支持不斷增加的業(yè)務(wù)需求。例如,可以是隨著業(yè)務(wù)量的不斷增加,單臺(tái)數(shù)據(jù)接入裝置50的性能已經(jīng)不能滿足業(yè)務(wù)量的需求,那么可以通過(guò)合適的增加數(shù)據(jù)接入裝置50的部署滿足業(yè)務(wù)量的需求;同時(shí),增加的數(shù)據(jù)接入裝置50對(duì)已部署的數(shù)據(jù)接入裝置50的性能沒(méi)有影響。
[0100]本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,該程序可以存儲(chǔ)于以計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:R〇M、RAM、磁盤或光盤等。
[0101]雖然本發(fā)明披露如上,但本發(fā)明并非限定于此。任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動(dòng)與修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以權(quán)利要求所限定的范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種用于大數(shù)據(jù)的數(shù)據(jù)接入方法,其特征在于,包括:接收至少一種數(shù)據(jù),所述至少一種數(shù)據(jù)中,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源的數(shù)據(jù)采用相同或不 同的傳輸協(xié)議;識(shí)別所述至少一種數(shù)據(jù)的基本特征,并根據(jù)所述基本特征和預(yù)先配置將所述至少一種 數(shù)據(jù)進(jìn)行分類存儲(chǔ);根據(jù)所述預(yù)先配置和基本特征,將所述至少一種數(shù)據(jù)中的至少一部分采用對(duì)應(yīng)的推送 傳輸協(xié)議推送出去。2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)接入方法,其特征在于,接收至少一種數(shù)據(jù)之前還包括:確定所述預(yù)先配置,所述預(yù)先配置中包括所述基本特征與存儲(chǔ)方式的對(duì)應(yīng)關(guān)系以及與推送傳輸協(xié)議的對(duì)應(yīng)關(guān)系。3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)接入方法,其特征在于,接收所述至少一種數(shù)據(jù)和將所述 至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)通過(guò)事務(wù)的方式實(shí)現(xiàn);將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)和將 所述至少一種數(shù)據(jù)推送出去通過(guò)事務(wù)的方式實(shí)現(xiàn)。4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)接入方法,其特征在于,根據(jù)所述預(yù)先配置和基本特征, 將所述至少一種數(shù)據(jù)中的至少一部分采用對(duì)應(yīng)的推送傳輸協(xié)議推送出去包括:在所述至少一種數(shù)據(jù)中的至少一部分對(duì)應(yīng)的存儲(chǔ)位置獲取待推送數(shù)據(jù),并推送至所述 待推送數(shù)據(jù)的所述預(yù)先配置指定的數(shù)據(jù)處理服務(wù)。5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的數(shù)據(jù)接入方法,其特征在于,所述基本特征包括以 下一種或多種:數(shù)據(jù)內(nèi)容和數(shù)據(jù)格式。6.—種數(shù)據(jù)接入裝置,其特征在于,包括:接入單元,適于接收至少一種數(shù)據(jù),所述至少一種數(shù)據(jù)中,對(duì)應(yīng)不同的數(shù)據(jù)來(lái)源的數(shù)據(jù) 采用相同或不同的傳輸協(xié)議;存儲(chǔ)單元,適于識(shí)別所述至少一種數(shù)據(jù)的基本特征,并根據(jù)所述基本特征和預(yù)先配置 將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ);推送單元,適于根據(jù)所述預(yù)先配置和基本特征,將所述至少一種數(shù)據(jù)中的至少一部分 采用對(duì)應(yīng)的推送傳輸協(xié)議推送出去。7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)接入裝置,其特征在于,還包括:確定單元,適于確定所述預(yù)先配置,所述預(yù)先配置中包括所述基本特征與存儲(chǔ)方式的 對(duì)應(yīng)關(guān)系以及與推送傳輸協(xié)議的對(duì)應(yīng)關(guān)系。8.根據(jù)權(quán)利要求6所述的數(shù)據(jù)接入裝置,其特征在于,接收所述至少一種數(shù)據(jù)和將所述 至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)通過(guò)事務(wù)的方式實(shí)現(xiàn);將所述至少一種數(shù)據(jù)進(jìn)行分類存儲(chǔ)和將 所述至少一種數(shù)據(jù)推送出去通過(guò)事務(wù)的方式實(shí)現(xiàn)。9.根據(jù)權(quán)利要求6所述的數(shù)據(jù)接入裝置,其特征在于,所述推送單元在所述至少一種數(shù) 據(jù)中的至少一部分對(duì)應(yīng)的存儲(chǔ)位置獲取待推送數(shù)據(jù),并推送至所述待推送數(shù)據(jù)的所述預(yù)先 配置指定的數(shù)據(jù)處理服務(wù)。10.根據(jù)權(quán)利要求6至9任一項(xiàng)所述的數(shù)據(jù)接入裝置,其特征在于,所述基本特征包括以 下一種或多種:數(shù)據(jù)內(nèi)容和數(shù)據(jù)格式。11.一種數(shù)據(jù)接入系統(tǒng),其特征在于,包括多個(gè)如權(quán)利要求6至10任一項(xiàng)所述的數(shù)據(jù)接 入裝置,所述多個(gè)數(shù)據(jù)接入裝置分布式耦接。
【文檔編號(hào)】H04L29/06GK105978887SQ201610423272
【公開(kāi)日】2016年9月28日
【申請(qǐng)日】2016年6月15日
【發(fā)明人】湯奇峰, 安斌
【申請(qǐng)人】晶贊廣告(上海)有限公司