国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的制作方法

      文檔序號(hào):11864703閱讀:239來源:國知局
      結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是一種通信協(xié)議,也是一種讓數(shù)據(jù)成為合格的結(jié)構(gòu)化大數(shù)據(jù)的技術(shù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也類似于ETL,ETL是處理現(xiàn)有的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)的問題,而結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是在設(shè)計(jì)信息系統(tǒng)之初就開始預(yù)防數(shù)據(jù)產(chǎn)生問題。ETL是為數(shù)據(jù)治病,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是預(yù)防數(shù)據(jù)產(chǎn)生疾病。ETL是對現(xiàn)有技術(shù)所產(chǎn)生的問題進(jìn)行小修小補(bǔ),結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了新的數(shù)據(jù)處理方案。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也是一種軟件開發(fā)模式,利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)都是大數(shù)據(jù)信息系統(tǒng),只要以鏡像的方式把各大數(shù)據(jù)信息系統(tǒng)中的數(shù)據(jù)上傳到大數(shù)據(jù)中心即可累加成合格的結(jié)構(gòu)化大數(shù)據(jù)。合格的結(jié)構(gòu)化大數(shù)據(jù)是不經(jīng)ETL轉(zhuǎn)換即可高效挖掘的結(jié)構(gòu)化數(shù)據(jù)。
      背景技術(shù)
      :隨著大數(shù)據(jù)時(shí)代的到來,人們發(fā)現(xiàn)各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時(shí)代的需求,信息孤島嚴(yán)重,難以互聯(lián)互通,數(shù)據(jù)共享困難,各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,卻難以高效挖掘。目前是利用關(guān)系數(shù)據(jù)庫來解決這些問題,但只能解決局部的問題,不能從根本上解決問題。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是針對這些問題而創(chuàng)立的。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議來源于模仿大腦記憶、聯(lián)想、思維,始于1982年,那時(shí)想讓計(jì)算機(jī)模仿大腦的聯(lián)想功能。技術(shù)實(shí)現(xiàn)要素:結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是通過對數(shù)據(jù)的優(yōu)化及軟件開發(fā)模式的改變而避免信息孤島問題、互聯(lián)互通問題、數(shù)據(jù)共享問題產(chǎn)生,并使數(shù)據(jù)容易挖掘。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可使數(shù)據(jù)具有12個(gè)技術(shù)特性:“唯一性、歸屬性、可識(shí)別性、獨(dú)立性、完整性、規(guī)范性、與系統(tǒng)的耦合性(耦合度為零)、結(jié)構(gòu)統(tǒng)一性、可累加性、可移植性、時(shí)間性、真實(shí)性”,只有同時(shí)滿足12個(gè)技術(shù)特性的數(shù)據(jù)才是合格的結(jié)構(gòu)化大數(shù)據(jù)。發(fā)明所要解決的技術(shù)問題發(fā)明所要解決的技術(shù)問題是大數(shù)據(jù)4V中“數(shù)據(jù)類型多(Variety)”問題及“數(shù)據(jù)速度快(velocity)”問題。所針對的具體的技術(shù)問題:各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時(shí)代的需求,信息孤島嚴(yán)重,難以互聯(lián)互通,數(shù)據(jù)共享困難;各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,卻難以高效挖掘。有益效果實(shí)現(xiàn)互聯(lián)互通、數(shù)據(jù)共享容易,查詢速度快,數(shù)據(jù)挖掘容易。具體實(shí)施方式結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的創(chuàng)新表現(xiàn)在如下5個(gè)方面:1、首次提出了結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性,只有同時(shí)滿足12個(gè)技術(shù)特性的數(shù)據(jù)才能成為合格的結(jié)構(gòu)化大數(shù)據(jù)。為使數(shù)據(jù)滿足12個(gè)技術(shù)特性,創(chuàng)立了與12個(gè)技術(shù)特性相對應(yīng)的12個(gè)數(shù)據(jù)優(yōu)化方法。2、通信的基礎(chǔ)是雙方必須采用同一個(gè)協(xié)議。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所提出的“結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性”就是結(jié)構(gòu)化數(shù)據(jù)互聯(lián)互通的“通信協(xié)議”。3、在結(jié)構(gòu)化大數(shù)據(jù)的每一條數(shù)據(jù)中都增加了體現(xiàn)“數(shù)據(jù)的唯一性”和“數(shù)據(jù)的歸屬性”的數(shù)據(jù)項(xiàng)。現(xiàn)有數(shù)據(jù)庫技術(shù)由于都是用于處理小數(shù)據(jù),都沒有考慮這兩個(gè)數(shù)據(jù)項(xiàng)的作用,現(xiàn)有的數(shù)據(jù)中也都沒有這兩個(gè)數(shù)據(jù)項(xiàng)。這兩個(gè)數(shù)據(jù)項(xiàng)是表明一個(gè)數(shù)據(jù)是不是合格的結(jié)構(gòu)化大數(shù)據(jù)的關(guān)鍵數(shù)據(jù)項(xiàng)。4、特別強(qiáng)調(diào)數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化。因?yàn)榇髷?shù)據(jù)環(huán)境中,標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)能自動(dòng)模仿大腦的聯(lián)想功能,從而大幅度提高查詢數(shù)據(jù)的速度和靈活性。關(guān)系數(shù)據(jù)庫對數(shù)據(jù)不加任何限制,完全由數(shù)據(jù)庫的設(shè)計(jì)人員自己定義;結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議對數(shù)據(jù)的限制非常嚴(yán)格,絕對不充許設(shè)計(jì)人員任意定義數(shù)據(jù),所有數(shù)據(jù)都必須是規(guī)范的,這也是讓大數(shù)據(jù)容易挖掘的一項(xiàng)重要措施。5、利用結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性為大數(shù)據(jù)的真實(shí)性提供保障。小數(shù)據(jù)只是在某個(gè)單位內(nèi)部使用,大數(shù)據(jù)是在很多單位之間使用,因此大數(shù)據(jù)的真實(shí)性、公證性、權(quán)威、不可悔改性就顯得非常重要。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議在對數(shù)據(jù)優(yōu)化時(shí)是以“萬能數(shù)據(jù)結(jié)構(gòu)表”(如表一所示)來存貯數(shù)據(jù),“萬能數(shù)據(jù)結(jié)構(gòu)表”可以用一張表存貯各種各樣的結(jié)構(gòu)化數(shù)據(jù)。表一:萬能數(shù)據(jù)結(jié)構(gòu)表存貯數(shù)據(jù)的例子ID事物代號(hào)事物屬性事物屬性值超長屬性值單位附件時(shí)間10991280數(shù)據(jù)來源廣州第一醫(yī)院2014.5.311001280事物分類病歷2014.5.311011280事物分類住院病歷2014.5.311021280事物分類醫(yī)療費(fèi)用2014.5.311031280身份證號(hào)XXXXXXXXXX2014.5.311041280住院號(hào)XXXXXXXXXX2014.5.311051280姓名張三2014.5.311061280性別男2014.5.311071280中藥費(fèi)56元2014.5.311081280西藥費(fèi)72元2014.5.311091280其它費(fèi)用180元2014.5.3說明1:合格的結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性及12個(gè)數(shù)據(jù)優(yōu)化方法合格的結(jié)構(gòu)化大數(shù)據(jù)具有12個(gè)技術(shù)特性,或者說只有同時(shí)滿足12個(gè)技術(shù)特性的結(jié)構(gòu)化數(shù)據(jù)才是合格的結(jié)構(gòu)化大數(shù)據(jù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是使結(jié)構(gòu)化數(shù)據(jù)滿足12個(gè)技術(shù)特性的方法。為使數(shù)據(jù)擁有結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了12種相應(yīng)的數(shù)據(jù)優(yōu)化方法。1、數(shù)據(jù)的唯一性數(shù)據(jù)的唯一性:同一事物的各種數(shù)據(jù)在生存周期中,在不同的信息系統(tǒng)中,都應(yīng)該是唯一的、可識(shí)別的,不能因時(shí)間、空間的變化而變成不可識(shí)別的數(shù)據(jù)。數(shù)據(jù)的唯一性所針對的問題:當(dāng)前的同一事物的各種數(shù)據(jù)在不同的信息系統(tǒng)中的表達(dá)形式各不相同,在大數(shù)據(jù)挖掘時(shí)難以準(zhǔn)確地識(shí)別。例如,同一商品,在不同的經(jīng)銷商的信息系統(tǒng)中具有不同的編碼;同一患者在不同的醫(yī)院就醫(yī)時(shí),患者的住院號(hào)各不相同,在大數(shù)據(jù)環(huán)境中查患者病史時(shí),會(huì)因?yàn)榕c患者相關(guān)的數(shù)據(jù)沒有一個(gè)統(tǒng)一的標(biāo)識(shí)碼而難以查詢。數(shù)據(jù)優(yōu)化方法一:讓同一事物的所有數(shù)據(jù),在不同的時(shí)間、空間、環(huán)境中,都必須含有一個(gè)(或若干個(gè))唯一的、統(tǒng)一的大數(shù)據(jù)識(shí)別碼。大數(shù)據(jù)識(shí)別碼是數(shù)據(jù)的身份證、車牌號(hào)。大數(shù)據(jù)識(shí)別碼與關(guān)系數(shù)據(jù)庫中的ID有本質(zhì)的差異,ID只是在一張表的范圍內(nèi)標(biāo)識(shí)數(shù)據(jù),大數(shù)據(jù)識(shí)別碼是在大數(shù)據(jù)的范圍內(nèi)標(biāo)識(shí)數(shù)據(jù)。大數(shù)據(jù)范圍:不同的大數(shù)據(jù)所涉及到的范圍不同。在國際貿(mào)易中,大數(shù)據(jù)范圍是全球,國家醫(yī)療大數(shù)據(jù)的大數(shù)據(jù)范圍是醫(yī)療行業(yè),廣州大數(shù)據(jù)的數(shù)據(jù)范圍是廣州市。大數(shù)據(jù)識(shí)別碼可分為兩種,一種是某個(gè)具體事物的識(shí)別碼,猶如設(shè)備的序列號(hào),但與設(shè)備的序列號(hào)有本質(zhì)的差異,設(shè)備序列號(hào)是企業(yè)自己編寫的,大數(shù)據(jù)識(shí)別碼需要按國際統(tǒng)一的標(biāo)準(zhǔn)來編碼;另一種是某類事物的識(shí)別碼。例如,在了解某種型號(hào)的手機(jī)在各個(gè)經(jīng)銷商的銷售情況時(shí),就需要該種型號(hào)手機(jī)的大數(shù)據(jù)識(shí)別碼,因?yàn)槭謾C(jī)由全世界數(shù)十萬個(gè)經(jīng)銷商銷售,手機(jī)廠家需要與全世界數(shù)十萬信息系統(tǒng)互聯(lián)互通。與人相關(guān)的數(shù)據(jù)全應(yīng)含有身份證號(hào),以確保在全球范圍內(nèi),在任何時(shí)間段,與某人相關(guān)的數(shù)據(jù)都是唯一的,可識(shí)別為同一個(gè)人的。大數(shù)據(jù)會(huì)涉及到多個(gè)不同的信息系統(tǒng),而小數(shù)據(jù)只是在同一個(gè)信息系統(tǒng)中生存,因此在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的唯一性就非常重要,沒有統(tǒng)一的、標(biāo)準(zhǔn)的、規(guī)范的識(shí)別碼會(huì)導(dǎo)致數(shù)據(jù)挖掘非常困難。數(shù)據(jù)的唯一性是大數(shù)據(jù)挖掘、分析的基礎(chǔ)。大數(shù)據(jù)識(shí)別碼必須使可以方便數(shù)據(jù)分類統(tǒng)計(jì)。2、數(shù)據(jù)的歸屬性數(shù)據(jù)的歸屬性:數(shù)據(jù)不僅要反映事物的各種屬性,也要反映出數(shù)據(jù)是歸誰所有(或者說由誰采集、或者說從何而來)。數(shù)據(jù)優(yōu)化方法二:每一個(gè)事物的數(shù)據(jù)中都要含有“數(shù)據(jù)來源”數(shù)據(jù)項(xiàng)?!皵?shù)據(jù)來源”是結(jié)構(gòu)化數(shù)據(jù)具有了“歸屬性”,一般情況下,可用單位名稱來表示“數(shù)據(jù)來源”。大數(shù)據(jù)源于成千上萬家單位,若不標(biāo)明“數(shù)據(jù)來源”,在大數(shù)據(jù)挖掘時(shí)會(huì)引起識(shí)別混亂。3、數(shù)據(jù)的識(shí)別性數(shù)據(jù)的識(shí)別性:是指讓信息系統(tǒng)可識(shí)別,讓人也可識(shí)別。進(jìn)一步而言,不但要讓自己的信息系統(tǒng)識(shí)別,也要能讓他人的信息系統(tǒng)識(shí)別,不但要讓自己能識(shí)別,也要讓他人能識(shí)別。數(shù)據(jù)的識(shí)別性所針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有數(shù)據(jù)庫的設(shè)計(jì)人員自己和自己的信息系統(tǒng)可識(shí)別。其它人、其它信息系統(tǒng)只能通過軟件對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行解釋、注釋、翻譯之后才能識(shí)別。數(shù)據(jù)優(yōu)化方法三:以適當(dāng)?shù)娜哂嗍箶?shù)據(jù)可識(shí)別,盡量用標(biāo)準(zhǔn)的、規(guī)范的自然語言來表達(dá)數(shù)據(jù),盡量避免用代碼來表達(dá)數(shù)據(jù)。在對數(shù)據(jù)進(jìn)行優(yōu)化時(shí)的原則是“讓相應(yīng)領(lǐng)域的技術(shù)人員能看懂,讓別人的信息系統(tǒng)也能識(shí)別,而不能只是數(shù)據(jù)庫的設(shè)計(jì)人員能看懂,也不只是自己的系統(tǒng)能識(shí)別?!痹诖髷?shù)據(jù)環(huán)境中,數(shù)據(jù)的最重要、最關(guān)鍵的一個(gè)特性就是“數(shù)據(jù)的識(shí)別性”。關(guān)系數(shù)據(jù)庫的一個(gè)策略是:盡量減少數(shù)據(jù)冗余。關(guān)系數(shù)據(jù)庫在降低了數(shù)據(jù)冗余的同時(shí)卻增加了識(shí)別數(shù)據(jù)的難度。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略與關(guān)系數(shù)據(jù)庫正好相反。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:以適當(dāng)?shù)娜哂喽箶?shù)據(jù)具有可識(shí)別性,從而使數(shù)據(jù)可以讓他人讀懂,也讓他人的信息系統(tǒng)能識(shí)別。關(guān)系數(shù)據(jù)庫是一種“數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、程序、數(shù)據(jù)庫系統(tǒng)四者密不可分的數(shù)據(jù)庫”。因?yàn)殛P(guān)系數(shù)據(jù)庫中的數(shù)據(jù)脫離具體的表結(jié)構(gòu)和程序以后就變成了無意義的數(shù)據(jù),關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只有在特定的表中才具有意義?!叭f能數(shù)據(jù)結(jié)構(gòu)表”是一種“數(shù)據(jù)與程序無關(guān)的數(shù)據(jù)結(jié)構(gòu)”,或者說是一種“是什么就是什么,與程序無關(guān)”。因?yàn)椤叭f能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)脫離其數(shù)據(jù)結(jié)構(gòu)后,其數(shù)據(jù)的真實(shí)含義不變?!叭f能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)是用標(biāo)準(zhǔn)的、規(guī)范的自然語言而表達(dá)的,只要懂自然語言,誰都可以看懂“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)的真實(shí)含義。從表面上看,關(guān)系數(shù)據(jù)庫減少了數(shù)據(jù)冗余,這是其一大優(yōu)點(diǎn)。然而,這也是關(guān)系數(shù)據(jù)庫的最大缺點(diǎn)之一。關(guān)系數(shù)據(jù)庫在減少了數(shù)據(jù)冗余的同時(shí),也導(dǎo)致了數(shù)據(jù)失真。數(shù)據(jù)失真的結(jié)果就導(dǎo)致了“信息交換、信息孤島、數(shù)據(jù)挖掘難”等等問題。在關(guān)系數(shù)據(jù)庫中,只有通過編寫大量的程序,才能解決數(shù)據(jù)失真問題。無數(shù)事實(shí)表明,關(guān)系數(shù)據(jù)庫因數(shù)據(jù)冗余問題而付出了非常高昂的代價(jià)。當(dāng)“數(shù)據(jù)與程序密不可分”時(shí),要存貯、讀取、查詢數(shù)據(jù)就必須編寫大量的程序。當(dāng)“數(shù)據(jù)與程序無關(guān)時(shí)”,只要編寫一個(gè)通用的程序,其它人借助這個(gè)程序就可以非常方便地存貯、讀取、查詢數(shù)據(jù),而不必每開發(fā)一個(gè)數(shù)據(jù)庫都開發(fā)大量的軟件。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的一個(gè)原則:基本上不考慮數(shù)據(jù)冗余問題,以空間換取智能和使用方便,讓數(shù)據(jù)自己說話,而不是讓程序替數(shù)據(jù)說話。而關(guān)系數(shù)據(jù)則是通過應(yīng)用程序而代替數(shù)據(jù)說話。用數(shù)據(jù)代替程序:寧愿增加大量的“冗余”,也要使數(shù)據(jù)具有獨(dú)立性、完整性、可識(shí)別性?;蛘哒f為了使數(shù)據(jù)具有獨(dú)立性、完整性、可識(shí)別性,不考慮數(shù)據(jù)冗余問題,無論增加多少冗余都可以。在用關(guān)系數(shù)據(jù)庫設(shè)計(jì)信息系統(tǒng)時(shí),總是用程序來解讀數(shù)據(jù)庫中的數(shù)據(jù)。這種策略所帶來的嚴(yán)重惡果就是在處理數(shù)據(jù)時(shí)需要編寫大量的程序,不編寫程序就無法處理數(shù)據(jù)。●結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:不惜一切代價(jià),讓數(shù)據(jù)自己說話,杜絕用程序當(dāng)翻譯!“讓數(shù)據(jù)自己說話”的目的是:無論把一個(gè)數(shù)據(jù)放到任何地方、任何環(huán)境中都能獨(dú)立地、完整地表達(dá)出同樣的、完整的含義。在大數(shù)據(jù)時(shí)代,一個(gè)數(shù)據(jù)會(huì)出現(xiàn)在不同的信息系統(tǒng)中,因此,必須確保數(shù)據(jù)在不同的信息系統(tǒng)中、不同的環(huán)境中都有相同的含義。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議使數(shù)據(jù)具有“獨(dú)立性、完整性、識(shí)別性、唯一性、歸屬性”的目的就是讓數(shù)據(jù)自己說話,在大數(shù)據(jù)環(huán)境中,這樣可以大幅度地減少編寫程序的數(shù)量。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)沒有獨(dú)立性,也沒有完整性,關(guān)系數(shù)據(jù)庫做不到“讓數(shù)據(jù)自己說話”。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)需要借助各種“關(guān)系”才能表達(dá)出完整的含義。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可以讓數(shù)據(jù)自己說話,而關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)需要配備“七大姑八大姨”的“關(guān)系”才能準(zhǔn)確地表達(dá)出相應(yīng)的含義。關(guān)系數(shù)據(jù)庫的“七大姑八大姨”的“關(guān)系”:數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)具有密不可分的關(guān)系,數(shù)據(jù)與表結(jié)構(gòu)具有密不可分的關(guān)系,數(shù)據(jù)與應(yīng)用程序具有密不可分的關(guān)系,數(shù)據(jù)與數(shù)據(jù)庫中的眾多表之間具有密不可分的關(guān)系。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)必須依靠關(guān)系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、應(yīng)用程序才具有意義。當(dāng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)脫離了相應(yīng)的關(guān)系數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、應(yīng)用程序之后就變成了無意義的數(shù)據(jù)。當(dāng)前的信息系統(tǒng)所存在的“信息孤島問題、信息交換問題、數(shù)據(jù)接口問題、互聯(lián)互通問題、系統(tǒng)的升級(jí)換代問題”等等,都是由于關(guān)系數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)不能自己說話而造成的。用關(guān)系數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)電子病歷系統(tǒng)時(shí),對“患者基本情況”會(huì)采用如下形式:表二:患者基本情況表(關(guān)系數(shù)據(jù)庫中的表)IDHZXMGZDWZBXBZZNLRQHFBXRQMZCSZ26胡鳳橡膠廠工人0蒙古路2號(hào)321991-4-3已1991-4-3漢本人上述形式的數(shù)據(jù)是小數(shù)據(jù)時(shí)代的經(jīng)典結(jié)構(gòu)形式。其實(shí)“字段名”也是很重要的信息,必須用標(biāo)準(zhǔn)的、規(guī)范的自然語言來描述?!盎颊呋厩闆r”經(jīng)過結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議進(jìn)行優(yōu)化之后,在“萬能數(shù)據(jù)結(jié)構(gòu)表”中的表達(dá)形式:表三:患者基本情況表(萬能數(shù)據(jù)結(jié)構(gòu)表)ID事物代號(hào)事物屬性事物屬性值超長屬性值單位附件時(shí)間1001001數(shù)據(jù)來源上海市第一醫(yī)院1011001事物分類病歷1021001事物分類住院病歷1031001事物分類入院病歷1041001事物分類患者基本情況1051001患者編號(hào)SH10-199103Z211061001健康卡號(hào)XXXXXXXXXXXX091071001身份證號(hào)XXXXXXXXXXXXXX1081001姓名胡風(fēng)1091001工作單位上海橡膠廠1101001職別工人1111001性別女1121001住址蒙古路20號(hào)1131001年齡321141001入院日期1991-4-301151001婚否已婚1161001病史采取日期1991-4-301171001民族漢1181001病情陳述者本人通過上述兩張表的對比發(fā)現(xiàn),用“萬能數(shù)據(jù)結(jié)構(gòu)表”所表達(dá)的信息是一種完全用自然語言所表達(dá)的不失真的信息,這種信息無論放在什么地方其含義都是一樣的。從表面上看用“萬能數(shù)據(jù)結(jié)構(gòu)表”所存貯的信息會(huì)多占據(jù)一倍左右的存貯空間,但這樣存貯數(shù)據(jù)可以減少很多復(fù)雜的數(shù)據(jù)抽取、轉(zhuǎn)換工作。“萬能數(shù)據(jù)結(jié)構(gòu)表”中的“數(shù)據(jù)冗余”就是讓“數(shù)據(jù)自己說話”,讓數(shù)據(jù)不依賴數(shù)據(jù)庫系統(tǒng)、不依賴數(shù)據(jù)結(jié)構(gòu),不依賴數(shù)據(jù)類型,不依賴應(yīng)用程序。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略是“以空間換智能及使用方便”。與30年前相比,目前硬盤的存貯容量已提高了10萬倍以上,多占據(jù)一倍左右的存貯空間的代價(jià)很低,可以忽略不計(jì)。“讓數(shù)據(jù)自己說話”就是讓數(shù)據(jù)猶如自然語言那樣,可以準(zhǔn)確、無誤地表達(dá)應(yīng)有的含義,不需要注釋,也不需要應(yīng)用程序的解讀。4、數(shù)據(jù)的獨(dú)立性數(shù)據(jù)的獨(dú)立性:數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨(dú)立地表達(dá)出某種含義。針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具有獨(dú)立性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用程序才能解讀數(shù)據(jù)的含義。關(guān)系數(shù)據(jù)庫中的很多表的字段名用的是不規(guī)范的字母縮寫,在呈現(xiàn)給用戶時(shí),需要通過信息系統(tǒng)為表加上表頭才能表達(dá)出數(shù)據(jù)的真正含義。數(shù)據(jù)優(yōu)化方法四:通過一定的數(shù)據(jù)冗余而是數(shù)據(jù)可以自己說話,讓“數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨(dú)立地表達(dá)出某種含義”,如上表三所示的萬能數(shù)據(jù)結(jié)構(gòu)表可實(shí)現(xiàn)數(shù)據(jù)的獨(dú)立性。5、數(shù)據(jù)的完整性數(shù)據(jù)的完整性:數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而完整地表達(dá)出某種含義。針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具有完整性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用程序才能解讀數(shù)據(jù)完整的含義。數(shù)據(jù)優(yōu)化方法五:通過一定的數(shù)據(jù)冗余而是數(shù)據(jù)可以自己說話,讓“數(shù)據(jù)不依靠數(shù)據(jù)庫系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨(dú)立地表達(dá)出某種含義”,如上表三所示的萬能數(shù)據(jù)結(jié)構(gòu)表可實(shí)現(xiàn)數(shù)據(jù)的獨(dú)立性。6、數(shù)據(jù)的規(guī)范性數(shù)據(jù)的規(guī)范性:數(shù)據(jù)應(yīng)為標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的、無歧義的。針對的問題:當(dāng)前的各種信息系統(tǒng)中的數(shù)據(jù)不規(guī)范導(dǎo)致數(shù)據(jù)挖掘非常困難。數(shù)據(jù)優(yōu)化方法六:應(yīng)在信息系統(tǒng)設(shè)計(jì)、數(shù)據(jù)采集階段就確保數(shù)據(jù)是規(guī)范的。數(shù)據(jù)的規(guī)范性需要建立在“國標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國家大數(shù)據(jù)標(biāo)準(zhǔn)、行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”的基礎(chǔ)之上,而不是建立在某個(gè)單位內(nèi)部的數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)范的基礎(chǔ)之上。只有符合“國標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國家大數(shù)據(jù)標(biāo)準(zhǔn)、行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”的規(guī)范的數(shù)據(jù)才有資格成為合格的結(jié)構(gòu)化大數(shù)據(jù)。當(dāng)前的問題是各家單位的數(shù)據(jù)規(guī)范只是自己制訂的,各不相同,沒有“國標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國家大數(shù)據(jù)標(biāo)準(zhǔn)、行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”,這是阻礙大數(shù)據(jù)發(fā)展的一個(gè)大障礙。有了標(biāo)準(zhǔn)、規(guī)范,并按標(biāo)準(zhǔn)、規(guī)范執(zhí)行,那么在對大數(shù)據(jù)進(jìn)行挖掘時(shí),不再需要ETL。如何體現(xiàn)結(jié)構(gòu)化大數(shù)據(jù)的規(guī)范性:在設(shè)計(jì)信息系統(tǒng)時(shí)就要考慮數(shù)據(jù)的規(guī)范性,在采集、生成數(shù)據(jù)時(shí),必須嚴(yán)格按照“國標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國家大數(shù)據(jù)標(biāo)準(zhǔn)、各行各業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”輸入數(shù)據(jù)、生成數(shù)據(jù),只有這樣,信息系統(tǒng)所生成的數(shù)據(jù)才是規(guī)范的數(shù)據(jù)。各行各業(yè)的數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化是一項(xiàng)工程量巨大的工程。只有做好這項(xiàng)工作,才能確?!敖Y(jié)構(gòu)化大數(shù)據(jù)的規(guī)范性”。數(shù)據(jù)的標(biāo)準(zhǔn)化是大數(shù)據(jù)的基礎(chǔ)??梢哉f沒有數(shù)據(jù)的標(biāo)準(zhǔn)化就有合格的大數(shù)據(jù)。大數(shù)據(jù)工程,標(biāo)準(zhǔn)先行。從某一方面而言,由于目前國際上、國內(nèi)的各行各業(yè)都未能做好數(shù)據(jù)標(biāo)準(zhǔn)化工作,所以目前根本就沒有合格的大數(shù)據(jù)!“信息系統(tǒng)名、數(shù)據(jù)庫名、表名、字段名、數(shù)據(jù)庫中的數(shù)據(jù)”都要用標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的自然語言,盡量避免使用不規(guī)范的代碼,這是讓數(shù)據(jù)自然形成“聯(lián)想關(guān)系”的關(guān)鍵,也是實(shí)現(xiàn)萬能查詢的關(guān)鍵。這也是結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議主張數(shù)據(jù)規(guī)范化的一個(gè)非常重要的原因!在大數(shù)據(jù)環(huán)境中,這種“聯(lián)想關(guān)系”可為數(shù)據(jù)挖掘帶來極大的便利,可以大幅度地提高查詢數(shù)據(jù)的速度。關(guān)系數(shù)據(jù)庫理論對數(shù)據(jù)基本上沒有任何限制,全部由設(shè)計(jì)人員任意定義。這是關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)非常難以挖掘的一個(gè)根本原因。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議對數(shù)據(jù)的要求、限制非常嚴(yán)格。嚴(yán)格要求數(shù)據(jù)必須是標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的,必須滿足12個(gè)技術(shù)特性,每一個(gè)數(shù)據(jù)都必須嚴(yán)格符合國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)。嚴(yán)禁設(shè)計(jì)人員任意私自定義數(shù)據(jù)。數(shù)據(jù)猶如通用機(jī)械地零部件,必須標(biāo)準(zhǔn)化才可以。大數(shù)據(jù)標(biāo)準(zhǔn)涉及到每一個(gè)行業(yè),也涉及到各種各樣的業(yè)務(wù)。大數(shù)據(jù)標(biāo)準(zhǔn)涉及數(shù)據(jù)的標(biāo)準(zhǔn)、數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)、業(yè)務(wù)的標(biāo)準(zhǔn)、業(yè)務(wù)流程的標(biāo)準(zhǔn)、信息系統(tǒng)標(biāo)準(zhǔn)等。在大數(shù)據(jù)時(shí)代,一定要在信息系統(tǒng)中采用統(tǒng)一的、標(biāo)準(zhǔn)的、規(guī)范的自然言,盡量避免用代碼。這是確保數(shù)據(jù)獨(dú)立性、數(shù)據(jù)的完整性和數(shù)據(jù)的識(shí)別性,降低數(shù)據(jù)與系統(tǒng)的耦合度的必要措施。7、數(shù)據(jù)與系統(tǒng)的耦合性數(shù)據(jù)與系統(tǒng)的耦合性:數(shù)據(jù)與系統(tǒng)的耦合度越高,數(shù)據(jù)對系統(tǒng)的依賴程度就越高。當(dāng)數(shù)據(jù)對系統(tǒng)的依賴程度比較高時(shí),數(shù)據(jù)一旦脫離了原有的系統(tǒng)就變成了無意義的數(shù)據(jù)。如果說一個(gè)數(shù)據(jù)不需要任何信息系統(tǒng)的解讀,用戶就能讀懂,那么該數(shù)據(jù)與信息系統(tǒng)的耦合度為零。針對的問題:關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與信息系統(tǒng)的耦合度非常高。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、與數(shù)據(jù)結(jié)構(gòu)、與應(yīng)用程序是密不可分的,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離了原信息系統(tǒng)到了大數(shù)據(jù)環(huán)境中之后,就變成了無意義的數(shù)據(jù)。數(shù)據(jù)優(yōu)化方法七:必須確保每一個(gè)數(shù)據(jù)與信息系統(tǒng)的耦合度為零。以適當(dāng)?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)具有獨(dú)立性、完整性、識(shí)別性、規(guī)范性、唯一性、歸屬性,以數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的識(shí)別性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性而確保每一個(gè)數(shù)據(jù)都是與信息系統(tǒng)耦合度為零的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)來源于成千上萬家單位的系統(tǒng),因此,大數(shù)據(jù)中的數(shù)據(jù)應(yīng)該是與系統(tǒng)的耦合度為零的數(shù)據(jù),否則就需要編寫很多的應(yīng)用程度來解讀數(shù)據(jù),這會(huì)增加處理數(shù)據(jù)的難度、成本。人們用自然語言所編寫的各種文章就是相應(yīng)專業(yè)的人員可直接讀懂的,不需要任何的信息系統(tǒng)的解讀,因此,這種數(shù)據(jù)與信息系統(tǒng)的耦合度為零。在大數(shù)據(jù)中,其數(shù)據(jù)量數(shù)以千億條計(jì),如果其中的每一個(gè)數(shù)據(jù)都與系統(tǒng)都有一定的耦合度,那么就需要編寫海量的程序才能解讀大數(shù)據(jù)。如果說大數(shù)據(jù)中的每一個(gè)數(shù)據(jù)都是與信息系統(tǒng)的耦合度為零的數(shù)據(jù),那么在處理大數(shù)據(jù)時(shí),就不必再編寫任何程序?qū)?shù)據(jù)進(jìn)行解讀。關(guān)系數(shù)據(jù)庫的設(shè)計(jì)者習(xí)慣用代碼來表示各種數(shù)據(jù)。例如,有的設(shè)計(jì)人員用“0”代表女性,用“1”代表男性,而有的設(shè)計(jì)人員用“W”代表女性,用“M”代表男性。面對成千上萬的信息系統(tǒng)所產(chǎn)生的數(shù)千億條以上的數(shù)據(jù),這種不標(biāo)準(zhǔn)、不規(guī)范的代碼就會(huì)為大數(shù)據(jù)挖掘帶來巨大災(zāi)難。用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)之所以會(huì)產(chǎn)生嚴(yán)重的信息孤島問題,一個(gè)重要原因在于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)是不完整的、不獨(dú)立的、難以識(shí)別的。關(guān)系數(shù)據(jù)庫是用各種“關(guān)系”來表達(dá)各種事物間的關(guān)系。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與關(guān)系數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)以及相應(yīng)的應(yīng)用程序密不可分,一旦分開,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)將會(huì)變成無意義的數(shù)據(jù),正是這種“關(guān)系”導(dǎo)致關(guān)系數(shù)據(jù)庫必然產(chǎn)生“信息孤島”?!叭f能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)與數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)及應(yīng)用程序無關(guān),可以完全脫離數(shù)據(jù)庫系統(tǒng)、表結(jié)構(gòu)及應(yīng)用程序而獨(dú)立地存在?!氨硪弧敝械臄?shù)據(jù)是經(jīng)過結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議進(jìn)行優(yōu)化后的數(shù)據(jù),這樣的數(shù)據(jù)即使脫離表結(jié)構(gòu)也能表達(dá)出原來的含義。大數(shù)據(jù)的原則:盡量避免代碼,盡量用標(biāo)準(zhǔn)的自然語言。判斷數(shù)據(jù)是不是合格的大數(shù)據(jù)的方法:與信息系統(tǒng)耦合度為零的數(shù)據(jù)才有資格成為合格的大數(shù)據(jù)。推論:由于當(dāng)前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)全部都是與信息系統(tǒng)密切耦合的數(shù)據(jù),所以當(dāng)前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)都不是合格的大數(shù)據(jù)。8、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性:合格的結(jié)構(gòu)化大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)必須是統(tǒng)一的。目前只有“萬能數(shù)據(jù)結(jié)構(gòu)表”可以使數(shù)據(jù)實(shí)現(xiàn)“數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”。針對的問題:各個(gè)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)各不相同。數(shù)據(jù)優(yōu)化方法八:結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議利用“萬能數(shù)據(jù)結(jié)構(gòu)表”(如下表四所示)來實(shí)現(xiàn)數(shù)據(jù)的“數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議不充許設(shè)計(jì)人員設(shè)計(jì)任何數(shù)據(jù)結(jié)構(gòu),所有結(jié)構(gòu)化數(shù)據(jù)都必須存貯在一張,或若干張結(jié)構(gòu)完全一樣的、標(biāo)準(zhǔn)的、統(tǒng)一的表中。用關(guān)系數(shù)據(jù)庫理論做不到數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)化。表四:萬能數(shù)據(jù)結(jié)構(gòu)表可實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性關(guān)系數(shù)據(jù)庫的最大問題就是數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)。關(guān)系數(shù)據(jù)庫理論對數(shù)據(jù)結(jié)構(gòu)沒有任何限制,完全由設(shè)計(jì)人員自由定義數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化是處理大數(shù)據(jù)的基礎(chǔ),數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)會(huì)導(dǎo)致數(shù)據(jù)處理非常困難。9、數(shù)據(jù)的累加性數(shù)據(jù)的累加性:是指“使數(shù)據(jù)可以(猶如圖書那樣)不經(jīng)任何處理即可累加在一起”。針對的問題:當(dāng)前的關(guān)系數(shù)據(jù)庫系統(tǒng)已產(chǎn)生了很多數(shù)據(jù),然而這些數(shù)據(jù)都不能累加成大數(shù)據(jù)。數(shù)據(jù)優(yōu)化方法九:數(shù)據(jù)的累加性可通過“數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性、數(shù)據(jù)的識(shí)別性、數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)與系統(tǒng)的耦合性、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”來實(shí)現(xiàn)的,也可以說只有同時(shí)擁有這些屬性的數(shù)據(jù)才具有累加性。傳統(tǒng)的寫在紙上的信息具有可累加性,圖書館就是眾多圖書之和,檔案館就是眾多檔案之和。數(shù)據(jù)若具有累加性,那么,廣州市政府各部門的數(shù)據(jù)全部以鏡像方式集中存貯到云平臺(tái)之后就等于建立了廣州市大數(shù)據(jù),全國97.8萬家醫(yī)療機(jī)構(gòu)的所有數(shù)據(jù)全部以鏡像的方式上傳到國家醫(yī)療大數(shù)據(jù)中心就等于建成了國家醫(yī)療大數(shù)據(jù)??上У氖牵?dāng)前的各種信息系統(tǒng)中的數(shù)據(jù)不具有累加性。10、數(shù)據(jù)的移植性數(shù)據(jù)的移植性:“無論把數(shù)據(jù)移植到任何環(huán)境中,數(shù)據(jù)都能保持原有含義不變,能讓各種信息系統(tǒng)識(shí)別,能讓用戶識(shí)別”,這樣的數(shù)據(jù)才具有移植性。針對的問題:用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)難以互聯(lián)互通,即一個(gè)系統(tǒng)中數(shù)據(jù)不能移植到另一個(gè)系統(tǒng)中。數(shù)據(jù)優(yōu)化方法十:數(shù)據(jù)的移植性是通過“數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性、數(shù)據(jù)的識(shí)別性、數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)與系統(tǒng)的耦合性、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”來實(shí)現(xiàn)的,也可以說只有同時(shí)有具這些屬性的數(shù)據(jù)才具有移植性。數(shù)據(jù)的移植性關(guān)系到信息系統(tǒng)的互聯(lián)互通。具有移植性的數(shù)據(jù)才能任意地在各個(gè)系統(tǒng)之間互聯(lián)互通。數(shù)據(jù)的移植性與數(shù)據(jù)的累加性是一樣的,具有移植性的數(shù)據(jù)也具有累加性,只是數(shù)據(jù)的移植性是用來體現(xiàn)數(shù)據(jù)是否可以在各個(gè)系統(tǒng)之間互聯(lián)互通,數(shù)據(jù)的累加性指的是能否把眾多的小數(shù)據(jù)累加成大數(shù)據(jù)。11、數(shù)據(jù)的時(shí)間性數(shù)據(jù)的時(shí)間性:大數(shù)據(jù)中的每一個(gè)數(shù)據(jù)都應(yīng)有相應(yīng)的時(shí)間。數(shù)據(jù)優(yōu)化方法十一:為每一個(gè)數(shù)據(jù)增加時(shí)間戳。12、數(shù)據(jù)的真實(shí)性數(shù)據(jù)的真實(shí)性:小數(shù)據(jù)猶如自己記帳而產(chǎn)生的數(shù)據(jù),大數(shù)據(jù)猶如不同單位之間的資金來往而產(chǎn)生的數(shù)據(jù),因此大數(shù)據(jù)的真實(shí)性就是非常重要的。數(shù)據(jù)優(yōu)化方法十二:必須把數(shù)據(jù)防偽、數(shù)據(jù)防篡改當(dāng)作重要工作,可通過第三方認(rèn)證、第三方公證、第三方數(shù)據(jù)備案的方法使數(shù)據(jù)的真實(shí)性得到保證。說明2:數(shù)據(jù)的唯一性是實(shí)現(xiàn)“數(shù)據(jù)全球通”的基礎(chǔ)在班、組這樣的小環(huán)境中可以用每個(gè)人的姓名而區(qū)分出每一個(gè)人,然而在全國范圍內(nèi),由于人數(shù)太多,重名的很多,因此僅靠姓名就不能準(zhǔn)確無誤地識(shí)別出每一個(gè)人。大數(shù)據(jù)時(shí)代以前的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只是應(yīng)用于某個(gè)機(jī)構(gòu)內(nèi)部,因此各個(gè)數(shù)據(jù)就容易識(shí)別,然而如果把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)放到大數(shù)據(jù)環(huán)境中,那么這些數(shù)據(jù)就成了不可識(shí)別的數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,有關(guān)人的所有數(shù)據(jù)都必須含有“身份證號(hào)”,這是為了表明數(shù)據(jù)的唯一性。關(guān)系數(shù)據(jù)庫用“ID”來表明每張表中的數(shù)據(jù)的唯一性。關(guān)系數(shù)據(jù)庫所考慮的只是一張表中的數(shù)據(jù)的唯一性問題,而未考慮大數(shù)據(jù)環(huán)境中的數(shù)據(jù)唯一性問題。例如,在很多醫(yī)療信息系統(tǒng)中,只是用“門診號(hào)”、“住院號(hào)”來標(biāo)識(shí)患者的信息,而未含有患者的身份證號(hào)。如果要在國家醫(yī)療大數(shù)據(jù)環(huán)境中查詢某個(gè)患者的病史數(shù)據(jù),那么,就會(huì)由于患者的數(shù)據(jù)中未含有身份證號(hào)而為查詢造成非常大的困難,因?yàn)榛颊叩牟∈窋?shù)據(jù)有可能包含在全國97.8萬家醫(yī)療機(jī)構(gòu)所產(chǎn)生的數(shù)百萬張以上的表中。在大數(shù)據(jù)環(huán)境中,每個(gè)事物的數(shù)據(jù)的“數(shù)據(jù)的唯一性”就是一個(gè)非常重要的問題。“數(shù)據(jù)的唯一性”是確保數(shù)據(jù)在大數(shù)據(jù)環(huán)境中具有“數(shù)據(jù)的識(shí)別性”的一個(gè)關(guān)鍵。例如,在生產(chǎn)廠家、經(jīng)銷商的信息系統(tǒng)中,同一件商品的代號(hào)都必須是全球唯一的、統(tǒng)一的、標(biāo)準(zhǔn)的,這樣才能確保在大數(shù)據(jù)環(huán)境中數(shù)據(jù)是可識(shí)別的。然而,目前國際上還未做到這一點(diǎn),各家企業(yè)的信息系統(tǒng)都有自己的編碼方式,各不相同,針對同一種商品,不同企業(yè)的編碼是不一樣的,這為數(shù)據(jù)的全球通及大數(shù)據(jù)分析造成了很大的困難。合格的大數(shù)據(jù)應(yīng)該是:在藥店買一盒藥,可以根據(jù)這盒藥上面的唯一的編碼而查詢到這盒藥的整個(gè)生產(chǎn)、流通環(huán)節(jié)各種相關(guān)情況,是哪個(gè)廠家生產(chǎn)的,何時(shí)生產(chǎn),何時(shí)出廠,中間經(jīng)過了哪幾個(gè)中間商。世界經(jīng)濟(jì)最需要的是“數(shù)據(jù)全球通”,即全球所有企業(yè)的信息系統(tǒng)中的各種數(shù)據(jù)都可以“互聯(lián)互通”,或者說“全球任何兩個(gè)企業(yè)的信息系統(tǒng)之間都可以及時(shí)地發(fā)送、接收任何商品的數(shù)據(jù)?!碑?dāng)前的實(shí)際情況是:每家企業(yè)都有獨(dú)有的產(chǎn)品編碼規(guī)則,當(dāng)企業(yè)接到訂單時(shí),還需要手工把訂單數(shù)據(jù)轉(zhuǎn)換為自己的信息系統(tǒng)可識(shí)別的數(shù)據(jù),然后自己的系統(tǒng)才能處理客戶的訂單數(shù)據(jù),只有極少數(shù)的企業(yè)的信息系統(tǒng)可以直接處理上游企業(yè)發(fā)來的數(shù)據(jù)。這種“全球數(shù)據(jù)都不通”的現(xiàn)象的根本原因就在于當(dāng)前的數(shù)據(jù)缺乏“數(shù)據(jù)的唯一性”,沒有國際統(tǒng)一的、標(biāo)準(zhǔn)的商品編碼標(biāo)準(zhǔn)為“數(shù)據(jù)的唯一性”提供支持。要跟蹤一種商品在世界各地的流通情況,“數(shù)據(jù)的唯一性”是基礎(chǔ)。一種商品的數(shù)據(jù)會(huì)出現(xiàn)在全球數(shù)百萬個(gè)企業(yè)的信息系統(tǒng)中,只有體現(xiàn)“數(shù)據(jù)的唯一性”的大數(shù)據(jù)識(shí)別碼才能準(zhǔn)確無誤地從數(shù)百萬個(gè)信息系統(tǒng)中把這種商品的數(shù)據(jù)識(shí)別出來。全球大數(shù)據(jù)統(tǒng)一編碼、解碼(可稱作為大數(shù)據(jù)識(shí)別碼)是大數(shù)據(jù)中的一項(xiàng)非常重要的工作,也是一項(xiàng)非常復(fù)雜的工作。在國際貿(mào)易中訂單、商品的全球統(tǒng)一編碼、解碼就非常重要,這是商品“數(shù)據(jù)全球通”的基礎(chǔ)。對企業(yè)而言,在大數(shù)據(jù)時(shí)代,訂單、商品數(shù)據(jù)的國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)是全球企業(yè)實(shí)現(xiàn)“數(shù)據(jù)全球通”的基礎(chǔ)。沒有訂單、商品的標(biāo)準(zhǔn),企業(yè)就不能進(jìn)入到大數(shù)據(jù)時(shí)代。說明3:數(shù)據(jù)的歸屬性是區(qū)分大數(shù)據(jù)與小數(shù)據(jù)的一個(gè)關(guān)鍵如果從關(guān)系數(shù)據(jù)庫理論的角度來看,增加“數(shù)據(jù)來源”會(huì)使系統(tǒng)中產(chǎn)生大量的冗余數(shù)據(jù)。然而,在大數(shù)據(jù)時(shí)代,所要處理的數(shù)據(jù)來源于數(shù)百萬個(gè)以上的信息系統(tǒng),因此,就非常有必要說清楚各個(gè)數(shù)據(jù)從何而來,不然,就無法區(qū)分眾多的數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,“數(shù)據(jù)來源”就是非常關(guān)鍵的數(shù)據(jù),也是必不可少的。在大數(shù)據(jù)中,為每一個(gè)數(shù)據(jù)都增加“數(shù)據(jù)來源”數(shù)據(jù)項(xiàng)的目的就是讓數(shù)據(jù)無論在哪里都能獨(dú)立地、完整地表達(dá)出其完整的含義。數(shù)據(jù)如物,人類社會(huì)的各種物都有其主,數(shù)據(jù)也應(yīng)有其主。區(qū)分大數(shù)據(jù)與小數(shù)據(jù)的一個(gè)關(guān)鍵指標(biāo)就是數(shù)據(jù)中是否含有“數(shù)據(jù)來源”。凡是不含有“數(shù)據(jù)來源”的數(shù)據(jù)都是小數(shù)據(jù),都是不合格的結(jié)構(gòu)化大數(shù)據(jù),這是關(guān)系數(shù)據(jù)庫高手很難理解的,然而這也是數(shù)據(jù)庫技術(shù)人員的思想觀念是否已轉(zhuǎn)到大數(shù)據(jù)時(shí)代的一個(gè)標(biāo)志。大數(shù)據(jù)所面對的是:數(shù)十萬家以上的單位,數(shù)百萬個(gè)以上的信息系統(tǒng),數(shù)千萬以上的表,數(shù)萬億以上的數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,沒有“數(shù)據(jù)來源”就會(huì)引起大混亂。在大數(shù)據(jù)時(shí)代,有了“數(shù)據(jù)來源”可以大幅度減少編寫程序代碼的行數(shù),在數(shù)據(jù)交換時(shí)就需要有“數(shù)據(jù)來源”,數(shù)據(jù)共享時(shí),需要有“數(shù)據(jù)來源”。說明4:數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化是實(shí)現(xiàn)萬能查詢的關(guān)鍵結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是在模仿大腦的記憶、聯(lián)想、思維的基礎(chǔ)上而創(chuàng)立的,開始于1982年,當(dāng)時(shí)是希望計(jì)算機(jī)能模仿人的大腦的聯(lián)想功能(即查詢)。人的大腦在處理數(shù)據(jù)時(shí)所采用的技術(shù)是“超級(jí)高保真數(shù)據(jù)處理技術(shù)”。“數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化是實(shí)現(xiàn)萬能查詢的關(guān)鍵”,這需要從人的大腦的超級(jí)高保真數(shù)據(jù)處理技術(shù)的角度來理解。目前人們都是從計(jì)算機(jī)技術(shù)的角度來解讀什么是“數(shù)據(jù)”,實(shí)際上從人的大腦記憶、聯(lián)想、思維的角度來解讀什么是“數(shù)據(jù)”才是最合適的。人的大腦是大自然界最優(yōu)秀的“計(jì)算機(jī)”。人的大腦中所存貯的才是真正合格的“數(shù)據(jù)”。人的大腦中的“數(shù)據(jù)”是“超級(jí)高保真數(shù)據(jù)”。人的大腦中的數(shù)據(jù)都是模擬數(shù)據(jù),幾乎是不失真的,是超級(jí)的高保真數(shù)據(jù),是真正的數(shù)據(jù),能非常真實(shí)地反映自然界的各種事物,是自然界的各種事物的在大腦中的一個(gè)縮影。人的大腦中的數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系是以事物的自然屬性而自然地建立起來的自然關(guān)系,可以真實(shí)地反映到自然界的各種事物之間微妙關(guān)系,這才是大腦具有超強(qiáng)功能的根本。計(jì)算機(jī)中的數(shù)據(jù)是死的,人的大腦中的信息是活的。大腦可以突破時(shí)間、空間,隨時(shí)地激活大腦中的“各種事物”,回放過去的各種場景。計(jì)算機(jī)也可以放電影,但是計(jì)算機(jī)不能為電影中的各個(gè)事物建立聯(lián)想關(guān)系。人的大腦可以由一個(gè)場景而聯(lián)想到另一個(gè)場景,計(jì)算機(jī)就不能。大腦在回憶北京的故宮、長城時(shí),眨眼間就可回憶起在上海的黃埔,又一眨眼就跑到了貴州黃果樹。大腦可實(shí)現(xiàn)“瞬間數(shù)千年,眨眼九萬里”。計(jì)算機(jī)中的數(shù)據(jù)與數(shù)據(jù)之間沒有什么關(guān)系,然而任何輸入到人的大腦中的事物的信息,人的大腦都會(huì)自動(dòng)地與大腦中的相關(guān)事物信息之間形成聯(lián)想關(guān)系,這種聯(lián)想關(guān)系是根據(jù)事物的自然屬性而建立的。人的大腦的超級(jí)高保真數(shù)據(jù)處理技術(shù)主要有四種:1、超級(jí)高保真數(shù)據(jù)采集技術(shù);2、超級(jí)高保真數(shù)據(jù)存貯及再現(xiàn)技術(shù);3、超級(jí)高保真形成數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系技術(shù)(形成聯(lián)想關(guān)系);4、超級(jí)高保真利用數(shù)據(jù)之間的關(guān)系技術(shù)(即以聯(lián)想來處理數(shù)據(jù))。用當(dāng)前的技術(shù)可以比較好地模仿大腦的“超級(jí)高保真數(shù)據(jù)采集技術(shù)”及“超級(jí)高保真數(shù)據(jù)存貯及再現(xiàn)技術(shù)”。然而現(xiàn)有技術(shù)無法全面實(shí)現(xiàn)(甚至說根本無法模仿)大腦的“超級(jí)高保真形成數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系技術(shù)”和大腦的“超級(jí)高保真數(shù)據(jù)處理技術(shù)”,這兩種技術(shù)才是大腦具有超級(jí)功能的根本。超級(jí)高保真數(shù)據(jù)采集技術(shù):大腦是通過視覺、聽覺、觸覺、嗅覺、味覺、痛覺等感覺器官而采集數(shù)據(jù)。超級(jí)高保真存貯及真實(shí)再現(xiàn)數(shù)據(jù)技術(shù):大腦不但可以以超級(jí)高保真的形式存貯數(shù)據(jù),猶如把自然界的事物“搬”到了大腦中,而且還可突破時(shí)間、空間使以往的事物隨意再現(xiàn)(聯(lián)想)。大腦中的數(shù)據(jù)是自然界真實(shí)的具體的事物的縮影。超級(jí)高保真建立數(shù)據(jù)之間的關(guān)系技術(shù):大腦不但可以采集、存貯數(shù)據(jù),更重要的是,大腦可以自動(dòng)地讓數(shù)據(jù)在大腦中形成相似聯(lián)想、接近聯(lián)想、同時(shí)聯(lián)想關(guān)系。大腦中的數(shù)據(jù)聯(lián)想關(guān)系是根據(jù)事物的自然屬性而自然地建立的。大腦不只是超級(jí)高保真存貯了數(shù)據(jù),而且還超級(jí)高保真地存貯了數(shù)據(jù)與數(shù)據(jù)之間的自然關(guān)系。這是現(xiàn)有技術(shù)難以模仿的。超級(jí)高保真利用數(shù)據(jù)之間的關(guān)系技術(shù)(數(shù)據(jù)處理技術(shù)):計(jì)算機(jī)所處理的只是數(shù)字信號(hào),而人的大腦所處理的全是模擬信號(hào)。大腦以相似聯(lián)想、同時(shí)聯(lián)想、接近聯(lián)想等方式處理超級(jí)高保真的模擬數(shù)據(jù)(即大腦思維)?,F(xiàn)有技術(shù)根本無法全面模仿這種技術(shù),只能局部模仿。下面用事例比較詳細(xì)地說明“大腦的超級(jí)高保真數(shù)據(jù)處理技術(shù)”。主要說明:自然事物、事物的屬性、大腦根據(jù)事物的屬性而進(jìn)行聯(lián)想、推理,以及數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)想關(guān)系是根據(jù)事物的自然屬性而建立的。1、“人可以通過聽聲音而判斷出你是在敲鐵塊,還是在敲木頭?!边@是因?yàn)?,在人的大腦的記憶中,敲鐵塊發(fā)出的聲音已非常自然地與鐵塊聯(lián)系在一起,敲木頭的聲音已非常自然地與木頭自然地聯(lián)系在一起,這些信息都是人們在日常生活中所接收到的。因此,人們可以通過聲音而聯(lián)想到相應(yīng)的事物。計(jì)算機(jī)也可以存貯音像文件,然而計(jì)算機(jī)不能實(shí)現(xiàn)聲音與圖像之間的自然聯(lián)系,也不能靈活地識(shí)別聲音和圖像。2、“我在手中輕輕地把松花蛋拋起幾次,就可以判斷出這個(gè)松花蛋是不是好的?!边@是因?yàn)楹玫乃苫ǖ霸谑种休p拋時(shí),手掌就會(huì)感到一種輕微的顫動(dòng),而生雞蛋、熟雞蛋就不會(huì)產(chǎn)生顫動(dòng),壞的松花蛋也不會(huì)產(chǎn)生顫動(dòng)。在我的大腦的記憶中,顫動(dòng)已與松花蛋自然地建立了聯(lián)系。3、“買雞蛋時(shí),把雞蛋拿在手中輕輕地?fù)u一搖就可以判斷出雞蛋的好壞?!眽碾u蛋,或者說放時(shí)間長的雞蛋,用手輕輕地?fù)u一搖,雞蛋里面的蛋黃、蛋清就會(huì)動(dòng),而好雞蛋中的蛋黃蛋清就不會(huì)動(dòng)。在我的大腦記憶中,這些有關(guān)雞蛋的信息,已自然地與雞蛋的好壞建立起了聯(lián)系。4、“看見窗外樹在動(dòng),就知道刮風(fēng)了。”人的大腦中已存貯了風(fēng)吹樹動(dòng)的信息。5、“看見窗外的樹在動(dòng),就知道那是有人在搖樹?!币?yàn)槿藫u樹與風(fēng)吹樹是不一樣的。風(fēng)吹樹,很多樹都動(dòng)。人搖樹,只有一棵樹在動(dòng),其它樹不動(dòng)。而且人搖樹引起的樹動(dòng),與風(fēng)吹樹引起的樹動(dòng)是有差別的。與人的大腦相比,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)幾乎是百分之百的失真數(shù)據(jù)。關(guān)系數(shù)據(jù)庫是人為地為數(shù)據(jù)建立關(guān)系,關(guān)系數(shù)據(jù)庫理論認(rèn)為這是關(guān)系數(shù)據(jù)庫的最突出的優(yōu)勢,然而這才是關(guān)系數(shù)據(jù)庫的最致命的缺陷!因?yàn)?,人為地為?shù)據(jù)建立關(guān)系,破壞了自然界的事物之間本身的自然聯(lián)系。關(guān)系數(shù)據(jù)庫不能象人的大腦那樣根據(jù)事物的自然屬性而建立聯(lián)系。關(guān)系數(shù)據(jù)庫的一個(gè)優(yōu)點(diǎn)是數(shù)據(jù)冗余非常小。然而這也是關(guān)系數(shù)據(jù)庫的致命缺陷!因?yàn)殛P(guān)系數(shù)據(jù)庫在降低了數(shù)據(jù)冗余的同時(shí)也導(dǎo)致數(shù)據(jù)嚴(yán)重失真。嚴(yán)重失真的數(shù)據(jù)就不能根據(jù)事物的自然屬性而自然地建立關(guān)系。關(guān)系數(shù)據(jù)庫把數(shù)據(jù)存貯在不同的表中,這樣就割裂了事物與事物之間的自然屬性之間的關(guān)系。關(guān)系數(shù)據(jù)庫把同一類事物的數(shù)據(jù)存貯在同一張表中,不同類的事物的數(shù)據(jù)存貯在不同的表中。大腦是根據(jù)事物的自然屬性而對事物進(jìn)行分類,事物是不是同一類,由事物的自然屬性決定,擁有相同屬性的事物就是同一類事物。塑料盆、塑料杯子、塑料袋子、塑料桶,形態(tài)各不相同,大腦是根據(jù)塑料的自然屬性而把它們歸為一類。對于塑料杯子、玻璃杯子、鋼杯子,大腦是根據(jù)“杯子”的自然屬性而把它們歸為一類。大腦中的數(shù)據(jù)都在同一張表中,大腦根據(jù)事物的自然屬性就可以非常靈活地對各種數(shù)據(jù)進(jìn)行分類?!皵?shù)據(jù)”并不只是一個(gè)代號(hào)、符號(hào),真正的“數(shù)據(jù)”應(yīng)該是自然界的具體事物的縮影。人的大腦可以把敲鐵塊所發(fā)出的聲音自然地與鐵聯(lián)系在一起,關(guān)系數(shù)據(jù)庫就不能讓“數(shù)據(jù)”實(shí)現(xiàn)這樣的自然聯(lián)系。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議模仿了大腦的超級(jí)高保真數(shù)據(jù)處理技術(shù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是要堅(jiān)決鏟除關(guān)系數(shù)據(jù)庫中的“人為關(guān)系”,讓數(shù)據(jù)獨(dú)立地、自然地根據(jù)事物的自然屬性而建立“自然的關(guān)系”。關(guān)系數(shù)據(jù)庫中的關(guān)系是人為建立的,破壞了事物之間的自然關(guān)系。要想使計(jì)算機(jī)接近人的大腦的超級(jí)思維功能,就必須象大腦那樣使數(shù)據(jù)盡量地少失真,使數(shù)據(jù)能夠根據(jù)事物的自然屬性而建立自然的關(guān)系。也必須堅(jiān)決地鏟除人為地為數(shù)據(jù)建立的關(guān)系,因?yàn)槿藶榈年P(guān)系肯定會(huì)破壞數(shù)據(jù)與數(shù)據(jù)之間的自然關(guān)系。計(jì)算機(jī)中的“數(shù)據(jù)”的概念非常狹隘?!皵?shù)據(jù)”不應(yīng)該只是“數(shù)字”、“代號(hào)”,而且還應(yīng)該是自然界的事物的真實(shí)反映,更重要的是也應(yīng)該反映出“數(shù)據(jù)”與“數(shù)據(jù)”之間的自然關(guān)系。計(jì)算機(jī)中的“手機(jī)”只是數(shù)字,而人的大腦中的“手機(jī)”卻是真實(shí)的“手機(jī)”的真實(shí)的反映,大腦通過視覺、聽覺、觸覺接收到了海量的有關(guān)“手機(jī)”的各種各樣的信號(hào)。合格的“數(shù)據(jù)”應(yīng)該是失真程度最少的,能夠比較全面地反映具體的事物,也能真實(shí)反映出事物之間的自然關(guān)系。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不能真實(shí)地反映出數(shù)據(jù)與數(shù)據(jù)之間的自然關(guān)系。數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系絕對不能人為地建立,而應(yīng)該是由事物本身的自然屬性而自然地建立關(guān)系。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是通過一定量的“數(shù)據(jù)冗余”而使數(shù)據(jù)盡量地少失真,使“數(shù)據(jù)”與“數(shù)據(jù)”之間自然地根據(jù)事物的自然屬性而建立“自然的關(guān)系”。“信息系統(tǒng)名、數(shù)據(jù)庫名、表名、字段名”要用標(biāo)準(zhǔn)化的、統(tǒng)一的、規(guī)范的自然語言,盡量不用代碼,以便實(shí)現(xiàn)“聯(lián)想”。信息系統(tǒng)的名稱、數(shù)據(jù)庫的名稱、表名、字段名都是非常重要的事物屬性,都具有重要含義。關(guān)系數(shù)據(jù)庫系統(tǒng)的設(shè)計(jì)人員習(xí)慣于用代碼、英文縮寫、漢語拼音縮寫作為數(shù)據(jù)庫名、表名、字段名。這就導(dǎo)致普通用戶看不懂關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫忽視了這種信息,因?yàn)樗幚淼氖切?shù)據(jù)。在大數(shù)據(jù)環(huán)境中,這些信息就是非常重要的,不能缺省。在結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議中,為了使數(shù)據(jù)具有獨(dú)立性、完整性、可識(shí)別性,在每個(gè)數(shù)據(jù)中都增加了“信息系統(tǒng)的名稱、數(shù)據(jù)庫的名稱、表名”,“信息系統(tǒng)的名稱、數(shù)據(jù)庫的名稱、表名”實(shí)際上是事物的“分類”,或者說是事物的屬性。這種做法是關(guān)系數(shù)據(jù)高手所難以理解的、不可思議的,因?yàn)檫@種做法增加了大量的數(shù)據(jù)冗余。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議在“數(shù)據(jù)冗余”與“數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的識(shí)別性、數(shù)據(jù)與系統(tǒng)的耦合度”之間選擇后者。其目的是讓不懂技術(shù)的普通人也能看懂?dāng)?shù)據(jù)的真實(shí)含義。關(guān)系數(shù)據(jù)庫的數(shù)據(jù)冗余非常少,但其代價(jià)是,不懂技術(shù)的普通人看不懂關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)只能存貯在相應(yīng)的數(shù)據(jù)庫中,一旦脫離了相應(yīng)的數(shù)據(jù)庫就變成了無意義的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)需要通過大量的應(yīng)用程序的翻譯才能讓普通用戶讀懂。如果數(shù)據(jù)庫中的數(shù)據(jù)都是標(biāo)準(zhǔn)化的、規(guī)范化的,那么,這些數(shù)據(jù)就可以自然地根據(jù)“萬能數(shù)據(jù)結(jié)構(gòu)表”中的“事物屬性”和“事物屬性值”而自動(dòng)地聯(lián)立起自然的“聯(lián)想”關(guān)系(通過索引而建立)。由于利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)全部存貯在一張,或若干張結(jié)構(gòu)完全一樣的“萬能數(shù)據(jù)結(jié)構(gòu)表”中,所以可以很容易地編寫出通用的“萬能查詢”工具。例如,如果全國的各種醫(yī)療信息系統(tǒng)都是用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議而建立的,那么就可以通過患者的身份證號(hào)而方便地從國家醫(yī)療大數(shù)據(jù)中心而“聯(lián)想”(查詢)到患者的病史數(shù)據(jù)。因?yàn)榛颊叩牟∈分械拿織l數(shù)據(jù)中都含有身份證號(hào)(大數(shù)據(jù)識(shí)別碼),通過患者的身份證號(hào)就可以“聯(lián)想”到與患者有關(guān)的所有數(shù)據(jù)。而當(dāng)前的各種醫(yī)療數(shù)據(jù)中不一定含有患者身份證號(hào),所以從全國各家醫(yī)院的信息系統(tǒng)中查詢患者的病史數(shù)據(jù)就非常困難。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議之所以用大量的“數(shù)據(jù)冗余”而使數(shù)據(jù)滿足12個(gè)技術(shù)特性,其根本目的就是為了使數(shù)據(jù)成為“高保真的數(shù)據(jù)”,“數(shù)據(jù)冗余”彌補(bǔ)了數(shù)據(jù)的失真,只有“高保真的數(shù)據(jù)”才能使信息系統(tǒng)可以象人的大腦那樣實(shí)現(xiàn)“超級(jí)高保真數(shù)據(jù)處理”。說明5:不必進(jìn)行ETL轉(zhuǎn)換即可高效挖掘并可實(shí)現(xiàn)萬能查詢要對當(dāng)前的全國的醫(yī)療數(shù)據(jù)進(jìn)行挖掘?qū)⑹欠浅@щy的,原因在于當(dāng)前的各種信息系統(tǒng)中的數(shù)據(jù)不標(biāo)準(zhǔn)、不規(guī)范。例如:醫(yī)療行業(yè)有數(shù)百萬張表,數(shù)千億條記錄,各表的結(jié)構(gòu)各不相同。對如此之多的結(jié)構(gòu)各不相同的表中的數(shù)據(jù)進(jìn)行挖掘、查詢,需要編寫大量的程度。如果全國的各家醫(yī)療機(jī)構(gòu)的各種信息系統(tǒng)全部是按結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議而設(shè)計(jì),那么對這樣的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)進(jìn)行挖掘、查詢將是很容易的。因?yàn)檫@些信息系統(tǒng)全都采用“萬能數(shù)據(jù)結(jié)構(gòu)表”,其中的數(shù)據(jù)全是標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的。表五:兩種方法的數(shù)據(jù)挖掘、查詢效果對比表“大數(shù)據(jù)的最關(guān)鍵技術(shù)是查詢技術(shù)”:大數(shù)據(jù)的特點(diǎn)是大,正因?yàn)榇螅氆@得所需數(shù)據(jù)特別困難,因此,從大數(shù)據(jù)中查詢到所需要的數(shù)據(jù)就是最關(guān)鍵的,然后才是對查詢到的數(shù)據(jù)的分析、統(tǒng)計(jì)。因此,可以說“大數(shù)據(jù)就是查詢”,大數(shù)據(jù)的前期工作是為查詢做準(zhǔn)備,大數(shù)據(jù)的后期工作是對查詢到數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析,大數(shù)據(jù)的各種工作都是以查詢?yōu)橹行亩归_的。說明6:利用結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性為大數(shù)據(jù)的真實(shí)性提供技術(shù)保障大數(shù)據(jù)是一種象石油一樣重要的資源。大數(shù)據(jù)的真實(shí)性是大數(shù)據(jù)的基礎(chǔ),失去了真實(shí)性的大數(shù)據(jù)就是數(shù)據(jù)垃圾。因此,在大數(shù)據(jù)時(shí)代,如何確保大數(shù)據(jù)的真實(shí)性,就是一項(xiàng)非常重要的任務(wù)。在小數(shù)據(jù)時(shí)代,各種信息系統(tǒng)所處理的數(shù)據(jù)主要是各單位內(nèi)部的數(shù)據(jù),數(shù)據(jù)的真實(shí)性主要由各單位自已控制。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)不只是在各單位的內(nèi)部流通,更需要在國內(nèi)外各個(gè)單位之間流通,因此,大數(shù)據(jù)的真實(shí)性、公證性、權(quán)威性就需要得到保證,必須使大數(shù)據(jù)象公文那樣具有法律效力。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議從技術(shù)的角度為大數(shù)據(jù)的真實(shí)性提供了保障?!皵?shù)據(jù)的唯一性”是控制大數(shù)據(jù)的“數(shù)據(jù)的真實(shí)性”的關(guān)鍵?!皵?shù)據(jù)的唯一性”可通過大數(shù)據(jù)識(shí)別碼來體現(xiàn),控制大數(shù)據(jù)的“數(shù)據(jù)的真實(shí)性”可通過控制大數(shù)據(jù)的識(shí)別碼來實(shí)現(xiàn),大數(shù)據(jù)識(shí)別碼是事物的數(shù)據(jù)的“身份證”,一個(gè)事物的數(shù)據(jù)無論處于什么環(huán)境中,其大數(shù)據(jù)識(shí)別碼都是唯一的。大數(shù)據(jù)不只數(shù)據(jù)、代碼、符號(hào),也是一種資源,象一種商品,也象物品,也象財(cái)產(chǎn),因此要象對待資源、商品、物品、財(cái)產(chǎn)那樣來管理大數(shù)據(jù)。物流、人流需要大量的交通警察來控制,數(shù)據(jù)流也要控制。國家是通過工商局、海關(guān)等機(jī)構(gòu)來管理控制商品,大數(shù)據(jù)的真實(shí)性也需要采用類似工商局、海關(guān)管理控制商品的方法來管理控制,由各個(gè)國家的工商局(或法院、公安部、工信委等)的國家級(jí)大數(shù)據(jù)中心負(fù)責(zé)管理控制大數(shù)據(jù)的真實(shí)性比較合適。各種商品、訂單等的大數(shù)據(jù)識(shí)別碼由各國的國家級(jí)大數(shù)據(jù)中心負(fù)責(zé)編碼及發(fā)放工作,并對大數(shù)據(jù)識(shí)別碼進(jìn)行備案。國家級(jí)大數(shù)據(jù)中心負(fù)責(zé)各單位的各種資質(zhì)的審核工作,只有通過了國家級(jí)大數(shù)據(jù)中心審核的單位才有資格獲得的商品、訂單等的大數(shù)據(jù)識(shí)別碼。國家級(jí)大數(shù)據(jù)中心只負(fù)責(zé)發(fā)放大數(shù)據(jù)識(shí)別碼,不負(fù)責(zé)商品、訂單等的數(shù)據(jù)的真實(shí)性的審核。數(shù)據(jù)的真實(shí)性出現(xiàn)問題并發(fā)生糾紛時(shí)國家級(jí)大數(shù)據(jù)中心的“數(shù)據(jù)警察”對數(shù)據(jù)的真實(shí)性進(jìn)行審核,并根據(jù)審核結(jié)果而進(jìn)行相應(yīng)的處罰,并把結(jié)果記錄在案。猶如交通,司機(jī)對自己的行為負(fù)責(zé),只是出現(xiàn)交通事故時(shí),交警才出現(xiàn)。獲得了大數(shù)據(jù)識(shí)別碼的訂單、公文等要向國家級(jí)大數(shù)據(jù)中心或第三方公證機(jī)構(gòu)備案,有第三方公證機(jī)構(gòu)備案的訂單、公文等就猶如蓋了公章一樣具有法律效力。這樣做可以節(jié)約大量的紙質(zhì)文件,也節(jié)省訂單、公文等的傳遞的時(shí)間。企業(yè)獲得了商品的大數(shù)據(jù)識(shí)別碼后需要把商品相應(yīng)的各種數(shù)據(jù)上傳到國家級(jí)大數(shù)據(jù)中心進(jìn)行備案。企業(yè)的客戶可以根據(jù)商品的大數(shù)據(jù)編碼通過國家級(jí)大數(shù)據(jù)中心而獲得商品的各種數(shù)據(jù)。由于是全球統(tǒng)一編碼,各企業(yè)信息系統(tǒng)之間可以直接發(fā)送、接收訂單,并對訂單的內(nèi)容進(jìn)行解讀。訂單中的數(shù)據(jù)采用“萬能數(shù)據(jù)結(jié)構(gòu)表”來存貯,并使數(shù)據(jù)具有結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性。訂單中的各項(xiàng)“事物屬性”(猶如字段名)必須是全球統(tǒng)一的。訂單中的各項(xiàng)“事物屬性”用各種不同的語言來表達(dá)時(shí)會(huì)各不相同,因此,也需要制訂全球標(biāo)準(zhǔn),使各項(xiàng)“事物屬性”在各種語言中都能按國際標(biāo)準(zhǔn)一一對應(yīng)。這樣就可以設(shè)計(jì)出通用的數(shù)據(jù)解讀、翻譯軟件工具,由軟件工具自動(dòng)完成不同語言的訂單的翻譯工作。當(dāng)前的問題:全球企業(yè)的信息系統(tǒng)之間不能互聯(lián)互通。原因是各個(gè)系統(tǒng)所采用的數(shù)據(jù)編碼不統(tǒng)一、不規(guī)范,企業(yè)的信息系統(tǒng)之間不能直接發(fā)送接收訂單數(shù)據(jù),需要人工把訂單數(shù)據(jù)再次錄入到自己的系統(tǒng)中。大數(shù)據(jù)識(shí)別碼的好處:實(shí)現(xiàn)數(shù)據(jù)全球通。以及時(shí)、準(zhǔn)確、全面的數(shù)據(jù)流確保商品流等的順利流通。借助于大數(shù)據(jù)識(shí)別碼,企業(yè)可以利用全球數(shù)據(jù)十萬個(gè)、數(shù)百萬個(gè)信息系統(tǒng)而跟蹤商品在全球各地的銷售、庫存情況。全球企業(yè)信息系統(tǒng)互聯(lián)互通對供應(yīng)鏈上下游的企業(yè)都有好處,可為商品的生產(chǎn)、流通提供保障。國家級(jí)大數(shù)據(jù)中心對各種組織及個(gè)人使用大數(shù)據(jù)識(shí)別碼的資格的認(rèn)證:各種組織及個(gè)人都可以獲得使用大數(shù)據(jù)識(shí)別碼的資格,但在使用前需要通過國家級(jí)大數(shù)據(jù)中心的審核,審核合格后發(fā)給具有法律效力的“大數(shù)據(jù)電子印章”。經(jīng)國家級(jí)大數(shù)據(jù)中心審核、認(rèn)證后可獲得使用大數(shù)據(jù)識(shí)別碼的各種相關(guān)功能的資格,可以發(fā)布相關(guān)信息。國家級(jí)大數(shù)據(jù)中心的公證性、權(quán)威性確保了大數(shù)據(jù)的“數(shù)據(jù)真實(shí)性”。大數(shù)據(jù)擁有了“數(shù)據(jù)真實(shí)性”之后,可以廣泛地應(yīng)用各個(gè)領(lǐng)域。大數(shù)據(jù)識(shí)別碼在產(chǎn)品防假冒、藥品監(jiān)管方面具有廣泛的用途。企業(yè)可為每個(gè)商品申請一個(gè)大數(shù)據(jù)識(shí)別碼、一個(gè)驗(yàn)證碼。用戶購買到商品后,可通過手機(jī)根據(jù)商品的大數(shù)據(jù)識(shí)別碼而獲得驗(yàn)證碼,驗(yàn)證碼與商品上的相同則為正品,否則是假冒的,或者手機(jī)掃描二維碼即可得知是否假冒。用大數(shù)據(jù)識(shí)別碼可以方便地管理各種證件,證件的驗(yàn)證非常方便,只要根據(jù)大數(shù)據(jù)識(shí)別碼就可以在國家級(jí)大數(shù)據(jù)中心查到證件的信息。例如可用于如下證件管理:企業(yè)的各種資質(zhì),個(gè)人的各種證書,企業(yè)的各種認(rèn)證,公證書,房產(chǎn)證,商檢合格證,結(jié)婚證,畢業(yè)證,駕照(不必再出示駕照,說出號(hào)、或出示二維碼即可)。甚至不必再各種發(fā)證書,只要發(fā)一個(gè)大數(shù)據(jù)證書即可。用大數(shù)據(jù)識(shí)別碼可以方便地管理“合同、文件、契約、借條、聲明、各種承諾、票據(jù)、訂單、招標(biāo)文件、投標(biāo)文件”等。大數(shù)據(jù)中心也可以成為一個(gè)龐大的檔案管理系統(tǒng)。國際大數(shù)據(jù)中心為全球大數(shù)據(jù)的最高管理機(jī)構(gòu),由各個(gè)國家組成,負(fù)責(zé)全球大數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)范的制訂,為全球大數(shù)據(jù)立規(guī)矩。說明7:利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)具有累加性創(chuàng)立結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的初始想法:大數(shù)據(jù)就是數(shù)據(jù)量很大的數(shù)據(jù),當(dāng)前各行各業(yè)已有很多小數(shù)據(jù),這些小數(shù)據(jù)累加起來能不能稱作是大數(shù)據(jù)呢?可以稱作是大數(shù)據(jù),但不能稱作是合格的大數(shù)據(jù)。因?yàn)閷@些數(shù)據(jù)進(jìn)行挖掘非常困難!那么,如何使這些小數(shù)據(jù)以累加的方式成為合格的大數(shù)據(jù)?當(dāng)前的數(shù)據(jù)為什么不能累加成合格的大數(shù)據(jù)呢?因?yàn)殛P(guān)系數(shù)據(jù)庫產(chǎn)生的數(shù)據(jù)根本就不是真正的數(shù)據(jù),只能稱作是代碼!要真正了解什么是大數(shù)據(jù),需要首先搞清楚什么是“數(shù)據(jù)”,什么是“代碼”。數(shù)據(jù)的定義:“能讓相應(yīng)專業(yè)的人員看懂的信息才稱作是真正的數(shù)據(jù)?!崩?,有關(guān)醫(yī)療的數(shù)據(jù)應(yīng)該是相應(yīng)的醫(yī)學(xué)專業(yè)人員能直接看懂的數(shù)據(jù),不需要其它注釋、解釋;有關(guān)化學(xué)的數(shù)據(jù)應(yīng)該是化學(xué)專業(yè)的人員能看懂的數(shù)據(jù),不需要其它注釋、解釋。代碼的定義:“相應(yīng)專業(yè)的人員不能看懂的信息稱作代碼,相應(yīng)的專業(yè)人員需要利用相應(yīng)的應(yīng)用程序、軟件工具對代碼進(jìn)行翻譯、解讀、注釋之后才能看懂代碼的真實(shí)含義?!睂﹃P(guān)系數(shù)據(jù)庫而言,普通用戶所看到的數(shù)據(jù)都是通過信息系統(tǒng)對關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行解讀、翻譯、注釋之后的數(shù)據(jù),并不是關(guān)系數(shù)據(jù)庫中的原始數(shù)據(jù)。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具備“識(shí)別性、獨(dú)立性、完整性”,即直接把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)呈現(xiàn)給普通用戶時(shí),用戶不能“識(shí)別”這些“數(shù)據(jù)”,原因在于關(guān)系數(shù)據(jù)庫不能“獨(dú)立地”、“完整地”表達(dá)出應(yīng)有的含義。合格的數(shù)據(jù)的定義:只有能夠“獨(dú)立地(數(shù)據(jù)的獨(dú)立性)”(不依靠軟件的解讀、不依靠他人的解釋)、“完整地(數(shù)據(jù)的完整性)”表達(dá)出應(yīng)有的含義,并能夠讓人及其它信息系統(tǒng)“識(shí)別(數(shù)據(jù)的識(shí)別性)”的數(shù)據(jù)才是合格的數(shù)據(jù)。然而關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具備這樣的特性,原因在于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)是一種“與系統(tǒng)的耦合度非常高的數(shù)據(jù)”。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)與關(guān)系數(shù)據(jù)庫系統(tǒng)和應(yīng)用系統(tǒng)是密不可分的。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離了關(guān)系數(shù)據(jù)庫系統(tǒng)及應(yīng)用系統(tǒng),就成了不可識(shí)別的、無意義的數(shù)據(jù)。從結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性的角度可以這樣來描述關(guān)系數(shù)據(jù)庫中的數(shù)據(jù):由于關(guān)系數(shù)據(jù)庫中的“數(shù)據(jù)”與關(guān)系數(shù)據(jù)庫系統(tǒng)以及應(yīng)用系統(tǒng)密不可分(不具備“與系統(tǒng)的耦合性(耦合度為零)”),所以“數(shù)據(jù)”不能獨(dú)立地(不具備“獨(dú)立性”)、完整地(不具備“完整性”)讓人識(shí)別(不具備“可識(shí)別性”),也不能讓其它信息系統(tǒng)識(shí)別。由上述分析可得出這樣的結(jié)論:由于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)“與系統(tǒng)的耦合度非常高”,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一旦脫離了關(guān)系數(shù)據(jù)庫系統(tǒng)及應(yīng)用系統(tǒng),就成了不可識(shí)別的、無意義的數(shù)據(jù),所以關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)不具備累加性。由于當(dāng)前的各種信息系統(tǒng)基本上都是利用關(guān)系數(shù)據(jù)庫而開發(fā)的,所以當(dāng)前的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)不可能通過累加的方法而成為合格的大數(shù)據(jù)。用關(guān)系數(shù)據(jù)庫所建立的信息系統(tǒng)之所以難以互聯(lián)互通是因?yàn)檫@樣的信息系統(tǒng)所生成的數(shù)據(jù)沒有“移植性”,即數(shù)據(jù)不能直接從一個(gè)系統(tǒng)移植到另一個(gè)系統(tǒng),這是由大數(shù)據(jù)4V特性中的“數(shù)據(jù)類型多(Variety)”問題而引起的。如果各個(gè)信息系統(tǒng)全部都用“萬能數(shù)據(jù)結(jié)構(gòu)表”存貯數(shù)據(jù),那么“數(shù)據(jù)類型多(Variety)”問題就迎刃而解。目前只有“萬能數(shù)據(jù)結(jié)構(gòu)表”可使數(shù)據(jù)具有“結(jié)構(gòu)統(tǒng)一性”及“移植性”,也可使數(shù)據(jù)與信息系統(tǒng)脫離耦合關(guān)系。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是針對關(guān)系數(shù)據(jù)庫所存在的問題而創(chuàng)立的,目的是把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換為合格的大數(shù)據(jù)。解決方案是:利用“萬能數(shù)據(jù)結(jié)構(gòu)表”先讓數(shù)據(jù)“脫耦”,使數(shù)據(jù)具有“結(jié)構(gòu)統(tǒng)一性”,以“獨(dú)立性、完整性、規(guī)范性、唯一性、歸屬性”使數(shù)據(jù)具有“識(shí)別性”。利用現(xiàn)有技術(shù)即可使數(shù)據(jù)具有“識(shí)別性、獨(dú)立性、完整性、與系統(tǒng)的耦合性(耦合度為零)、結(jié)構(gòu)統(tǒng)一性”。然而僅利用現(xiàn)有技術(shù)還不能使數(shù)據(jù)真正具有“累加性”和“移植性”。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議以“唯一性、歸屬性、規(guī)范性”使數(shù)據(jù)真正具有“累加性”和“移植性”,并有效地解決了大數(shù)據(jù)4V中的“數(shù)據(jù)速度(velocity)”問題。使數(shù)據(jù)具有“唯一性、歸屬性、規(guī)范性”的方法才是結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的的核心技術(shù),是專為小數(shù)據(jù)轉(zhuǎn)化為大數(shù)據(jù)而創(chuàng)立的,看似沒什么技術(shù)含量,卻非常關(guān)鍵。數(shù)據(jù)的規(guī)范性對大數(shù)據(jù)的重要性:在小數(shù)據(jù)時(shí)代,各個(gè)信息系統(tǒng)基本上都在單位內(nèi)部使用。在大數(shù)據(jù)時(shí)代,信息系統(tǒng)之間的互聯(lián)互通,挖掘來源于不同的信息系統(tǒng)的數(shù)據(jù),就成了非常突出的問題,因此讓數(shù)據(jù)具有規(guī)范性就是非常必要的。如果說沒有“國際大數(shù)據(jù)標(biāo)準(zhǔn)、國家大數(shù)據(jù)標(biāo)準(zhǔn)、各行各業(yè)的大數(shù)據(jù)標(biāo)準(zhǔn)”,那么大數(shù)據(jù)時(shí)代就不可能到來。之所以極力強(qiáng)調(diào)數(shù)據(jù)標(biāo)準(zhǔn)的重要性,是因?yàn)榻Y(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議來源于模仿大腦的聯(lián)想及大腦的超級(jí)高保真數(shù)據(jù)處理技術(shù),只有數(shù)據(jù)全部標(biāo)準(zhǔn)化之后,數(shù)據(jù)與數(shù)據(jù)之間才能自動(dòng)地根據(jù)事物的自然屬性而自然地建立起聯(lián)想關(guān)系,有了聯(lián)想關(guān)系,大數(shù)據(jù)4V中的“數(shù)據(jù)速度快(velocity)”問題就可以迎刃而解!業(yè)內(nèi)無數(shù)人士想盡各種辦法都無法從根本上解決數(shù)據(jù)挖掘難的問題,其中的一個(gè)根本原因就在于當(dāng)前的各個(gè)信息系統(tǒng)中的數(shù)據(jù)全部是不標(biāo)準(zhǔn)的、不規(guī)范的。如果各個(gè)信息系統(tǒng)中的數(shù)據(jù)都是規(guī)范的、統(tǒng)一的,數(shù)據(jù)挖掘就會(huì)很容易。數(shù)據(jù)的規(guī)范性是一個(gè)大家都了解的、非常普通的概念,然而表面平常,背后的作用卻無比巨大!讓數(shù)據(jù)具有規(guī)范性才能使數(shù)據(jù)的挖掘變得容易。只有把數(shù)據(jù)的規(guī)范性發(fā)揮到極致,讓所有數(shù)據(jù)都是標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的,數(shù)據(jù)的規(guī)范性的超級(jí)威力才能顯示出來。數(shù)據(jù)標(biāo)準(zhǔn)說起來容易,做起來非常難,需要花費(fèi)巨大的人力物力,已成為影響大數(shù)據(jù)的一個(gè)關(guān)鍵因素。從表面上看“數(shù)據(jù)的唯一性”和“數(shù)據(jù)的歸屬性”沒有任何技術(shù)含量,只不過為數(shù)據(jù)增加了兩個(gè)數(shù)據(jù)項(xiàng)、兩個(gè)屬性。如果從小數(shù)據(jù)的角度來看的確如此,由于小數(shù)據(jù)時(shí)代的信息系統(tǒng)主要是用來處理某個(gè)單位內(nèi)部的數(shù)據(jù),“數(shù)據(jù)的唯一性”根本不算什么技術(shù),而“數(shù)據(jù)的歸屬性”只會(huì)為系統(tǒng)帶來大量冗余。然而在大數(shù)據(jù)時(shí)代,“數(shù)據(jù)的唯一性”和“數(shù)據(jù)的歸屬性”就具有劃時(shí)代的意義,是小數(shù)據(jù)變成大數(shù)據(jù)的關(guān)鍵,只有增加了這兩個(gè)數(shù)據(jù)項(xiàng),小數(shù)據(jù)才能變成大數(shù)據(jù),凡是不含這兩個(gè)數(shù)據(jù)項(xiàng)的都不是合格的結(jié)構(gòu)化大數(shù)據(jù),小數(shù)據(jù)只有貼上這兩個(gè)標(biāo)簽才有資格進(jìn)入大數(shù)據(jù)時(shí)代。數(shù)據(jù)的歸屬性對大數(shù)據(jù)的重要性:小數(shù)據(jù)的范圍是某個(gè)單位,只是在一個(gè)信息系統(tǒng)中生存,而大數(shù)據(jù)的范圍是全球,所面對的是全球數(shù)百萬以上的信息系統(tǒng)。為數(shù)據(jù)增加歸屬性的目的是確保數(shù)據(jù)無論放到哪個(gè)角落都保持不變,不會(huì)失真。數(shù)據(jù)中若不含歸屬性,那么,當(dāng)數(shù)據(jù)移植到其它信息系統(tǒng)之中后就會(huì)失真,或者說,從大數(shù)據(jù)中查到數(shù)據(jù)后,就無法知道是從哪里查到的。數(shù)據(jù)的歸屬性對大數(shù)據(jù)非常重要,是數(shù)據(jù)的識(shí)別性、累加性、移植性的基礎(chǔ)。數(shù)據(jù)的唯一性對大數(shù)據(jù)的重要性:數(shù)據(jù)的唯一性是為了方便地在大數(shù)據(jù)環(huán)境中快速、準(zhǔn)確地抓到數(shù)據(jù),也是為了使計(jì)算機(jī)可以模仿大腦的聯(lián)想功能。大數(shù)據(jù)的環(huán)境非常大,可以是全國,也可以是全球,唯一性則可確保計(jì)算機(jī)在全球范圍內(nèi)快速、準(zhǔn)確地把數(shù)據(jù)從天涯海角抓出來。若無唯一性,在全球范圍內(nèi)抓數(shù)據(jù)就非常困難。例如,企業(yè)的A商品會(huì)出現(xiàn)在全球的數(shù)十萬個(gè)零售商店中,A商品若無大數(shù)據(jù)識(shí)別碼,企業(yè)要想從全球的數(shù)據(jù)十萬信息系統(tǒng)中把A商品的庫存、銷售數(shù)據(jù)抓出來,就非常困難。唯一性讓數(shù)據(jù)無處可藏,無處可逃。沒有唯一性,數(shù)據(jù)在不同的信息系統(tǒng)中就會(huì)象白骨精那樣,變成不同的樣子。為數(shù)據(jù)增加“數(shù)據(jù)的唯一性”,就等于為數(shù)據(jù)安裝了跟蹤器。數(shù)據(jù)的12個(gè)技術(shù)特性之間的關(guān)系:“累加性、移植性”是由“1、可識(shí)別性;2、獨(dú)立性;3、完整性;4、規(guī)范性;5、與系統(tǒng)的耦合性(耦合度為零);6、結(jié)構(gòu)的統(tǒng)一性;7、唯一性;8、歸屬性”來實(shí)現(xiàn)。數(shù)據(jù)與系統(tǒng)的耦合性(耦合度為零)是由“1、可識(shí)別性;2、獨(dú)立性;3、完整性;4、規(guī)范性;5、結(jié)構(gòu)統(tǒng)一性”來實(shí)現(xiàn)。數(shù)據(jù)的可識(shí)別性是由“獨(dú)立性、完整性、規(guī)范性、唯一性、歸屬性”來實(shí)現(xiàn)。利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所設(shè)計(jì)的系統(tǒng)所產(chǎn)生的數(shù)據(jù)為什么可累加成合格的大數(shù)據(jù)?因?yàn)樗袛?shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)都是相同的,數(shù)據(jù)都是規(guī)范的,不必ETL就已是可以挖掘的數(shù)據(jù)。累加性是由數(shù)據(jù)的“唯一性、歸屬性、可識(shí)別性、獨(dú)立性、完整性、規(guī)范性、與系統(tǒng)的耦合性、結(jié)構(gòu)的統(tǒng)一性”來保證的。數(shù)據(jù)具有了“唯一性、歸屬性、可識(shí)別性、獨(dú)立性、完整性、規(guī)范性、與系統(tǒng)的耦合性(耦合度為零)、結(jié)構(gòu)的統(tǒng)一性”就具有了累加性。說明8:數(shù)據(jù)的移植性為信息系統(tǒng)互聯(lián)互通提供了方便當(dāng)前的信息系統(tǒng)之所以難以互聯(lián)互通,是因?yàn)楫?dāng)前的信息系統(tǒng)中的數(shù)據(jù)與系統(tǒng)的耦合度非常高,當(dāng)數(shù)據(jù)脫離了關(guān)系數(shù)據(jù)庫系統(tǒng)和應(yīng)用系統(tǒng)之后就變成了無意義的數(shù)據(jù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議通過對數(shù)據(jù)的優(yōu)化而數(shù)據(jù)具有了“1、可識(shí)別性;2、獨(dú)立性;3、完整性;4、規(guī)范性;5、與系統(tǒng)的耦合性(耦合度為零);6、結(jié)構(gòu)統(tǒng)一性;7、唯一性;8、歸屬性;9、時(shí)間性、10、真實(shí)性”,同時(shí)擁有這八大技術(shù)屬性的數(shù)據(jù)就擁有了“移植性”。具有“移植性”的數(shù)據(jù)在任何信息系統(tǒng)中的含義都是一樣的,都保持不變,即可以直接把數(shù)據(jù)發(fā)送任何數(shù)據(jù)系統(tǒng)中而實(shí)現(xiàn)互聯(lián)互通。說明9:結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可為數(shù)據(jù)在各數(shù)據(jù)庫系統(tǒng)之間的互聯(lián)互通提供通信協(xié)議各數(shù)據(jù)庫系統(tǒng)之間的數(shù)據(jù)互聯(lián)互通的通信協(xié)議:1、需要在各數(shù)據(jù)庫中建立一張萬能數(shù)據(jù)結(jié)構(gòu)表,各數(shù)據(jù)庫系統(tǒng)中的萬能數(shù)據(jù)結(jié)構(gòu)表的結(jié)構(gòu)必須完全統(tǒng)一。2、所要發(fā)送的結(jié)構(gòu)化數(shù)據(jù)必須滿足12個(gè)技術(shù)特性:“1、唯一性;2、歸屬性;3、可識(shí)別性;4、獨(dú)立性;5、完整性;6、規(guī)范性;7、與系統(tǒng)的耦合性(耦合度為零);8、結(jié)構(gòu)統(tǒng)一性;9、累加性;10、移植性;11、時(shí)間性;12、真實(shí)性?!敝灰獫M足上述二個(gè)條件,任何數(shù)據(jù)庫之間的任何數(shù)據(jù)都可以互聯(lián)互通,因?yàn)閿?shù)據(jù)的發(fā)送方與數(shù)據(jù)的接收方都是以萬數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)表存貯數(shù)據(jù),所以數(shù)據(jù)的接收方在收到數(shù)據(jù)后可以直接把數(shù)據(jù)寫入自己的數(shù)據(jù)庫中的萬能數(shù)據(jù)結(jié)構(gòu)表中。當(dāng)前第1頁1 2 3 
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1