本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,具體涉及一種數(shù)據(jù)包稀缺性評估方法及其系統(tǒng)。
背景技術(shù):
:數(shù)據(jù)交易目前處于行業(yè)初期,發(fā)展非常迅速,但缺少成熟的理論指導(dǎo)。將數(shù)據(jù)價值量化是一件非常困難的事,這是由數(shù)據(jù)的本質(zhì)特征以及目前的商業(yè)環(huán)境所決定的。同時,這一工作還要受到眾多客觀因素的阻礙,如數(shù)據(jù)收集成本的精確評估,數(shù)據(jù)的貶值與生命周期變化,以及數(shù)據(jù)的附加價值等。隨著數(shù)據(jù)產(chǎn)品交易的日益盛行,如何判斷數(shù)據(jù)的價值,這不僅給數(shù)據(jù)銷售商帶來的困擾,也給買方帶來了困擾。眾所周知的觀點是物以稀為貴,對于數(shù)據(jù)也不例外。越稀缺的數(shù)據(jù),其價值也相應(yīng)約大。數(shù)據(jù)信息資源的稀缺性分析分為兩點,一是稀缺的根源來源,即數(shù)據(jù)信息資源的客觀性價值;二是稀缺的表現(xiàn)形式,數(shù)據(jù)信息資源的有用性導(dǎo)致稀缺成為可能,數(shù)據(jù)信息資源的非同質(zhì)性導(dǎo)致稀缺成為必然。因此,如何對數(shù)據(jù)的稀缺性進行評估,以更好的為數(shù)據(jù)交易市場提供更好的服務(wù)成為了亟待解決的課題。技術(shù)實現(xiàn)要素:針對上述技術(shù)問題,本發(fā)明提供一種數(shù)據(jù)包稀缺性評估方法及其系統(tǒng)。本發(fā)明采用的技術(shù)方案為:本發(fā)明的實施例提供一種數(shù)據(jù)包稀缺性評估方法,包括:S100:獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包;S200:確定待評估數(shù)據(jù)包,并確定待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,選取與待評估數(shù)據(jù)包之間的相似度高于預(yù)定閾值的數(shù)據(jù)包作為比較數(shù)據(jù)包;S300:利用預(yù)設(shè)處理方法來確定待評估數(shù)據(jù)包的稀缺性,具體通過如下公式評估待評估數(shù)據(jù)包的稀缺性:其中,f為待評估數(shù)據(jù)包的稀缺性得分,取值范圍為[0,1];y為除待評估數(shù)據(jù)包以外的其他數(shù)據(jù)包中所有數(shù)據(jù)條數(shù)之和;x為待評估數(shù)據(jù)包中的數(shù)據(jù)條數(shù)。優(yōu)選地,在步驟S200中利用文本相似度算法計算待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,具體包括:S210:將待評估數(shù)據(jù)包與比較數(shù)據(jù)包中的文本讀入到R語言程序中,通過分詞工具或用戶定義的分詞規(guī)則將每個數(shù)據(jù)包中的文本拆分成單個的詞,確定特征詞并統(tǒng)計每個特征詞出現(xiàn)的詞頻,并建立文檔詞條矩陣;S220:基于以下公式計算待評估數(shù)據(jù)包與比較數(shù)據(jù)包之間的相似度:其中,G為待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,范圍為[0,1];N1,N2…Nm和M1,M2…Mm分別為待評估數(shù)據(jù)包與其他數(shù)據(jù)包中的每個特征詞出現(xiàn)的次數(shù)。優(yōu)選地,當(dāng)G大于0.5時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包具有相似性;當(dāng)G大于0.85時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包高度相似。優(yōu)選地,當(dāng)f=0時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)不稀缺;當(dāng)f=1時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)在其他比較數(shù)據(jù)包中不存在,非常稀缺。優(yōu)選地,通過爬取互聯(lián)網(wǎng)多個數(shù)據(jù)平臺的網(wǎng)絡(luò)數(shù)據(jù)來獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包。本發(fā)明的另一實施例提供一種數(shù)據(jù)包稀缺性評估系統(tǒng),包括:數(shù)據(jù)獲取模塊,獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包;相似度評估模塊,確定待評估數(shù)據(jù)包,并確定待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,選取與待評估數(shù)據(jù)包之間的相似度高于預(yù)定閾值的數(shù)據(jù)包作為比較數(shù)據(jù)包;稀缺性評估模塊,利用預(yù)設(shè)處理方法來確定待評估數(shù)據(jù)包的稀缺性,具體通過如下公式評估待評估數(shù)據(jù)包的稀缺性:其中,f為待評估數(shù)據(jù)包的稀缺性得分,取值范圍為[0,1];y為除待評估數(shù)據(jù)包以外的其他數(shù)據(jù)包中所有數(shù)據(jù)條數(shù)之和;x為待評估數(shù)據(jù)包中的數(shù)據(jù)條數(shù)??蛇x地,所述相似度評估模塊包括:特征提取單元,通過關(guān)鍵詞提取工具或者自定義確定待評估數(shù)據(jù)包與比較數(shù)據(jù)包中的文本之間的特征詞;詞條文檔矩陣建立單元,將待評估數(shù)據(jù)包與比較數(shù)據(jù)包中的文本讀入到R語言程序中,通過分詞工具或用戶定義的分詞規(guī)則將每個數(shù)據(jù)包中的文本拆分成單個的詞,統(tǒng)計每個特征詞出現(xiàn)的詞頻,并建立文檔詞條矩陣;相似度計算單元,基于以下公式計算待評估數(shù)據(jù)包與比較數(shù)據(jù)包之間的相似度:其中,G為待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,范圍為[0,1];N1,N2…Nm和M1,M2…Mm分別為待評估數(shù)據(jù)包與其他數(shù)據(jù)包中的每個特征詞出現(xiàn)的次數(shù)??蛇x地,所述預(yù)定閾值為0.5,當(dāng)G大于0.5時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包具有相似性;當(dāng)G大于0.85時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包高度相似。可選地,當(dāng)f=0時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)不稀缺;當(dāng)f=1時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)在其他比較數(shù)據(jù)包中不存在,非常稀缺??蛇x地,所述數(shù)據(jù)獲取模塊通過爬取互聯(lián)網(wǎng)多個數(shù)據(jù)平臺的網(wǎng)絡(luò)數(shù)據(jù)來獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包。本發(fā)明通過對數(shù)據(jù)包的稀缺性進行評估,從而能夠清楚數(shù)據(jù)包的質(zhì)量,為數(shù)據(jù)的價值評估提供一定的參考依據(jù)。附圖說明圖1為本發(fā)明實施例提供的數(shù)據(jù)包稀缺性評估方法的流程示意圖;圖2為本發(fā)明實施例提供的數(shù)據(jù)包稀缺性評估系統(tǒng)的結(jié)構(gòu)示意圖。具體實施方式以下,結(jié)合附圖對本發(fā)明的具體實施例進行描述?!緦嵤├?】數(shù)據(jù)包稀缺性評估方法圖1為本發(fā)明實施例提供的數(shù)據(jù)包稀缺性評估方法的流程示意圖。如圖1所示,本實施例提供的數(shù)據(jù)包稀缺性評估方法,包括:S100:獲取相關(guān)數(shù)據(jù)包具體地,可基于指定內(nèi)容,利用Python語言編程爬取各個大數(shù)據(jù)交易網(wǎng)站上的相關(guān)數(shù)據(jù)包,并且將爬取的數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫MySQL數(shù)據(jù)庫中,數(shù)據(jù)包里面可包含各種數(shù)據(jù)類型的的文件,如JSON,圖片,視頻,音頻等等文件。爬取的具體過程為:用戶輸入網(wǎng)址之后,經(jīng)過DNS服務(wù)器,找到服務(wù)器主機,向服務(wù)器發(fā)出一個請求,服務(wù)器經(jīng)過解析之后,發(fā)送給用戶的瀏覽器HTML、JS、CSS等文件,瀏覽器解析出來。因此,用戶看到的網(wǎng)頁實質(zhì)是由HTML代碼構(gòu)成的,爬蟲爬來的便是這些內(nèi)容,通過分析和過濾這些HTML代碼,實現(xiàn)對圖片、文字、以及上傳附件等資源的爬取,這樣就可以對各大數(shù)據(jù)交易的網(wǎng)站針對數(shù)據(jù)包說明等相關(guān)的內(nèi)容進行爬取。如此,可獲取包含相同主體內(nèi)容的多個相關(guān)數(shù)據(jù)包。當(dāng)然,也可以將在評估操作前選取已經(jīng)獲得的數(shù)據(jù)包來進行評估,而不是在評估操作時進行實時爬取。S200:計算數(shù)據(jù)包之間的相似度,選取相似度超過預(yù)定閾值的數(shù)據(jù)包具體地,可根據(jù)實際情況來確定一個待評估數(shù)據(jù)包,例如,需要對某數(shù)據(jù)提供平臺的數(shù)據(jù)的稀缺性進行評估,可將該數(shù)據(jù)提供平臺提供的數(shù)據(jù)包指定為待評估數(shù)據(jù)包,然后可利用文本相似度算法計算所述待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,選取相似度超過預(yù)定閾值的數(shù)據(jù)包,作為比較數(shù)據(jù)包。步驟S200可具體包括:S210:將數(shù)據(jù)包中的文本讀入到R語言程序中,通過分詞工具或用戶定義的分詞規(guī)則將所述相關(guān)數(shù)據(jù)包中的每個數(shù)據(jù)包中的文本拆分成單個的詞,確定特征詞并統(tǒng)計每個特征詞出現(xiàn)的詞頻,并建立文檔詞條矩陣,例如,關(guān)于三個進出口產(chǎn)品的數(shù)據(jù)包,建立的詞條文檔矩陣可如下表1所示:表1:詞條文檔矩陣特征報關(guān)出口口岸省市數(shù)量原產(chǎn)種類金額規(guī)格文本1241262270文本2154382251文本3314018723其中表1中的數(shù)字表示對應(yīng)文本中出現(xiàn)的特征詞的次數(shù)。S230:計算數(shù)據(jù)包之間的相似度可利用下述公式1來計算兩個數(shù)據(jù)包之間的相似度:【公式1】其中,G為兩個數(shù)據(jù)包之間的相似度,范圍為[0,1];N1,N2…Nm和M1,M2…Mm分別為比較的兩個數(shù)據(jù)包中的每個特征詞出現(xiàn)的次數(shù)。在本實施例中,預(yù)定閾值可為0.5,即當(dāng)G大于0.5時,表示兩個數(shù)據(jù)包相似;當(dāng)G大于0.85時,表示兩個數(shù)據(jù)包高度相似。以表1為例,文本1中出現(xiàn)的字為:C1、C2、C3、C4……Cn;這些字出現(xiàn)的次數(shù)分別為:N1、N2、N3……Nm,文本2中出現(xiàn)的字為:C1、C2、C3、C4……Cn;這些字出現(xiàn)的次數(shù)分別為:M1、M2、M3……Mm。其中,C1表示兩個文本中同一個字,N1和M1是它們分別對應(yīng)的個數(shù),然后可基于上述公式來計算文本1和文本2之間的相似度,計算過程如下所示:由于文本1和文本2之間的相似度得分為0.97,大于0.85,因此,可判斷包含文本1的數(shù)據(jù)包與包含文本2的數(shù)據(jù)包之間存在高度相似性。如果確定需要評估文本1的稀缺性,則可以將包含文本2的數(shù)據(jù)作為比較數(shù)據(jù)包。同樣,可計算文本1與文本3之間的相似度,通過計算可得文本1與文本3之間的相似度得分為0.4,小于0.5,則表示包含文本1的數(shù)據(jù)包與包含文本3的數(shù)據(jù)包之間的相似度不高,可不將包含文本3的數(shù)據(jù)包作為比較數(shù)據(jù)包。當(dāng)然,當(dāng)需要評估文本2的稀缺性時,則以文本2為依據(jù)來計算相似度,相關(guān)方法與文本1相同,當(dāng)需要評估文本3的稀缺性時,也是如此。S300:計算待評估數(shù)據(jù)包的稀缺性在計算稀缺性時,需要選定一個待評估數(shù)據(jù)包,該待評估數(shù)據(jù)包可根據(jù)實際情況來確定。如果同類數(shù)據(jù)越多,則表示稀缺性越低;如果同類數(shù)據(jù)越少,則表示稀缺性越高。對于指定的待評估數(shù)據(jù)包,可通過如下公式2來評估該數(shù)據(jù)包的稀缺性:【公式2】其中,f為待評估數(shù)據(jù)包的稀缺性得分,取值范圍為[0,1];y為除待評估數(shù)據(jù)包以外的其他數(shù)據(jù)包中所有數(shù)據(jù)條數(shù)之和;x為待評估數(shù)據(jù)包中的數(shù)據(jù)條數(shù)。數(shù)據(jù)條數(shù)可根據(jù)預(yù)設(shè)規(guī)則來確定,例如可為一句話或者關(guān)于某個事件的一段文本等。當(dāng)f=0時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)非常不稀缺;當(dāng)f=1時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)在其他待評估數(shù)據(jù)包中不存在,非常稀缺。以下通過一示例來對稀缺性的評估進行說明。示例首先,根據(jù)指定內(nèi)容“信息化相關(guān)”來通過Python語言編程爬取兩個數(shù)據(jù)提供平臺1和2上的相關(guān)數(shù)據(jù)包1和2,并確定評估數(shù)據(jù)包1的稀缺性。接著,根據(jù)步驟S200所揭示的內(nèi)容建立關(guān)于這兩個數(shù)據(jù)提供平臺的數(shù)據(jù)包的詞條文檔矩陣,如下表2所示:表2數(shù)據(jù)領(lǐng)域信息微博機器社會時間輿情學(xué)習(xí)收藏數(shù)據(jù)包11232111111數(shù)據(jù)包221112001325接著,利用上述公式1計算這兩個數(shù)據(jù)包之間的相似度,得到兩個數(shù)據(jù)包之間的相似度得分為0.63,表明這兩個數(shù)據(jù)包是相似的。通過統(tǒng)計得知,數(shù)據(jù)包1和2的總數(shù)據(jù)條數(shù)為600萬條,其中數(shù)據(jù)包1的數(shù)據(jù)條數(shù)為500萬條,數(shù)據(jù)包2的數(shù)據(jù)條數(shù)為100萬條,利用上述公式2計算數(shù)據(jù)包1的稀缺性為:這表示,數(shù)據(jù)包1的稀缺性非常稀有。【實施例2】數(shù)據(jù)包稀缺性評估系統(tǒng)圖2為本發(fā)明實施例提供的數(shù)據(jù)包稀缺性評估系統(tǒng)的結(jié)構(gòu)示意圖。如圖2所示,本實施例提供的數(shù)據(jù)包稀缺性評估系統(tǒng),包括數(shù)據(jù)獲取模塊、相似度評估模塊和稀缺性評估模塊。其中,數(shù)據(jù)獲取模塊用于獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包??赏ㄟ^通過網(wǎng)絡(luò)爬取多個數(shù)據(jù)提供平臺的網(wǎng)絡(luò)數(shù)據(jù)來獲取與指定內(nèi)容相關(guān)的多個相關(guān)數(shù)據(jù)包。例如,可基于指定內(nèi)容,利用Python語言編程爬取各個大數(shù)據(jù)交易網(wǎng)站上的相關(guān)數(shù)據(jù)包,并且將爬取的數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫MySQL數(shù)據(jù)庫中,數(shù)據(jù)包里面可包含各種數(shù)據(jù)類型的的文件,如JSON,圖片,視頻,音頻等等文件。爬取的具體過程為:用戶輸入網(wǎng)址之后,經(jīng)過DNS服務(wù)器,找到服務(wù)器主機,向服務(wù)器發(fā)出一個請求,服務(wù)器經(jīng)過解析之后,發(fā)送給用戶的瀏覽器HTML、JS、CSS等文件,瀏覽器解析出來。因此,用戶看到的網(wǎng)頁實質(zhì)是由HTML代碼構(gòu)成的,爬蟲爬來的便是這些內(nèi)容,通過分析和過濾這些HTML代碼,實現(xiàn)對圖片、文字、以及上傳附件等資源的爬取,這樣就可以對各大數(shù)據(jù)交易的網(wǎng)站針對數(shù)據(jù)包說明等相關(guān)的內(nèi)容進行爬取。如此,可獲取包含相同主體內(nèi)容的多個相關(guān)數(shù)據(jù)包。當(dāng)然,也可以將在評估操作前選取已經(jīng)獲得的數(shù)據(jù)包來進行評估,而不是在評估操作時進行實時爬取。相似度評估模塊用于確定待評估數(shù)據(jù)包,并確定待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,選取與待評估數(shù)據(jù)包之間的相似度高于預(yù)定閾值的數(shù)據(jù)包作為比較數(shù)據(jù)包。相似度評估模塊可包括:詞條文檔矩陣建立單元,將待評估數(shù)據(jù)包與比較數(shù)據(jù)包中的文本讀入到R語言程序中,通過分詞工具或用戶定義的分詞規(guī)則將每個數(shù)據(jù)包中的文本拆分成單個的詞,確定特征詞并統(tǒng)計每個特征詞出現(xiàn)的詞頻,并建立文檔詞條矩陣;相似度計算單元,基于以下公式計算待評估數(shù)據(jù)包與比較數(shù)據(jù)包之間的相似度:其中,G為待評估數(shù)據(jù)包與其他數(shù)據(jù)包之間的相似度,范圍為[0,1];N1,N2…Nm和M1,M2…Mm分別為待評估數(shù)據(jù)包與其他數(shù)據(jù)包中的每個特征詞出現(xiàn)的次數(shù)。預(yù)定閾值可為0.5,當(dāng)G大于0.5時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包具有相似性;當(dāng)G大于0.85時,表示待評估數(shù)據(jù)包與比較數(shù)據(jù)包高度相似。稀缺性評估模塊用于利用預(yù)設(shè)處理方法來確定待評估數(shù)據(jù)包的稀缺性,具體通過如下公式評估待評估數(shù)據(jù)包的稀缺性:其中,f為待評估數(shù)據(jù)包的稀缺性得分,取值范圍為[0,1];y為除待評估數(shù)據(jù)包以外的其他數(shù)據(jù)包中所有數(shù)據(jù)條數(shù)之和;x為待評估數(shù)據(jù)包中的數(shù)據(jù)條數(shù)。當(dāng)f=0時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)非常不稀缺;當(dāng)f=1時,表示待評估數(shù)據(jù)包中的數(shù)據(jù)在其他比較數(shù)據(jù)包中不存在,非常稀缺。需要注意的是,數(shù)據(jù)文件的價值評估方面涉及很多因素,需要綜合考慮各個因素才能得出數(shù)據(jù)文件的最終估值,本發(fā)明提供的只是估算數(shù)據(jù)稀缺性的一方面,為數(shù)據(jù)文件的估值提供一個參考依據(jù)。綜上,本發(fā)明引入經(jīng)濟學(xué)范疇的稀缺性分析方法對數(shù)據(jù)資產(chǎn)進行估值,以更好的為數(shù)據(jù)市場行為服務(wù),促進數(shù)據(jù)市場交易和數(shù)據(jù)項目的快速落地。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本申請實施例進行各種改動和變型而不脫離本申請實施例的精神和范圍。這樣,倘若本申請實施例的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。當(dāng)前第1頁1 2 3