專利名稱:一種考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法
技術領域:
本發(fā)明涉及一種數(shù)據(jù)挖掘方法,尤其涉及一種考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法。
背景技術:
20世紀末以來,在“數(shù)據(jù)豐富,信息貧乏”的海量數(shù)據(jù)困境驅動下,在數(shù)據(jù)庫、機器學習、統(tǒng)計學等學科的交叉影響下,知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術開始興起,并獲得了持續(xù)和高速的發(fā)展。目前,知識發(fā)現(xiàn)和數(shù)據(jù)挖掘已經成為子領域眾多、內涵非常豐富的學科領域。傳統(tǒng)的數(shù)據(jù)挖掘往往基于數(shù)據(jù)庫中的交易型數(shù)據(jù),知道其來自何處,產生于何時,且知道數(shù)據(jù)內容是真實記錄而來,因此數(shù)據(jù)是可信的。然而,對于某些復雜領域的數(shù)據(jù)挖掘來說,常常涉及經驗知識型數(shù)據(jù),如中醫(yī)藥領域數(shù)據(jù)挖掘所涉及的各類方劑數(shù)據(jù)集。這些數(shù)據(jù)集所記載的內容并不是真實的交易數(shù)據(jù),而是某種知識、經驗或結論。由于這樣的知識、經驗或結論可能來源于各種渠道,因此其可信程度可能并不相同。當數(shù)據(jù)集對這些數(shù)據(jù)進行融合之后,要在這樣的數(shù)據(jù)集上進行知識發(fā)現(xiàn),就需要對各類數(shù)據(jù)的可信度進行考慮。因此,如何對經驗知識型數(shù)據(jù)的可信度進行有效評估,并將這種數(shù)據(jù)可信度融合到數(shù)據(jù)挖掘過程中去,已成為影響復雜領域知識發(fā)現(xiàn)可靠性的關鍵問題。而考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法,正是解決這一問題的有效途徑。
發(fā)明內容
為了克服現(xiàn)有的數(shù)據(jù)挖掘方法未考慮經驗知識型數(shù)據(jù)可信度的不足,本發(fā)明旨在提供一種考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法,能對經驗知識型數(shù)據(jù)的可信度進行評估,并將這種數(shù)據(jù)可信度融合到數(shù)據(jù)挖掘過程中,以提高數(shù)據(jù)挖掘可靠性。在本發(fā)明的實施例中,提供了一種考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法,包括以下步驟:1、確認等待數(shù)據(jù)挖掘的數(shù)據(jù)集在經驗知識型數(shù)據(jù)方面的特性2、采用基于互聯(lián)網知名度的評估法來評估每條經驗知識型數(shù)據(jù)的可信度3、在數(shù)據(jù)挖掘的關聯(lián)規(guī)則方法中引入數(shù)據(jù)可信度作為權重本發(fā)明的優(yōu)點是克服了現(xiàn)有技術中數(shù)據(jù)挖掘方法都不考慮知識經驗型數(shù)據(jù)可信度的問題,進而實現(xiàn)了如下技術效果:( I)對數(shù)據(jù)挖掘數(shù)據(jù)集中的經驗知識型數(shù)據(jù)的針對性利用??紤]到經驗知識型數(shù)據(jù)不同于傳統(tǒng)交易型數(shù)據(jù)的獨特性,對數(shù)據(jù)挖掘數(shù)據(jù)集中的經驗知識型數(shù)據(jù)進行分析,使得復雜領域的數(shù)據(jù)挖掘能更好地把握住經驗知識型數(shù)據(jù)的內在特點。(2)對經驗知識型數(shù)據(jù)的數(shù)據(jù)可信度的有效評估。利用基于互聯(lián)網的知名度評估方法,涉及搜索引擎檢索次數(shù)、頁面訪問流量等指標,可以實現(xiàn)對經驗知識型數(shù)據(jù)的數(shù)據(jù)可信度的綜合評估。(3)對經驗知識型數(shù)據(jù)集的更可靠挖掘。
通過將數(shù)據(jù)可信度融入關聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,使得經驗知識型數(shù)據(jù)上的數(shù)據(jù)挖掘能充分考慮到數(shù)據(jù)可信度的因素,從而使得數(shù)據(jù)挖掘的過程和結果更為可靠。
圖1是本發(fā)明一個實施例的考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法流程圖。此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。
具體實施例方式下面結合附圖并結合實施例,對本發(fā)明做進一步說明。圖1是本發(fā)明一個實施例的考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法流程圖,包括以下步驟:步驟S10、確認等待數(shù)據(jù)挖掘的數(shù)據(jù)集在經驗知識型數(shù)據(jù)方面的特性;步驟S20、采用基于互聯(lián)網知名度的評估法來評估每條經驗知識型數(shù)據(jù)的可信度;步驟S30、在數(shù)據(jù)挖掘的關聯(lián)規(guī)則方法中引入數(shù)據(jù)可信度作為權重??蛇x的,在上述的考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法中,步驟SlO具體包括:讀取數(shù)據(jù)集的元數(shù)據(jù)信息,尤其是每一個數(shù)據(jù)字段的說明,看該字段數(shù)據(jù)是否能從客觀世界和交易行為中直接記錄和觀測到,還是需要經過人類的分析判斷和總結,從而初步判斷其是否屬于經驗知識型數(shù)據(jù);取數(shù)據(jù)集的部分數(shù)據(jù)作為樣本,結合元數(shù)據(jù)信息,進一步確定數(shù)據(jù)集中是否包含經驗知識型數(shù)據(jù);再次掃描元數(shù)據(jù)信息,對于相應的經驗知識型數(shù)據(jù),檢查是否有相關的字段對其來源信息進行描述??蛇x的,在上述的考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法中,步驟S20具體包括:對于確認為經驗知識型數(shù)據(jù)的數(shù)據(jù)集,取其相應的經驗知識型數(shù)據(jù)內容,利用互聯(lián)網獲得相應的互聯(lián)網知名度值,對于經驗知識型數(shù)據(jù)的來源信息也存在的情況,同時取其數(shù)據(jù)內容、數(shù)據(jù)來源,利用互聯(lián)網獲得相應的互聯(lián)網知名度值;將互聯(lián)網知名度值標準化后,作為對數(shù)據(jù)可靠度的估計值。更進一步地,可選的,在上述步驟20的利用互聯(lián)網獲得相應的互聯(lián)網知名度值中,采用搜索引擎搜索、領域權威網站搜索、社交媒體搜索、網友評分中的一種或多種方法對經驗知識型數(shù)據(jù)內容、經驗知識型數(shù)據(jù)來源的互聯(lián)網知名度進行計算,具體方法可包括如下一種或幾種的混合:基于“搜索引擎一內容”的方法,即計算數(shù)據(jù)內容在百度、Google等搜索引擎中得到的搜索結果數(shù)?;凇八阉饕嬉粊碓础钡姆椒?即計算數(shù)據(jù)來源在百度、Google等搜索引擎中得到的搜索結果數(shù)。基于“領域權威網站一內容”的方法,即計算數(shù)據(jù)內容在領域權威網站中搜索后得到的評分值、評級值或搜索結果數(shù)?;凇邦I域權威網站一來源”的方法,即計算數(shù)據(jù)來源在領域權威網站中搜索后得到的評分值、評級值或搜索結果數(shù)?;凇吧缃幻襟w一內容”的方法,即計算數(shù)據(jù)內容在新浪微博等社交媒體中搜索后得到的微博數(shù)、評論數(shù)或轉發(fā)數(shù)?;凇吧缃幻襟w一來源”的方法,即計算數(shù)據(jù)來源在新浪微博等社交媒體中搜索后得到的微博數(shù)、評論數(shù)或轉發(fā)數(shù)?;凇熬W友評分一內容”的方法,即計算數(shù)據(jù)內容通過互聯(lián)網平臺的網友評分后得到的評分值或評級值。基于“網友評分一來源”的方法,即計算數(shù)據(jù)來源通過互聯(lián)網平臺的網友評分后得到的評分值或評級值??蛇x的,在上述的考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法中,步驟S30具體包括:對于多個經驗知識型信息共現(xiàn)在一個記錄甚至一個數(shù)據(jù)字段內的情況(如中醫(yī)藥古代方劑數(shù)據(jù)庫中的藥物組成數(shù)據(jù)),可用數(shù)據(jù)挖掘的關聯(lián)規(guī)則方法結合數(shù)據(jù)可信度進行分析,如對經典的Apriori算法進行擴展,在計算支持度時改為計算各Itemset加權后得到的支持度;在計算加權的支持度時,以S20步驟得到的經驗知識型數(shù)據(jù)的可信度,作為其權值。更進一步地,可選的,在上述步驟S30的在計算支持度時改為計算各Itemset加權后得到的支持度中,頻繁集itemset的支持度計算步驟可以是:設N =所有的記錄條數(shù),sumofweight=0,掃描數(shù)據(jù)集中的每一條記錄j,看其是否包含itemset,若包含,則sumofweight=sumofweight+weight[j],待j從I到N遍歷所有的記錄后,計算最終的支持度:
權利要求
1.一種考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法,包括以下步驟: 步驟S10、確認等待數(shù)據(jù)挖掘的數(shù)據(jù)集在經驗知識型數(shù)據(jù)方面的特性; 步驟S20、采用基于互聯(lián)網知名度的評估法來評估每條經驗知識型數(shù)據(jù)的可信度; 步驟S30、在數(shù)據(jù)挖掘的關聯(lián)規(guī)則方法中引入數(shù)據(jù)可信度作為權重。
2.如權利要求1所述的方法,其特征在于:步驟SlO具體包括:讀取數(shù)據(jù)集的元數(shù)據(jù)信息,尤其是每一個數(shù)據(jù)字段的說明,看該字段數(shù)據(jù)是否能從客觀世界和交易行為中直接記錄和觀測到,還是需要經過人類的分析判斷和總結,從而初步判斷其是否屬于經驗知識型數(shù)據(jù);取數(shù)據(jù)集的部分數(shù)據(jù)作為樣本,結合元數(shù)據(jù)信息,進一步確定數(shù)據(jù)集中是否包含經驗知識型數(shù)據(jù);再次掃描元數(shù)據(jù)信息,對于相應的經驗知識型數(shù)據(jù),檢查是否有相關的字段對其來源信息進行描述。
3.如權利要求2所述的方法,其特征在于:步驟S20具體包括:對于確認為經驗知識型數(shù)據(jù)的數(shù)據(jù)集,取其相應的經驗知識型數(shù)據(jù)內容,利用互聯(lián)網獲得相應的互聯(lián)網知名度值,對于經驗知識型數(shù)據(jù)的來源信息也存在的情況,同時取其數(shù)據(jù)內容、數(shù)據(jù)來源,利用互聯(lián)網獲得相應的互聯(lián)網知名度值;將互聯(lián)網知名度值標準化后,作為對數(shù)據(jù)可靠度的估計值。
4.如權利要求3所述的方法,其特征在于:步驟20的利用互聯(lián)網獲得相應的互聯(lián)網知名度值中,采用搜索引擎搜索、領域權威網站搜索、社交媒體搜索、網友評分中的一種或多種方法對經驗知識型數(shù)據(jù)內容、經驗知識型數(shù)據(jù)來源的互聯(lián)網知名度進行計算,具體方法可包括如下一種或幾種的混合: 基于“搜索引擎一內容”的方法,即計算數(shù)據(jù)內容在百度、Google等搜索引擎中得到的搜索結果數(shù), 基于“搜索引擎一來源”的方法:即計算數(shù)據(jù)來源在百度、Google等搜索引擎中得到的搜索結果數(shù), 基于“領域權威網站一內容”的方法,即計算數(shù)據(jù)內容在領域權威網站中搜索后得到的評分值、評級值或搜索結果數(shù), 基于“領域權威網站一來源”的方法,即計算數(shù)據(jù)來源在領域權威網站中搜索后得到的評分值、評級值或搜索結果數(shù), 基于“社交媒體一內容”的方法,即計算數(shù)據(jù)內容在新浪微博等社交媒體中搜索后得到的微博數(shù)、評論數(shù)或轉發(fā)數(shù), 基于“社交媒體一來源”的方法,即計算數(shù)據(jù)來源在新浪微博等社交媒體中搜索后得到的微博數(shù)、評論數(shù)或轉發(fā)數(shù), 基于“網友評分一內容”的方法,即計算數(shù)據(jù)內容通過互聯(lián)網平臺的網友評分后得到的評分值或評級值。
5.如權利要求4所述的方法,其特征在于:步驟S30具體包括:對于多個經驗知識型信息共現(xiàn)在一個記錄甚至一個數(shù)據(jù)字段內的情況,可用數(shù)據(jù)挖掘的關聯(lián)規(guī)則方法結合數(shù)據(jù)可信度進行分析,在計算支持度時改為計算各Itemset加權后得到的支持度;在計算加權的支持度時,以S20步驟得到的經驗知識型數(shù)據(jù)的可信度,作為其權值。
6.如權利要求5所述的方法,其特征在于:步驟S30的在計算支持度時改為計算各Itemset加權后得到的支持度中,頻繁集itemset的支持度計算步驟可以是:設N =所有的記錄條數(shù),sumofweight = O,掃描數(shù)據(jù)集中的每一條記錄j,看其是否包含itemset,若包含,則sumofweight=sumofweight+weight [j],待j從I到N遍歷所有的記錄后,計算最終的支持度:
全文摘要
一種考慮數(shù)據(jù)可信度的數(shù)據(jù)挖掘方法,包括確認等待數(shù)據(jù)挖掘的數(shù)據(jù)集在經驗知識型數(shù)據(jù)方面的特性、采用基于互聯(lián)網知名度的評估法來評估每條經驗知識型數(shù)據(jù)的可信度、在數(shù)據(jù)挖掘的關聯(lián)規(guī)則方法中引入數(shù)據(jù)可信度作為權重。所述的在數(shù)據(jù)挖掘的關聯(lián)規(guī)則方法中引入數(shù)據(jù)可信度包括對經典的Apriori算法進行擴展,在計算支持度時改為計算各Itemset加權后得到的支持度,并用基于互聯(lián)網知名度評估得到的經驗知識型數(shù)據(jù)可信度作為其加權時所用的權值。本發(fā)明提供一種利用互聯(lián)網評估數(shù)據(jù)可信度并融入挖掘過程的數(shù)據(jù)挖掘方法。
文檔編號G06F17/30GK103177084SQ20131005600
公開日2013年6月26日 申請日期2013年2月21日 優(yōu)先權日2013年2月21日
發(fā)明者封毅, 琚春華, 劉東升, 陳庭貴, 許翀寰 申請人:浙江工商大學