本發(fā)明涉及機器學(xué)習(xí)領(lǐng)域,具體涉及一種機器學(xué)習(xí)中避免大數(shù)據(jù)冗余的方法。
背景技術(shù):
機器學(xué)習(xí)是一門讓計算機在非精確編程下進行活動的科學(xué),在過去十年,機器學(xué)習(xí)促成了無人駕駛車、高效語音識別、精確網(wǎng)絡(luò)搜索及人類基因組織認(rèn)知的大力發(fā)展。機器學(xué)習(xí)最基本的做法是采用算法來解析數(shù)據(jù)、從中學(xué)習(xí),然后對真實世界中的事件作出決策和預(yù)測,與傳統(tǒng)的為解決特定任務(wù)、硬編碼的軟件程序不同,機器學(xué)習(xí)是用大量的數(shù)據(jù)來“訓(xùn)練”,通過各種算法從數(shù)據(jù)中學(xué)習(xí)如何完成任務(wù)。傳統(tǒng)算法包括決策樹學(xué)習(xí)、推導(dǎo)邏輯規(guī)劃、聚類、強化學(xué)習(xí)和貝葉斯網(wǎng)絡(luò)等等,眾所周知,我們還沒有實現(xiàn)強人工智能,早期機器學(xué)習(xí)方法甚至都無法實現(xiàn)弱人工智能。
機器學(xué)習(xí)最常見的一個應(yīng)用場合就是大數(shù)據(jù)分析,現(xiàn)實世界中,越來越多的應(yīng)用涉及到海量的數(shù)據(jù),這些大數(shù)據(jù)的屬性包括數(shù)量、速度和多樣性等,都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。機器學(xué)習(xí)是自動化流程已經(jīng)大數(shù)據(jù)規(guī)?;治龅闹刂兄?,機器學(xué)習(xí)對大數(shù)據(jù)應(yīng)用的貢獻主要體現(xiàn)在兩個方面:一是促進數(shù)據(jù)科學(xué)家門的多產(chǎn)性;二是發(fā)現(xiàn)一些被忽視的方案,有些方案甚至遭到了最好的數(shù)據(jù)科學(xué)家們的忽視,這些價值來自于機器學(xué)習(xí)的核心功能:即讓分析算法無需人類干預(yù)和顯式程序即可對最新數(shù)據(jù)進行學(xué)習(xí)。
利用機器學(xué)習(xí)對大數(shù)據(jù)進行分析確實是一種非常有效的方式,但是同時又出現(xiàn)了另一個問題,即機器學(xué)習(xí),典型的如支持向量機和深度學(xué)習(xí)等算法往往包含著極為復(fù)雜和繁瑣的計算迭代過程,計算量十分巨大,因此,如果處理的數(shù)據(jù)本身非常巨大,則對硬件的計算能力要求非常高。在一些大量圖片的分類任務(wù)中,即便同時使用大量眾核設(shè)備進行加速,也要等待數(shù)天甚至數(shù)月的時間。針對這種情況,在滿足精度的要求下,適當(dāng)?shù)乜s減數(shù)據(jù)規(guī)模,不僅是有效的,而且是十分必要的,以提高數(shù)據(jù)處理的邊際效益。
有鑒于此,急需提供一種在滿足精度的要求下,適當(dāng)縮減機器學(xué)習(xí)中數(shù)據(jù)規(guī)模的方法。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是提供一種在滿足精度的要求下,適當(dāng)縮減機器學(xué)習(xí)中數(shù)據(jù)規(guī)模的方法。
為了解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案是提供一種機器學(xué)習(xí)中避免大數(shù)據(jù)冗余的方法,包括以下步驟:
S1、將訓(xùn)練數(shù)據(jù)按照預(yù)設(shè)規(guī)則均勻劃分為規(guī)模相當(dāng)?shù)娜舾煞荩?/p>
S2、對每一份數(shù)據(jù)按照預(yù)設(shè)的訓(xùn)練步驟進行訓(xùn)練計算,并繪制出跟隨訓(xùn)練步驟的屬性值曲線;
S3、根據(jù)每份屬性值曲線的相似度,保留相應(yīng)的屬性值曲線對應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果;
S4、根據(jù)屬性值曲線的相似度對保留的數(shù)據(jù)和初步訓(xùn)練結(jié)果進行排序,將相鄰的相似度達(dá)到閾值的屬性值曲線對應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果分別進行加權(quán),返回步驟S2,直至所有訓(xùn)練數(shù)據(jù)合并為一個數(shù)據(jù),并得到最終的訓(xùn)練結(jié)果。
在上述技術(shù)方案中,當(dāng)所述訓(xùn)練數(shù)據(jù)采用空間數(shù)據(jù)時,所述預(yù)設(shè)規(guī)則為:按照空間坐標(biāo)信息將所述空間數(shù)據(jù)均勻劃分為規(guī)模相當(dāng)?shù)娜舾煞荨?/p>
在上述技術(shù)方案中,所述屬性值曲線為精度曲線或誤差曲線。
在上述技術(shù)方案中,步驟S3具體為:
比較每份屬性值曲線的相似度,判斷相似度是否達(dá)到閾值;
若相似度達(dá)到閾值,則隨機保留其中一份屬性值曲線對應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果;若相似度未達(dá)到閾值,則保留所有屬性值曲線對應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果。
在上述技術(shù)方案中,所述相似度的閾值上限為95%,所述相似度的閾值下限為99%。
本發(fā)明根據(jù)每份屬性值曲線的相似度,保留相應(yīng)的屬性值曲線對應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果,并根據(jù)屬性值曲線的相似度對保留的數(shù)據(jù)和初步訓(xùn)練結(jié)果進行排序,將相鄰的相似度達(dá)到閾值的屬性值曲線對應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果分別進行加權(quán),直至所有訓(xùn)練數(shù)據(jù)合并為一個數(shù)據(jù),并得到最終的訓(xùn)練結(jié)果,操作簡單,易于實現(xiàn),并行度較高,極大的減小了計算量,提高了計算效率。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明中一種機器學(xué)習(xí)中避免大數(shù)據(jù)冗余的方法流程圖;
圖2為本發(fā)明中訓(xùn)練數(shù)據(jù)采用空間數(shù)據(jù)時的計算示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明實施例提供了一種機器學(xué)習(xí)中避免大數(shù)據(jù)冗余的方法,如圖1所示,包括以下步驟:
S1、將訓(xùn)練數(shù)據(jù)按照預(yù)設(shè)規(guī)則均勻劃分為規(guī)模相當(dāng)?shù)娜舾煞荨?/p>
當(dāng)上述訓(xùn)練數(shù)據(jù)采用空間數(shù)據(jù)時,上述預(yù)設(shè)規(guī)則為:按照空間坐標(biāo)信息將空間數(shù)據(jù)均勻劃分為規(guī)模相當(dāng)?shù)娜舾煞荨?/p>
S2、對每一份數(shù)據(jù)按照預(yù)設(shè)的訓(xùn)練步驟進行訓(xùn)練計算,并繪制出跟隨訓(xùn)練步驟的屬性值曲線(精度曲線或誤差曲線)。
S3、根據(jù)每份屬性值曲線的相似度,保留相應(yīng)的屬性值曲線對應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果。
步驟S3具體為:比較每份屬性值曲線的相似度,判斷相似度是否達(dá)到閾值;若相似度達(dá)到閾值,則隨機保留其中一份屬性值曲線對應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果;若相似度未達(dá)到閾值,則保留所有屬性值曲線對應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果。
其中,相似度的閾值上限為95%,所述相似度的閾值下限為99%。
S4、根據(jù)屬性值曲線的相似度對保留的數(shù)據(jù)和初步訓(xùn)練結(jié)果進行排序,將相鄰的相似度達(dá)到閾值的屬性值曲線對應(yīng)的數(shù)據(jù)和初步訓(xùn)練結(jié)果分別進行加權(quán),返回步驟S2,直至所有訓(xùn)練數(shù)據(jù)合并為一個數(shù)據(jù),并得到最終的訓(xùn)練結(jié)果。
如圖2所示,為訓(xùn)練數(shù)據(jù)采用空間數(shù)據(jù)時的計算示意圖,其中白球部分為初步訓(xùn)練結(jié)果經(jīng)過排序后,剔除的相似度達(dá)到閾值的數(shù)據(jù),其它黑球部分的數(shù)據(jù)再兩兩加權(quán)繼續(xù)進行計算,經(jīng)過若干層計算,得到最終的訓(xùn)練結(jié)果。
本發(fā)明具有以下優(yōu)點:
(1)計算量小,提高了計算效率:由于每層都剔除了相似度達(dá)到閾值的數(shù)據(jù),因此極大的減小了計算量,提高了計算效率;
(2)由于每一層都對數(shù)據(jù)獨立處理,因此并行度高,對于并行程序的可擴展性有本質(zhì)的提升;
(3)由于每一層的計算都會對各個數(shù)據(jù)進行相似度排序,因此對于數(shù)據(jù)的內(nèi)部屬性有比較充分的了解;
(4)操作簡單,易于實現(xiàn)。
綜上所述,借助于本發(fā)明的上述技術(shù)方案,通過
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。