本發(fā)明一般涉及學(xué)習(xí)數(shù)據(jù),并且在特定實施例中,涉及生成分類模型的方法。
背景技術(shù):
1、計算機可以使用分類模型來根據(jù)某些特征將數(shù)據(jù)分類成類別或組。存在多種類型的分類模型。每種類型的分類模型根據(jù)要分類的數(shù)據(jù)類型具有其自身的優(yōu)點和缺點。
2、分類模型尤其包括決策樹、神經(jīng)網(wǎng)絡(luò),諸如基于k最近鄰(knn)的鄰的分類模型,以及支持向量機(svm)的分類模型。
3、分類模型可用于時序信號。時序信號是隨時間變化的數(shù)據(jù),并且包含在每個獲取時刻處的測量或觀測。
4、時序信號可以例如對應(yīng)于音頻信號、視頻信號,振動信號或生理信號。
5、具體而言,可以根據(jù)各種獲取參數(shù)獲取時序信號。例如,可以根據(jù)采樣頻率和用戶設(shè)置的數(shù)據(jù)量來獲取時序信號。
6、采樣頻率對應(yīng)于每單位時間的時序信號的數(shù)據(jù)采樣數(shù)目。相同數(shù)據(jù)量的采樣頻率越高,時域中的時序信號的分辨率越高,該分辨率對應(yīng)于采樣頻率除以數(shù)據(jù)量的值。相反,相同數(shù)據(jù)量的較低采樣頻率可能使時序信號變形。
7、數(shù)據(jù)量對應(yīng)于在獲取期間獲取的時序信號的數(shù)據(jù)量。通過指示用于獲取時序信號的獲取設(shè)備的緩沖存儲器大小來設(shè)置該數(shù)據(jù)量。相同采樣頻率的數(shù)據(jù)量越大,越有可能觀察到頻域中時序信號的更準(zhǔn)確的細(xì)節(jié)。
8、此外,應(yīng)根據(jù)采樣頻率設(shè)置數(shù)據(jù)量。實際上,如果采樣頻率太高并且數(shù)據(jù)量太小,則獲取時間可能太短而不能獲取時序信號中的足夠信息。
9、在給定的采樣頻率下,數(shù)據(jù)量越大,獲取時間越長。這使得可以在所獲取的時間序列信號中觀察到更多的行為,但是這也導(dǎo)致更高的能量消耗,用于獲取時間序列信號的更長的等待時間以及用于存儲所獲取的數(shù)據(jù)的存儲器的更大占用。
10、從所獲取的時序信號訓(xùn)練分類模型。采樣頻率和數(shù)據(jù)量對訓(xùn)練的分類模型有影響。
11、具體而言,分類模型具有可以根據(jù)采樣頻率和用于獲取被提供來訓(xùn)練該分類模型的時序信號的數(shù)據(jù)量而變化的性能。
12、對分類模型的性能進行評估,特別是關(guān)于分類模型的準(zhǔn)確性,用于獲取要用于分類模型的時間序列信號的周期(其影響獲取的能量消耗和用于獲取時間序列信號的等待時間)以及用于獲取時間序列信號的數(shù)據(jù)集的量(其影響用于存儲所獲取的數(shù)據(jù)的存儲器的占用)。
13、因此,有利的是設(shè)置采樣頻率和數(shù)據(jù)量,使得可以獲得關(guān)于用戶需要具有最佳性能的分類模型。
14、常規(guī)地,用戶以不同的采樣頻率和不同的數(shù)據(jù)量執(zhí)行多次獲取,以便測試采樣頻率和數(shù)據(jù)量的哪種組合使得有可能獲得具有最佳性能的分類模型。
15、因此,用戶執(zhí)行試錯搜索以確定采樣頻率和數(shù)據(jù)量的組合,使得可以獲得具有最佳性能的分類模型。
16、這種試錯搜索要求進行多個時間序列信號獲取。這些時序信號獲取具有耗時和昂貴的缺點。此外,試錯搜索不能確保獲得具有最佳性能的分類模型。
17、因此,需要提出一種解決方案,其使得有可能促進用于獲取用于訓(xùn)練分類模型的時序信號的獲取參數(shù)搜索。
技術(shù)實現(xiàn)思路
1、根據(jù)一個實施例,提出了一種由計算機實現(xiàn)的用于創(chuàng)建被稱為最終分類模型的分類模型的方法,該方法包括:
2、-獲得至少一組初始時序信號,初始時序信號與至少一個初始獲取參數(shù)相關(guān)聯(lián),
3、-從至少一組初始時序信號創(chuàng)建至少一組模擬時序信號,每個組的模擬時序信號與不同于至少一個初始獲取參數(shù)的至少一個模擬獲取參數(shù)相關(guān)聯(lián),
4、-創(chuàng)建各種測試分類模型,每個測試分類模型從至少一組初始時序信號或從至少一組模擬時序信號創(chuàng)建,每個測試分類模型與對應(yīng)于至少一個初始或模擬獲取參數(shù)的至少一個獲取參數(shù)相關(guān)聯(lián),至少一個初始或模擬獲取參數(shù)與用于創(chuàng)建該測試分類模型的初始或模擬時序信號相關(guān)聯(lián),
5、-評估每個測試分類模型的性能,性能與該測試分類模型的至少一個獲取參數(shù)相關(guān)聯(lián),然后
6、-獲得與從對每個測試分類模型的評估性能的分析中選擇的至少一個最終獲取參數(shù)相關(guān)聯(lián)的至少一組最終時序信號,然后-從至少一組最終時序信號創(chuàng)建最終分類模型。
7、這種方法使得可以簡化要應(yīng)用于獲取用于創(chuàng)建最終分類模型的最終時序信號的獲取參數(shù)的確定。
8、實際上,初始時序信號的獲取由諸如傳感器的獲取設(shè)備根據(jù)至少一個初始獲取參數(shù)來執(zhí)行。隨后根據(jù)初始或模擬時序信號評估測試分類模型的性能,而不是由獲取設(shè)備獲取。
9、因此,根據(jù)對與關(guān)于模擬時序信號相關(guān)聯(lián)的獲取參數(shù)的放置的性能的分析來確定要應(yīng)用于獲取最終時序信號的獲取參數(shù)。
10、具體而言,可以通過分析哪些獲取參數(shù)使得有可能獲得關(guān)于由用戶設(shè)置的性能標(biāo)準(zhǔn)的最佳性能來選擇要應(yīng)用于獲取最終時序信號的獲取參數(shù)。
11、這使得有可能避免使用各種獲取參數(shù)來執(zhí)行時序信號的獲取,以確定哪些獲取參數(shù)使得有可能創(chuàng)建具有關(guān)于由用戶設(shè)置的性能標(biāo)準(zhǔn)的最佳性能的分類模型。
12、通過簡化從至少一個最終獲取參數(shù)的搜索,這樣的方法因此使得可以降低創(chuàng)建最終分類模型的總成本,因為最終分類模型可以更容易和更快速地獲得。
13、在有利的實現(xiàn)方式中,至少一個初始獲取參數(shù)包括初始采樣頻率和來自初始時序信號的初始數(shù)據(jù)量的組合。
14、有利地,初始采樣頻率對應(yīng)于用于獲取初始時序信號的獲取設(shè)備所允許的最大采樣頻率。
15、在一些實施例中,初始數(shù)據(jù)量對應(yīng)于用于獲取初始時序信號的獲取設(shè)備所允許的最大數(shù)據(jù)量。
16、在有利的實現(xiàn)方式中,來自每組的模擬時序信號的至少一個模擬獲取參數(shù)包括小于或等于初始采樣頻率的模擬采樣頻率和小于或等于初始數(shù)據(jù)量的模擬數(shù)據(jù)量。
17、有利地,每組初始時序信號與在獲得初始時序信號期間指示的類別相關(guān)聯(lián)。
18、在有利的實現(xiàn)方式中,每組模擬時序信號與為初始時序信號組指示的類別相關(guān)聯(lián),從該組初始時序信號創(chuàng)建該組模擬時序信號。
19、在一些實施例中,該方法還包括提取初始和模擬時序信號的特征值,每個測試分類模型是通過分析提取的特征值和與用于創(chuàng)建該測試分類模型的每組初始時序信號或模擬時序信號相關(guān)聯(lián)的類別而創(chuàng)建的。
20、在有利的實現(xiàn)方式中,該方法還包括提取最終時序信號的特征值,每個最終分類模型是根據(jù)對所提取的特征值和與每組最終時序信號相關(guān)聯(lián)的類別的分析而創(chuàng)建的。
21、在一些實施例中,該方法還包括指示每個測試分類模型相對于與該測試分類模型相關(guān)聯(lián)的至少一個獲取參數(shù)的性能。
22、有利地,每個分類模型的性能的指示包括在屏幕上顯示包括根據(jù)至少一個相關(guān)聯(lián)的獲取參數(shù)的每個分類模型的性能的性能圖。
23、在有利的實現(xiàn)方式中,每個測試分類模型的評估性能包括準(zhǔn)確度、時序信號的獲取時間和該時序信號的獲取數(shù)據(jù)量。
24、有利地,該方法還包括創(chuàng)建包括指令的計算機程序產(chǎn)品,當(dāng)該程序由計算機執(zhí)行時,導(dǎo)致計算機實現(xiàn)最終分類模型。
25、根據(jù)另一實施例,提出了一種包括指令的計算機程序產(chǎn)品,當(dāng)該程序由計算機執(zhí)行時,該指令使得計算機執(zhí)行用于創(chuàng)建如前所述的分類模型的方法。
26、根據(jù)又一個實施例,提出了一種計算機系統(tǒng),該計算機系統(tǒng)包括:-包括計算機程序產(chǎn)品的存儲器,該計算機程序產(chǎn)品包括指令,當(dāng)該程序由計算機執(zhí)行時,導(dǎo)致計算機實現(xiàn)用于創(chuàng)建諸如先前描述的分類模型的方法,
27、-處理單元,被配置為執(zhí)行該計算機程序產(chǎn)品。