1.一種異構(gòu)計(jì)算中的分布式機(jī)器學(xué)習(xí)方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述獲取異構(gòu)計(jì)算環(huán)境下的硬件規(guī)格與配置信息,并進(jìn)行硬件故障模式的初步分類,包括:
3.根據(jù)權(quán)利要求1所述的方法,其中,所述通過網(wǎng)絡(luò)通訊協(xié)議獲取分布式機(jī)器學(xué)習(xí)環(huán)境中各節(jié)點(diǎn)的狀態(tài)數(shù)據(jù),所述節(jié)點(diǎn)的狀態(tài)數(shù)據(jù)包括硬件狀態(tài)數(shù)據(jù)和軟件狀態(tài)數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求1所述的方法,其中,所述采用數(shù)據(jù)同步策略,將所有節(jié)點(diǎn)的狀態(tài)數(shù)據(jù)整合到一個(gè)中心節(jié)點(diǎn),形成一個(gè)全局狀態(tài)數(shù)據(jù)集,包括:
5.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)所述全局狀態(tài)數(shù)據(jù)集進(jìn)行解析,動(dòng)態(tài)為各節(jié)點(diǎn)分配計(jì)算任務(wù),包括:
6.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)動(dòng)態(tài)分配的計(jì)算任務(wù)和硬件故障模式,設(shè)計(jì)初步的容錯(cuò)機(jī)制,包括:
7.根據(jù)權(quán)利要求1所述的方法,其中,所述在分布式機(jī)器學(xué)習(xí)環(huán)境中,將設(shè)計(jì)好的容錯(cuò)機(jī)制應(yīng)用到每個(gè)節(jié)點(diǎn),記錄應(yīng)用結(jié)果,包括:
8.根據(jù)權(quán)利要求1所述的方法,其中,所述分析應(yīng)用容錯(cuò)機(jī)制后的結(jié)果數(shù)據(jù),對(duì)數(shù)據(jù)同步策略進(jìn)行相應(yīng)的調(diào)整,包括:
9.根據(jù)權(quán)利要求1所述的方法,其中,所述通過網(wǎng)絡(luò)通訊協(xié)議,將所有節(jié)點(diǎn)的容錯(cuò)和同步狀態(tài)信息記錄在一個(gè)中心節(jié)點(diǎn),包括: