本發(fā)明涉及學(xué)習(xí)地線或屏蔽線的連接位置的機(jī)械學(xué)習(xí)方法以及機(jī)械學(xué)習(xí)裝置、具備該機(jī)械學(xué)習(xí)裝置的電動(dòng)機(jī)控制裝置以及電動(dòng)機(jī)裝置。
背景技術(shù):
電動(dòng)機(jī)裝置具備為了確保接地電位而與電動(dòng)機(jī)的外殼連接的地線、具備噪音降低用的屏蔽且同樣與電動(dòng)機(jī)的外殼連接的屏蔽線。
日本特開2004-206962號(hào)公報(bào)、日本特開2004-248371號(hào)公報(bào)以及日本特開2004-098174號(hào)公報(bào)中公開一種用于抑制噪音產(chǎn)生的各種配線結(jié)構(gòu)。
技術(shù)實(shí)現(xiàn)要素:
地線或屏蔽線的連接位置大多依存于熟練者的知識(shí)和專業(yè)技巧的累積,不一定限于選擇對(duì)抑制噪音最佳的連接位置。另外,隨著控制方法的復(fù)雜化、高度化,同時(shí)使用多個(gè)控制系統(tǒng)的機(jī)會(huì)也增大,噪音產(chǎn)生的機(jī)理也復(fù)雜化。因此謀求一種能夠決定對(duì)抑制噪音最佳的地線或屏蔽線的連接位置的技術(shù)。
在本發(fā)明的優(yōu)選實(shí)施方式中,提供一種學(xué)習(xí)在電動(dòng)機(jī)裝置中使用的地線或屏蔽線的連接位置的機(jī)械學(xué)習(xí)裝置,具備:狀態(tài)觀測(cè)部,其將上述地線或屏蔽線的連接位置以及來(lái)自電動(dòng)機(jī)的反饋信號(hào)觀測(cè)為狀態(tài)變量;以及學(xué)習(xí)部,其按照根據(jù)上述狀態(tài)變量生成的訓(xùn)練數(shù)據(jù)集,學(xué)習(xí)抑制上述反饋信號(hào)中包括的噪音的上述地線或屏蔽線的連接位置。
在本發(fā)明的優(yōu)選實(shí)施方式中,提供一種電動(dòng)機(jī)控制裝置,具備:上述機(jī)械學(xué)習(xí)裝置;連接部,其將上述地線或屏蔽線與上述連接位置連接;信號(hào)取得部,其取得上述反饋信號(hào);以及意圖決定部,其根據(jù)上述學(xué)習(xí)部學(xué)習(xí)的結(jié)果,決定上述地線或屏蔽線的連接位置。
在本發(fā)明的優(yōu)選實(shí)施方式中,在上述電動(dòng)機(jī)控制裝置中,上述學(xué)習(xí)部具備:回報(bào)計(jì)算部,其根據(jù)上述反饋信號(hào)中包括的噪音來(lái)計(jì)算回報(bào);以及函數(shù)更新部,其根據(jù)上述回報(bào)來(lái)更新用于決定上述地線或屏蔽線的上述連接位置的函數(shù)。
在本發(fā)明的優(yōu)選實(shí)施方式中,在上述電動(dòng)機(jī)控制裝置中,上述回報(bào)計(jì)算部構(gòu)成為,當(dāng)上述噪音比預(yù)先決定的閾值小時(shí)增大回報(bào),在是上述閾值以上時(shí)降低回報(bào)。
在本發(fā)明的優(yōu)選實(shí)施方式中,在上述電動(dòng)機(jī)控制裝置中,上述函數(shù)更新部構(gòu)成為,按照上述回報(bào)更新行為價(jià)值表。
在本發(fā)明的優(yōu)選實(shí)施方式中,提供一種電動(dòng)機(jī)裝置,其具備上述電動(dòng)機(jī)控制裝置、通過(guò)上述電動(dòng)機(jī)控制裝置控制的電動(dòng)機(jī)、輸出上述反饋信號(hào)的編碼器。
在本發(fā)明的優(yōu)選實(shí)施方式中,提供一種學(xué)習(xí)在電動(dòng)機(jī)裝置中使用的地線或屏蔽線的連接位置的機(jī)械學(xué)習(xí)方法,包括以下步驟:將上述地線或屏蔽線的連接位置以及來(lái)自電動(dòng)機(jī)的反饋信號(hào)觀測(cè)為狀態(tài)變量;按照根據(jù)上述狀態(tài)變量生成的訓(xùn)練數(shù)據(jù)集,學(xué)習(xí)抑制上述反饋信號(hào)中包括的噪音的上述地線或屏蔽線的連接位置。
附圖說(shuō)明
通過(guò)參照附圖所示的本發(fā)明例示的實(shí)施方式的詳細(xì)說(shuō)明,能夠更加明確這些以及其他的本發(fā)明的目的、特征以及優(yōu)點(diǎn)。
圖1是一個(gè)實(shí)施方式的電動(dòng)機(jī)裝置的框圖。
圖2是表示一個(gè)實(shí)施方式的機(jī)械學(xué)習(xí)流程的流程圖。
圖3是表示神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)例的圖。
具體實(shí)施方式
以下,參照附圖說(shuō)明本發(fā)明的實(shí)施方式。為了幫助理解本發(fā)明,圖示的實(shí)施方式的結(jié)構(gòu)要素的尺寸被進(jìn)行了適當(dāng)變更。另外,對(duì)于相同或?qū)?yīng)的結(jié)構(gòu)要素使用相同的參照標(biāo)記。
圖1是一個(gè)實(shí)施方式的電動(dòng)機(jī)裝置的框圖。電動(dòng)機(jī)裝置1具有學(xué)習(xí)地線或屏蔽線的連接位置的機(jī)械學(xué)習(xí)功能。
在本說(shuō)明書中,“地線”是為了將電動(dòng)機(jī)2接地而與電動(dòng)機(jī)2的外殼連接的導(dǎo)線?!捌帘尉€”是由用于降低噪音的屏蔽線進(jìn)行包圍的導(dǎo)線。屏蔽線也可以包括動(dòng)力電纜或從編碼器21的輸出信號(hào)線。
電動(dòng)機(jī)裝置1具備電動(dòng)機(jī)2、控制電動(dòng)機(jī)2的電動(dòng)機(jī)控制裝置3、學(xué)習(xí)地線或屏蔽線的連接位置的機(jī)械學(xué)習(xí)裝置4。
電動(dòng)機(jī)2響應(yīng)按照由電動(dòng)機(jī)控制裝置3生成的轉(zhuǎn)矩指令而提供的電力來(lái)進(jìn)行驅(qū)動(dòng)。電動(dòng)機(jī)2具備檢測(cè)電動(dòng)機(jī)2的旋轉(zhuǎn)位置的編碼器21。從編碼器21輸出的反饋信號(hào)經(jīng)由輸出信號(hào)線12(以下有時(shí)稱為“屏蔽線12”)被輸入給電動(dòng)機(jī)控制裝置3。
電動(dòng)機(jī)2除了與屏蔽線12連接,還連接用于提供電力的動(dòng)力線13(以下有時(shí)會(huì)稱為“屏蔽線13”)。另外,電動(dòng)機(jī)2還與將電動(dòng)機(jī)2進(jìn)行接地的地線11連接。
電動(dòng)機(jī)控制裝置3是具備CPU、ROM、RAM、非易失性存儲(chǔ)器以及與外部裝置連接的接口的數(shù)字計(jì)算機(jī)。電動(dòng)機(jī)控制裝置3如圖1所示,具備連接部31、信號(hào)取得部32和意圖決定部33。
連接部31將地線11或屏蔽線12、13與希望的連接位置連接。在一個(gè)實(shí)施方式中,連接部31可以構(gòu)成為能夠通過(guò)晶體管等開關(guān)元件來(lái)變更連接位置。
在其他的實(shí)施方式中,連接部31可以構(gòu)成為,經(jīng)由操作員的作業(yè)執(zhí)行連接工序。此時(shí),連接部31在與電動(dòng)機(jī)控制裝置3連接的顯示設(shè)備上顯示地線11或屏蔽線12、13的連接位置。操作員參照所顯示的信息來(lái)執(zhí)行連接作業(yè)。另外,在另外的實(shí)施方式中,連接部31可以構(gòu)成為,使用外部裝置例如機(jī)器人來(lái)執(zhí)行連接工序。
信號(hào)取得部32從編碼器21取得表示電動(dòng)機(jī)2的位置信息的反饋信號(hào)。信號(hào)取得部32將取得的反饋信號(hào)輸出給狀態(tài)觀測(cè)部41。
意圖決定部33根據(jù)機(jī)械學(xué)習(xí)裝置4學(xué)習(xí)的結(jié)果來(lái)決定地線11或屏蔽線12、13的連接位置。
如果再次參照?qǐng)D1,則機(jī)械學(xué)習(xí)裝置4具備狀態(tài)觀測(cè)部41和學(xué)習(xí)部42。機(jī)械學(xué)習(xí)裝置4可以內(nèi)置在電動(dòng)機(jī)控制裝置3中,也可以是與電動(dòng)機(jī)控制裝置3不同的另外的數(shù)字計(jì)算機(jī)。或者,機(jī)械學(xué)習(xí)裝置4也可以存在云服務(wù)器中。
狀態(tài)觀測(cè)部41將地線11或屏蔽線12、13的連接位置以及來(lái)自電動(dòng)機(jī)2的反饋信號(hào)觀測(cè)為狀態(tài)變量。
學(xué)習(xí)部42按照根據(jù)狀態(tài)變量生成的訓(xùn)練數(shù)據(jù)集,學(xué)習(xí)能夠抑制反饋信號(hào)中包括的噪音的地線11或屏蔽線12、13的連接位置。在一個(gè)實(shí)施方式中,學(xué)習(xí)部42按照強(qiáng)化學(xué)習(xí)的概念來(lái)學(xué)習(xí)地線11或屏蔽線12、13的連接位置和噪音產(chǎn)生之間的關(guān)系性。
本實(shí)施方式的機(jī)械學(xué)習(xí)裝置4根據(jù)公知的Q學(xué)習(xí)的方法來(lái)執(zhí)行強(qiáng)化學(xué)習(xí)。機(jī)械學(xué)習(xí)裝置4根據(jù)求出在某個(gè)狀態(tài)變量s時(shí)選擇了行為a時(shí)的行為價(jià)值Q(期待值)的行為價(jià)值函數(shù)Q(s、a),學(xué)習(xí)最優(yōu)的行為。
在學(xué)習(xí)的初始階段,針對(duì)某個(gè)狀態(tài)變量s和行為a的組合而分配的行為價(jià)值Q是未知的。機(jī)械學(xué)習(xí)裝置4針對(duì)各種狀態(tài)變量s隨機(jī)地選擇并執(zhí)行行為a,通過(guò)累計(jì)作為行為a的結(jié)果而賦予的回報(bào)來(lái)更新行為價(jià)值函數(shù)Q(s、a)。通過(guò)公式1表示更新行為價(jià)值函數(shù)Q(s、a)的一般式。
這里,st是時(shí)刻t的狀態(tài)變量。at是在時(shí)刻t執(zhí)行的行為。st+1是時(shí)刻t+1的狀態(tài)變量,換言之,是作為進(jìn)行了行為at后的結(jié)果而發(fā)生了變化后的狀態(tài)變量。rt+1是根據(jù)作為行為at的結(jié)果而變化的環(huán)境而被賦予的回報(bào)。[max]的項(xiàng)表示狀態(tài)變量st+1的行為價(jià)值Q的最大值(即,針對(duì)最優(yōu)行為a的行為價(jià)值)。γ是折扣率,設(shè)定為滿足0<γ≤1(例如,γ=0.9~0.99)。α是學(xué)習(xí)系數(shù),設(shè)定為滿足0<α≤1(例如,α=0.05~0.2)。
通過(guò)公式1表示的更新式,如果時(shí)刻t+1的最優(yōu)行為a的行為價(jià)值比在時(shí)刻t執(zhí)行的行為a的行為價(jià)值Q大,則增大行為價(jià)值Q,相反的情況下,則縮小行為價(jià)值Q。換言之,更新行為價(jià)值函數(shù)Q(s、a),使得時(shí)刻t的行為a的行為價(jià)值Q接近時(shí)刻t+1的最優(yōu)的行為價(jià)值。這樣,某個(gè)環(huán)境的最優(yōu)的行為價(jià)值向之前的環(huán)境的行為價(jià)值依次進(jìn)行傳播。
如果再次參照?qǐng)D1,則學(xué)習(xí)部42還具備回報(bào)計(jì)算部43、函數(shù)更新部44。
回報(bào)計(jì)算部43根據(jù)來(lái)自編碼器21的反饋信號(hào)中包括的噪音來(lái)計(jì)算回報(bào)r。例如,當(dāng)噪音的級(jí)別比預(yù)定閾值小時(shí)增大回報(bào)r(例如賦予“1”的回報(bào))。另一方面,當(dāng)噪音的級(jí)別是預(yù)定閾值以上時(shí)降低回報(bào)r(例如賦予“-1”的回報(bào))。按照公知的方法提取噪音。例如,通過(guò)電容器從反饋信號(hào)提取交流部分,從而能夠提取噪音。
函數(shù)更新部44按照通過(guò)回報(bào)計(jì)算部43計(jì)算出的回報(bào)來(lái)更新用于決定地線11或屏蔽線12、13的連接位置。能夠按照訓(xùn)練數(shù)據(jù)集,例如通過(guò)更新行為價(jià)值表來(lái)進(jìn)行函數(shù)的更新。行為價(jià)值表是將任意的行為與其行為價(jià)值關(guān)聯(lián)并以表的形式進(jìn)行存儲(chǔ)的數(shù)據(jù)集。
接著,參照?qǐng)D2所示的流程圖,說(shuō)明更新行為價(jià)值Q(s、a)的強(qiáng)化學(xué)習(xí)方法。在步驟S201,連接部31選擇地線11或屏蔽線12、13的連接位置。連接部31隨機(jī)選擇連接位置。
在步驟S202中,為了取得來(lái)自編碼器21的反饋信號(hào)而啟動(dòng)電動(dòng)機(jī)控制裝置3。
在步驟S203中,狀態(tài)觀測(cè)部41從連接部31以及信號(hào)取得部32取得狀態(tài)變量。狀態(tài)變量s分別包括地線11或屏蔽線12、13的連接位置、反饋信號(hào)。另外,為了盡可能地準(zhǔn)確地檢測(cè)出反饋信號(hào)中包括的噪音,最好將在電動(dòng)機(jī)2停止時(shí)所取得的反饋信號(hào)作為狀態(tài)變量s來(lái)使用。
在步驟S204中,判定反饋信號(hào)中包括的噪音是否小于預(yù)定的閾值。當(dāng)步驟S204的判定結(jié)果是肯定時(shí)(噪音比閾值小時(shí)),進(jìn)入步驟S205。在步驟S205,回報(bào)計(jì)算部43為了使針對(duì)連接部31的行為(地線或屏蔽線12、13的連接位置的選擇)的行為價(jià)值Q增大而增大回報(bào)r。
另一方面,當(dāng)步驟S204的判定結(jié)果是否定時(shí)(噪音是閾值以上時(shí)),進(jìn)入步驟S206。在步驟S206中,回報(bào)計(jì)算部43為了使針對(duì)連接部31的行為的行為價(jià)值Q下降,降低回報(bào)r。
在步驟S207,根據(jù)在步驟S205或步驟S206計(jì)算出的回報(bào)r,函數(shù)更新部44更新行為價(jià)值函數(shù)Q(a、s)。之后,再次返回步驟S201,連接部31選擇下一個(gè)連接位置。之后,關(guān)于新選擇出的連接位置,根據(jù)噪音的級(jí)別大小來(lái)求出行為價(jià)值Q。以預(yù)定的周期重復(fù)執(zhí)行步驟S201~S207的處理。
在其他的實(shí)施方式中,機(jī)械學(xué)習(xí)裝置4可以按照神經(jīng)網(wǎng)絡(luò)模型來(lái)執(zhí)行機(jī)械學(xué)習(xí)。圖3表示神經(jīng)網(wǎng)絡(luò)模型的例子。神經(jīng)網(wǎng)絡(luò)由包括l個(gè)神經(jīng)元x1、x2、x3、……、xl的輸入層、包括m個(gè)神經(jīng)元y1、y2、y3、……、ym的中間層(隱藏層)、包括n個(gè)神經(jīng)元z1、z2、z3、……、zn的輸出層構(gòu)成。另外,在圖3中,中間層只表示了1層,但也可以設(shè)置2層以上的中間層。
神經(jīng)網(wǎng)絡(luò)以人們根據(jù)成功體驗(yàn)或失敗體驗(yàn)而憑感覺地學(xué)習(xí)最優(yōu)行為的方式來(lái)學(xué)習(xí)地線11以及屏蔽線12、13的連接位置和噪音產(chǎn)生之間的關(guān)系性。神經(jīng)網(wǎng)絡(luò)按照根據(jù)狀態(tài)觀測(cè)部41所觀測(cè)到的狀態(tài)變量生成的訓(xùn)練數(shù)據(jù)集,通過(guò)所謂有教師學(xué)習(xí)來(lái)學(xué)習(xí)狀態(tài)變量和環(huán)境變化之間的關(guān)系性。根據(jù)本實(shí)施方式,電動(dòng)機(jī)控制裝置3的意圖決定部33發(fā)揮以下功能,即響應(yīng)被輸入到神經(jīng)網(wǎng)絡(luò)的輸入層的連接位置的原委,輸出層決定最佳的連接位置。
電動(dòng)機(jī)控制裝置3的意圖決定部33使用機(jī)械學(xué)習(xí)裝置4學(xué)習(xí)后的結(jié)果來(lái)決定地線11以及屏蔽線12、13的連接位置。但是,一旦決定了連接位置后,有時(shí)地線11以及屏蔽線12、13由于老化噪音會(huì)增大。本實(shí)施方式的機(jī)械學(xué)習(xí)裝置4已經(jīng)學(xué)習(xí)了連接位置的候補(bǔ),所以電動(dòng)機(jī)控制裝置3的意圖決定部33能夠根據(jù)需要決定連接位置的切換目的地。
進(jìn)一步,機(jī)械學(xué)習(xí)裝置4能夠?qū)W習(xí)連接位置的原委和噪音產(chǎn)生之間的關(guān)聯(lián)性。因此,可以構(gòu)成為在推測(cè)地線11以及屏蔽線12、13由于經(jīng)年老化而有噪音增大的傾向時(shí),意圖決定部33切換連接位置。
根據(jù)具備本實(shí)施方式的機(jī)械學(xué)習(xí)裝置以及機(jī)械學(xué)習(xí)方法的電動(dòng)機(jī)裝置,自發(fā)地學(xué)習(xí)連接位置和噪音產(chǎn)生之間的關(guān)系性。并且,意圖決定部33根據(jù)學(xué)習(xí)結(jié)果決定地線11或屏蔽線12、13的最佳連接位置。因此,即使沒有熟練者的知識(shí)或?qū)I(yè)技巧的積累也能夠抑制噪音。不需要試錯(cuò),所以工作效率提高。
根據(jù)本實(shí)施方式,能夠推測(cè)地線11或屏蔽線12、13的老化,所以在對(duì)電動(dòng)機(jī)2的動(dòng)作產(chǎn)生影響之前變更連接位置,能夠防止誤動(dòng)作和精度下降。
在一個(gè)實(shí)施方式中,學(xué)習(xí)部可以構(gòu)成為,按照針對(duì)多個(gè)電動(dòng)機(jī)裝置生成的訓(xùn)練數(shù)據(jù)集,學(xué)習(xí)最佳的連接位置。學(xué)習(xí)部可以從在相同的現(xiàn)場(chǎng)使用的多個(gè)電動(dòng)機(jī)裝置取得訓(xùn)練數(shù)據(jù)集,或者也可以使用從在不同的現(xiàn)場(chǎng)獨(dú)立運(yùn)轉(zhuǎn)的多個(gè)電動(dòng)機(jī)裝置收集到的訓(xùn)練數(shù)據(jù)集來(lái)學(xué)習(xí)地線或屏蔽線的連接位置。
說(shuō)明使用強(qiáng)化學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)械學(xué)習(xí)的實(shí)施方式,但是也可以按照其他的公知方法、例如遺傳編程、功能理論編程、支持向量機(jī)等來(lái)執(zhí)行機(jī)械學(xué)習(xí)。
以上,說(shuō)明了本發(fā)明的各種實(shí)施方式,但是本領(lǐng)域技術(shù)人員能認(rèn)識(shí)到通過(guò)其他的實(shí)施方式也能夠?qū)崿F(xiàn)本發(fā)明的要達(dá)到的作用效果。特別是能夠在不脫離本發(fā)明的范圍的情況下,刪除或置換上述實(shí)施方式的結(jié)構(gòu)要素,或者能夠進(jìn)一個(gè)附加公知的單元。另外,本領(lǐng)域技術(shù)人員也明白能夠通過(guò)任意地組合在本說(shuō)明書中明示或暗示的多個(gè)實(shí)施方式的特征來(lái)實(shí)施本發(fā)明。
根據(jù)本發(fā)明的機(jī)械學(xué)習(xí)裝置以及機(jī)械學(xué)習(xí)方法,自發(fā)地學(xué)習(xí)地線或屏蔽線的連接位置和噪音產(chǎn)生之間的關(guān)系性。因此即使沒有熟練者的知識(shí)或?qū)I(yè)技巧的積累也能夠決定最佳的連接位置。另外,本發(fā)明的電動(dòng)機(jī)控制裝置以及電動(dòng)機(jī)裝置通過(guò)機(jī)械學(xué)習(xí)裝置使地線或屏蔽線的連接位置最優(yōu)化,所以能夠有效地抑制噪音。