国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      機床、模擬裝置以及機械學(xué)習(xí)器的制作方法

      文檔序號:11132965閱讀:266來源:國知局
      機床、模擬裝置以及機械學(xué)習(xí)器的制造方法

      本發(fā)明涉及一種機床,特別是涉及具有使工件加工過程中的移動路徑最佳化的功能的機床。



      背景技術(shù):

      以往,制作加工程序,根據(jù)該加工程序來控制機床從而對工件進行加工。對工件進行加工時的加工速度在加工程序內(nèi)作為軸的移動速度而進行指令,但這是基于該指令的工具與加工物的相對移動(工具移動)的最大速度,作為實際的機床運動,在加工開始時和角部、曲線部分等處,軸的移動速度按照各軸的加減速時間常數(shù)而發(fā)生變動。

      此外,在工件的加工過程中,如圖8A以及圖8B所示,從作為目標(biāo)的工具的移動路徑來看有允許的允許誤差,為了將工件的加工程度維持在預(yù)定水平需要調(diào)整成工具從由加工程序指令的指令路徑在允許誤差的范圍內(nèi)進行移動。因此,以往機床的操作者一邊確認(rèn)加工物的加工面精度,一邊通過變更加減速時間常數(shù)或者變更程序內(nèi)指令的速度等方法來進行調(diào)整。

      作為與這樣的工件加工相關(guān)聯(lián)的現(xiàn)有技術(shù),在日本特開2006-043836號公報中公開了如下加工條件設(shè)定方法:使用加工模式,一邊考慮加工精度一邊進行縮短加工時間的加工路徑信息的生成與加工條件的設(shè)定。

      在控制機床來加工工件時,當(dāng)工具路徑脫離了對由加工程序指令的指令路徑加上允許誤差而得的范圍時,可能引起加工物的不良,以及加工物、工具、機床的損壞。圖9A以及圖9B展示了以下示例:在工件加工時工具路徑脫離后的結(jié)果,在加工物產(chǎn)生了不良(圖9A)、或產(chǎn)生了加工物和工具的損壞(圖9B)。

      一般地,通過來自數(shù)值控制裝置的被稱為指令脈沖的數(shù)據(jù)來表示從某個時間的機床的軸位置到下一瞬間的軸位置為止的變化量。該指令脈沖根據(jù)加工程序指令的指令,作為進行了插補處理、加減速控制等的結(jié)果而被輸出至機床側(cè)。從這樣的數(shù)值控制裝置輸出的指令脈沖受到設(shè)定給機床各軸的加減速時間常數(shù)的影響,而各軸的加減速時間常數(shù)在機床出廠時由機床制造商的技術(shù)員來進行設(shè)定。此外,在機床的設(shè)置時根據(jù)主要加工物的特性由機床制造商的技術(shù)員來進行調(diào)整。因此,是否能獲得最佳的變化量取決于機床制造商的技術(shù)員的經(jīng)驗和能力、加工狀況等,總是存在未必能獲得最佳變化量這樣的問題。

      此外,上述的日本特開2006-043836號公報所公開的技術(shù)只能夠應(yīng)用于符合加工模式的狀況,而不能靈活地對應(yīng)于各種狀況。



      技術(shù)實現(xiàn)要素:

      因此,本發(fā)明的目的在于提供一種機床,能夠?qū)⒂芍本€和曲線形成的預(yù)定的加工物輪廓作為工具路徑的工具動作進行機械學(xué)習(xí)。

      本發(fā)明涉及一種機床,其根據(jù)程序驅(qū)動至少一個軸來進行工件加工,其中,所述機床具有:動作評價部,其評價所述機床的動作并輸出評價數(shù)據(jù);以及機械學(xué)習(xí)器,其對所述軸的移動量進行機械學(xué)習(xí),所述機械學(xué)習(xí)器具有:狀態(tài)觀測部,其獲取物理量數(shù)據(jù)以及從所述動作評價部輸出的評價數(shù)據(jù),其中,該物理量數(shù)據(jù)包含所述機床的至少所述軸的軸位置;回報計算部,其根據(jù)所述狀態(tài)觀測部獲取到的所述物理量數(shù)據(jù)和所述評價數(shù)據(jù)來計算回報;移動量調(diào)整學(xué)習(xí)部,其根據(jù)所述軸的移動量的調(diào)整的機械學(xué)習(xí)結(jié)果、以及所述狀態(tài)觀測部獲取到的所述物理量數(shù)據(jù),來進行所述軸的移動量的調(diào)整;以及移動量輸出部,其將所述移動量調(diào)整學(xué)習(xí)部調(diào)整后的所述軸的移動量進行輸出,所述移動量調(diào)整學(xué)習(xí)部構(gòu)成為:根據(jù)調(diào)整后的所述軸的移動量、基于所輸出的所述軸的移動量而在所述機床的動作后由所述狀態(tài)觀測部獲取到的所述物理量數(shù)據(jù)、以及所述回報計算部計算出的所述回報,來對所述軸的移動量的調(diào)整進行機械學(xué)習(xí)。

      也可以是,所述回報計算部構(gòu)成為在所述軸的合成速度增加時計算正回報,此外,在脫離由所述程序指令的指令路徑的范圍時計算負(fù)回報。

      也可以是,所述機床與至少一個其他機床相連接,所述機床在與所述其他機床之間彼此交換或者共享機械學(xué)習(xí)的結(jié)果。

      也可以是,所述移動量調(diào)整學(xué)習(xí)部構(gòu)成為:使用調(diào)整后的所述軸的移動量以及評價函數(shù)來進行機械學(xué)習(xí)以使所述回報最大,其中,該評價函數(shù)是用自變量來表現(xiàn)由所述狀態(tài)觀測部獲取到的所述物理量數(shù)據(jù)而得的函數(shù)。

      本發(fā)明涉及一種模擬裝置,其模擬根據(jù)程序驅(qū)動至少一個軸來進行工件加工的機床,其中,所述模擬裝置具有:動作評價部,其評價所述機床的模擬動作并輸出評價數(shù)據(jù);以及機械學(xué)習(xí)器,其對所述軸的移動量進行機械學(xué)習(xí),所述機械學(xué)習(xí)器具有:狀態(tài)觀測部,其獲取模擬后的物理量數(shù)據(jù)以及從所述動作評價部輸出的評價數(shù)據(jù),其中,該模擬后的物理量數(shù)據(jù)包含所述機床的至少所述軸的軸位置;回報計算部,其根據(jù)所述狀態(tài)觀測部獲取到的所述物理量數(shù)據(jù)和所述評價數(shù)據(jù)來計算回報;移動量調(diào)整學(xué)習(xí)部,其根據(jù)所述軸的移動量的調(diào)整的機械學(xué)習(xí)結(jié)果、以及所述狀態(tài)觀測部獲取到的所述物理量數(shù)據(jù),來進行所述軸的移動量的調(diào)整;以及移動量輸出部,其將所述移動量調(diào)整學(xué)習(xí)部調(diào)整后的所述軸的移動量進行輸出,所述移動量調(diào)整學(xué)習(xí)部構(gòu)成為:根據(jù)調(diào)整后的所述軸的移動量、基于所輸出的所述軸的移動量而在所述機床的模擬動作后由所述狀態(tài)觀測部獲取到的所述物理量數(shù)據(jù)、以及所述回報計算部計算出的所述回報,來對所述軸的移動量的調(diào)整進行機械學(xué)習(xí)。

      本發(fā)明涉及一種機械學(xué)習(xí)器,其對機床具有的至少一個軸的移動量的調(diào)整進行機械學(xué)習(xí),其中,所述機械學(xué)習(xí)器具有:學(xué)習(xí)結(jié)果存儲部,其存儲所述軸的移動量的調(diào)整的機械學(xué)習(xí)結(jié)果;狀態(tài)觀測部,其獲取包含所述機床的至少所述軸的軸位置在內(nèi)的物理量數(shù)據(jù);移動量調(diào)整學(xué)習(xí)部,其根據(jù)所述軸的移動量的調(diào)整的機械學(xué)習(xí)結(jié)果以及所述狀態(tài)觀測部獲取到的所述物理量數(shù)據(jù),來進行所述軸的移動量的調(diào)整;以及移動量輸出部,其將所述移動量調(diào)整學(xué)習(xí)部調(diào)整后的所述軸的移動量進行輸出。

      根據(jù)本發(fā)明,通過將機械學(xué)習(xí)用于決定最佳的各軸移動量之中,能夠以更短的時間實現(xiàn)維持了加工精度的工件加工。

      附圖說明

      從參照附圖的以下的實施例的說明中可以明確本發(fā)明的上述以及其他目的和特征。這些圖中,

      圖1A以及圖1B是表示通過本發(fā)明來使機床的加工路徑最佳化的示例1以及示例2的圖。

      圖2是說明強化學(xué)習(xí)算法的基本概念的圖。

      圖3是與本發(fā)明的一實施方式涉及的機床的機械學(xué)習(xí)相關(guān)的圖像視圖。

      圖4是對在本發(fā)明的實施方式中處理的各數(shù)據(jù)進行說明的圖。

      圖5是本發(fā)明的一實施方式涉及的機床的功能框圖。

      圖6是對圖5的機械學(xué)習(xí)器中的移動量調(diào)整學(xué)習(xí)部進行的機械學(xué)習(xí)的流程進行說明的流程圖。

      圖7是本發(fā)明的一實施方式涉及的模擬裝置的功能框圖。

      圖8A以及圖8B是對工件的加工過程中的允許誤差進行說明的圖。

      圖9A以及圖9B是對脫離工具路徑導(dǎo)致的問題進行說明的圖。

      具體實施方式

      在本發(fā)明中,針對加工工件的機床導(dǎo)入作為人工智能的機械學(xué)習(xí)器,進行基于加工程序的工件加工中的與機床的各軸的移動量相關(guān)的機械學(xué)習(xí),由此,如圖1A以及圖1B所示,調(diào)整成:使工件加工中的機床的各軸的移動量為最佳。在各軸的移動量的調(diào)整中,以更快的工具移動和不脫離對工具路徑加上允許誤差而得的范圍為目的,由此,實現(xiàn)以更短的時間維持了加工精度的工件加工。

      [1.機械學(xué)習(xí)]

      一般地,機械學(xué)習(xí)根據(jù)有教師學(xué)習(xí)和無教師學(xué)習(xí)等其目的和條件而分類為各種各樣的算法。在本發(fā)明中,以基于加工程序的工件加工中機床的各軸的移動量的學(xué)習(xí)為目的,考慮到明確地表示出針對基于輸出的各軸的移動量的工具的移動路徑進行怎樣的行為(各軸的移動量的調(diào)整)是否正確是比較困難的,而采用只給予回報來由機械學(xué)習(xí)器自動學(xué)習(xí)用于達(dá)到目標(biāo)的行為的強化學(xué)習(xí)算法。

      圖2是說明強化學(xué)習(xí)算法的基本概念的圖。

      在強化學(xué)習(xí)中,通過作為要進行學(xué)習(xí)的主體的智能體(機械學(xué)習(xí)器)與作為控制對象的環(huán)境(控制對象系統(tǒng))之間的交換,而能夠促進智能體學(xué)習(xí)和行為。更具體來說,

      (1)智能體對某個時間點的環(huán)境狀態(tài)st進行觀測,

      (2)根據(jù)觀測結(jié)果和過去的學(xué)習(xí)來選擇自己能獲取的行為at并執(zhí)行行為at

      (3)通過執(zhí)行行為at環(huán)境狀態(tài)st變化為下一狀態(tài)st+1,

      (4)根據(jù)作為行為at的結(jié)果的狀態(tài)變化,智能體接受回報rt+1,

      (5)在智能體與環(huán)境之間進行智能體根據(jù)狀態(tài)st、行為at、回報rt+1、以及過去的學(xué)習(xí)結(jié)果來促進學(xué)習(xí)這樣的交換。

      在上述(5)的學(xué)習(xí)中,獲得觀測到的狀態(tài)st、行為at、回報rt+1的映射(mapping),來作為智能體用于判斷將來能獲取的回報量的基準(zhǔn)的信息。例如,設(shè)在各時刻能夠獲取的狀態(tài)的個數(shù)為m、能夠獲取的行為的個數(shù)為n,則通過重復(fù)行為而獲得存儲針對狀態(tài)st與行為at的組的回報rt+1的m×n的二維陣列。

      然后,使用價值函數(shù)(評價函數(shù))在重復(fù)行為過程中對價值函數(shù)(評價函數(shù))進行更新由此學(xué)習(xí)針對狀態(tài)的最佳行為,其中,上述價值函數(shù)是根據(jù)上述獲得的映射來表示當(dāng)前狀態(tài)和行為有多好的函數(shù)。

      “狀態(tài)價值函數(shù)”是表示某個狀態(tài)st是多好的狀態(tài)的價值函數(shù),表現(xiàn)為將狀態(tài)作為自變量的函數(shù),在重復(fù)行為的過程中的學(xué)習(xí)中,根據(jù)針對某個狀態(tài)下的行為獲得的回報、根據(jù)該行為而變化的未來的狀態(tài)價值等來更新狀態(tài)價值函數(shù)。根據(jù)強化學(xué)習(xí)的算法來定義狀態(tài)價值函數(shù)的更新式,例如,在作為強化學(xué)習(xí)算法之一的TD學(xué)習(xí)中,用數(shù)學(xué)式(1)來定義狀態(tài)價值函數(shù)。另外,在數(shù)學(xué)式(1)中,α是學(xué)習(xí)系數(shù),γ是折扣率,其分別是0<α≤1、0<γ≤1的范圍。

      V(st)←V(st)+α[rt+1+γV(st+1)-V(st)]……(1)

      此外,“行為價值函數(shù)”是表示在某個狀態(tài)st下行為at是多好的行為的價值函數(shù),表現(xiàn)為將狀態(tài)和行為作為自變量的函數(shù),在重復(fù)行為的過程中的學(xué)習(xí)中,根據(jù)針對某個狀態(tài)下的行為而獲得的回報、根據(jù)該行為而變化的未來狀態(tài)的行為價值等來更新行為價值函數(shù)。根據(jù)強化學(xué)習(xí)的算法來定義行為價值函數(shù)的更新式,例如,在作為代表性的強化學(xué)習(xí)算法之一的Q學(xué)習(xí)中,用下述數(shù)學(xué)式(2)來定義行為價值函數(shù)。另外,在數(shù)學(xué)式(2)中,α是學(xué)習(xí)系數(shù),γ是折扣率,其分別是0<α≤1、0<γ≤1的范圍。

      另外,在存儲作為學(xué)習(xí)結(jié)果的價值函數(shù)(評價函數(shù))的方法中,除了使用近似函數(shù)的方法和使用陣列的方法以外,例如還存在如下方法:在狀態(tài)s獲取較多狀態(tài)的情況下,使用將狀態(tài)st、行為at作為輸入來輸出價值(評價)的多值輸出的SVM或神經(jīng)元網(wǎng)絡(luò)等有教師學(xué)習(xí)器的方法。

      然后,在上述(2)中的行為選擇中,使用根據(jù)過去的學(xué)習(xí)而制作出的價值函數(shù)(評價函數(shù))來選擇當(dāng)前狀態(tài)st下到將來的回報(rt+1+rt+2+…)最大的行為at(在使用狀態(tài)價值函數(shù)的情況下,在使用了用于向價值最高的狀態(tài)移動的行為、行為價值函數(shù)的情況下,在該狀態(tài)下價值最高的行為)。另外,在智能體的學(xué)習(xí)中,以學(xué)習(xí)推進為目的,在上述(2)的行為選擇中以一定概率來選擇隨機的行為(ε貪婪算法)。

      這樣,通過重復(fù)上述(1)~(5),學(xué)習(xí)得以推進。在某個環(huán)境下學(xué)習(xí)結(jié)束之后,即使置于新的環(huán)境下也能通過進行追加學(xué)習(xí)來推進學(xué)習(xí)以適應(yīng)該環(huán)境。因此,像本發(fā)明這樣將該學(xué)習(xí)應(yīng)用于基于加工程序的工件加工中機床的各軸的移動量的決定中,由此,即使在制作新的加工程序時,通過對過去的工件加工中機床的各軸的移動量的學(xué)習(xí)進行將新加工程序作為新環(huán)境的追加學(xué)習(xí),就能以短時間進行各軸的移動量的學(xué)習(xí)。

      此外,在強化學(xué)習(xí)中,設(shè)為經(jīng)由網(wǎng)絡(luò)等連接多個智能體而成的系統(tǒng),在這些智能體間共享狀態(tài)s、行為a、回報r等信息來用于各學(xué)習(xí),由此,各智能體能進行還考慮了其他智能體的環(huán)境來進行學(xué)習(xí)的分散強化學(xué)習(xí),由此,能夠進行高效的學(xué)習(xí)。本發(fā)明也通過在控制多個環(huán)境(成為控制對象的機床)的多個智能體(機械學(xué)習(xí)器)經(jīng)由網(wǎng)絡(luò)等連接的狀態(tài)下進行分散機械學(xué)習(xí),而能夠高效地進行機床基于加工程序的工件加工中各軸的移動量的學(xué)習(xí)。

      另外,作為強化學(xué)習(xí)的算法,公知有Q學(xué)習(xí)、SARSA法、TD學(xué)習(xí)、AC法等各種各樣的方法,但也可以采用任意的強化學(xué)習(xí)算法來作為應(yīng)用于本發(fā)明的方法。由于上述的各強化學(xué)習(xí)算法是眾所周知的,因此本說明書中省略各算法的詳細(xì)說明。

      以下,根據(jù)具體的實施方式來對導(dǎo)入了機械學(xué)習(xí)器的本發(fā)明的機床進行說明。

      [2.實施方式]

      圖3是表示與導(dǎo)入了本發(fā)明的一實施方式涉及的成為人工智能的機械學(xué)習(xí)器的機床的各軸的移動量的機械學(xué)習(xí)相關(guān)的圖像示意圖。另外,圖3只示出了本實施方式涉及的機床中的機械學(xué)習(xí)的說明所必需的結(jié)構(gòu)。

      在本實施方式中,作為機械學(xué)習(xí)器20用于確定環(huán)境(“[1.機械學(xué)習(xí)]”所說明的狀態(tài)st)的信息,將工具的行進方向、到脫離工具路徑為止的距離、當(dāng)前的各軸速度、當(dāng)前的各軸加速度作為輸入數(shù)據(jù)。這些各值是從機床的各部獲取的數(shù)據(jù)、以及根據(jù)這些數(shù)據(jù)通過動作評價部3計算出的數(shù)據(jù)。

      圖4是對在本實施方式涉及的機床1的各數(shù)據(jù)進行說明的圖。

      在本實施方式涉及的機床1中,解析圖4所示的加工程序而得的指令路徑、以及與由操作員預(yù)先定義的指令路徑相差的允許誤差被存儲于未圖示的存儲器中。在上述的輸入數(shù)據(jù)中包含:從機床1獲得的時刻t的各軸的軸位置(xt、zt)、各軸的移動速度(δxt-1、δzt-1)、各軸的加速度(δxt-1-δxt-2、δzt-1-δzt-2)等,除此之外,還包含各軸位置脫離對指令路徑加上允許誤差而得的范圍為止的距離等那樣,由動作評價部3根據(jù)上述各數(shù)據(jù)計算出的數(shù)據(jù)。

      另外,在圖4中示出了X-Z的二維坐標(biāo)系的各輸入數(shù)據(jù)的示例,但是在機床的各軸的數(shù)量是3軸以上時,通過與軸數(shù)量相符地適當(dāng)增加輸入數(shù)據(jù)的維數(shù)由此能夠進行對應(yīng)。

      在本實施方式中,作為機械學(xué)習(xí)器20針對環(huán)境輸出的行為(“[1.機械學(xué)習(xí)]”所說明的行為at),將下一瞬間(控制裝置的控制周期中的本周期)的各軸的移動量作為輸出數(shù)據(jù)。另外,在本實施方式中,設(shè)為將某個周期下輸出的各軸的移動量由驅(qū)動各軸的伺服電動機在該周期內(nèi)無延遲地消耗(移動)。因此,在以下將該移動量直接作為工具的移動速度來進行處理。

      此外,在本實施方式中,作為對機械學(xué)習(xí)器20給予的‘回報’(“[1.機械學(xué)習(xí)]”所說明的回報rt),采用各軸的合成速度的提升(正回報)、向與指令相反方向的移動(負(fù)回報)、脫離工具路徑(負(fù)回報)、超過最高速度(負(fù)回報)等。動作評價部3根據(jù)輸入數(shù)據(jù)、輸出數(shù)據(jù)等并根據(jù)各回報的達(dá)成程度來計算‘回報’。另外,關(guān)于根據(jù)某一數(shù)據(jù)來決定回報,可以是操作員根據(jù)機床1中加工程序涉及的加工內(nèi)容來適當(dāng)進行設(shè)定,例如,也可以是在鉆孔加工中將未到孔底定義為負(fù)回報。

      并且,在本實施方式中,機械學(xué)習(xí)器20根據(jù)上述的輸入數(shù)據(jù)、輸出數(shù)據(jù)以及回報進行機械學(xué)習(xí)。在機械學(xué)習(xí)中,在某個時刻t,根據(jù)輸入數(shù)據(jù)的組合來定義狀態(tài)st,針對該定義的狀態(tài)st進行的移動量的輸出為行為at,然后,作為通過該行為at進行了移動量輸出的結(jié)果而新獲得輸入數(shù)據(jù),根據(jù)該新獲得的輸入數(shù)據(jù)而評價計算出的值為回報rt+1,如在“[1.機械學(xué)習(xí)]”對這些狀態(tài)st、行為at、回報rt+1進行說明那樣,通過使用與機械學(xué)習(xí)算法對應(yīng)的價值函數(shù)(評價函數(shù))的更新式來推進學(xué)習(xí)。

      這里,使用圖5的功能框圖來說明本發(fā)明的一實施方式涉及的機床。

      本實施方式的機床1具有:在工件的加工過程中用于驅(qū)動各軸的伺服電動機等驅(qū)動部(未圖示)、控制這些伺服電動機的伺服控制部(未圖示)、周邊設(shè)備(未圖示)、對這些驅(qū)動部和周邊設(shè)備進行控制的數(shù)值控制部2、根據(jù)從所述驅(qū)動部或該周邊設(shè)備的動作或數(shù)值控制部2獲取的各數(shù)據(jù)來評價機床的動作的動作評價部3、以及進行機械學(xué)習(xí)的作為人工智能的機械學(xué)習(xí)器20。

      在將圖5所示的機床的結(jié)構(gòu)與圖2所示的強化學(xué)習(xí)算法中的要素進行對比,包括圖5的機床1標(biāo)準(zhǔn)具備的伺服電動機等驅(qū)動部、伺服控制部(未圖示)、周邊設(shè)備(未圖示)以及控制部2等在內(nèi)的整體對應(yīng)于圖2的強化學(xué)習(xí)算法中的“環(huán)境”,此外,圖5的機床1具有的機械學(xué)習(xí)器20對應(yīng)于圖2的強化學(xué)習(xí)算法中的“智能體”。

      數(shù)值控制部2對從未圖示的存儲器讀出的、或者經(jīng)由未圖示的輸入設(shè)備輸入的加工程序進行解析,根據(jù)作為該解析結(jié)果而獲得的控制數(shù)據(jù)來控制機床1的各部。數(shù)值控制部2通常進行基于加工程序的解析結(jié)果的控制,但是在本實施方式中,按照從機械學(xué)習(xí)器20輸出的各軸的移動量,來進行驅(qū)動機床1的工具的各軸的控制。

      數(shù)值控制部2構(gòu)成為設(shè)定‘允許誤差’,其中,該‘允許誤差’表示允許工具相對于由加工程序指令的指令路徑脫離的范圍?!试S誤差’定義為相對于各指令路徑的向各軸方向的距離、指令路徑周圍的區(qū)域。該‘允許誤差’定義為以下(1)~(3)中的某一個或者由這些(1)~(3)的多個組合來定義:(1)作為常數(shù)值而存儲于數(shù)值控制部內(nèi)的非易失性存儲器內(nèi),或者在加工開始前由機床操作員預(yù)先設(shè)定該常數(shù)值,(2)在加工程序內(nèi)指令為加工指令的一部分,(3)預(yù)先設(shè)定給機床的可動范圍、由用于固定工件的夾具的干涉等限制的可動范圍。

      動作評價部3根據(jù)從數(shù)值控制部2獲取的機床1的各軸的軸位置、數(shù)值控制部2解析而得的加工程序指令的工具路徑、由加工程序指令的工具的最高速度等,在各控制周期中對從機械學(xué)習(xí)器20輸出的機床1的各軸的移動量進行評價,將該評價結(jié)果通知給機械學(xué)習(xí)器20。動作評價部3進行的行為的評價用于計算機械學(xué)習(xí)器20的學(xué)習(xí)中的回報。

      作為評價行為的示例,列舉有:基于機床1的各軸的移動量的移動方向,與從機床1的各軸的軸位置掌握的、工具當(dāng)前位置附近的由加工程序指令的指令路徑的移動方向之間的角度;工具當(dāng)前位置脫離對指令路徑加上允許誤差而得的范圍的程度;基于各軸的移動量的移動速度與工具當(dāng)前位置附近的由加工程序指令的最高速度之間的差分等。但是只要能夠?qū)臋C械學(xué)習(xí)器20輸出的行為評價來評價優(yōu)劣,也可以將任何指標(biāo)用于評價。

      進行機械學(xué)習(xí)的機械學(xué)習(xí)器20具有:狀態(tài)觀測部21、物理量數(shù)據(jù)存儲部22、回報條件設(shè)定部23、回報計算部24、移動量調(diào)整學(xué)習(xí)部25、學(xué)習(xí)結(jié)果存儲部26、以及移動量輸出部27。機械學(xué)習(xí)器20可以設(shè)置于機床1內(nèi),也可以設(shè)置于機床1外的個人電腦等中。

      狀態(tài)觀測部21經(jīng)由數(shù)值控制部2對與機床1相關(guān)的物理量數(shù)據(jù)進行觀測并獲取到機械學(xué)習(xí)器20內(nèi),并且將動作評價部3進行的動作的評價結(jié)果獲取到機械學(xué)習(xí)器20內(nèi)。觀測并獲取的物理量數(shù)據(jù)中除了上述的各軸的軸位置、速度和加速度之外,還包含溫度、電流、電壓、壓力、時間、轉(zhuǎn)矩、力、消耗功率,還包括對各物理量進行運算處理而計算出的計算值等。此外,動作評價部3進行的動作的評價結(jié)果如上所述包括:指令路徑與工具的移動方向之間的角度、工具當(dāng)前位置脫離對工具路徑加上允許誤差而得的范圍的程度、工具的移動速度與指令的最高速度之間的差分等。

      物理量數(shù)據(jù)存儲部22輸入并存儲物理量數(shù)據(jù),將該存儲的物理量數(shù)據(jù)輸出到回報計算部24、移動量調(diào)整學(xué)習(xí)部25。輸入到移動量調(diào)整學(xué)習(xí)部25的物理量數(shù)據(jù)可以是通過最新的加工運轉(zhuǎn)而獲取的數(shù)據(jù)、可以是通過過去的加工運轉(zhuǎn)而獲取的數(shù)據(jù)。此外,也可以將存儲于其他機床40或集中管理系統(tǒng)30的物理量數(shù)據(jù)輸入并存儲于物理量數(shù)據(jù)存儲部22,或者將物理量數(shù)據(jù)存儲部22存儲的物理量數(shù)據(jù)輸出到其他的機床40或集中管理系統(tǒng)30。

      回報條件設(shè)定部23在機械學(xué)習(xí)中設(shè)定給予回報的條件。在給予的回報中存在正回報和負(fù)回報,可以適當(dāng)設(shè)定。并且,可以從集中管理系統(tǒng)所使用的個人電腦和平板終端等進行對回報條件設(shè)定部23的輸入,但是通過設(shè)定為能夠經(jīng)由機床1所具有的MD I設(shè)備(未圖示)進行輸入,由此能夠更簡便地設(shè)定給予回報的條件。

      回報計算部24根據(jù)回報條件設(shè)定部23設(shè)定的條件對從狀態(tài)觀測部21或者物理量數(shù)據(jù)存儲部22輸入的物理量數(shù)據(jù)進行解析,將計算出的回報輸出至移動量調(diào)整學(xué)習(xí)部25。

      以下,表示圖5的機械學(xué)習(xí)器20中的由回報條件設(shè)定部23設(shè)定的回報條件的示例。

      ·[回報1:各軸的合成速度的提升(正回報、負(fù)回報)]

      在各軸的合成速度比過去的各軸的合成速度提升時,導(dǎo)致加工的周期時間的提升,因此,對應(yīng)于該速度提升的程度而給予正回報。

      另一方面,在各軸的合成速度為通過指令而給予的最高速度或各軸的速度超過設(shè)定給機床1的各軸的最高速度時,由于導(dǎo)致機床1的故障等,因此對應(yīng)于該速度超過的程度而給予負(fù)回報。

      ·[回報2:向與指令不同方向的移動]

      鑒于基于機床1的各軸的移動量的工具的移動方向,與從機床1的各軸的軸位置掌握的、工具當(dāng)前位置附近的由加工程序指令的指令路徑的移動方向而構(gòu)成的角度,在工具移動方向與由加工程序指令的指令路徑有較大不同時,對應(yīng)于其程度而給予負(fù)回報。作為負(fù)回報的示例,在工具移動方向與指令路徑的移動方向而構(gòu)成的角度比預(yù)定角度(例如±45度以內(nèi))大時,可以將預(yù)定系數(shù)乘以該差分而得的值作為負(fù)回報來進行給予,也可以設(shè)為在單純地超過180度時(與指令路徑的移動方向相反方向)給予負(fù)回報。

      ·[回報3:脫離工具路徑]

      對應(yīng)于工具當(dāng)前位置脫離對由加工程序指令的指令路徑加上允許誤差而得的范圍的程度來給予負(fù)回報。該脫離的程度可以設(shè)定為工具當(dāng)前位置與對指令路徑加上允許誤差而得的范圍之間的距離量。

      ·[回報4:超過最高速度]

      在工具移動速度超過了加工程序所指令的最高速度時,對應(yīng)于其超過量而給予負(fù)回報。

      返回到圖5,移動量調(diào)整學(xué)習(xí)部25根據(jù)該移動量調(diào)整學(xué)習(xí)部25自身進行的機床1的各軸的移動量的調(diào)整結(jié)果、物理量數(shù)據(jù)存儲部22存儲的包含輸入數(shù)據(jù)等的物理量數(shù)據(jù)、以及由回報計算部24計算出的回報,來進行機械學(xué)習(xí)(強化學(xué)習(xí)),并且,根據(jù)過去的學(xué)習(xí)結(jié)果,根據(jù)當(dāng)前的物理量數(shù)據(jù)來進行各軸的移動量的調(diào)整。這里,所謂的各軸的移動量的調(diào)整相當(dāng)于圖2的強化學(xué)習(xí)算法中的、用于機械學(xué)習(xí)的“行為a”。

      作為移動量的調(diào)整方法,例如也可以構(gòu)成為:預(yù)先準(zhǔn)備組合了各軸的正負(fù)方向的移動量的行為(行為1:(X軸移動量、Z軸移動量)=(1、0),行為2:(X軸移動量、Z軸移動量)=(2、0),…,行為n:(X軸移動量、Z軸移動量)=(δxmax、δzmax))作為能夠選擇的行為,根據(jù)過去的學(xué)習(xí)結(jié)果選擇出將來獲得的回報最大的行為。此外,還可以設(shè)為采用上述的ε貪婪算法,以預(yù)定的概率選擇出隨機行為來實現(xiàn)學(xué)習(xí)的推進。

      在這里,在移動量調(diào)整學(xué)習(xí)部25進行的機械學(xué)習(xí)中,行為at為:通過某個時刻t的物理量數(shù)據(jù)的組合來定義狀態(tài)st,對應(yīng)于該定義的狀態(tài)st來調(diào)整各軸的移動量通過后述的移動量輸出部27輸出該調(diào)整結(jié)果。然后,根據(jù)調(diào)整結(jié)果進行了機床1的各軸的移動,根據(jù)作為其結(jié)果而獲取的數(shù)據(jù),由回報計算部24計算出的值為回報rt+1

      對應(yīng)于應(yīng)用的學(xué)習(xí)算法來決定用于學(xué)習(xí)的價值函數(shù)。例如,在使用了Q學(xué)習(xí)時,設(shè)為按照上述的數(shù)學(xué)式(2)來更新行為價值函數(shù)Q(st、at),來推進學(xué)習(xí)即可。

      使用圖6的流程圖來對圖5的機械學(xué)習(xí)器20中的移動量調(diào)整學(xué)習(xí)部25進行的機械學(xué)習(xí)的流程進行說明。以下,對于各步驟進行說明。

      [步驟SA01]在開始機械學(xué)習(xí)時,狀態(tài)觀測部21獲取表示機床1的狀態(tài)的物理量數(shù)據(jù)。

      [步驟SA02]移動量調(diào)整學(xué)習(xí)部25根據(jù)狀態(tài)觀測部21獲取的物理量數(shù)據(jù)確定當(dāng)前的狀態(tài)St。

      [步驟SA03]移動量調(diào)整學(xué)習(xí)部25根據(jù)過去的學(xué)習(xí)結(jié)果和步驟SA02確定出的狀態(tài)St來選擇行為at(各軸的移動量的調(diào)整)。

      [步驟SA04]執(zhí)行由步驟SA03選擇出的行為at

      [步驟SA05]狀態(tài)觀測部21獲取表示機床1的狀態(tài)的物理量數(shù)據(jù),獲取動作評價部3評價了機床1的狀態(tài)而得的評價結(jié)果的數(shù)據(jù)。在該階段,機床1的狀態(tài)根據(jù)步驟SA04執(zhí)行的行為at隨著從時刻t向時刻t+1的時間推移而發(fā)生變化。

      [步驟SA06]回報計算部24根據(jù)由步驟SA05獲取的評價結(jié)果的數(shù)據(jù)來計算回報rt+1。

      [步驟SA07]移動量調(diào)整學(xué)習(xí)部25根據(jù)步驟SA02確定出的狀態(tài)St、步驟SA03選擇出的行為at、步驟SA06計算出的回報rt+1、來推進機械學(xué)習(xí),返回到步驟SA02。

      學(xué)習(xí)結(jié)果存儲部26對移動量調(diào)整學(xué)習(xí)部25學(xué)習(xí)而得的結(jié)果進行存儲。此外,學(xué)習(xí)結(jié)果存儲部26在移動量調(diào)整學(xué)習(xí)部25再次使用學(xué)習(xí)結(jié)果時,將存儲的學(xué)習(xí)結(jié)果輸出到移動量調(diào)整學(xué)習(xí)部25。在學(xué)習(xí)結(jié)果的存儲中,如上所述,設(shè)定為通過近似函數(shù)、陣列、或者多值輸出的SVM或神經(jīng)元網(wǎng)絡(luò)等有教師學(xué)習(xí)器等來存儲對應(yīng)于要利用的機械學(xué)習(xí)算法的價值函數(shù)即可。

      另外,可以使學(xué)習(xí)結(jié)果存儲部26輸入并存儲其他的機床40或集中管理系統(tǒng)30存儲的學(xué)習(xí)結(jié)果,或者對其他的機床40或集中管理系統(tǒng)30輸出在學(xué)習(xí)結(jié)果存儲部26中存儲的學(xué)習(xí)結(jié)果。

      移動量輸出部27將移動量調(diào)整學(xué)習(xí)部25進行的移動量的調(diào)整結(jié)果輸出給數(shù)值控制部2。數(shù)值控制部2根據(jù)從移動量輸出部27收到的各軸的移動量來驅(qū)動機床1的各軸。

      然后,再次進行由動作評價部3進行的各軸的驅(qū)動結(jié)果的評價,通過機械學(xué)習(xí)器20來進行該評價結(jié)果和當(dāng)前機床1的狀況的獲取,使用輸入的物理量數(shù)據(jù)來重復(fù)學(xué)習(xí),由此,能夠獲取更為優(yōu)秀的學(xué)習(xí)結(jié)果。

      像這樣機械學(xué)習(xí)器20進行了學(xué)習(xí)的結(jié)果,在確認(rèn)了圖1A以及圖1B所示的最佳的移動路徑的階段,機械學(xué)習(xí)器20進行的學(xué)習(xí)結(jié)束。遍布工具路徑1圈收集由學(xué)習(xí)結(jié)束的機械學(xué)習(xí)器20輸出的各軸的移動量(指令脈沖)而得的數(shù)據(jù)為工具的移動數(shù)據(jù)。

      在使用上述學(xué)習(xí)結(jié)束的學(xué)習(xí)數(shù)據(jù)而實際在機床進行加工時,機械學(xué)習(xí)器20可以不進行新學(xué)習(xí)而是直接使用學(xué)習(xí)結(jié)束時的學(xué)習(xí)數(shù)據(jù)來重復(fù)進行運轉(zhuǎn)。

      此外,也可以將學(xué)習(xí)結(jié)束的機械學(xué)習(xí)器20(或者,將未圖示的其他機械學(xué)習(xí)器結(jié)束的學(xué)習(xí)數(shù)據(jù)拷貝到學(xué)習(xí)結(jié)果存儲部26的機械學(xué)習(xí)器20)安裝于其他的機床40,直接重復(fù)使用學(xué)習(xí)結(jié)束時的學(xué)習(xí)數(shù)據(jù)來進行運轉(zhuǎn)。

      并且,在保持使該學(xué)習(xí)功能有效的狀態(tài)下,將學(xué)習(xí)結(jié)束的機械學(xué)習(xí)器20安裝于其他的機床40,繼續(xù)工件的加工,由此,也可以進一步學(xué)習(xí)按機床而不同的個體差異或經(jīng)年變化等,一邊探索對于該機床來說更好的工具路徑一邊進行運轉(zhuǎn)。

      另外,如上所述在使用機床的數(shù)值控制部2進行學(xué)習(xí)動作時,該數(shù)值控制部2也可以實際上不使機床1動作而根據(jù)虛擬的工件加工處理來進行學(xué)習(xí)。此外,如圖7所示,也可以設(shè)為對模擬裝置4裝入機械學(xué)習(xí)器20,由此根據(jù)該模擬部5進行的模擬結(jié)果來進行機械學(xué)習(xí)器20的學(xué)習(xí)動作,其中,該模擬裝置4具有模擬其他機床動作的模擬部5。優(yōu)選的是,在任何一情況下,在學(xué)習(xí)初期的階段都不伴隨實際的工件加工。

      此外,也可以設(shè)定為機床1單獨進行機械學(xué)習(xí),但是在多個機床1還分別具有與外部之間的通信手段時,能夠收發(fā)并共享各所述物理量數(shù)據(jù)存儲部22存儲的物理量數(shù)據(jù)和學(xué)習(xí)結(jié)果存儲部26存儲的學(xué)習(xí)結(jié)果,能夠更高效地進行機械學(xué)習(xí)。例如,當(dāng)使移動量在預(yù)定范圍內(nèi)變化來進行學(xué)習(xí)時,使在多個機床1中不同的操作條件在預(yù)定范圍內(nèi)分別變動來形成工件,并且在各機床1之間交換物理量數(shù)據(jù)和學(xué)習(xí)數(shù)據(jù),由此并行地推進學(xué)習(xí),從而能夠高效地學(xué)習(xí)。

      像這樣在多個機床1之間進行交換時,可以經(jīng)由集中管理系統(tǒng)30等主計算機進行通信,也可以直接與機床1進行通信,還可以使用云端,但是由于有時要處理大量數(shù)據(jù),因此盡量優(yōu)選通信速度快的通信手段。

      以上,對本發(fā)明的實施方式進行了說明,但是本發(fā)明并不局限于上述實施方式的示例,通過追加適當(dāng)?shù)淖兏€能夠以各種方式來進行實施。

      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1