本發(fā)明涉及智能駕駛領(lǐng)域,特別涉及一種自動(dòng)駕駛汽車自主加油方法和智能車。
背景技術(shù):
近一個(gè)多世紀(jì)來,汽車的出現(xiàn)取代了傳統(tǒng)交通運(yùn)輸方式,使得人們的生活更為便捷。近些年來,隨著科技的發(fā)展,尤其是智能計(jì)算的飛速發(fā)展,自動(dòng)駕駛汽車的研究成為各大車企聚焦的熱點(diǎn)。近期,麥肯錫發(fā)布了一項(xiàng)“決定未來經(jīng)濟(jì)的12項(xiàng)前沿技術(shù)”報(bào)告,報(bào)告中探討了12項(xiàng)前沿技術(shù)對(duì)未來經(jīng)濟(jì)、社會(huì)的影響程度,分析估測了2025年12項(xiàng)技術(shù)各自的經(jīng)濟(jì)與社會(huì)影響力。其中自動(dòng)駕駛汽車技術(shù)排在第6位,其2025年影響力估測為:經(jīng)濟(jì)效益每年約0.2~1.9萬億美元,社會(huì)效益每年可挽回3~15萬個(gè)生命。由于自動(dòng)駕駛汽車技術(shù)具有較大的市場前景和經(jīng)濟(jì)、社會(huì)效益,各大車企均將自動(dòng)駕駛汽車技術(shù)作為未來車企發(fā)展的核心發(fā)展技術(shù)。
隨著技術(shù)發(fā)展進(jìn)步,自動(dòng)駕駛汽車的功能越來越全面,適用范圍也越來越廣。從最初的只能在高速路段實(shí)現(xiàn)自動(dòng)駕駛已漸漸轉(zhuǎn)為城市路段也可以實(shí)現(xiàn)自動(dòng)駕駛。自動(dòng)駕駛技術(shù)的進(jìn)步、范圍的推廣,使得自動(dòng)駕駛汽車除了公路駕駛外,一些其他的環(huán)節(jié)也越發(fā)重要,如自動(dòng)加油等,這些環(huán)節(jié)保障了,才能實(shí)現(xiàn)真正的自動(dòng)駕駛運(yùn)營應(yīng)用。
自動(dòng)駕駛汽車自主加油是自動(dòng)駕駛汽車運(yùn)營的一個(gè)必要環(huán)節(jié),也是自動(dòng)駕駛汽車的一項(xiàng)關(guān)鍵技術(shù)。如何讓自動(dòng)駕駛汽車自主行駛到油槍處實(shí)現(xiàn)加油是自動(dòng)駕駛技術(shù)環(huán)節(jié)中需要解決的問題。傳統(tǒng)的自動(dòng)駕駛路徑設(shè)計(jì)多為人為定義行駛路徑,如,針對(duì)這個(gè)加油站的環(huán)境,設(shè)定相應(yīng)的軌跡。但這種方法靈活性和適應(yīng)性不強(qiáng)?,F(xiàn)實(shí)情況中,由于加油站的設(shè)計(jì)結(jié)構(gòu)不同,環(huán)境不一樣,人為設(shè)定的加油行駛路線往往效果欠佳。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種自動(dòng)駕駛汽車自主加油方法和智能車,以實(shí)現(xiàn)智能車的自主行駛加油。所述技術(shù)方案如下:
一方面,提供一種自動(dòng)駕駛汽車自主加油方法,所述方法包括:
利用學(xué)習(xí)算法通過智能車自主學(xué)習(xí)形成所述智能車的行駛策略值表,所述行駛策略值表由對(duì)行駛區(qū)域細(xì)分而成的多個(gè)柵格中的每個(gè)柵格賦值形成;
基于所述行駛策略值表,自動(dòng)規(guī)劃所述智能車與所述加油位置之間的行駛路線;
按照所述行駛路線自動(dòng)行駛至所述加油位置,以進(jìn)行加油。
本發(fā)明實(shí)施例提供的自動(dòng)駕駛汽車自主行駛加油方法,可利用經(jīng)典機(jī)器學(xué)習(xí)算法-Q學(xué)習(xí)算法,通過自動(dòng)駕駛汽車自主學(xué)習(xí),實(shí)現(xiàn)不同環(huán)境下最優(yōu)行駛策略(行駛路徑最少),使得自動(dòng)駕駛汽車在實(shí)現(xiàn)自主行駛加油的同時(shí),具有更好的穩(wěn)定性、自適應(yīng)性、機(jī)動(dòng)性和靈活性。
可選地,在一個(gè)實(shí)施例中,所述利用學(xué)習(xí)算法通過智能車自主學(xué)習(xí)形成所述智能車的行駛策略值表包括:
初始化所述智能車的狀態(tài),并針對(duì)該狀態(tài)隨機(jī)產(chǎn)生一個(gè)決策動(dòng)作;
對(duì)該決策動(dòng)作后到達(dá)的狀態(tài)進(jìn)行判斷;
若未達(dá)到所述加油位置、未達(dá)到設(shè)置的最大步數(shù)或未發(fā)生碰撞,則重復(fù)隨機(jī)產(chǎn)生決策動(dòng)作并對(duì)決策動(dòng)作后到達(dá)的狀態(tài)進(jìn)行判斷的步驟;
若達(dá)到所述加油位置、達(dá)到設(shè)置的最大步數(shù)或發(fā)生碰撞,則更新所述智能車的行駛策略值表,并進(jìn)行下一次學(xué)習(xí)試驗(yàn)直到達(dá)到預(yù)設(shè)的試驗(yàn)次數(shù)。
可選地,在另一個(gè)實(shí)施例中,所述方法還包括:
在達(dá)到預(yù)設(shè)的試驗(yàn)次數(shù)時(shí),將最后一次試驗(yàn)更新得到的行駛策略值表歸一化到0和1之間,作為最終的行駛策略值表。
可選地,在一個(gè)實(shí)施例中,所述基于所述行駛策略值表,自動(dòng)規(guī)劃所述智能車與所述加油位置之間的行駛路線包括:
在所述行駛策略值表上按照取值從小到大的方向形成所述智能車與所述加油位置之間的行駛路線。
可選地,在本發(fā)明的各個(gè)實(shí)施例中,所述智能車與所述加油位置之間的行駛路線是根據(jù)所述智能車的油箱蓋與加油站油槍之間的距離來規(guī)劃,所述智能車上安裝有專用短程通信技術(shù)DSRC模塊。
另一方面,提供一種智能車,所述智能車包括:學(xué)習(xí)模塊、路線規(guī)劃模塊和行駛模塊,其中:
所述學(xué)習(xí)模塊,用于利用學(xué)習(xí)算法通過智能車自主學(xué)習(xí)形成所述智能車的行駛策略值表,所述行駛策略值表由對(duì)行駛區(qū)域細(xì)分而成的多個(gè)柵格中的每個(gè)柵格賦值形成;
所述線路規(guī)劃模塊,用于基于所述行駛策略值表,自動(dòng)規(guī)劃所述智能車與所述加油位置之間的行駛路線;
所述行駛模塊,用于按照所述行駛路線自動(dòng)行駛至所述加油位置,以進(jìn)行加油。
可選地,在一個(gè)實(shí)施例中,所述學(xué)習(xí)模塊具體用于:
初始化所述智能車的狀態(tài),并針對(duì)該狀態(tài)隨機(jī)產(chǎn)生一個(gè)決策動(dòng)作;
對(duì)該決策動(dòng)作后到達(dá)的狀態(tài)進(jìn)行判斷;
若未達(dá)到所述加油位置、未達(dá)到設(shè)置的最大步數(shù)或未發(fā)生碰撞,則重復(fù)隨機(jī)產(chǎn)生決策動(dòng)作并對(duì)決策動(dòng)作后到達(dá)的狀態(tài)進(jìn)行判斷的步驟;
若達(dá)到所述加油位置、達(dá)到設(shè)置的最大步數(shù)或發(fā)生碰撞,則更新所述智能車的行駛策略值表,并進(jìn)行下一次學(xué)習(xí)試驗(yàn)直到達(dá)到預(yù)設(shè)的試驗(yàn)次數(shù)。
可選地,在另一個(gè)實(shí)施例中,所述學(xué)習(xí)模塊還用于:
在達(dá)到預(yù)設(shè)的試驗(yàn)次數(shù)時(shí),將最后一次試驗(yàn)更新的行駛策略值表歸一化到0和1之間,作為最終的行駛策略值表。
可選地,在另一個(gè)實(shí)施例中,,所述線路規(guī)劃模塊具體用于:
在所述行駛策略值表上按照取值從小到大的方向形成所述智能車與所述加油位置之間的行駛路線。
可選地,在本發(fā)明的各個(gè)實(shí)施例中,所述智能車上安裝有專用短程通信技術(shù)DSRC模塊,所述線路規(guī)劃模塊具體用于:根據(jù)所述智能車的油箱蓋與加油站油槍之間的距離來規(guī)劃所述智能車與所述加油位置之間的行駛路線。
本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:
通過自主學(xué)習(xí)算法形成智能車的行駛策略值表,進(jìn)而自動(dòng)進(jìn)行路線規(guī)劃,能夠使智能車基于規(guī)劃的路線行駛并進(jìn)行自主加油,實(shí)現(xiàn)加油的智能化。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實(shí)施例提供的一種自動(dòng)駕駛汽車自主加油方法的流程圖;
圖2是本發(fā)明實(shí)施例提供的機(jī)器學(xué)習(xí)算法的學(xué)習(xí)過程的示意圖;
圖3是本發(fā)明實(shí)施例提供的基于Q學(xué)習(xí)算法的流程圖;
圖4a-4d是本發(fā)明實(shí)施例提供的Q學(xué)習(xí)算法值表更新原理的示意圖;
圖5是本發(fā)明實(shí)施例中自動(dòng)駕駛汽車中的各個(gè)部件設(shè)置的示意圖;
圖6是本發(fā)明實(shí)施例中基于Q學(xué)習(xí)算法實(shí)現(xiàn)自主加油的示意圖;
圖7是本發(fā)明實(shí)施例提供的智能車的結(jié)構(gòu)框圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
圖1是本發(fā)明實(shí)施例提供的一種自動(dòng)駕駛汽車自主加油方法的流程圖。參照?qǐng)D1,本發(fā)明實(shí)施例提供的自動(dòng)駕駛汽車自主加油方法可包括:
11、利用學(xué)習(xí)算法通過智能車自主學(xué)習(xí)形成所述智能車的行駛策略值表,所述行駛策略值表由對(duì)行駛區(qū)域細(xì)分而成的多個(gè)柵格中的每個(gè)柵格賦值形成。
其中,所述學(xué)習(xí)算法可以為經(jīng)典機(jī)器學(xué)習(xí)算法-Q學(xué)習(xí)算法。值表是帶有取值的表格,將行駛區(qū)域細(xì)分為多個(gè)柵格,將每個(gè)柵格賦予值,即可得到值表。
其中,本步驟中所述利用學(xué)習(xí)算法通過智能車自主學(xué)習(xí)形成所述智能車的行駛策略值表包括:初始化所述智能車的狀態(tài),并針對(duì)該狀態(tài)隨機(jī)產(chǎn)生一個(gè)決策動(dòng)作;對(duì)該決策動(dòng)作后到達(dá)的狀態(tài)進(jìn)行判斷;若未達(dá)到所述加油位置、未達(dá)到設(shè)置的最大步數(shù)或未發(fā)生碰撞,則重復(fù)隨機(jī)產(chǎn)生決策動(dòng)作并對(duì)決策動(dòng)作后到達(dá)的狀態(tài)進(jìn)行判斷的步驟;若達(dá)到所述加油位置、達(dá)到設(shè)置的最大步數(shù)或發(fā)生碰撞,則更新所述智能車的行駛策略值表,并進(jìn)行下一次學(xué)習(xí)試驗(yàn)直到達(dá)到預(yù)設(shè)的試驗(yàn)次數(shù)。
其中,本發(fā)明實(shí)施例中的決策動(dòng)作可包括:方向盤左轉(zhuǎn)角度、右轉(zhuǎn)角度、油門力度、剎車力度等。
可選地,在一個(gè)實(shí)施例中,本發(fā)明實(shí)施例提供的自動(dòng)駕駛汽車自主加油方法還可包括:在達(dá)到預(yù)設(shè)的試驗(yàn)次數(shù)時(shí),將最后一次試驗(yàn)更新得到的行駛策略值表歸一化到0和1之間,作為最終的行駛策略值表。
12、基于所述行駛策略值表,自動(dòng)規(guī)劃所述智能車與所述加油位置之間的行駛路線。
可選地,所述基于所述行駛策略值表,自動(dòng)規(guī)劃所述智能車與所述加油位置之間的行駛路線可包括:在所述行駛策略值表上按照取值從小到大的方向形成所述智能車與所述加油位置之間的行駛路線。
在本發(fā)明實(shí)施例中,所述智能車與所述加油位置之間的行駛路線是根據(jù)所述智能車的油箱蓋與加油站油槍之間的距離來規(guī)劃。
同時(shí),所述智能車上可安裝有專用短程通信技術(shù)(Dedicated Short Range Communications,DSRC)模塊。
13、按照所述行駛路線自動(dòng)行駛至所述加油位置,以進(jìn)行加油。
本發(fā)明實(shí)施例通過自主學(xué)習(xí)算法形成智能車的行駛策略值表,進(jìn)而自動(dòng)進(jìn)行路線規(guī)劃,能夠使智能車基于規(guī)劃的路線行駛并進(jìn)行自主加油,實(shí)現(xiàn)加油的智能化。
圖2是本發(fā)明實(shí)施例提供的機(jī)器學(xué)習(xí)算法的學(xué)習(xí)過程的示意圖。參照?qǐng)D2,自動(dòng)駕駛汽車通過與沒有先驗(yàn)知識(shí)的環(huán)境實(shí)時(shí)交互,感知到系統(tǒng)的當(dāng)前狀態(tài)量X(t),并做出一個(gè)決策動(dòng)作u(t)。這個(gè)決策動(dòng)作會(huì)改變當(dāng)前環(huán)境狀態(tài),使得系統(tǒng)到達(dá)一個(gè)新的狀態(tài)量X(t+1)。與此同時(shí),環(huán)境會(huì)反饋給自動(dòng)駕駛汽車一個(gè)增強(qiáng)信號(hào)r(t),用以表示自動(dòng)駕駛汽車決策動(dòng)作u(t)的立即回報(bào)。通常,增強(qiáng)信號(hào)以數(shù)值方式存在,不同的數(shù)值用以評(píng)價(jià)和區(qū)分決策動(dòng)作的“好”、“壞”。同樣,對(duì)于新的狀態(tài)量X(t+1),自動(dòng)駕駛汽車又會(huì)做出新的決策動(dòng)作u(t+1),并從環(huán)境中反饋到新的增強(qiáng)信號(hào)r(t+1)。以此類推下去,即自動(dòng)駕駛汽車在每個(gè)時(shí)刻都會(huì)與環(huán)境交互,通過環(huán)境反饋的增強(qiáng)信號(hào)的“好”、“壞”,進(jìn)行在線調(diào)節(jié)決策策略,以便在后續(xù)決策動(dòng)作中獲得最大的回報(bào)。
在算法理論基礎(chǔ)上,本公開可首先在計(jì)算機(jī)上進(jìn)行學(xué)習(xí),學(xué)習(xí)的過程為,先對(duì)自動(dòng)駕駛汽車初始化參數(shù)進(jìn)行設(shè)計(jì),隨機(jī)初始化自動(dòng)駕駛汽車狀態(tài)并對(duì)該狀態(tài)隨機(jī)產(chǎn)生一個(gè)決策動(dòng)作,對(duì)決策動(dòng)作后到達(dá)的狀態(tài)進(jìn)行邏輯判斷,若尚未達(dá)到目標(biāo)、未滿最大步數(shù),則重復(fù)隨機(jī)產(chǎn)生決策動(dòng)作;否,則更新值表,通過大量試驗(yàn)對(duì)值表進(jìn)行更新,作為自動(dòng)駕駛汽車最優(yōu)行駛路徑的經(jīng)驗(yàn)。將這些經(jīng)驗(yàn)裝載到實(shí)車,通過車輛實(shí)施與環(huán)境交互及經(jīng)驗(yàn)調(diào)取,實(shí)現(xiàn)最優(yōu)自主加油路徑策略。
在本發(fā)明實(shí)施例中,基于Q學(xué)習(xí)算法的自動(dòng)駕駛汽車自動(dòng)加油的行駛路線規(guī)劃過程是一個(gè)學(xué)習(xí)過程,自動(dòng)駕駛汽車在成功與失敗的經(jīng)驗(yàn)中學(xué)會(huì)如何用最短行駛路徑到達(dá)固定加油位置。因?qū)W習(xí)過程中存在失敗現(xiàn)象,故需先在計(jì)算機(jī)上進(jìn)行測試(學(xué)習(xí)),待自動(dòng)駕駛汽車學(xué)習(xí)好后,方可將算法移植到實(shí)車(即,智能車)上。
在本發(fā)明實(shí)施例中,自動(dòng)駕駛汽車自主行駛到達(dá)指定的加油位置,實(shí)際是自動(dòng)駕駛汽車的油箱蓋位置到達(dá)與距離油槍相應(yīng)距離的位置。故,可將油箱蓋看作一個(gè)質(zhì)點(diǎn)(自動(dòng)駕駛汽車位置),油槍位置看作一個(gè)質(zhì)點(diǎn)(目標(biāo)位置)。即可將自主加油問題轉(zhuǎn)化為局部路徑規(guī)劃問題。本發(fā)明實(shí)施例中可利用Q學(xué)習(xí)算法解決路徑規(guī)劃問題。
圖3是本發(fā)明實(shí)施例提供的基于Q學(xué)習(xí)算法的流程圖。參照?qǐng)D3,本發(fā)明實(shí)施例提供的Q學(xué)習(xí)算法的過程可包括:算法參數(shù)初始化設(shè)計(jì)、更新初始狀態(tài)序列、隨機(jī)產(chǎn)生決策動(dòng)作、碰撞判斷、目標(biāo)狀態(tài)判斷、步數(shù)判斷和值表更新。具體可如下:
算法參數(shù)初始化設(shè)計(jì)
設(shè)置最大試驗(yàn)次數(shù)(MaxTrail)例如為100,最大移動(dòng)步數(shù)(MaxStep)例如為7,初始試驗(yàn)次數(shù)(Trail)為0,,到達(dá)目標(biāo)獲得增強(qiáng)信號(hào)r=+1,發(fā)生碰撞,獲得增強(qiáng)信號(hào)r=-1,其它狀態(tài)獲得增強(qiáng)信號(hào)r=0。
更新初始狀態(tài)序列
每一次試驗(yàn)開始,初始化移動(dòng)步數(shù)(step)為0,隨機(jī)選取初始狀態(tài)(即位置)。
隨機(jī)產(chǎn)生決策動(dòng)作
在初始狀態(tài)(位置)時(shí),將隨機(jī)產(chǎn)生一個(gè)決策動(dòng)作,到達(dá)一個(gè)新的狀態(tài)(鄰近狀態(tài))。
碰撞邏輯判斷
若發(fā)生碰撞,則更新值表,并進(jìn)行下一試驗(yàn),再次進(jìn)行更新初始狀態(tài)序列的過程;若未發(fā)生碰撞,則進(jìn)行到下一步。
目標(biāo)狀態(tài)判斷
若到達(dá)目標(biāo)狀態(tài),則更新值表,并進(jìn)行下一試驗(yàn),再次進(jìn)行更新初始狀態(tài)序列的過程;若未到達(dá)目標(biāo)狀態(tài),則進(jìn)行到下一步。
步數(shù)判斷
判斷車輛移動(dòng)步數(shù)是否大于最大移動(dòng)步數(shù)。若車輛移動(dòng)步數(shù)大于最大移動(dòng)步數(shù),則更新值表,并進(jìn)行下一試驗(yàn),再次進(jìn)行更新初始狀態(tài)序列的過程;若車輛移動(dòng)步數(shù)不大于最大移動(dòng)步數(shù),則再次進(jìn)行隨機(jī)產(chǎn)生決策動(dòng)作的過程。
需要指出的是,本發(fā)明實(shí)施例中,碰撞邏輯判斷、目標(biāo)狀態(tài)判斷和步數(shù)判斷未必按照上面排列的順序執(zhí)行,即這三種判斷可沒有明確的先后順序,實(shí)際中可根據(jù)需要來選擇執(zhí)行順序。例如,也可以按照目標(biāo)狀態(tài)判斷、碰撞邏輯判斷和步數(shù)判斷的順序執(zhí)行等。
值表更新
圖4a-4d是本發(fā)明實(shí)施例提供的Q學(xué)習(xí)算法值表更新原理的示意圖。本文中用圖4a-4d所示一個(gè)簡單的例子來詮釋Q學(xué)習(xí)算法值表跟新更新法則。圖4a-4d中9個(gè)方格表示智能機(jī)器人所在環(huán)境存在的9中種可能的狀態(tài),箭頭為智能機(jī)器人可能選擇的動(dòng)作,表示從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的狀態(tài)轉(zhuǎn)移。圖中每個(gè)箭頭旁邊的數(shù)字表示狀態(tài)-動(dòng)作轉(zhuǎn)移得到的增強(qiáng)信號(hào)。Q值表示從一個(gè)狀態(tài)選擇一個(gè)動(dòng)作獲得的最大累計(jì)增強(qiáng)信號(hào),V值表示一個(gè)狀態(tài)可以獲得的最大累計(jì)增強(qiáng)信號(hào)。G表示目標(biāo)狀態(tài),一旦進(jìn)入此狀態(tài)便會(huì)停留在該狀態(tài)下。圖4(a)中,初始狀態(tài)下,除了能到達(dá)目標(biāo)的Q值為100外,其它狀態(tài)轉(zhuǎn)移的Q值均為0。圖4(b)中,選取折算因子α=0.8,根據(jù)式智能機(jī)器人對(duì)每一個(gè)狀態(tài)進(jìn)行反復(fù)執(zhí)行動(dòng)作之后,更新出Q值。其中,x表示當(dāng)前狀態(tài),x’表示下一狀態(tài),u表示當(dāng)前動(dòng)作,u’表示下一動(dòng)作,r為增強(qiáng)信號(hào),表示最優(yōu)動(dòng)作值。圖4(c)中,根據(jù)式得到每一個(gè)狀態(tài)相應(yīng)的V函數(shù),其中,V*(x)表示最優(yōu)狀態(tài)值。圖4(d)表示根據(jù)Q函數(shù)和V函數(shù)的數(shù)值獲得的最優(yōu)路線(即無論從哪個(gè)狀態(tài)開始,到達(dá)目標(biāo)步數(shù)最少)。如此往復(fù),直到所有試驗(yàn)結(jié)束(即,當(dāng)前步數(shù)大于最大步數(shù)時(shí))??蓪⒆詈笠淮卧囼?yàn)更新的值表歸一化到[0,1],作為最優(yōu)策略值表。
將學(xué)習(xí)后的算法(最優(yōu)策略值表)裝入實(shí)車,作為自動(dòng)駕駛汽車最優(yōu)路徑選擇的經(jīng)驗(yàn)之后,汽車即可實(shí)現(xiàn)自動(dòng)線路規(guī)劃,完成自主加油。
圖5是本發(fā)明實(shí)施例中自動(dòng)駕駛汽車中的各個(gè)部件設(shè)置的示意圖。自動(dòng)駕駛汽車傳感器安裝如圖5所示。自動(dòng)駕駛汽車前、后、左、右可分別安裝有一個(gè)毫米波雷達(dá)51(圖中以示例方式僅示出一個(gè)),用于檢測周邊環(huán)境,自動(dòng)駕駛汽車油箱蓋處安裝有一個(gè)DSRC(專用短程通信技術(shù))模塊52,加油站油罐的油槍安裝有DSRC模塊52,實(shí)現(xiàn)車輛與油槍之間的通信,進(jìn)而知曉油槍的位置(目標(biāo))。DSRC是一種高效的無線通信技術(shù),本發(fā)明實(shí)施例中利用DSRC可以實(shí)現(xiàn)在特定小區(qū)域內(nèi)對(duì)高速運(yùn)動(dòng)下的移動(dòng)目標(biāo)的識(shí)別和雙向通信
圖6是本發(fā)明實(shí)施例中基于Q學(xué)習(xí)算法實(shí)現(xiàn)自主加油的示意圖。實(shí)際行駛過程中,將加油站環(huán)境進(jìn)行離散化處理,使得自主加油行駛問題變?yōu)镼學(xué)習(xí)算法的路徑規(guī)劃問題。利用最優(yōu)策略值表,計(jì)算出離散環(huán)境的最優(yōu)路徑,再利用自動(dòng)駕駛汽車行駛路徑取擬合離散的最優(yōu)路徑,進(jìn)而使自動(dòng)駕駛汽車自主行駛到油槍口處。參照?qǐng)D6,智能車61與油罐63之間的行駛路線是根據(jù)所述智能車61的油箱口62與加油站油槍64之間的距離來規(guī)劃。圖6中示出了按照本發(fā)明實(shí)施例規(guī)劃出的一種行駛線路。
本發(fā)明實(shí)施例提供的自動(dòng)駕駛汽車自主加油方法,用經(jīng)典機(jī)器學(xué)習(xí)算法-Q學(xué)習(xí)算法,通過自動(dòng)駕駛汽車自主學(xué)習(xí),實(shí)現(xiàn)不同環(huán)境下最優(yōu)行駛策略(行駛路徑最少),使得自動(dòng)駕駛汽車自主加油具有更好的穩(wěn)定性、自適應(yīng)性、機(jī)動(dòng)性和靈活性。
圖7是本發(fā)明實(shí)施例提供的智能車的結(jié)構(gòu)框圖。參照?qǐng)D7,本發(fā)明實(shí)施例提供的智能車700可包括:學(xué)習(xí)模塊701、路線規(guī)劃模塊702和行駛模塊703。其中:
所述學(xué)習(xí)模塊701,用于利用學(xué)習(xí)算法通過智能車自主學(xué)習(xí)形成所述智能車的行駛策略值表,所述行駛策略值表由對(duì)行駛區(qū)域細(xì)分而成的多個(gè)柵格中的每個(gè)柵格賦值形成;
所述線路規(guī)劃模塊702,用于基于所述行駛策略值表,自動(dòng)規(guī)劃所述智能車與所述加油位置之間的行駛路線;
所述行駛模塊703,用于按照所述行駛路線自動(dòng)行駛至所述加油位置,以進(jìn)行加油。
本發(fā)明實(shí)施例提供的智能車,進(jìn)而自動(dòng)進(jìn)行路線規(guī)劃,能夠使智能車基于規(guī)劃的路線行駛并進(jìn)行自主加油,實(shí)現(xiàn)加油的智能化。
可選地,所述學(xué)習(xí)模塊701可具體用于:初始化所述智能車的狀態(tài),并針對(duì)該狀態(tài)隨機(jī)產(chǎn)生一個(gè)決策動(dòng)作;對(duì)該決策動(dòng)作后到達(dá)的狀態(tài)進(jìn)行判斷;若未達(dá)到所述加油位置、未達(dá)到設(shè)置的最大步數(shù)或未發(fā)生碰撞,則重復(fù)隨機(jī)產(chǎn)生決策動(dòng)作并對(duì)決策動(dòng)作后到達(dá)的狀態(tài)進(jìn)行判斷的步驟;若達(dá)到所述加油位置、達(dá)到設(shè)置的最大步數(shù)或發(fā)生碰撞,則更新所述智能車的行駛策略值表,并進(jìn)行下一次學(xué)習(xí)試驗(yàn)直到達(dá)到預(yù)設(shè)的試驗(yàn)次數(shù)。
可選地,所述學(xué)習(xí)模塊701還可用于:
在達(dá)到預(yù)設(shè)的試驗(yàn)次數(shù)時(shí),將最后一次試驗(yàn)更新的行駛策略值表歸一化到0和1之間,作為最終的行駛策略值表。
可選地,所述線路規(guī)劃模塊702可具體用于:
在所述行駛策略值表上按照取值從小到大的方向形成所述智能車與所述加油位置之間的行駛路線。
在本發(fā)明的各個(gè)實(shí)施例中,所述智能車700上安裝有專用短程通信技術(shù)DSRC模塊。
在本發(fā)明的各個(gè)實(shí)施例中,可選地,所述線路規(guī)劃模塊702可具體用于:根據(jù)所述智能車的油箱蓋與加油站油槍之間的距離來規(guī)劃所述智能車與所述加油位置之間的行駛路線。
本發(fā)明實(shí)施例提供的智能車,可利用經(jīng)典機(jī)器學(xué)習(xí)算法-Q學(xué)習(xí)算法,通過自動(dòng)駕駛汽車自主學(xué)習(xí),實(shí)現(xiàn)不同環(huán)境下最優(yōu)行駛策略(行駛路徑最少),使得自動(dòng)駕駛汽車自主加油具有更好的穩(wěn)定性、自適應(yīng)性、機(jī)動(dòng)性和靈活性。
需要說明的是:上述實(shí)施例提供的智能車僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將智能車的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的智能車與自動(dòng)駕駛汽車自主加油方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。
除非另作定義,此處使用的技術(shù)術(shù)語或者科學(xué)術(shù)語應(yīng)當(dāng)為本發(fā)明所屬領(lǐng)域內(nèi)具有一般技能的人士所理解的通常意義。本發(fā)明專利申請(qǐng)說明書以及權(quán)利要求書中使用的“第一”、“第二”以及類似的詞語并不表示任何順序、數(shù)量或者重要性,而只是用來區(qū)分不同的組成部分。同樣,“一個(gè)”或者“一”等類似詞語也不表示數(shù)量限制,而是表示存在至少一個(gè)。“連接”或者“相連”等類似的詞語并非限定于物理的或者機(jī)械的連接,而是可以包括電性的連接,不管是直接的還是間接的。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。