中合作的均衡?;?U設(shè)計了一個基于BM模型的功率控制算法,用于解 決認知無線電網(wǎng)絡(luò)問題。而在Wynne的屯、理學(xué)研究中,BM學(xué)習(xí)模型被用于解釋非言語傳遞 性推理能力。和許多經(jīng)典強化模型一樣,在BM模型中,學(xué)習(xí)的過程被假設(shè)為一種帶有馬爾 可夫鏈性質(zhì)的過程,即學(xué)習(xí)主體在本期選擇中決定某種策略的概率由上期行動的反饋所決 定。其基本思想為;在一期決策中,學(xué)習(xí)主體依照某種策略行動,其行為結(jié)果獲得了環(huán)境的 正向評價(獎勵),則該策略在下一期被選擇的概率增大;相反地,若學(xué)習(xí)主體的行為結(jié)果 導(dǎo)致了環(huán)境的負面評價(懲罰),則在下一期中,相應(yīng)策略被選擇的概率會降低。
[0078] 從皮亞杰的認知理論角度出發(fā),BM學(xué)習(xí)模型中的認知過程如圖2所示:
[0079] 圖2中,學(xué)習(xí)主體第t期的認知結(jié)構(gòu)來自于t期W前的行動經(jīng)歷,反映到BM模型 中即是Agent在第t期對各個策略的選擇概率。若對某Agent而言,Pa,t代表了策略a在 第t期的選擇概率,研究者認為該種概率在在真實人腦的認知結(jié)構(gòu)中并不W數(shù)值形式 存在,所有策略的概率系列是W-種類似于排序結(jié)構(gòu)的存在。即如果I\t>Pm,則學(xué)習(xí)主 體會認為策略a帶來的效用會比策略b好,但并沒有量化的關(guān)系。認知結(jié)構(gòu)的改變來自于 外界的刺激,也是強化信號的來源,在BM模型中,外部刺激即是某次行動之后的結(jié)果(獎勵 或是懲罰)。
[0080] 標(biāo)準(zhǔn)形式的BM模型主要由學(xué)習(xí)算法和隨機決策準(zhǔn)則構(gòu)成。在學(xué)習(xí)算法中,一次決 策的結(jié)果會產(chǎn)生正向或反向刺激(獎勵或懲罰),而刺激會更新該決策在未來的決策中可 能被重復(fù)的概率。具體來說,若本次決策選擇的策略帶來的結(jié)果令人滿意(相當(dāng)于甚至優(yōu) 于預(yù)期結(jié)果),則會產(chǎn)生正向刺激,使得參與者傾向于在未來的決策中再次選擇該策略,反 之,則產(chǎn)生反向刺激,參與者將傾向于避免再次選擇該策略。如上所述,模型中的學(xué)習(xí)算法 在每次決策后對參與者的經(jīng)驗庫進行更新,而隨機決策準(zhǔn)則則決定了參與者將如何進行決 策。該準(zhǔn)則的具體含義為,每次決策中,決策者按照可選策略各自的概率隨機選擇下一步執(zhí) 行的策略。參與者只利用自身的歷史選擇及其感知的效用進行決策,整個過程與其他參與 者的選擇和效用無關(guān)。也就是說,BM模型是一個完全分布式強化學(xué)習(xí)模型。
[0081] 在BM模型中,存在"效用"和"期望"等概念,它們是為了計算刺激的中間量。從 知識的角度出發(fā),所有參與者只需了解其可選策略集,并且知道所有可能效用與期望之差 中最大差的絕對值,參與者并不從別的參與者那里獲取信息。從要求參與者的計算能力看, 每一個參與者需要具有進行數(shù)學(xué)運算的能力。
[0082] 2. 2策略學(xué)習(xí)機制
[0083] 將BM模型應(yīng)用到早高峰通勤情境下,通勤者的可選策略集即為早高峰所有班車 集合,記為T,每一輛公交車代表一個選擇策略,每個策略對應(yīng)一個選擇概率從而整個策略 集對應(yīng)了一個概率向量,由隨機決策準(zhǔn)則決定每仿真天內(nèi)通勤者所選策略。通勤者單次通 勤效用由成本衡量模塊計算,圖3說明了策略a對應(yīng)的概率被更新的過程。
[0084] 模型中強化學(xué)習(xí)的結(jié)果表現(xiàn)為概率向量的不斷更新,此概率向量代表了通勤者對 各個公交班次的選擇偏好,若某班次車輛的對應(yīng)概率越大,則通勤者越傾向于選擇該班次。 隨機決策準(zhǔn)則使得通勤者Agent"依概率行動",所有通勤者的班次選擇構(gòu)成了當(dāng)日的高 峰通勤狀況,該也是強化學(xué)習(xí)主體(通勤者Agent)的學(xué)習(xí)環(huán)境。在每日通勤結(jié)束后,通勤 者Agent依照自身成本計算模塊得到本次通勤成本,并結(jié)合自身的期望水平算出強化信號 (即刺激),若是正向刺激則加大本次通勤班次被選擇的概率,若是反向刺激則降低本次通 勤班次被選擇的概率。
[0085] 2. 3刺激計算規(guī)則
[0086] 在BM標(biāo)準(zhǔn)模型中,計算需要用到的一個前提是參與者知道所有的可能效用,W 此計算所有可能效用與期望之差的最大差的絕對值。舉例來說,在Macy對關(guān)于"社會兩難" 問題的研究中,刺激由下式?jīng)Q定
[0087]
公式(7)
[0088] 其中31。代表選擇策略a的支付,T,R,P,S分別是"社會兩難"問題博弈矩陣中的 可能支付。但在早高峰通勤情景下,知道所有的可能支付是不合理的,即通勤者不可能事前 知曉所有可能的通勤成本。由是,本文修改了刺激的計算方式,其公式如下:
[0089]
公式巧)
[0090] 其中
[0091] C。一策略a相對應(yīng)的平均通勤
[0092] A-通勤者對此次通勤成本的期望
[0093] Cm"-該通勤者的歷史最高通勤成本
[0094] Cmi。一該通勤者的歷史最低通勤成本
[0095] 式巧)的分母表示該通勤者歷史任意一次成本與期望之差的絕對值的上確界,該 樣既保證了不論策略所對應(yīng)的成本是多少,刺激的絕對值總小于或等于1,由于每個通勤 者的刺激計算與自身的最高、最低通勤成本相關(guān),該也體現(xiàn)了分布式自主學(xué)習(xí)的思想。
[0096] 2. 4概率更新過程
[0097] 通勤者的期望A為的計算提供了一個參照點,當(dāng)本次通勤成本優(yōu)于期望時,S。 為正,代表本次決策令人滿意(正向刺激),反之則不滿意(反向刺激),從而決定了策略a 所對應(yīng)的選擇概率是增加還是減少。在我們的模型中,把A取為該通勤者的歷史平均通勤 成本。在一次通勤中采用策略a之后,其對應(yīng)概率更新規(guī)則如下:
[0098]
公式巧)
[009引在式(9)中,P。,,代表t時刻策略a對應(yīng)的選擇概率,1表示學(xué)習(xí)率(0 < 1 < 1), 其體現(xiàn)了通勤者學(xué)習(xí)的速度,Sg,t是在t時刻選擇策略a后計算得到的刺激。式(9)表明,對 于被選擇的策略,若本次行動帶來的刺激為正值,即通勤者對于此次選擇的班次感到滿意, 則該公交班次在下一次通勤中被該通勤者選擇的概率相應(yīng)增加,增加的幅度為其余策略概 率總和的lSg,t倍;若本次行動帶來負的刺激,則對應(yīng)公交班次下次被選擇的概率減少,減 少幅度為原概率的-lSa,t(Sg,t為負)倍。
[0100] 對于未被選擇的策略,其對應(yīng)的概率更新規(guī)則如下:
[0101]
[0102] 式5-4表明,對于其他策略,當(dāng)本次行動帶來滿意效果或者不滿意效果時候,其概 率會在原概率基礎(chǔ)上相應(yīng)地縮小或者擴大。式(9)和式(10)共同保證了對于某一通勤者而 言,其各策略的概率總和為1。并且由于式(10)中其他策略的概率縮小或擴大時所乘系數(shù) 均相同,該也保證了原有概率較大的策略擴大(縮小)得多,原有概率較小的擴大(縮?。?得少。
[0103] 由于實測數(shù)據(jù)獲取困難,本文采用在參數(shù)一致的情況下對比經(jīng)典解析結(jié)果的方 法,檢驗?zāi)P偷恼_性。在"公交走廊問題"的相關(guān)研究中,Tian考慮了一個多起點單訖點 公交線路上的通勤者出發(fā)時間選擇均衡問題。在Tian提出的模型中,通勤者的成本包含車 內(nèi)擁擠成本(in-vehiclecrowding)和早/遲到延誤成本(scheduledelay),車內(nèi)擁擠成 本由車廂內(nèi)人數(shù)的多少及車內(nèi)旅行時間的長短所決定,早/遲到延誤成本則是指所乘坐車 輛到達上班地點的時間與上班時間之差所帶來的負效用(所有通勤者都愿意準(zhǔn)時到達)。 Tian研究了該模型下的通勤者出發(fā)時間均衡的性質(zhì),該為我們提供了一個良好的參照點, 因此,本文采用其模型作為驗證多Agent方法適用性的基準(zhǔn)模型。
[0104] 3經(jīng)典解析模型及均衡性質(zhì)
[0105] 在Tian的模型中,通勤者被假定為是同質(zhì)的,并且對整個早高峰通勤狀況具有完 備信息,本文首先采用與其一致的假定條件和參數(shù)設(shè)置進行實驗。從&站出發(fā),選擇乘坐 班車j的通勤者的總成本用如下公式計算:
[0106]
公式(11)
[0107] 其中,Pi表示從Hi站出發(fā)到工作地W的票價,假定Pi是恒定的并不隨時間變化。 q表示通勤者從&出發(fā)乘坐班車j到達W過程中的總擁擠成本。擁擠成本的計算用一個 包含車內(nèi)擁擠水平和站間行駛時間的函數(shù)表示,如式(12):
[010引
公式(12)
[0109] 其中,<是從站Hm上車乘坐班車j的通勤者數(shù)量,顯然有";;'^0,TS表示從站HS 到站Hw的行駛時間,擁擠函數(shù)g(n)代表通勤者對擁擠水平的感知。當(dāng)車廂內(nèi)沒有人的時 候,擁擠成本為0,即g(〇) =0。g(n) -般可取簡單的線性函數(shù)即可。
[0110] 式(11)中的第S項af代表了車內(nèi)旅行時間所帶來的成本,其中a是單位時間 成本,r表示從Hi站出發(fā)到工作地W總的車內(nèi)旅行時間。由前文所述,公交車的行駛速度 被認為是不變的,因此,從Hi到W之間各兩站間公交行駛時間T1,T2,...,Tk是恒定的,所W車內(nèi)旅行時間
也是恒定的。
[0111] 式(11)中的第四項5 (j)表示通勤者乘坐班車j所獲得的延誤懲罰 成本。該里延誤懲罰成本的定義與Vickre/2^勺瓶頸模型一致。模型中用T= {C,. ..,2, 1,0, -1,-2,. ..,-C}表示所有公交車的集合,C和C取足夠大W確保所有通 勤者均能在整個交通高峰階段完成通勤。假定只有一輛公交車是在上班時間時刻準(zhǔn)時到達 工作區(qū)W的,用0表示。由此,j>0表示在上班時間之前就到達W的公交班次,早到的時 間即jXt,其中t為公交車發(fā)車間隔,j< 0表示在上班時間點之后到達W的公交班次,遲 到時間為-jXt。5 (j)的計算如式(13):
[0112]
公式(13)
[0113] 其中,0和丫均為正數(shù),分別代表早到、遲到情況下每單位時間所帶來的延誤懲 罰成本。
[0114] Tian的研究中,同質(zhì)前提下,所有通勤者關(guān)于車內(nèi)旅行時間的單位成本a是相同 的。所W對于同一站Hi出發(fā)的通勤者,其擁有相等的車內(nèi)旅行時間成本,同樣,他們的