本申請(qǐng)涉及無(wú)線通信,例如涉及一種基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法及裝置、sta、ap、介質(zhì)。
背景技術(shù):
1、目前,mlo(multi-link?operation)為802.11be(wi-fi?7)標(biāo)準(zhǔn)下的關(guān)鍵技術(shù)。mlo技術(shù)可使sta(站點(diǎn),station)連接至不同的頻段(2.4hz/5hz/6ghz)和信道上,并同時(shí)進(jìn)行數(shù)據(jù)的發(fā)送和接收。mlo存在以下技術(shù)優(yōu)勢(shì):第一,通過(guò)鏈路聚合大幅度提升數(shù)據(jù)傳輸速率。第二,通過(guò)多鏈路并發(fā)降低數(shù)據(jù)傳輸時(shí)延。第三,通過(guò)在不同的鏈路上傳輸相同的數(shù)據(jù)或者根據(jù)鏈路的質(zhì)量無(wú)縫切換鏈路,提升數(shù)據(jù)傳輸?shù)目煽啃?。由于mlo技術(shù)具有高傳輸速率、時(shí)延低以及可靠性高的多項(xiàng)優(yōu)勢(shì),因此,mlo技術(shù)能夠提升vr(virtual?reality,虛擬現(xiàn)實(shí))和ar(augmented?reality,增強(qiáng)顯示)等對(duì)網(wǎng)絡(luò)帶寬和時(shí)延具有較高要求的應(yīng)用體驗(yàn),有助于wi-fi向工業(yè)領(lǐng)域的應(yīng)用拓展。
2、mlo允許在單一頻段上建立多鏈路。例如,一sta(non-access-point?station)在2.4ghz的單一頻段上,向ap(access?point,無(wú)線接入點(diǎn))請(qǐng)求鏈路1、鏈路2和鏈路3三條鏈路。同時(shí),該sta發(fā)送的請(qǐng)求中包括有本機(jī)low-sta(簡(jiǎn)稱lsta)對(duì)應(yīng)端口的端口信息。該sta在獲得ap發(fā)送的響應(yīng)后,可在鏈路1、鏈路2和鏈路3三條鏈路上同時(shí)進(jìn)行數(shù)據(jù)傳輸,從而實(shí)現(xiàn)多鏈路的數(shù)據(jù)傳輸。
3、在實(shí)現(xiàn)本公開(kāi)實(shí)施例的過(guò)程中,發(fā)現(xiàn)相關(guān)技術(shù)中至少存在如下問(wèn)題:
4、目前,mlo具有多鏈路構(gòu)建方案以及多鏈路傳輸方案。在多個(gè)sta同時(shí)與一ap進(jìn)行多鏈路的數(shù)據(jù)傳輸?shù)那闆r下,會(huì)存在兩個(gè)以上sta搶占鏈路資源的情況,同時(shí),存在部分鏈路未被sta利用的情況。導(dǎo)致系統(tǒng)吞吐量低下。因此,在mlo中,如何實(shí)現(xiàn)多鏈路資源的合理分配,減少其他sta對(duì)本sta數(shù)據(jù)傳輸?shù)母蓴_,提高系統(tǒng)吞吐量,成為當(dāng)前亟需解決的技術(shù)難題。
5、需要說(shuō)明的是,在上述背景技術(shù)部分公開(kāi)的信息僅用于加強(qiáng)對(duì)本申請(qǐng)的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、為了對(duì)披露的實(shí)施例的一些方面有基本的理解,下面給出了簡(jiǎn)單的概括。所述概括不是泛泛評(píng)述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍,而是作為后面的詳細(xì)說(shuō)明的序言。
2、本公開(kāi)實(shí)施例提供了一種基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法、裝置、sta、ap和介質(zhì),以實(shí)現(xiàn)多鏈路資源的合理分配,減少其他sta對(duì)本sta數(shù)據(jù)傳輸?shù)母蓴_,提高系統(tǒng)吞吐量。
3、在一些實(shí)施例中,所述方法應(yīng)用于站點(diǎn)sta,該方法包括:選擇一目標(biāo)鏈路,并,在當(dāng)前時(shí)刻通過(guò)目標(biāo)鏈路發(fā)送請(qǐng)求數(shù)據(jù);根據(jù)無(wú)線接入點(diǎn)ap通過(guò)目標(biāo)鏈路發(fā)送的響應(yīng)數(shù)據(jù),更新目標(biāo)鏈路在下一時(shí)刻的q值,響應(yīng)數(shù)據(jù)用以表示目標(biāo)鏈路在當(dāng)前時(shí)刻被其他sta選擇的情況;根據(jù)更新的q表,選擇下一時(shí)刻的目標(biāo)鏈路,q表存儲(chǔ)有多個(gè)鏈路對(duì)應(yīng)的最新時(shí)刻的q值。
4、在一些實(shí)施例中,所述方法方應(yīng)用于ap,該方法包括:接收多個(gè)sta在當(dāng)前時(shí)刻通過(guò)鏈路各自發(fā)送的請(qǐng)求數(shù)據(jù),生成與各sta對(duì)應(yīng)的響應(yīng)數(shù)據(jù);通過(guò)鏈路向每個(gè)sta發(fā)送對(duì)應(yīng)的響應(yīng)數(shù)據(jù),響應(yīng)數(shù)據(jù)用以表示鏈路在當(dāng)前時(shí)刻被其他sta選擇的情況,其中,所述鏈路表示每個(gè)sta選擇各自選擇的目標(biāo)鏈路;接收各sta發(fā)送的q表,并根據(jù)q表選擇各sta下一時(shí)刻的目標(biāo)鏈路。
5、在一些實(shí)施例中,所述裝置包括:第一處理器和存儲(chǔ)有程序指令的第一存儲(chǔ)器,所述第一處理器被配置為在運(yùn)行所述程序指令時(shí),執(zhí)行如前述的基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法。
6、在一些實(shí)施例中,所述sta,包括:站點(diǎn)本體;如前述的基于強(qiáng)化學(xué)習(xí)的多鏈路分配裝置,被安裝于所述站點(diǎn)本體。
7、在一些實(shí)施例中,所述裝置包括:第二處理器和存儲(chǔ)有程序指令的第二存儲(chǔ)器,所述第二處理器被配置為在運(yùn)行所述程序指令時(shí),執(zhí)行如前述的基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法。
8、在一些實(shí)施例中,所述ap,包括:無(wú)線接入點(diǎn)本體;如前述的基于強(qiáng)化學(xué)習(xí)的多鏈路分配裝置,被安裝于所述無(wú)線接入點(diǎn)本體。
9、在一些實(shí)施例中,所述存儲(chǔ)介質(zhì),存儲(chǔ)有程序指令,所述程序指令在運(yùn)行時(shí),執(zhí)行如前述的基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法。
10、本公開(kāi)實(shí)施例提供的基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法、裝置、sta、ap和介質(zhì),可以實(shí)現(xiàn)以下技術(shù)效果:
11、sta可通過(guò)無(wú)線接入點(diǎn)ap反饋的響應(yīng)數(shù)據(jù)更新q表中目標(biāo)鏈路在下一時(shí)刻的q值,以根據(jù)更新的q表中存儲(chǔ)的多個(gè)鏈路的q值獲知每個(gè)鏈路被其他sta選擇的情況。從而從多個(gè)鏈路中選取下一時(shí)刻的目標(biāo)鏈路,避免選取下一時(shí)刻與其他sta存在沖突的鏈路。由此,sta采用q學(xué)習(xí)的方式獨(dú)立更新該sta的q表,能夠降低其他sta與本sta選擇同一鏈路的概率,從而降低數(shù)據(jù)傳輸?shù)母蓴_,有利于多鏈路資源的合理分配,提高系統(tǒng)吞吐量。
12、以上的總體描述和下文中的描述僅是示例性和解釋性的,不用于限制本申請(qǐng)。
1.一種基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法,其特征在于,應(yīng)用于站點(diǎn)sta,包括:
2.根據(jù)權(quán)利要求1所述的鏈路分配方法,其特征在于,根據(jù)更新的q表,選擇下一時(shí)刻的目標(biāo)鏈路,包括:
3.根據(jù)權(quán)利要求1所述的鏈路分配方法,其特征在于,選擇一目標(biāo)鏈路,包括:
4.根據(jù)權(quán)利要求1所述的鏈路分配方法,其特征在于,根據(jù)無(wú)線接入點(diǎn)ap通過(guò)目標(biāo)鏈路發(fā)送的響應(yīng)數(shù)據(jù),更新目標(biāo)鏈路在下一時(shí)刻的q值,包括:
5.根據(jù)權(quán)利要求4所述的鏈路分配方法,其特征在于,根據(jù)接收的響應(yīng)數(shù)據(jù),確定目標(biāo)鏈路在當(dāng)前時(shí)刻的即時(shí)獎(jiǎng)勵(lì),包括:
6.根據(jù)權(quán)利要求4或5所述的鏈路分配方法,其特征在于,在其他sta不具備強(qiáng)化學(xué)習(xí)能力的情況下,根據(jù)目標(biāo)鏈路在當(dāng)前時(shí)刻的即時(shí)獎(jiǎng)勵(lì)rt,更新鏈路ak在當(dāng)前時(shí)刻的q值,包括:
7.根據(jù)權(quán)利要求4或5所述的鏈路分配方法,其特征在于,在其他sta中至少一個(gè)sta具備強(qiáng)化學(xué)習(xí)能力的情況下,stak根據(jù)目標(biāo)鏈路ak在當(dāng)前時(shí)刻的即時(shí)獎(jiǎng)勵(lì)rt,更新目標(biāo)鏈路ak在當(dāng)前時(shí)刻的q(s,a)值,包括:
8.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的鏈路分配方法,其特征在于,還包括:
9.一種基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法,其特征在于,應(yīng)用于ap,包括:
10.根據(jù)權(quán)利要求9所述的鏈路分配方法,其特征在于,接收多個(gè)sta在當(dāng)前時(shí)刻通過(guò)鏈路發(fā)送的請(qǐng)求數(shù)據(jù),生成與各sta對(duì)應(yīng)的響應(yīng)數(shù)據(jù),包括:
11.根據(jù)權(quán)利要求9所述的鏈路分配方法,其特征在于,在當(dāng)前時(shí)刻同時(shí)接收兩個(gè)以上sta通過(guò)鏈路傳輸?shù)恼?qǐng)求數(shù)據(jù)的情況下,所述接收各sta發(fā)送的q表,并根據(jù)q表選擇各sta下一時(shí)刻的目標(biāo)鏈路,包括:
12.一種基于強(qiáng)化學(xué)習(xí)的多鏈路分配裝置,包括第一處理器和存儲(chǔ)有程序指令的第一存儲(chǔ)器,其特征在于,所述第一處理器被配置為在運(yùn)行所述程序指令時(shí),執(zhí)行如權(quán)利要求1至8任一項(xiàng)所述的基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法。
13.一種sta,其特征在于,包括:
14.一種基于強(qiáng)化學(xué)習(xí)的多鏈路分配裝置,包括第二處理器和存儲(chǔ)有程序指令的第二存儲(chǔ)器,其特征在于,所述第二處理器被配置為在運(yùn)行所述程序指令時(shí),執(zhí)行如權(quán)利要求9至11任一項(xiàng)所述的基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法。
15.一種ap,其特征在于,包括:
16.一種存儲(chǔ)介質(zhì),存儲(chǔ)有程序指令,其特征在于,所述程序指令在運(yùn)行時(shí),執(zhí)行如權(quán)利要求1至11任一項(xiàng)所述的基于強(qiáng)化學(xué)習(xí)的多鏈路分配方法。