本發(fā)明涉及計算機視覺,具體為基于深度強化學習的智能購物車系統(tǒng)及其實現(xiàn)方法。
背景技術:
1、隨著零售行業(yè)的數(shù)字化轉型和消費者對購物體驗要求的提高,智能購物系統(tǒng)的研究和應用成為熱點?,F(xiàn)有的智能購物車系統(tǒng)通常依賴于rfid標簽、重量傳感器或其他硬件設備實現(xiàn)商品識別和結算。該種系統(tǒng)存在以下問題:一是需要大量的硬件投入,如rfid標簽、讀寫器、重量傳感器等,增加了商家的運營成本;二是系統(tǒng)部署需要對現(xiàn)有設施進行改造,維護難度大,影響正常運營;三是需要用戶額外操作,如掃描商品、貼標簽等,增加了購物負擔。部分智能購物車系統(tǒng)利用純視覺算法實現(xiàn)商品識別,但現(xiàn)有的視覺算法在復雜零售環(huán)境下存在識別準確率低、實時性差、對新商品適應性不足的問題,因此無法滿足商業(yè)應用的需求。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供基于深度強化學習的智能購物車系統(tǒng)及其實現(xiàn)方法,以解決上述背景技術中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:基于深度強化學習的智能購物車系統(tǒng),包括多模態(tài)數(shù)據(jù)采集模塊、數(shù)據(jù)預處理模塊、多模態(tài)融合感知模塊、商品跟蹤模塊、姿態(tài)估計算法模塊、異常檢測模塊、學習模塊、交互模塊、數(shù)據(jù)安全模塊和服務器,所述數(shù)據(jù)預處理模塊分別與多模態(tài)數(shù)據(jù)采集模塊和多模態(tài)融合感知模塊建立數(shù)據(jù)連接,多模態(tài)融合感知模塊分別與商品跟蹤模塊和姿態(tài)估計算法模塊建立數(shù)據(jù)連接,異常檢測模塊分別與多模態(tài)融合感知模塊、商品跟蹤模塊和姿態(tài)估計算法模塊建立數(shù)據(jù)連接,服務器數(shù)據(jù)連接有交互模塊和數(shù)據(jù)安全模塊,學習模塊分別與多模態(tài)融合感知模塊、商品跟蹤模塊、姿態(tài)估計算法模塊和異常檢測模塊建立數(shù)據(jù)連接。
3、優(yōu)選的,所述數(shù)據(jù)預處理模塊、多模態(tài)融合感知模塊、商品跟蹤模塊、姿態(tài)估計算法模塊、異常檢測模塊和學習模塊均設置于交互模塊上。
4、優(yōu)選的,所述多模態(tài)數(shù)據(jù)采集模塊包括攝像頭陣列、深度傳感器和麥克風陣列,攝像頭陣列采用sony?imx577攝像頭,深度傳感器采用intel?realsense?d435深度相機。
5、優(yōu)選的,所述多模態(tài)融合感知模塊包括特征提取單元、特征融合單元和商品檢測與分類單元,交互模塊包括觸摸屏顯示器、語音交互設備、計算單元、電源單元和通訊單元,計算單元采用nvidia?jetson?agx?orin嵌入式計算設備。
6、基于深度強化學習的智能購物車系統(tǒng)實現(xiàn)方法,包括步驟一,系統(tǒng)部署;步驟二,數(shù)據(jù)采集和預處理;步驟三,商品檢測與分類;步驟四,商品跟蹤和狀態(tài)更新;步驟五,姿態(tài)估計和狀態(tài)判斷;步驟六,異常檢測和安全警報;
7、步驟七,用戶交互和推薦;步驟八,結算和支付;步驟九,數(shù)據(jù)同步和模型更新;
8、其中上述步驟一中,在購物車上部署多模態(tài)數(shù)據(jù)采集模塊和交互模塊,將數(shù)據(jù)預處理模塊、多模態(tài)融合感知模塊、商品跟蹤模塊、姿態(tài)估計算法模塊、異常檢測模塊和學習模塊部署在交互模塊上,建立數(shù)據(jù)預處理模塊和多模態(tài)數(shù)據(jù)采集模塊間的數(shù)據(jù)連接,建立交互模塊和服務器間的數(shù)據(jù)連接,構建數(shù)據(jù)安全模塊,利用數(shù)據(jù)安全模塊對數(shù)據(jù)采集階段、數(shù)據(jù)傳輸階段、模型訓練和聚合階段、數(shù)據(jù)存儲階段進行數(shù)據(jù)安全保護;
9、其中上述步驟二中,利用多模態(tài)數(shù)據(jù)采集模塊采集視覺數(shù)據(jù)、深度數(shù)據(jù)和語音數(shù)據(jù),并傳輸給數(shù)據(jù)預處理模塊,數(shù)據(jù)預處理模塊對數(shù)據(jù)進行同步、對齊和預處理,生成高質量的輸入數(shù)據(jù);同步和對齊具體為:使用時間戳t進行數(shù)據(jù)同步,采用空間變化矩陣t進行空間對齊,公式如下:daligned=t·draw;預處理具體為:對視覺數(shù)據(jù)進行去噪、光照校正和色彩校正,得到預處理后的視覺圖像iv,對深度數(shù)據(jù)進行去噪、濾波和深度圖轉點云,得到預處理后的點云數(shù)據(jù)id,對語音數(shù)據(jù)進行噪聲消除和語音增強,得到預處理后的語音信號is;
10、其中上述步驟三中,多模態(tài)融合感知模塊接收數(shù)據(jù)預處理模塊生成高質量的輸入數(shù)據(jù),進行商品的檢測和分類,輸出商品的類別、位置和置信度,并由交互模塊進行顯示;
11、其中上述步驟四中,商品跟蹤模塊根據(jù)多模態(tài)融合感知模塊的檢測結果,更新商品的軌跡和狀態(tài)信息;
12、其中上述步驟五中,姿態(tài)估計算法模塊根據(jù)多模態(tài)融合感知模塊的檢測結果,計算商品的3d姿態(tài),判斷商品是否被放入購物車,并根據(jù)判斷結果更新購物清單;
13、其中上述步驟六中,異常檢測模塊根據(jù)多模態(tài)融合感知模塊、商品跟蹤模塊和姿態(tài)估計算法模塊的檢測結果識別潛在的異常行為,如果識別出異常行為則觸發(fā)交互模塊進行安全警報;
14、其中上述步驟七中,用戶通過交互模塊查看購物清單、商品信息和個性化推薦,具體為:
15、1)用戶輸入:用戶通過交互模塊與系統(tǒng)交互;
16、2)用戶特征提?。合到y(tǒng)收集用戶的購物歷史、偏好和行為數(shù)據(jù),生成用戶嵌入向量eu;
17、eu=fuser(u)
18、3)推薦算法產生推薦結果:
19、商品嵌入向量計算:
20、ei=fitem(i)
21、偏好匹配和評分:
22、
23、其中,w為權重矩陣,b為偏置項;
24、4)推薦結果展示:交互模塊展示推薦商品列表;
25、5)用戶反饋:系統(tǒng)記錄用戶的點擊、購買和評價,更新用戶模型,優(yōu)化推薦算法;
26、其中上述步驟八中,用戶完成購物后,通過交互模塊選擇自助結算和支付方式;
27、其中上述步驟九中,通過交互模塊將購物數(shù)據(jù)和用戶行為數(shù)據(jù)同步至服務器,參與學習模塊的模型更新。
28、優(yōu)選的,所述步驟一中,數(shù)據(jù)預處理模塊使用ros框架管理多傳感器的數(shù)據(jù)采集和同步,數(shù)據(jù)預處理模塊采用cuda加速的圖像和點云處理算法實現(xiàn)實時的預處理操作;數(shù)據(jù)安全模塊在數(shù)據(jù)采集階段采用差分隱私處理保護數(shù)據(jù)安全,在數(shù)據(jù)傳輸階段使用ssl/tls協(xié)議對數(shù)據(jù)通信進行加密,防止竊聽和數(shù)據(jù)改,在模型訓練和聚合階段進行加密計算,防止數(shù)據(jù)泄露,在數(shù)據(jù)存儲階段對存儲的數(shù)據(jù)進行加密,設置訪問權限,防止未授權訪問;差分隱私處理具體為:在數(shù)據(jù)采集和模型訓練過程中,加入噪聲保護用戶隱私,公式為:
29、
30、其中,δf為全局敏感度,ε為隱私預算。
31、優(yōu)選的,所述步驟三中,多模態(tài)融合感知模塊基于fusion?cnn和gnn進行分類,多模態(tài)融合感知模塊進行商品的檢測和分類的具體過程為:特征提取單元進行多模態(tài)特征提取,特征融合單元使用注意力機制對提取的多模態(tài)特征進行融合,商品檢測與分類單元采用gnn進行商品的檢測和分類;在多模態(tài)特征提取中,視覺特征提取采用基于resnet50的卷積神經網絡,輸入預處理后的視覺圖像iv,輸出視覺特征向量fv;深度特征提取基于pointnet++的點云處理網絡,輸入預處理后的點云數(shù)據(jù)id,輸出深度特征向量fd;語音特征提取采用基于bi-lstm的循環(huán)神經網絡,輸入預處理后的語音信號is,輸出語音特征向量fs;多模態(tài)特征提取具體為:對于視覺特征向量fv、深度特征向量fd和語音特征向量fs,通過對應的特征提取網絡提?。?/p>
32、fv=cnnvision(iv);fd=cnnvision(id);fs=cnnvision(is);
33、特征融合具體為:
34、ffused=αvfv+αdfd+αsfs
35、其中,αv+αd+αs=1,為可學習的權重參數(shù);
36、采用圖神經網絡分類器進行商品的檢測和分類具體為:構建商品特征的圖結構,節(jié)點表示商品候選區(qū)域,邊表示商品之間的關聯(lián)關系,使用gnn進行商品的分類和屬性預測,公式如下:
37、h(l+1)=σ(ah(l)w(l))
38、其中,h(l)為第l層的節(jié)點特征,a為鄰接矩陣,w(l)為權重矩陣。
39、優(yōu)選的,所述步驟四中,商品跟蹤模塊采用基于actor-critic架構的深度強化學習算法,實時決策跟蹤策略,商品跟蹤模塊的環(huán)境模擬采用openai?gym框架,構建商品跟蹤的仿真環(huán)境,商品跟蹤模塊的智能體包括策略網絡和價值網絡,策略網絡和價值網絡均采用mlp;智能體與環(huán)境的交互過程為:智能體根據(jù)策略π選擇動作at,環(huán)境反饋新的狀態(tài)st+1和獎勵rt;學習更新過程具體為:使用收集的經驗計算優(yōu)勢函數(shù)at,更新策略網絡和價值網絡的參數(shù)θπ和θv;
40、策略網絡中,輸入當前狀態(tài)st,輸出動作at的概率分布為:
41、π(at|st;θπ)=softmax(f(st;θπ))
42、價值網絡中,輸入當前狀態(tài)st,輸出估計狀態(tài)價值函數(shù)v(st;θv)為:
43、v(st;θv)=f(st;θv)
44、損失函數(shù)為:
45、l(θπ,θv)=επ[(rt+γv(st+1)-v(st))2-logπ(atst;θπ)at]
46、其中,at為優(yōu)勢函數(shù),rt為即時獎勵,γ為折扣因子。
47、優(yōu)選的,所述步驟五中,姿態(tài)估計算法模塊采用自監(jiān)督學習技術,從未標注的數(shù)據(jù)中學習商品的3d姿態(tài),采用基于transformer的姿態(tài)估計網絡處理序列數(shù)據(jù),使用未標注的大規(guī)模數(shù)據(jù)集進行預訓練,利用重投影一致性損失優(yōu)化模型;姿態(tài)估計算法模塊的算法訓練流程具體為:
48、1)輸入圖像對:從未標注的數(shù)據(jù)集中,獲取相鄰幀的圖像對it和it+1;
49、2)姿態(tài)估計網絡:輸入it和it+1,輸出相對姿態(tài)變換參數(shù)tt→t+1;
50、3)深度估計網絡:輸入it,輸出深度圖dt;
51、4)視差計算和重投影:使用深度圖dt和相對姿態(tài)變換參數(shù)tt→t+1,將it重投影到it+1的視角,得到重建圖像
52、5)計算重投影一致性損失:
53、
54、6)模型更新:反向傳播,更新網絡參數(shù)。
55、優(yōu)選的,所述步驟九中,學習模塊采用模型-無關的元學習算法和聯(lián)邦平均算法,聯(lián)邦學習采用tensorflowfederated框架;學習模塊的更新流程為:
56、1)本地任務訓練:每個客戶端在本地數(shù)據(jù)上進行任務訓練,使用模型-無關的元學習算法,得到更新的模型參數(shù)θi′;
57、2)參數(shù)加密上傳:將模型參數(shù)加密上傳至服務器;
58、3)參數(shù)聚合:服務器接收加密的模型參數(shù),使用聯(lián)邦平均算法聚合,得到全局模型參數(shù)θ;
59、4)模型下發(fā):服務器將更新的全局模型參數(shù)θ下發(fā)至各客戶端;
60、5)循環(huán)迭代:客戶端使用新的模型參數(shù),進行下一輪本地訓練;
61、其中,客戶端為購物車上的交互模塊;模型-無關的元學習算法具體為:
62、1)元訓練過程:對于任務ai,計算梯度:
63、
64、2)元更新:
65、
66、其中,α和β為學習率;
67、聯(lián)邦學習具體為:
68、1)本地更新:客戶端k在本地數(shù)據(jù)上訓練,得到模型參數(shù)ωk;
69、2)全局聚合:服務器聚合各客戶端的模型參數(shù):
70、
71、其中,nk為客戶端k的數(shù)據(jù)量,
72、與現(xiàn)有技術相比,本發(fā)明的有益效果是:本發(fā)明通過多模態(tài)數(shù)據(jù)采集和融合,結合改進的深度學習算法,實現(xiàn)了商品的高精度分類、跟蹤和姿態(tài)估計;引入深度強化學習、自監(jiān)督學習、元學習和聯(lián)邦學習技術,提高了模型的魯棒性、適應性和實時性;采用差分隱私和安全多方計算技術,保護了用戶數(shù)據(jù)的安全和隱私;有效降低了運營成本,提高了購物效率,提升了用戶體驗。