量 的類別標簽,并保存所述訓練矩陣中每個列向量對應的類別標簽。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述訓練樣本為圖像; 所述根據(jù)所述第一訓練樣本集中的訓練樣本確定所述第一訓練樣本集的平均樣本,包 括: 計算所述第一訓練樣本集中所有訓練樣本相同位置上像素點的像素值的平均值; 將所有位置像素點的像素值均為對應位置像素點像素值的平均值的樣本確定為所述 第一訓練樣本集的平均樣本。
3. 根據(jù)權利要求1所述的方法,其特征在于,所述預設迭代算法為KSVD算法。
4. 根據(jù)權利要求2所述的方法,其特征在于,所述利用預設迭代算法對所述平均樣本 進行迭代運算得到所述第一訓練樣本集的分類字典,包括: 獲取初始化字典; 利用初始化字典和所述平均樣本采用正交匹配跟蹤算法計算得到稀疏系數(shù)矩陣; 根據(jù)得到的稀疏系數(shù)矩陣利用如下公式迭代地更新分類字典與稀疏系數(shù)矩陣; min 〇(,D) (IIY-DXIIP) 2s. t. II xj I《T。,其中X為稀疏系數(shù)矩陣,D為分類字典,Y為平 均樣本對應的矩陣。
5. -種數(shù)據(jù)分類方法,其特征在于,包括: 在預設樣本數(shù)據(jù)庫任意選取一個訓練樣本作為測試樣本; 將所述測試樣本映射到上述權利要求1-4任一項中所述的分類字典上得到所述測試 樣本的稀疏系數(shù)向量; 計算所述稀疏系數(shù)向量與上述權利要求1-4任一項中所述的訓練矩陣中每個列向量 的漢明距離; 根據(jù)所述稀疏系數(shù)向量與所述的訓練矩陣中所有列向量的漢明距離確定所述測試樣 本的目標類別。
6. 根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)所述稀疏系數(shù)向量與所述的訓 練矩陣中所有列向量的漢明距離確定所述測試樣本的目標類別,包括: 比較所述稀疏系數(shù)向量與所述的訓練矩陣中所有列向量的漢明距離; 在所述訓練矩陣中所有列向量選取漢明距離最小的所有列向量作為參考列向量; 根據(jù)所述訓練矩陣中每個列向量對應的類別標簽,統(tǒng)計所有所述參考列向量對應的每 個類別的類別標簽的數(shù)量; 將數(shù)量最多的類別標簽所對應的類別確定為所述測試樣本的目標類別。
7. -種數(shù)據(jù)分類裝置,其特征在于,包括: 類別識別模塊,用于識別預設樣本數(shù)據(jù)庫中每個訓練樣的類別; 樣本集選取模塊,用于在預設樣本數(shù)據(jù)庫中分別選取第一訓練樣本集和第二訓練樣本 集,每個訓練樣本集都包含有所述預設樣本數(shù)據(jù)庫中所有類別的多個訓練樣本; 平均樣本確定模塊,用于根據(jù)所述第一訓練樣本集中的訓練樣本確定所述第一訓練樣 本集的平均樣本; 計算模塊,用于利用預設迭代算法對所述平均樣本進行迭代運算得到所述第一訓練樣 本集的分類字典; 分解模塊,用于將所述第二訓練樣本集中的每個訓練樣本在所述分類字典下分解得到 一個訓練稀疏系數(shù)向量; 級聯(lián)模塊,用于將得到的所有訓練稀疏系數(shù)向量級聯(lián)得到訓練矩陣,所述訓練矩陣包 含有至少兩個列向量; 類別標簽確定模塊,用于根據(jù)所述第二訓練樣本集中的每個訓練樣本的類別確定所述 訓練矩陣中每個列向量的類別標簽,并保存所述訓練矩陣中每個列向量對應的類別標簽。
8. 根據(jù)權利要求7所述的裝置,其特征在于,所述訓練樣本為圖像; 平均樣本確定模塊,包括: 平均值計算子模塊,用于計算所述第一訓練樣本集中所有訓練樣本相同位置上像素點 的像素值的平均值; 第一確定子模塊,用于將所有位置像素點的像素值均為對應位置像素點像素值的平均 值的樣本確定為所述第一訓練樣本集的平均樣本。
9. 根據(jù)權利要求8所述的裝置,其特征在于,所述預設迭代算法為KSVD算法; 所述計算模塊,包括: 初始化字典獲取子模塊,用于獲取初始化字典; 第一計算子模塊,用于利用初始化字典采用正交匹配跟蹤算法計算得到稀疏系數(shù)矩 陣; 迭代計算子模塊,用于根據(jù)得到的稀疏系數(shù)矩陣利用如下公式迭代地更新分類字典與 稀疏系數(shù)矩陣; min 〇(,D) (IIY-DXIIP) 2s. t. II xj I《T。,其中X為稀疏系數(shù)矩陣,D為分類字典,Y為平 均樣本對應的矩陣。
10. -種數(shù)據(jù)分類裝置,其特征在于,包括: 測試樣本選取模塊,用于在預設樣本數(shù)據(jù)庫任意選取一個訓練樣本作為測試樣本; 稀疏系數(shù)向量確定模塊,用于將所述測試樣本映射到上述權利要求7-9任一項中所述 的分類字典上得到所述測試樣本的稀疏系數(shù)向量; 漢明距離計算模塊,用于計算所述稀疏系數(shù)向量與上述權利要求7-9任一項中所述的 訓練矩陣中每個列向量的漢明距離; 目標類別確定模塊,用于根據(jù)所述稀疏系數(shù)向量與所述的訓練矩陣中所有列向量的漢 明距離確定所述測試樣本的目標類別。
11. 根據(jù)權利要求10所述的裝置,其特征在于,所述目標類別確定模塊,包括: 漢明距離比較子模塊,用于比較所述稀疏系數(shù)向量與所述的訓練矩陣中所有列向量的 漢明距離; 參考列向量確定子模塊,用于在所述訓練矩陣中所有列向量選取漢明距離最小的所有 列向量作為參考列向量; 類別標簽統(tǒng)計子模塊,用于根據(jù)所述訓練矩陣中每個列向量對應的類別標簽,統(tǒng)計所 有所述參考列向量對應的每個類別的類別標簽的數(shù)量; 第二確定子模塊,用于將數(shù)量最多的類別標簽所對應的類別確定為所述測試樣本的目 標類別。
12. -種數(shù)據(jù)分類裝置,其特征在于,包括: 處理器; 用于存儲處理器可執(zhí)行指令的存儲器; 其中,所述處理器被配置為: 識別預設樣本數(shù)據(jù)庫中每個訓練樣的類別; 在預設樣本數(shù)據(jù)庫中分別選取第一訓練樣本集和第二訓練樣本集,每個訓練樣本集都 包含有所述預設樣本數(shù)據(jù)庫中所有類別的多個訓練樣本; 根據(jù)所述第一訓練樣本集中的訓練樣本確定所述第一訓練樣本集的平均樣本; 利用預設迭代算法對所述平均樣本進行迭代運算得到所述第一訓練樣本集的分類字 化. 將所述第二訓練樣本集中的每個訓練樣本在所述分類字典下分解得到一個訓練稀疏 系數(shù)向量; 將得到的所有訓練稀疏系數(shù)向量級聯(lián)得到訓練矩陣,所述訓練矩陣包含有至少兩個列 向量; 根據(jù)所述第二訓練樣本集中的每個訓練樣本的類別確定所述訓練矩陣中每個列向量 的類別標簽,并保存所述訓練矩陣中每個列向量對應的類別標簽。
13. 根據(jù)權利要求12所述的裝置,其特征在于,所述處理器還被配置為: 在預設樣本數(shù)據(jù)庫任意選取一個訓練樣本作為測試樣本; 將所述測試樣本映射到所述的分類字典上得到所述測試樣本的稀疏系數(shù)向量; 計算所述稀疏系數(shù)向量與所述的訓練矩陣中每個列向量的漢明距離; 根據(jù)所述稀疏系數(shù)向量與所述的訓練矩陣中所有列向量的漢明距離確定所述測試樣 本的目標類別。
【專利摘要】本公開是關于一種數(shù)據(jù)分類方法及裝置,該方法包括:識別預設樣本數(shù)據(jù)庫中每個訓練樣本的類別;在預設樣本數(shù)據(jù)庫中分別選取第一訓練樣本集和第二訓練樣本集;確定第一訓練樣本集的平均樣本,利用預設迭代算法對平均樣本進行迭代運算得到第一訓練樣本集的分類字典;將第二訓練樣本集中的每個訓練樣本在分類字典下分解得到一個訓練稀疏系數(shù)向量,并將得到的所有訓練稀疏系數(shù)向量級聯(lián)得到訓練矩陣;根據(jù)第二訓練樣本集中的每個訓練樣本的類別確定訓練矩陣中每個列向量的類別標簽,并保存訓練矩陣中每個列向量對應的類別標簽。該方法可以使得在數(shù)據(jù)分類時訓練字典的速度提高,消耗的時間減少,提高了數(shù)據(jù)分類的整體效率。
【IPC分類】G06F17-30
【公開號】CN104572930
【申請?zhí)枴緾N201410838127
【發(fā)明人】龍飛, 張濤, 汪平仄
【申請人】小米科技有限責任公司
【公開日】2015年4月29日
【申請日】2014年12月29日