本技術(shù)涉及深度學習,特別是涉及一種聚類模型的訓練方法、圖像聚類方法、裝置及設(shè)備。
背景技術(shù):
1、在智能安防等場景中,通常需要將攝像頭采集到的面部圖像按照所屬人員進行聚類,以便于人員歸檔。
2、目前,針對多張面部圖像進行聚類時,通常先對各個面部圖像進行特征提取,得到各個面部圖像各自對應(yīng)的特征向量;接著,將各個面部圖像各自對應(yīng)的特征向量輸入能夠計算多個特征向量之間的關(guān)聯(lián)度的聚類模型,得到聚類結(jié)果。
3、但是,上述聚類方式采用的聚類模型在訓練時往往需要極大的內(nèi)存。也就是,當面部圖像的數(shù)量龐大時,例如達到百萬級或者億級,模型訓練需要一次性輸入所有面部圖像各自對應(yīng)的特征向量,導(dǎo)致訓練設(shè)備需要極大的內(nèi)存來一次性容納全部面部圖像對應(yīng)的特征向量。
4、那么,如何在設(shè)備資源有限的情況下,利用規(guī)模龐大的面部圖像對聚類模型進行訓練是一個亟需解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的目的在于提供一種聚類模型的訓練方法、裝置及設(shè)備,以在設(shè)備資源有限的情況下,利用規(guī)模龐大的面部圖像對聚類模型進行訓練;另外,本技術(shù)實施例還提供了一種圖像聚類方法,以提高聚類結(jié)果的精度。具體技術(shù)方案如下:
2、第一方面,本技術(shù)實施例提供了一種聚類模型的訓練方法,所述方法包括:
3、獲取訓練數(shù)據(jù)集;其中,所述訓練數(shù)據(jù)集包含多張面部圖像;
4、對所述訓練數(shù)據(jù)集中的面部圖像進行分組,得到多組面部圖像;其中,任一組面部圖像的數(shù)目為第一預(yù)設(shè)數(shù)量;
5、針對每一組面部圖像,利用指定聚類模型對該組面部圖像進行處理,得到所述指定聚類模型輸出的第一相似度矩陣;其中,所述第一相似度矩陣為具有所述第一預(yù)設(shè)數(shù)量的行數(shù)的方陣,且所述第一相似度矩陣中每一元素表示該組面部圖像中的一個圖像對的相似度;任一圖像對的相似度表示該圖像對包含的兩張圖像之間的相似度;
6、針對每一組面部圖像,基于該組面部圖像對應(yīng)的第一相似度矩陣,與預(yù)先計算得到的該組面部圖像中的圖像對對應(yīng)的相似度標簽之間的差異,對所述指定聚類模型的模型參數(shù)進行調(diào)整;其中,該組面部圖像中的圖像對對應(yīng)的相似度標簽為從預(yù)先構(gòu)建的相似度標簽集中獲取的;所述相似度標簽集中的相似度標簽為:基于對所述訓練數(shù)據(jù)集中各圖像對的相似度進行歸一化處理得到的。
7、可選地,所述指定聚類模型為視覺型轉(zhuǎn)換模型結(jié)構(gòu)vit模型,所述vit模型具有第二預(yù)設(shè)數(shù)量個輸入節(jié)點;
8、所述針對每一組面部圖像,利用指定聚類模型對該組面部圖像進行處理,得到所述指定聚類模型輸出的第一相似度矩陣,包括:
9、針對該組面部圖像中的每一面部圖像,從該面部圖像中提取第二預(yù)設(shè)數(shù)量個指定五官所占的圖像區(qū)域,得到每一指定五官在各面部圖像中對應(yīng)的局部圖像;
10、將同一指定五官在各面部圖像中對應(yīng)的局部圖像作為一輸入節(jié)點的輸入數(shù)據(jù),輸入所述vit模型,得到該組面部圖像對應(yīng)的第一相似度矩陣。
11、可選地,所述相似度標簽集的構(gòu)建方式包括:
12、對所述訓練數(shù)據(jù)集中的各面部圖像進行特征提取,得到每一面部圖像對應(yīng)的特征向量;
13、計算每兩張面部圖像對應(yīng)的特征向量之間的相似度,得到該兩張面部圖像構(gòu)成的圖像對的相似度;
14、基于對各圖像對的相似度進行歸一化處理,生成各圖像對的相似度標簽,得到相似度標簽集。
15、可選地,所述基于對各圖像對的相似度進行歸一化處理,生成各圖像對的相似度標簽,包括:
16、對各圖像對的相似度進行歸一化處理,得到各圖像對對應(yīng)的歸一化結(jié)果;
17、針對每一圖像對,若該圖像對中的面部圖像包含的人物的身份相同,則利用第一懲罰因子對該圖像對對應(yīng)的歸一化結(jié)果進行調(diào)整,并將調(diào)整后的結(jié)果確定為該圖像對的相似度標簽;
18、針對每一圖像對,若該圖像對中的面部圖像包含的人物的身份不同,則利用第二懲罰因子對該圖像對對應(yīng)的歸一化結(jié)果進行調(diào)整,將調(diào)整后的結(jié)果確定為該圖像對的相似度標簽;
19、其中,所述第一懲罰因子使得調(diào)整后的結(jié)果增大,所述第二懲罰因子使得調(diào)整后的結(jié)果減小。
20、可選地,所述對各圖像對的相似度進行歸一化處理,得到各圖像對對應(yīng)的歸一化結(jié)果,包括:
21、基于各圖像對的相似度中的最大值和最小值,將各圖像對的相似度歸一化到(-1,1)區(qū)間,得到各圖像對對應(yīng)的歸一化結(jié)果。
22、第二方面,本技術(shù)實施例提供了一種圖像聚類方法,所述方法包括:
23、獲取待進行聚類的多張面部圖像;
24、利用預(yù)先訓練的指定聚類模型對所獲取的多張面部圖像進行處理,得到第二相似度矩陣;其中,所述指定聚類模型為基于上述任一項所述的聚類模型的訓練方法進行訓練得到的;
25、基于預(yù)先確定的指定閾值以及所述第二相似度矩陣,對多張面部圖像進行聚類,得到聚類結(jié)果。
26、可選地,所述基于預(yù)先確定的指定閾值以及所述第二相似度矩陣,對多張面部圖像進行聚類,得到聚類結(jié)果,包括:
27、將所述第二相似度矩陣中不小于所述指定閾值的元素所對應(yīng)的圖像對,確定為屬于相同身份的圖像對,得到表示同一身份的聚類結(jié)果。
28、可選地,所述指定閾值的確定方式,包括:
29、利用所述指定聚類模型,對預(yù)先獲取的測試數(shù)據(jù)集中的第一預(yù)設(shè)數(shù)量的面部圖像進行處理,得到第三相似度矩陣;
30、針對每一候選閾值,將所述第三相似度矩陣中不小于該候選閾值的元素所對應(yīng)的圖像對,確定為屬于相同身份的圖像對;
31、計算基于每一候選閾值所確定出的屬于相同身份的圖像對的準確度;
32、將所述準確度最高的候選閾值,確定為指定閾值。
33、可選地,所述候選閾值為按照預(yù)設(shè)間隔從指定區(qū)間中選取得到的;所述指定區(qū)間為所述指定聚類模型訓練時所利用的相似度標簽集中標簽的取值范圍。
34、第三方面,本技術(shù)實施例提供了一種聚類模型的訓練裝置,所述裝置包括:
35、第一獲取模塊,用于獲取訓練數(shù)據(jù)集;其中,所述訓練數(shù)據(jù)集包含多張面部圖像;
36、分組模塊,用于對所述訓練數(shù)據(jù)集中的面部圖像進行分組,得到多組面部圖像;其中,任一組面部圖像的數(shù)目為第一預(yù)設(shè)數(shù)量;
37、第一處理模塊,用于針對每一組面部圖像,利用指定聚類模型對該組面部圖像進行處理,得到所述指定聚類模型輸出的第一相似度矩陣;其中,所述第一相似度矩陣為具有所述第一預(yù)設(shè)數(shù)量的行數(shù)的方陣,且所述第一相似度矩陣中每一元素表示該組面部圖像中的一個圖像對的相似度;任一圖像對的相似度表示該圖像對包含的兩張圖像之間的相似度;
38、調(diào)整模塊,用于針對每一組面部圖像,基于該組面部圖像對應(yīng)的第一相似度矩陣,與預(yù)先計算得到的該組面部圖像中的圖像對對應(yīng)的相似度標簽之間的差異,對所述指定聚類模型的模型參數(shù)進行調(diào)整;其中,該組面部圖像中的圖像對對應(yīng)的相似度標簽為從預(yù)先構(gòu)建的相似度標簽集中獲取的;所述相似度標簽集中的相似度標簽為:基于對所述訓練數(shù)據(jù)集中各圖像對的相似度進行歸一化處理得到的。
39、可選地,所述指定聚類模型為視覺轉(zhuǎn)換器vit模型,所述vit模型具有第二預(yù)設(shè)數(shù)量個輸入節(jié)點;
40、所述第一處理模塊,包括:
41、提取子模塊,用于針對該組面部圖像中的每一面部圖像,從該面部圖像中提取第二預(yù)設(shè)數(shù)量個指定五官所占的圖像區(qū)域,得到每一指定五官在各面部圖像中對應(yīng)的局部圖像;
42、輸入子模塊,用于將同一指定五官在各面部圖像中對應(yīng)的局部圖像作為一輸入節(jié)點的輸入數(shù)據(jù),輸入所述vit模型,得到該組面部圖像對應(yīng)的第一相似度矩陣。
43、可選地,所述相似度標簽集的構(gòu)建方式包括:
44、對所述訓練數(shù)據(jù)集中的各面部圖像進行特征提取,得到每一面部圖像對應(yīng)的特征向量;
45、計算每兩張面部圖像對應(yīng)的特征向量之間的相似度,得到該兩張面部圖像構(gòu)成的圖像對的相似度;
46、基于對各圖像對的相似度進行歸一化處理,生成各圖像對的相似度標簽,得到相似度標簽集。
47、可選地,所述基于對各圖像對的相似度進行歸一化處理,生成各圖像對的相似度標簽,包括:
48、對各圖像對的相似度進行歸一化處理,得到各圖像對對應(yīng)的歸一化結(jié)果;
49、針對每一圖像對,若該圖像對中的面部圖像包含的人物的身份相同,則利用第一懲罰因子對該圖像對對應(yīng)的歸一化結(jié)果進行調(diào)整,并將調(diào)整后的結(jié)果確定為該圖像對的相似度標簽;
50、針對每一圖像對,若該圖像對中的面部圖像包含的人物的身份不同,則利用第二懲罰因子對該圖像對對應(yīng)的歸一化結(jié)果進行調(diào)整,將調(diào)整后的結(jié)果確定為該圖像對的相似度標簽;
51、其中,所述第一懲罰因子使得調(diào)整后的結(jié)果增大,所述第二懲罰因子使得調(diào)整后的結(jié)果減小。
52、可選地,對各圖像對的相似度進行歸一化處理,得到各圖像對對應(yīng)的歸一化結(jié)果,包括:
53、基于各圖像對的相似度中的最大值和最小值,將各圖像對的相似度歸一化到(-1,1)區(qū)間,得到各圖像對對應(yīng)的歸一化結(jié)果。
54、第四方面,本技術(shù)實施例提供了一種圖像聚類裝置,所述裝置包括:
55、第二獲取模塊,用于獲取待進行聚類的多張面部圖像;
56、第二處理模塊,用于利用預(yù)先訓練的指定聚類模型,對所獲取的多張面部圖像進行處理,得到第二相似度矩陣;其中,所述指定聚類模型為基于上述任一項所述的聚類模型的訓練方法進行訓練得到的;
57、聚類模塊,用于基于預(yù)先確定的指定閾值以及所述第二相似度矩陣,對多張面部圖像進行聚類,得到聚類結(jié)果。
58、可選地,所述聚類模塊,具體用于:
59、將所述第二相似度矩陣中不小于所述指定閾值的元素所對應(yīng)的圖像對,確定為屬于相同身份的圖像對,得到表示同一身份的聚類結(jié)果。
60、可選地,所述指定閾值的確定方式,包括:
61、將預(yù)先獲取的測試數(shù)據(jù)集中的第一預(yù)設(shè)數(shù)量的面部圖像輸入所述指定聚類模型,得到第三相似度矩陣;
62、針對每一候選閾值,將所述第三相似度矩陣中不小于該候選閾值的元素所對應(yīng)的圖像對,確定為屬于相同身份的圖像對;
63、計算基于每一候選閾值所確定出的屬于相同身份的圖像對的準確度;
64、將所述準確度最高的候選閾值,確定為指定閾值。
65、可選地,所述候選閾值為按照預(yù)設(shè)間隔從指定區(qū)間中選取得到的;所述指定區(qū)間為所述指定聚類模型訓練時所利用的相似度標簽集中標簽的取值范圍。
66、第五方面,本技術(shù)實施例提供了一種電子設(shè)備,包括:
67、存儲器,用于存放計算機程序;
68、處理器,用于執(zhí)行存儲器上所存放的程序時,實現(xiàn)上述任一項所述的聚類模型的訓練方法,或者,圖像聚類方法。
69、第六方面,本技術(shù)實施例提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)內(nèi)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述任一項所述的聚類模型的訓練方法,或者,圖像聚類方法。
70、第七方面,本技術(shù)實施例提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包含可執(zhí)行指令,當所述可執(zhí)行指令在計算機上執(zhí)行時,使得計算機執(zhí)行上述任一項所述的聚類模型的訓練方法,或者,圖像聚類方法。
71、本技術(shù)實施例有益效果:
72、本技術(shù)實施例提供的方案,通過對訓練數(shù)據(jù)集中的面部圖像進行分組,并針對每一組面部圖像,利用指定聚類模型對該組面部圖像進行處理,得到指定聚類模型輸出的第一相似度矩陣,基于該組面部圖像對應(yīng)的第一相似度矩陣,與預(yù)先計算得到的該組面部圖像中的圖像對對應(yīng)的相似度標簽之間的差異,對指定聚類模型的模型參數(shù)進行調(diào)整。這樣,可以利用指定聚類模型對訓練數(shù)據(jù)集進行分批訓練,使得用于訓練指定聚類模型的設(shè)備一次只需要將一組面部圖像納入內(nèi)存中進行訓練,這顯著減少了內(nèi)存的使用量,使得模型訓練能夠在設(shè)備資源有限的環(huán)境中進行。并且,由于相似度標簽集是基于對訓練數(shù)據(jù)集中各圖像對的相似度進行歸一化處理得到的,因此各組面部圖像中的圖像對對應(yīng)的相似度標簽具有統(tǒng)一的范圍,使得各組面部圖像對應(yīng)的相似度標簽的分布更均勻,從而可以避免由于各組面部圖像對應(yīng)的相似度標簽的分布不均勻而導(dǎo)致的模型性能下降的問題??梢姡ㄟ^本方案,能夠在設(shè)備資源有限的情況下,利用規(guī)模龐大的面部圖像對聚類模型進行訓練。從而,能夠利用有限的設(shè)備資源適配超大規(guī)模訓練數(shù)據(jù)的訓練。
73、另外,本技術(shù)實施例提供的圖像聚類方法,由于按照上述聚類模型的訓練方法對指定聚類模型訓練不受設(shè)備資源限制,因此能夠利用大規(guī)模的訓練數(shù)據(jù)集訓練得到精度更高的指定聚類模型,從而利用該聚類模型的訓練方法訓練得到的指定聚類模型,對待進行聚類的多張面部圖像進行處理,能夠提高聚類結(jié)果的精度。
74、當然,實施本技術(shù)的任一產(chǎn)品或方法并不一定需要同時達到以上所述的所有優(yōu)點。