的各個(gè)隱變量的變分分布及更新的模型參數(shù)確定目標(biāo)函數(shù), 使目標(biāo)函數(shù)不斷逼近對數(shù)似然;當(dāng)目標(biāo)函數(shù)收斂時(shí),可將對數(shù)似然的取值近似為目標(biāo)函數(shù) 的取值,從而將不可解的對數(shù)似然轉(zhuǎn)換為可解的目標(biāo)函數(shù),實(shí)現(xiàn)了關(guān)系模型的確定。
[0219] 需要說明的是,當(dāng)確定目標(biāo)函數(shù)未收斂,重新獲取更新的各個(gè)隱變量的變分分布 及更新的模型參數(shù)時(shí),可返回步驟203,按照步驟203的方式重新獲取更新的各個(gè)隱變量的 變分分布及更新的模型參數(shù)。當(dāng)?shù)谝淮潍@取更新的各個(gè)隱變量的變分分布及更新的模型參 數(shù)時(shí),步驟203中的公式所涉及到的t-1代表初始值,但返回步驟203重新獲取更新的各個(gè) 隱變量的變分分布及更新的模型參數(shù)時(shí),步驟203中的公式所涉及到的t-1代表上一次更 新。例如,首次按照上述步驟203中的公式獲取更新的各個(gè)隱變量的變分分布及更新的模 型參數(shù)時(shí),公式中的t-1對應(yīng)的參數(shù)使用初始值,得到首次獲取到的更新的隱變量的變分 分布及更新的模型參數(shù)。如果首次獲取到的更新的隱變量的變分分布及更新的模型參數(shù)未 使目標(biāo)函數(shù)收斂,則將首次獲取到的更新的隱變量的變分分布及更新的模型參數(shù)作為上述 步驟203中t-1對應(yīng)的參數(shù)的值,再次獲取更新的隱變量的變分分布及更新的模型參數(shù),并 判斷再次獲取到的更新的隱變量的變分分布及更新的模型參數(shù)是否使確定的目標(biāo)函數(shù)收 斂。如此更新,直至得到使目標(biāo)函數(shù)收斂的隱變量的變分分布及模型參數(shù)。
[0220] 205 :根據(jù)使目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參數(shù)確定關(guān)系模型。
[0221] 針對該步驟,目標(biāo)函數(shù)收斂時(shí)的取值接近對數(shù)似然,可通過使目標(biāo)函數(shù)收斂的各 個(gè)隱變量的變分分布及模型參數(shù)確定關(guān)系模型。
[0222] 進(jìn)一步地,設(shè)置不同的行樣本類別個(gè)數(shù)&和不同的列樣本類別個(gè)數(shù)K。,并針對& 和K。的每一種取值組合,獲取更新的各個(gè)隱變量的變分分布及更新的模型參數(shù),則在使目 標(biāo)函數(shù)收斂的基礎(chǔ)上,還可選取使目標(biāo)函數(shù)取值最大的&和K。,并通過該&和K。計(jì)算得到 的各個(gè)隱變量的變分分布及模型參數(shù)確定關(guān)系模型。
[0223] 需要說明的是,設(shè)置的行樣本類別個(gè)數(shù)K,和列樣本類別個(gè)數(shù)K。與確定的關(guān)系模型 的行樣本類別個(gè)數(shù)和列樣本類別個(gè)數(shù)可能相同,也可能不同,即在確定關(guān)系模型的過程中, 可自動調(diào)整關(guān)系模型的結(jié)構(gòu)。
[0224] 通過上述步驟201至步驟205即實(shí)現(xiàn)了針對2維樣本數(shù)據(jù)確定關(guān)系模型,本實(shí)施 例提供的方法還可用于多于2維的樣本數(shù)據(jù)的關(guān)系模型的確定。例如,樣本數(shù)據(jù)的維度為 3、4、5 等。
[0225] 當(dāng)本發(fā)明實(shí)施例提供的方法應(yīng)用于多于2維的樣本數(shù)據(jù)的關(guān)系模型的確定時(shí),上 述步驟201中,根據(jù)樣本數(shù)據(jù)、至少兩個(gè)隱變量及模型參數(shù)確定的對數(shù)似然為:
[0227] 其中,logp〇表示對數(shù)似然,p表示聯(lián)合概率密度函數(shù),.rW為樣本數(shù)據(jù),d為樣 本數(shù)據(jù)的維度,K為第1維樣本數(shù)據(jù)的個(gè)數(shù),Nd為第d維樣本數(shù)據(jù)的個(gè)數(shù),Z1為第1維樣本數(shù) 據(jù)的隱變量,Zd為第d維樣本數(shù)據(jù)的隱變量,0為模型參數(shù)的集合,模型參數(shù)包括aV.., ad,P,a1為第1維的混合比率,ad為第d維的混合比率,P表示模型參數(shù)。
[0228] 根據(jù)樣本數(shù)據(jù)、至少兩個(gè)隱變量及模型參數(shù)確定的正則項(xiàng)為:
[0230] 其中,d為樣本數(shù)據(jù)的維度,&為第1維樣本數(shù)據(jù)的個(gè)數(shù),Nd為第d維樣本數(shù)據(jù) 的個(gè)數(shù),隊(duì)為第i維樣本數(shù)據(jù)的個(gè)數(shù),&是第1維樣本類別的個(gè)數(shù),Kd是第d維樣本類別 的個(gè)數(shù);f()為隱變量的變分分布的近似值,為第1維第個(gè)樣本數(shù)據(jù)所在第Pl個(gè) 樣本類別的隱變量,為第d維第jd個(gè)樣本數(shù)據(jù)所在第pd個(gè)樣本類別的隱變量;a1為 第i維的混合比率,11為a1的維度,仏..辦為第1維第Pl個(gè)樣本類別、…第d維第p d個(gè) 樣本類別內(nèi)的子模型參數(shù)的維度,L(a,b)=logb+(a-b)/b,a為
?b為
[0231] 根據(jù)樣本數(shù)據(jù)、至少兩個(gè)隱變量及模型參數(shù)確定的各個(gè)隱變量的變分分布的對數(shù) 為:
[0232] logqQ1),…logq(Zd);
[0233] 其中,q(Z1)為隱變量Z1的變分分布,q(Zd)為隱變量Zd的變分分布。
[0234] 上述步驟202中,根據(jù)對數(shù)似然的期望值、正則項(xiàng)的期望值及各個(gè)隱變量的變分 分布的對數(shù)的期望值確定目標(biāo)函數(shù)1為:
[0236] 作為一種可選實(shí)施例,上述步驟203中,獲取更新的各個(gè)隱變量的變分分布及更 新的模型參數(shù),包括但不限于:
[0237]按照如下公式交替更新各個(gè)隱變量的變分分布,直至得到收斂的更新的各個(gè)隱變 量的變分分布:
[0238]
[0241] 根據(jù)更新的各個(gè)隱變量的變分分布按照如下公式更新模型參數(shù),得到更新的模型 參數(shù):
當(dāng)前更新,t_l代表上一次更新或初始化。
[0245] 作為一種可選實(shí)施例,上述步驟203中,獲取更新的各個(gè)隱變量的變分分布及更 新的模型參數(shù),包括但不限于:
[0246] 按照如下公式更新模型參數(shù),得到更新的模型參數(shù):
[0250] 根據(jù)更新的模型參數(shù)按照如下公式交替更新各個(gè)隱變量的變分分布,得到收斂的 更新的各個(gè)隱變量的變分分布:
[0251]
[0254] 其中,t代表當(dāng)前更新,t_l代表上一次更新或初始化。
[0255] 上述步驟204及步驟205的實(shí)現(xiàn)方式可直接應(yīng)用于多于2維的樣本數(shù)據(jù),進(jìn)而確 定關(guān)系t吳型。
[0256] 確定的關(guān)系模型可用于數(shù)據(jù)的聚類,還可用于數(shù)據(jù)的分類。當(dāng)確定的關(guān)系模型用 于數(shù)據(jù)的聚類時(shí),確定關(guān)系模型的過程即是數(shù)據(jù)聚類的過程;當(dāng)確定的關(guān)系模型用于數(shù)據(jù) 的分類時(shí),還需要對確定的關(guān)系模型進(jìn)行進(jìn)一步地處理。利用數(shù)據(jù)聚類和分類的結(jié)果可以 進(jìn)行客戶分析、生物分析及地理分析等,產(chǎn)生的大量的社會價(jià)值和經(jīng)濟(jì)價(jià)值。
[0257] 本發(fā)明實(shí)施例提供的方法,通過獲取根據(jù)樣本數(shù)據(jù)、至少兩個(gè)用于說明樣本數(shù)據(jù) 所屬樣本類別的隱變量及模型參數(shù)確定的對數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對 數(shù),并根據(jù)獲取到的對數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對數(shù)確定目標(biāo)函數(shù),使得 根據(jù)使目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參數(shù)確定的關(guān)系模型能夠適合分析 兩類或兩類以上實(shí)體間的相互關(guān)系,因而擴(kuò)展了關(guān)系模型的應(yīng)用范圍;通過在目標(biāo)函數(shù)中 引入正則項(xiàng),使得確定的關(guān)系模型的復(fù)雜度能夠得到自動控制,進(jìn)而可提高確定關(guān)系模型 的效率。此外,由于隱變量和模型參數(shù)之間存在依賴關(guān)系,因而確定的各個(gè)隱變量的變分分 布和模型參數(shù)更加準(zhǔn)確。
[0258] 實(shí)施例三
[0259] 參見圖3,本發(fā)明實(shí)施例提供了一種關(guān)系模型的確定裝置,該裝置包括:
[0260] 獲取模塊301,用于獲取根據(jù)樣本數(shù)據(jù)、至少兩個(gè)隱變量及模型參數(shù)確定的對數(shù) 似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對數(shù),每個(gè)隱變量用于說明樣本數(shù)據(jù)所屬樣本類 別;
[0261] 第一確定模塊302,用于根據(jù)對數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對數(shù)確 定目標(biāo)函數(shù);
[0262] 第二確定模塊303,用于確定使目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參 數(shù);
[0263] 第三確定模塊304,用于根據(jù)使目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參 數(shù)確定關(guān)系模型。
[0264] 作為一種可選實(shí)施例,獲取模塊301獲取到的對數(shù)似然為:
[0266] 其中,logp〇表示對數(shù)似然,p表示聯(lián)合概率密度函數(shù),.rv為樣本數(shù)據(jù),d為樣 本數(shù)據(jù)的維度,隊(duì)為第1維樣本數(shù)據(jù)的個(gè)數(shù),Nd為第d維樣本數(shù)據(jù)的個(gè)數(shù),Z1為第1維樣本數(shù) 據(jù)的隱變量,Zd為第d維樣本數(shù)據(jù)的隱變量,0為模型參數(shù)的集合,模型參數(shù)包括aV.., a d,,a 1為第1維的混合比率,a d為第d維的混合比率,P表示模型參數(shù)。
[0267] 作為一種可選實(shí)施例,獲取模塊301獲取到的正則項(xiàng)為:
[0269] 其中,d為樣本數(shù)據(jù)的維度,&為第1維樣本數(shù)據(jù)的個(gè)數(shù),Nd為第d維樣本數(shù)據(jù) 的個(gè)數(shù),隊(duì)為第i維樣本數(shù)據(jù)的個(gè)數(shù),&是第1維樣本類別的個(gè)數(shù),Kd是第d維樣本類別 的個(gè)數(shù);f U為隱變量的變分分布的近似值,為第1維第jl個(gè)樣本數(shù)據(jù)所在第Pl個(gè) 樣本類別的隱變量,為第d維第jd個(gè)樣本數(shù)據(jù)所在第pd個(gè)樣本類別的隱變量;a 1為 第i維的混合比率,為a 1的維度,為第1維第Pl個(gè)樣本類別、…第d維第pd 個(gè)樣本類別內(nèi)的子模型參數(shù)的維度,L(a,b)=logb+(a-b)/b,a為
,1^為
[0270] 作為一種可選實(shí)施例,獲取模塊301獲取到的各個(gè)隱變量的變分分布的對數(shù)為:
[0271] logqG1),…logq(Zd);
[0272] 其中,q(Z1)為隱變量Z1的變分分布,q(Zd)為隱變量Zd的變分分布。
[0273] 作為一種可選實(shí)施例,第一確定模塊302,用于根據(jù)對數(shù)似然的期望值、正則項(xiàng)的 期望值及各個(gè)隱變量的變分分布的對數(shù)的期望值確定目標(biāo)函數(shù)。
[0274] 作為一種可選實(shí)施例,第一確定模塊302確定的目標(biāo)函數(shù)「&/,£/',武?l 為:
[0276] 作為一種可選實(shí)施例,參見圖4,第二確定模塊303,包括:
[0277] 獲取單元3031,獲取更新的各個(gè)隱變量的變分分布及更新的模型參數(shù);
[0278] 確定單元3032,用于根據(jù)更新的各個(gè)隱變量的變分分布及更新的模型參數(shù)確定目 標(biāo)函數(shù)是否收斂;
[0279] 獲取單元3031,用于當(dāng)目標(biāo)函數(shù)未收斂時(shí),重新獲取更新的各個(gè)隱變量的變分分 布及更新的模型參數(shù),直至得到使目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參數(shù)。
[0280] 作為一種可選實(shí)施例,參見圖5,獲取單元3031,包括:
[0281]第一更新子單元30311,用于按照如下公式交替更新各個(gè)隱變量的變分分布,直至 得到收斂的更新的各個(gè)隱變量的變分分布:
[0282]
[0285] 第二更新子單元30312,用于根據(jù)更新的各個(gè)隱變量的變分分布按照如下公式更 新模型參數(shù),得到更新的模型參數(shù):
當(dāng)前更新,t-1代表上一次更新或初始化。
[0289] 作為一種可選實(shí)施例,參見圖6,獲取單元3031,包括:
[0290] 第三更新子單元30313,用于按照如下公式更新模型參數(shù),得到更新的模型參數(shù):
[0294] 第四更新子單元30314,用于根據(jù)更新的模型參數(shù)按照如下公式交替更新各個(gè)隱 變量的變分分布,得到收斂的更新的各個(gè)隱變量的變分分布:
[0296] …
[0298] 其中,t代表當(dāng)前更新,t_l代表上一次更新或初始化。
[0299] 作為一種可選實(shí)施例,參見圖7,確定單元3032,包括:
[0300] 比較子單元30321,用于比較根據(jù)更新的各個(gè)隱變量的變分分布及更新的模型參 數(shù)確定的目標(biāo)函數(shù)與上一次得到的目標(biāo)函數(shù)之間的距離是否小于閾值,上一次得到的目標(biāo) 函數(shù)根據(jù)上一次更新的各個(gè)隱變量的變分分布及更新的模型參數(shù)確定;
[0301] 確定子單元30322,用于當(dāng)根據(jù)更新的各個(gè)隱變量的變分分布及更新的模型參數(shù) 確定的目標(biāo)函數(shù)與上一次得到的目標(biāo)函數(shù)之間的距離小于閾值時(shí),確定目標(biāo)函數(shù)收斂。 [0302] 綜上所述,本發(fā)明實(shí)施例提供的