關(guān)系模型的確定方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及統(tǒng)計(jì)技術(shù)領(lǐng)域,特別涉及一種關(guān)系模型的確定方法及裝置。
【背景技術(shù)】
[0002] 隨著統(tǒng)計(jì)技術(shù)的不斷發(fā)展,對(duì)對(duì)象間的關(guān)系信息進(jìn)行建模成為了一個(gè)熱點(diǎn)問題。 其中,對(duì)象間的關(guān)系信息多種多樣,例如被調(diào)查人群中人與人之間的聯(lián)系信息,因特網(wǎng)上 頁面與頁面之間的鏈接關(guān)系信息等等。各種各樣的關(guān)系信息描述了一類對(duì)象內(nèi)的相互關(guān) 系或是多類對(duì)象間的關(guān)系,通過對(duì)關(guān)系信息進(jìn)行分析,可以獲得很多有價(jià)值的信息。也正 因?yàn)槿绱?,基于關(guān)系信息的應(yīng)用種類越來越多,將不同樣本數(shù)據(jù)根據(jù)關(guān)系信息進(jìn)行關(guān)系聚 類即是其中的一種。而在關(guān)系聚類的過程中,通常會(huì)用到關(guān)系模型。例如,如果某電影公司 想要獲取用戶對(duì)當(dāng)前上映的一系列電影的評(píng)價(jià),則收集一批用戶對(duì)上映的一系列電影的評(píng) 分,通過關(guān)系模型將用戶和電影分到不同的類別內(nèi),實(shí)現(xiàn)對(duì)用戶、電影和電影評(píng)分同時(shí)進(jìn)行 聚類,從而通過聚類結(jié)果進(jìn)行電影評(píng)價(jià)分析。然而在實(shí)際應(yīng)用中,同一樣本數(shù)據(jù)可能同時(shí)擁 有多個(gè)特征,給關(guān)系聚類帶來困難。因此,如何確定關(guān)系模型成為了目前研究關(guān)系聚類的關(guān) 鍵。
[0003] 在實(shí)際應(yīng)用中,關(guān)系模型由隱變量的變分分布和模型參數(shù)確定。隱變量是指不 能被直接觀測(cè)到,而需要通過樣本數(shù)據(jù)推導(dǎo)得出的變量,隱變量的變分分布用于描述樣本 數(shù)據(jù)被聚類到對(duì)應(yīng)類別的概率;模型參數(shù)用于描述每個(gè)類別下子模型的參數(shù)。目前,文章 Findingmixed-membershipsinsocialnetworks,Koutsourelakisetal.,AAAI, 2008中 給出了一種通過采樣確定隱變量的變分分布和模型參數(shù)的方式。該方式下,從樣本數(shù)據(jù)中 有放回地抽取預(yù)設(shè)數(shù)目次至少一個(gè)樣本數(shù)據(jù),根據(jù)初始化的隱變量的變分分布及模型參數(shù) 確定抽取的每個(gè)樣本數(shù)據(jù)所擁有的特征,獲取根據(jù)每個(gè)樣本數(shù)據(jù)所擁有的特征更新的隱變 量的變分分布及模型參數(shù),根據(jù)更新的隱變量的變分分布及模型參數(shù)確定關(guān)系模型。
[0004] 在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0005] 由于從樣本數(shù)據(jù)中有放回地抽取預(yù)設(shè)數(shù)目次至少一個(gè)樣本數(shù)據(jù),并根據(jù)初始化的 隱變量的變分分布及模型參數(shù)確定抽取的每個(gè)樣本數(shù)據(jù)所擁有的特征,即需要重復(fù)抽取樣 本數(shù)據(jù)及確定每個(gè)樣本數(shù)據(jù)所擁有的特征,致使確定關(guān)系模型的效率較低。
【發(fā)明內(nèi)容】
[0006] 為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種關(guān)系模型的確定方法及裝 置。所述技術(shù)方案如下:
[0007] 第一方面,提供了一種關(guān)系模型的確定方法,所述方法包括:
[0008] 獲取根據(jù)樣本數(shù)據(jù)、至少兩個(gè)隱變量及模型參數(shù)確定的對(duì)數(shù)似然、正則項(xiàng)及各個(gè) 隱變量的變分分布的對(duì)數(shù),每個(gè)隱變量用于說明樣本數(shù)據(jù)擁有的特征;
[0009] 根據(jù)所述對(duì)數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù)確定目標(biāo)函數(shù);
[0010] 確定使所述目標(biāo)函數(shù)收斂的隱變量的變分分布及模型參數(shù),根據(jù)使所述目標(biāo)函數(shù) 收斂的隱變量的變分分布及模型參數(shù)確定關(guān)系模型。
[0011] 結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,根據(jù)所述樣本數(shù)據(jù)、至少 兩個(gè)隱變量及模型參數(shù)確定的對(duì)數(shù)似然為:
[0013] 其中,所述logp0表示對(duì)數(shù)似然,所述P表示聯(lián)合概率密度函數(shù),所述為樣本 數(shù)據(jù),所述隊(duì)為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù),所述ZK為行隱變量,所述Ze為列隱變 量,所述Q為模型參數(shù)的集合,所述模型參數(shù)包括a、#、所述a分別為行、列混合 比率,所述f表示模型參數(shù)。
[0014] 結(jié)合第一方面,在第一方面的第二種可能的實(shí)現(xiàn)方式中,根據(jù)樣本數(shù)據(jù)、至少兩個(gè) 隱變量及模型參數(shù)確定的正則項(xiàng)為:
[0016] 其中,所述隊(duì)為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù);所述&是行特征的個(gè)數(shù),所述 K。是列特征的個(gè)數(shù);所述外)為隱變量的變分分布的近似值,所述Z|為第i個(gè)行樣本數(shù)據(jù) 擁有第k個(gè)行特征的行隱變量,所述Zf為第j個(gè)列樣本數(shù)據(jù)擁有第1個(gè)列特征的列隱變量; 所述a,0分別為行、列混合比率,所述表示模型參數(shù),所述Da為所述a的維度,所述De 為所述0的維度,所述為所述f的維度,L(a,b)=logb+(a_b)/b,所述a為
> 所述b為
[0017] 結(jié)合第一方面,在第一方面的第三種可能的實(shí)現(xiàn)方式中,根據(jù)所述樣本數(shù)據(jù)、至少 兩個(gè)隱變量及模型參數(shù)確定的隱變量的變分分布的對(duì)數(shù)為:
[0018]logq(ZK)和logq(Zc);
[0019]其中,所述q(ZK)為行隱變量ZK的變分分布,所述q(Ze)為列隱變量ZC的變分分 布。
[0020] 結(jié)合第一方面及第一方面的第一種可能的實(shí)現(xiàn)方式至第三種可能的實(shí)現(xiàn)方式中 的任一種可能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述對(duì)數(shù)似 然、正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù)確定目標(biāo)函數(shù),包括:
[0021] 根據(jù)所述對(duì)數(shù)似然的期望值、所述正則項(xiàng)的期望值及各個(gè)隱變量的變分分布的對(duì) 數(shù)的期望值確定目標(biāo)函數(shù)。
[0022] 結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式 中,根據(jù)所述對(duì)數(shù)似然的期望值、所述正則項(xiàng)的期望值及各個(gè)隱變量的變分分布的對(duì)數(shù)的 期望值確定的目標(biāo)函數(shù)為:
[0023]
[0024] 結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式,在第一方面的第六種可能的實(shí)現(xiàn)方式 中,所述確定使所述目標(biāo)函數(shù)收斂的隱變量的變分分布及模型參數(shù),包括:
[0025] 獲取更新的隱變量的變分分布及更新的模型參數(shù);
[0026] 根據(jù)更新的隱變量的變分分布及更新的模型參數(shù)確定所述目標(biāo)函數(shù)是否收斂,如 果所述目標(biāo)函數(shù)未收斂,則重新獲取更新的隱變量的變分分布及更新的模型參數(shù),直至得 到使所述目標(biāo)函數(shù)收斂的隱變量的變分分布及模型參數(shù)。
[0027] 結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式,在第一方面的第七種可能的實(shí)現(xiàn)方式 中,所述獲取更新的隱變量的變分分布及更新的模型參數(shù),包括:
[0028] 根據(jù)從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)獲取更新的隱變量的變分分布,并根據(jù)更新 的隱變量的變分分布獲取更新的模型參數(shù)。
[0029] 結(jié)合第一方面的第七種可能的實(shí)現(xiàn)方式,在第一方面的第八種可能的實(shí)現(xiàn)方式 中,所述根據(jù)更新的隱變量的變分分布獲取更新的模型參數(shù)之前,還包括:
[0030] 確定所述更新的隱變量的變分分布是否收斂,如果所述更新的隱變量的變分分布 未收斂,則重新根據(jù)從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)獲取更新的隱變量的變分分布,直至 得到收斂的更新的隱變量的變分分布;
[0031] 所述根據(jù)更新的隱變量的變分分布獲取更新的模型參數(shù),包括:
[0032] 根據(jù)所述收斂的更新的隱變量的變分分布獲取更新的模型參數(shù)。
[0033] 結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式,在第一方面的第九種可能的實(shí)現(xiàn)方式 中,所述獲取更新的隱變量的變分分布及更新的模型參數(shù),包括:
[0034] 根據(jù)從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)獲取更新的模型參數(shù),并根據(jù)更新的模型參 數(shù)獲取更新的隱變量的變分分布。
[0035] 結(jié)合第一方面的第九種可能的實(shí)現(xiàn)方式,在第一方面的第十種可能的實(shí)現(xiàn)方式 中,所述根據(jù)更新的模型參數(shù)獲取更新的隱變量的變分分布之前,還包括:
[0036] 確定所述更新的模型參數(shù)是否收斂,如果所述更新的模型參數(shù)未收斂,則重新根 據(jù)從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)獲取更新的模型參數(shù),直至得到收斂的更新的模型參 數(shù);
[0037] 所述根據(jù)更新的模型參數(shù)獲取更新的隱變量的變分分布,包括:
[0038] 根據(jù)所述收斂的更新的模型參數(shù)獲取更新的隱變量的變分分布。
[0039] 結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式至第八種可能的實(shí)現(xiàn)方式中的任一種實(shí) 現(xiàn)方式,在第一方面的第十一種可能的實(shí)現(xiàn)方式中,所述根據(jù)從樣本數(shù)據(jù)中抽取的子樣本 數(shù)據(jù)獲取更新的隱變量的變分分布,包括:
[0040] 根據(jù)從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)按照如下公式迭代更新行隱變量的變分分 布f⑷ ?
[0041]
,直至t3等于時(shí),
[0042] 根據(jù)從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)按照如下公式迭代更新列隱變量的變分分 布#;;廠:
[0043]
,直至t4等于T2時(shí),
[0044] 交替更新
I:至達(dá)到預(yù)設(shè)終止條件時(shí),
為更新的行隱變量的變分分布,所述為更新的 列隱變量的變分分布;
[0045] 所述根據(jù)更新的隱變量的變分分布獲取更新的模型參數(shù),包括:
[0046] 根據(jù)更新的隱變量的變分分布按照如下公式獲取模型參數(shù)《@和
[0048] 根據(jù)更新的隱變量的變分分布以及從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)按照如下公 式迭代更新模型參數(shù):
[0049]
,直至t5等于T3時(shí),nfkuU1,所述 和M.§>為更新的模型參數(shù);
[0050]其中,
[0053] 所述h代表當(dāng)前獲取更新的隱變量的變分分布及更新的模型參數(shù),所述t:t2代 表當(dāng)前交替更新行隱變量的變分分布及列隱變量的變分分布,所述t:t2t3代表當(dāng)前迭代更 新行隱變量的變分分布,所述t:t2t4代表當(dāng)前迭代更新列隱變量的變分分布,所述t:t5代 表當(dāng)前迭代更新模型參數(shù),所述代表上一次獲取更新的隱變量的變分分布及更新的模 型參數(shù)或初始化隱變量的變分分布及模型參數(shù),所述tA-1代表上一次交替更新行隱變量 的變分分布及列隱變量的變分分布或初始化行隱變量的變分分布及列隱變量的變分分布, 所述t:t2t3-l代表上一次迭代更新行隱變量的變分分布或初始化行隱變量的變分分布,所 述t:t2t4-l代表上一次迭代更新列隱變量的變分分布或初始化列隱變量的變分分布,所述 代表上一次迭代更新模型參數(shù)或初始化模型參數(shù)。
[0054] 結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式、第九種可能的實(shí)現(xiàn)方式或第十種可能的 實(shí)現(xiàn)方式,在第一方面的第十二種可能的實(shí)現(xiàn)方式中,所述根據(jù)從樣本數(shù)據(jù)中抽取的子樣 本數(shù)據(jù)獲取更新的模型參數(shù),包括:
[0055] 根據(jù)從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)按照如下公式獲取模型參數(shù)'和:
[0057] 根據(jù)從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)按照如下公式迭代更新模型參數(shù)
,直至t5等于T3'時(shí),
為更新的模型參數(shù);
[0058] 所述根據(jù)更新的模型參數(shù)獲取更新的隱變量的變分分布,包括:
[0059] 根據(jù)更新的模型參數(shù)以及從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)按照如下公式迭代更 新行隱變量的變分分布f:
[0060]
,直至t3等于V時(shí),
[0061] 根據(jù)更新的模型參數(shù)以及從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)按照如下公式迭代更 新列隱變量的變分分布f1:
[0062]
,直至t4等于T2'時(shí),
[0063] 交替更新
,直至達(dá)到預(yù)設(shè)終止條件時(shí),
?,所述¥柯尸,為更新的行隱變量的變分分布,所述?,產(chǎn)為更新的 列隱變量的變分分布;
[0064] 其中,
[0067] 所述t/代表當(dāng)前獲取更新的隱變量的變分分布及更新的模型參數(shù),所述2代 表當(dāng)前交替更新行隱變量的變分分布及列隱變量的變分分布,所述3代表當(dāng)前迭代 更新行隱變量的變分分布,所述4代表當(dāng)前迭代更新列隱變量的變分分布,所述5 代表當(dāng)前迭代更新模型參數(shù),所述t/ -1代表上一次獲取更新的隱變量的變分分布及更新 的模型參數(shù)或初始化隱變量的變分分布及模型參數(shù),所述tj'2_1代表上一次交替更新行 隱變量的變分分布及列隱變量的變分分布或初始化行隱變量的變分分布及列隱變量的變 分分布,所述3_1代表上一次迭代更新行隱變量的變分分布或初始化行隱變量的變分 分布,所述4_1代表上一次迭代更新列隱變量的變分分布或初始化列隱變量的變分分 布,所述tj' 5_1代表上一次迭代更新模型參數(shù)或初始化模型參數(shù)。
[0068] 結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式至第十二種可能的實(shí)現(xiàn)方式中的任一種 可能的實(shí)現(xiàn)方式,在第一方面的第十三種可能的實(shí)現(xiàn)方式中,所述根據(jù)更新的隱變量的變 分分布及更新的模型參數(shù)確定所述目標(biāo)函數(shù)是否收斂,包括:
[0069] 比較根據(jù)更新的隱變量的變分分布及更新的模型參數(shù)確定的目標(biāo)函數(shù)與上一次 得到的目標(biāo)函數(shù)之間的距離是否小于閾值,所述上一次得到的目標(biāo)函數(shù)根據(jù)上一次更新的 隱變量的變分分布及更新的模型參數(shù)確定;
[0070] 如果根據(jù)更新的隱變量的變分分布及更新的模型參數(shù)確定的目標(biāo)函數(shù)與上一次 得到的目標(biāo)函數(shù)之間的距離小于閾值,則確定所述目標(biāo)函數(shù)收斂。
[0071] 第二方面,提供了一種關(guān)系模型的確定裝置,所述裝置包括:
[0072] 獲取模塊,用于獲取根據(jù)樣本數(shù)據(jù)、至少兩個(gè)隱變量及模型參數(shù)確定的對(duì)數(shù)似然、 正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù),每個(gè)隱變量用于說明樣本數(shù)據(jù)擁有的特征;
[0073] 第一確定模塊,用于根據(jù)所述對(duì)數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù) 確定目標(biāo)函數(shù);
[0074] 第二確定模塊,用于確定使所述目標(biāo)函數(shù)收斂的隱變量的變分分布及模型參數(shù);
[0075] 第三確定模塊,用于根據(jù)使所述目標(biāo)函數(shù)收斂的隱變量的變分分布及模型參數(shù)確 定關(guān)系t吳型。
[0076] 結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述獲取模塊獲取到對(duì) 數(shù)似然為:
[0078] 其中,所述logp()表示對(duì)數(shù)似然,所述p表示聯(lián)合概率密度函數(shù),所述為樣本 數(shù)據(jù),所述隊(duì)為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù),所述ZK為行隱變量,所述Ze為列隱變 量,所述e為模型參數(shù)的集合,所述模型參數(shù)包括a、爲(wèi)所述a分別為行、列混合 比率,所述?7表示模型參數(shù)。
[0079] 結(jié)合第二方面,在第二方面的第二種可能的實(shí)現(xiàn)方式中,所述獲取模塊獲取到的 正則項(xiàng)為:
[0080]
[0081] 其中,所述隊(duì)為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù);所述&是行特征的個(gè)數(shù),所述 K。是列特征的個(gè)數(shù);所述# )為隱變量的變分分布的近似值,所述Zj為第i個(gè)行樣本數(shù)據(jù) 擁有第k個(gè)行特征的行隱變量,所述為第j個(gè)列樣本數(shù)據(jù)擁有第1個(gè)列特征的列隱變量; 所述a,0分別為行、列混合比率,所述-表示模型參數(shù),