專利名稱:根據(jù)第三方的原本定型的概況推薦感興趣項目的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及推薦感興趣項目例如電視節(jié)目的方法和設(shè)備,更加具體地說,涉及在可利用用戶的購買或觀看歷史之前推薦感興趣的節(jié)目和其它項目的技術(shù)。
背景技術(shù):
隨著電視觀眾可利用的頻道數(shù)目的增多,而且在每個這樣的頻道上可得到的電目內(nèi)容多種多樣,識別感興趣的電視節(jié)目對于電視觀眾的挑戰(zhàn)越來越大。電子節(jié)目指南(EPG)識別可利用的電視節(jié)目,例如通過題目、時間、日期、和頻道進行識別,并且電子節(jié)目指南通過允許按照個人愛好來搜尋或存儲可利用的電視節(jié)目來促進對于感興趣的電視節(jié)目的識別。
為了推薦感興趣的電視節(jié)目和其它項目,已經(jīng)提出或者建議一系列推薦工具。電視節(jié)目推薦工具例如利用電視觀眾對于電子節(jié)目指南(EPG)的愛好來獲得可能對特定觀眾感興趣的一組推薦的電視節(jié)目。在一般情況下,電視節(jié)目推薦工具使用隱含的或明顯的技術(shù)或這二者的組合來獲得電視觀眾的愛好。隱含的電視節(jié)目推薦工具根據(jù)從電視觀眾的觀看歷史得到的信息以非強制性的方式產(chǎn)生電視節(jié)目推薦結(jié)果。另一方面,明顯的電視節(jié)目推薦工具直接明顯地詢問電視觀眾他們對節(jié)目屬性的愛好,如題目、形式、演員、頻道、日期/時間,從而可以得出觀眾的概況并產(chǎn)生推薦意見。
雖然當(dāng)前可以利用的推薦工具對于用戶識別感興趣的電視節(jié)目有所幫助,但它們還存在一系列限制,如果克服了這些限制,就能夠極大地改善這種推薦工具的性能并提高方便性。例如,為了更加全面,明顯的推薦工具啟動起來是非常緩慢的,需要每個新的用戶響應(yīng)極其詳細的調(diào)查,以大致的粗糙的水平規(guī)定他們的愛好。雖然隱含的電視節(jié)目推薦工具通過觀察電視觀眾的觀看行為非強制性地得到電視觀眾的概況,但它們需要很長時間才能變?yōu)闇?zhǔn)確。此外,這種隱含的電視節(jié)目推薦工具至少需要有一個最低數(shù)量的觀眾歷史才能開始進行任何推薦。這樣,這種隱含的電視節(jié)目推薦工具在剛剛獲得時就不可能進行任何推薦。
因此,需要一種方法和設(shè)備,它能在得到足夠多的個人觀看歷史之前非強制性地推薦項目,如電視節(jié)目。此外,需要一種方法和設(shè)備,它能根據(jù)第三方的觀察習(xí)慣對于指定的用戶產(chǎn)生電視節(jié)目推薦意見。
發(fā)明內(nèi)容
一般來說,本發(fā)明公開了一種方法和設(shè)備,用于向用戶推薦感興趣的項目,如電視節(jié)目推薦。按照本發(fā)明的一個方面,在得到用戶的觀看歷史和購買歷史之前,例如在用戶剛剛獲得推薦器時,可以產(chǎn)生推薦意見。在一開始,使用來自于一個或多個第三方的觀看歷史或購買歷史向某個特定用戶推薦感興趣的項目。第三方的觀看歷史或購買歷史是從代表較大人群的具有人口統(tǒng)計意義的采樣人群獲得的。
對于第三方的觀看歷史或購買歷史進行處理,以產(chǎn)生反映由具有代表性的電視觀眾選擇的項目的典型分布(patterns)的原本定型的概況。如這里使用的,原本定型的概況是按某種方式彼此相似的一些項目的集合(數(shù)據(jù)點)。因此,一個指定的集合對應(yīng)于從第三方的觀看歷史或購買歷史選擇出來的表示一個特定分布的一個特定的項目段。一旦按照本發(fā)明產(chǎn)生了原本定型的概況,用戶就可以選擇最接近的原本定型(一個或多個),借此可利用最接近他或她自己的興趣的項目來啟動他或她的概況。所說的原本定型的概況然后根據(jù)它們的選擇的分布進行調(diào)節(jié)并向特定的每個單個用戶的個人觀察行為靠攏,并且都提供反饋信息。
公開了一種分組(clustering)程序(routine),把第三方的觀看歷史或購買歷史(數(shù)據(jù)組)分成各種集合(cluster),從而使一個集合內(nèi)的點(例如電視節(jié)目)比任何其它的集合中的點更接近這個集合的平均值。還公開了一種平均值計算程序,用于計算一個集合的符號平均值。使用每個集合的平均值并根據(jù)到每個集合的數(shù)據(jù)點之間的距離把一個指定的數(shù)據(jù)點(例如一個電視節(jié)目)分配給一個集合。一個分組性能評估程序確定什么時候滿足用于產(chǎn)生集合的預(yù)定停止標(biāo)準(zhǔn)。參照以下的詳細描述和附圖可獲得對本發(fā)明的更加全面的理解以及本發(fā)明的其它特征和優(yōu)點。
圖1是按照本發(fā)明的電視節(jié)目推薦器的示意框圖;圖2是來自于圖1的典型節(jié)目數(shù)據(jù)庫的采樣表;圖3是描述實施本發(fā)明原理的圖1的原本定型的概況的流程圖;圖4是描述實施本發(fā)明原理的圖1的分組程序的流程圖;圖5是描述實施本發(fā)明原理的圖1的平均值計算程序的流程圖;圖6是描述實施本發(fā)明原理的圖1的距離計算程序的流程圖;圖7A是從典型的頻道特征值發(fā)生表得到的一個采樣表,表示每個類別的每個頻道特征值的發(fā)生數(shù);圖7B是從典型特征值對距離表得到的采樣表,表示從圖7A所示的典型計數(shù)計算的每個頻道特征值對之間的距離;圖8是描述實施本發(fā)明原理的圖1的分組性能評估程序的流程圖。
具體實施例方式
圖1表示按照本發(fā)明的一個電視節(jié)目推薦器100。如圖1所示,典型電視節(jié)目推薦器100在節(jié)目數(shù)據(jù)庫200中評估節(jié)目,以識別特定電視觀眾感興趣的電視節(jié)目,下面將結(jié)合圖2討論節(jié)目數(shù)據(jù)庫200。使用眾所周知的屏幕上顯示技術(shù)可以將這組推薦的電視節(jié)目顯示給觀眾,例如使用機頂盒終端/電視(未示出)。雖然這里說明的本發(fā)明圍繞著電視節(jié)目的推薦,但是本發(fā)明可以應(yīng)用到基于對用戶行為的評估(如觀看歷史或購買歷史)的任何自動產(chǎn)生推薦意見的場合。
按照本發(fā)明的一個特征,電視節(jié)目推薦器100可以在獲得用戶的觀看歷史140之前例如在用戶剛獲得電視節(jié)目推薦器100時產(chǎn)生電視節(jié)目推薦意見。如圖1所示,電視節(jié)目推薦器100在開始時使用來自于一個或多個第三方的觀看歷史130來推薦對于特定用戶感興趣的推薦的電視節(jié)目。在一般情況下,第三方的觀看歷史130是基于代表較大人群的、具有人口統(tǒng)計意義的(如年紀(jì)、收入、性別、和教育)、一個或多個采樣人群的觀看習(xí)慣(habit)。
如圖1所示,第三方的觀看歷史130由指定的人群觀看的和不觀看的一組節(jié)目構(gòu)成。通過觀察指定人群實際觀看的節(jié)目來獲得觀看的節(jié)目組。例如通過隨機采樣節(jié)目數(shù)據(jù)庫200中的節(jié)目,可獲得不看的節(jié)目組。按另一種變化,按照美國專利申請序列號NO.09/819286(2001年3月28日提交,題目為“用于選擇人工智能應(yīng)用的否定實例的自適應(yīng)采樣技術(shù)”)的教導(dǎo)來獲得不看的節(jié)目組,該申請轉(zhuǎn)讓給本發(fā)明的受讓人,并在這里參照引用。
按照本發(fā)明的另一特征,電視節(jié)目推薦器100處理第三方的觀看歷史130,產(chǎn)生反映由具有代表性的電視觀眾的典型分布的原本定型的概況。如下面還要更加詳細說明的,原本定型的概況是按某種方式彼此相似的電視節(jié)目的一個集合(數(shù)據(jù)點)。于是,指定的集合對應(yīng)于來自于第三方的觀看歷史130的表現(xiàn)特定分布的電視節(jié)目的一個特定的區(qū)段。
按照本發(fā)明處理第三方的觀看歷史130,提供展示某種特定分布的節(jié)目集合。因此,用戶能夠選擇最相關(guān)的原本定型(一個或多個),借此,利用最接近他或她自己的興趣的節(jié)目來啟動他或她的原本定型的概況。原本定型的概況然后進行調(diào)節(jié),并且根據(jù)它們的記錄的分布向特定的、每個單個用戶的個人觀看行為靠攏,并且向節(jié)目提供反饋。在一個實施例中,當(dāng)確定節(jié)目的評分的時候,給予來源于用戶自己的觀看歷史140的節(jié)目的權(quán)重大于給予來源于第三方的觀看歷史130的節(jié)目的權(quán)重。
電視節(jié)目推薦器100可以實施成任何計算裝置,如個人計算機或工作站,計算裝置包含處理器115(如中央處理單元(CPU))和存儲器120(如RAM和/或ROM)。電視節(jié)目推薦器100還可以實施成例如在機頂盒終端或顯示器(未示出)中的特殊應(yīng)用集成電路(ASIC)。此外,電視節(jié)目推薦器100還可以實施成任何可以利用的電視節(jié)目推薦器,如在Tivo公司(Sunnyvale,California)可以買到的TivoTM系統(tǒng),或者在下述文獻中描述的各種電視節(jié)目推薦器美國專利申請序列號NO.09/466406(1999年12月17日提交,題目為“使用判別樹推薦電視節(jié)目的方法和設(shè)備”)、美國專利申請序列號MO.09/498271(2000年2月4日提交,題目為“貝葉斯電視播出節(jié)目推薦器”)、和美國專利申請序列號NO.09/627139(2000年7月27日提交,題目為“3路介質(zhì)推薦方法和系統(tǒng)”),或者這些電視節(jié)目推薦器的任意組合,這里參照引用了上述每個美國專利申請,并且對它們進行改進以實現(xiàn)本發(fā)明的特征和功能。
如圖1所示,并且下面還要結(jié)合附圖2-8作詳細描述,電視節(jié)目推薦器100包括節(jié)目數(shù)據(jù)庫200、原本定型的概況過程300、分組程序400、平均值計算程序500、距離計算程序600、和集合性能評估程序800。在一般情況下,節(jié)目數(shù)據(jù)庫200可以實施為公知的電子節(jié)目指南,并且記錄在指定的時間間隔內(nèi)可以得到的每個節(jié)目的信息。原本定型的概況過程300(i)用于處理第三方的觀看歷史130,產(chǎn)生反映由具有代表性的電視觀眾觀看的電視節(jié)目的典型分布的原本定型的概況;允許用戶選擇最相關(guān)的原本定型(一個或多個),并由此啟動他或她的概況;(iii)根據(jù)所選的原本定型產(chǎn)生推薦意見。
分組程序400由原本定型的概況過程300調(diào)用,將第三方的觀看歷史130(數(shù)據(jù)組)分隔成多個集合,使得在一個集合中的點(電視節(jié)目)比任何其它的集合中的點更加靠近這個集合的平均值(形狀中心)。分組程序400調(diào)用平均值計算程序500計算集合的符號平均值。分組程序400調(diào)用距離計算程序600,以便根據(jù)指定的電視節(jié)目和指定集合的平均值之間的距離估算電視節(jié)目接近每個集合的程度。最后,分組程序400調(diào)用集合性能評估程序800確定在什么時候滿足產(chǎn)生集合的停止標(biāo)準(zhǔn)。
圖2是來自于圖1的節(jié)目數(shù)據(jù)庫(EPG)200的一個采樣表。如以上所述,節(jié)目數(shù)據(jù)庫200記錄在指定的時間間隔內(nèi)可以得到的每個節(jié)目的信息。如圖2所示,節(jié)目數(shù)據(jù)庫200包含多個記錄檔案,如記錄檔案205-220,每個記錄檔案都與一個指定的節(jié)目相關(guān)。對于每個節(jié)目,節(jié)目數(shù)據(jù)庫200分別表示與在每個字段240和245中的節(jié)目有關(guān)的日期/時間和頻道。此外,在字段250、255、270分別識別每個節(jié)目的名稱、形式、和演員。在節(jié)目數(shù)據(jù)庫200中還可以包括另外的眾所周知的特征,如持續(xù)時間和節(jié)目描述。
圖3是一個流程圖,描述加入本發(fā)明特征的原本定型的概況過程300的典型實施方案。如以上所述,原本定型的概況過程300(i)處理第三方的觀看歷史130,產(chǎn)生反映由具有代表性的電視觀眾觀看的電視節(jié)目的典型分布的原本定型的概況;(ii)允許用戶選擇最相關(guān)的原本定型,并由此啟動他或她的概況;(iii)根據(jù)所選的原本定型,產(chǎn)生推薦意見。要注意的是,第三方的觀看歷史130的處理可以離線進行,例如在工廠內(nèi)進行,并且可以向用戶提供安裝了經(jīng)過用戶選擇產(chǎn)生的原本定型的概況的電視節(jié)目推薦器100。
于是,如圖3所示,原本定型的概況過程300一開始時在步驟310期間收集第三方的觀看歷史130。然后,在步驟320,原本定型的概況過程300執(zhí)行分組程序400,下面還要結(jié)合圖4對此作詳細描述,從而可以產(chǎn)生對應(yīng)于原本定型的概況的節(jié)目集合。如以下所述的,典型的分組程序400對于觀看歷史數(shù)據(jù)組130可以使用非監(jiān)視性的數(shù)據(jù)分組算法,例如“k平均值”集合程序。如以上所述,分組程序400把第三方的觀看歷史130(數(shù)據(jù)組)分隔成多個集合,使得一個集合中的點(電視節(jié)目)比任何其它的集合的點更靠近這個集合的平均值(形狀的中心)。
原本定型的概況過程300然后在步驟330對每個集合分配一個或多個標(biāo)記(一個或多個),使每個原本定型的概況特征化。在一個典型的實施例中,集合的平均值變?yōu)檎麄€集合的具有代表性的電視節(jié)目,并且可以使用平均值的特征標(biāo)記集合。例如,可以配置電視節(jié)目推薦器100,以使節(jié)目的形式成為每個集合的支配特征或決定性特征。
在步驟340,向每個用戶顯示經(jīng)過標(biāo)記的原本定型的概況,以便選擇最接近用戶興趣的原本定型的概況。構(gòu)成每個所選集合的節(jié)目可以被認為是這個原本定型的“典型觀看歷史”,并且可以用來構(gòu)造每個集合的原本定型的概況。這樣,在步驟350,對于用戶產(chǎn)生了觀看歷史,它由來自于所選的原本定型的概況的節(jié)目構(gòu)成。最后,在步驟360,將在前一步驟產(chǎn)生觀看歷史加到電視節(jié)目推薦器以獲得節(jié)目的推薦意見。電視節(jié)目推薦器可以實施為任何常規(guī)的節(jié)目推薦器,如以上引用的那些,在這里進行了改進,這對于本領(lǐng)域的普通技術(shù)人員來說是顯而易見的。在步驟370,節(jié)目控制終止。
圖4是描述加入本發(fā)明特征的分組程序400的典型實施方案的流程圖。如以上所述,分組程序400在步驟320期間由原本定型的概況過程300調(diào)用,將第三方的觀看歷史130(數(shù)據(jù)組)分隔成多個集合,使得在一個集合中的點(電視節(jié)目)比任何其它的集合中的點更加靠近這個集合的平均值(形狀中心)。在一般情況下,分組程序的主要的非監(jiān)視性任務(wù)是在采樣數(shù)據(jù)組中尋找實例組。本發(fā)明使用k平均值分組算法將數(shù)據(jù)組分成k個集合。如下面將要描述的,分組程序400的兩個主要參數(shù)是(i)用于尋找最接近的集合的距離度量標(biāo)準(zhǔn)(metric),下面將結(jié)合圖6進行討論;(ii)要產(chǎn)生的集合(clusters)的數(shù)量k。
在進一步分組實例數(shù)據(jù)不能產(chǎn)生分類精度的任何改進時k已經(jīng)穩(wěn)定的條件下,典型的分組程序400使用k的動態(tài)值。此外,對于記錄空集合的點,增加集合的大小。這樣,當(dāng)達到集合的常態(tài)水平時,分組停止。
如圖4所示,在步驟410,分組程序400在一開始時建立k個集合。典型的分組程序400是從選擇最小數(shù)目的集合例如2個集合開始的。對于這一固定數(shù),分組程序400處理整個觀看歷史數(shù)據(jù)組130,并且經(jīng)過幾次迭代達到能夠被認為是穩(wěn)定的兩個集合(穩(wěn)定的含義就是,即使繼續(xù)該算法到另一次迭代,也沒有任何一個節(jié)目會從一個集合移動到另一個集合)。在步驟420,可以利用一個或多個節(jié)目啟動當(dāng)前的k個集合。
在一個典型的實施方案中,在步驟420中,利用從第三方的觀看歷史130中選出的某些種節(jié)目啟動這些集合??梢噪S機地或者按照順序地選擇啟動集合的節(jié)目。在按照順序選擇的實施方案中,啟動集合的節(jié)目從觀看歷史130中的第一個節(jié)目開始,或者從觀看歷史130中的一個隨機點的節(jié)目開始。在下一個變型中,啟動每個集合的節(jié)目的數(shù)目還可以改變。最后,還可以利用一個或多個“假想的”節(jié)目啟動集合,所說的“假想的”節(jié)目由從第三方的觀看歷史130中的節(jié)目中隨機選擇出來的特征值組成。
然后,在步驟430,分組程序400啟動下面要結(jié)合圖5討論的平均值計算程序500,以計算每個集合的當(dāng)前平均值。然后,在步驟440,分組程序400執(zhí)行下面要結(jié)合圖6討論的距離計算程序600,以確定第三方的觀看歷史130中的每一節(jié)目到每個集合的距離。然后,在步驟460,將觀看歷史130中的每個節(jié)目分配給最近的集合。
在步驟470進行測試,確定是否有任何節(jié)目從一個集合移動到另一個集合。如果在步驟470確定有節(jié)目從一個集合移動到另一個集合,則節(jié)目控制返回到步驟430,按照以上所述的方式繼續(xù)進行,直到識別出一個穩(wěn)定的集合組時為止。然而,如果在步驟470確定沒有節(jié)目從一個集合移動到另一個集合,則節(jié)目控制前進到步驟480。
在步驟480進行另一種測試,確定是否滿足規(guī)定的性能標(biāo)準(zhǔn)或者確定是否識別出一個空的集合(統(tǒng)稱為“停止標(biāo)準(zhǔn)”)。如果在步驟480確定不滿足所說的停止標(biāo)準(zhǔn),則在步驟485增加k的值,并且節(jié)目控制返回到步驟420,按照以上所述的方式繼續(xù)。但如果在步驟480確定已經(jīng)滿足停止標(biāo)準(zhǔn),則節(jié)目控制終止。下面還要結(jié)合附圖8對停止標(biāo)準(zhǔn)的估算作進一步地討論。
典型的分組程序400將節(jié)目只放置在一個集合中,因而產(chǎn)生所謂的輪廓鮮明集合。另一種變化可能是使用輪廓模糊的集合,允許特定的實例(電視節(jié)目)部分地屬于多個集合。按照模糊集合方法,為一個電視節(jié)目分配一個權(quán)重,權(quán)重代表這個電視節(jié)目接近集合平均值的程度。這個權(quán)重可能取決于電視節(jié)目距集合平均值的距離的平方的倒數(shù)。與單個電視節(jié)目相關(guān)的所有集合的權(quán)重的總和最多必須加到100%。
集合的符號平均值的計算圖5是一個流程圖,描述加入本發(fā)明特征的平均值計算程序500的典型實施方案。如以前所述,平均值計算程序500由分組程序400調(diào)用,用于計算集合的符號平均值。對于數(shù)字數(shù)據(jù),平均值是使變化最小的數(shù)值。若將這一構(gòu)思擴到符號數(shù)據(jù),一個集合的平均值可通過尋找xμ值確定,所說的xμ值使集合間的變化最小(因而集合的半徑或大小最小),Var(J)=∑i∈J(xi-xμ)2(1)集合的半徑R(J)=Var(J)---(2)]]>這里,J是來自于相同類別(進行觀看,或者不進行觀看)的電視節(jié)目的一個集合,xi是節(jié)目i的符號特征值,xμ是來自于集合J中電視節(jié)目之一并使Var(J)最小的特征值。
于是,如圖5所示,在步驟510,平均值計算程序500一開始就識別當(dāng)前在指定的集合J內(nèi)的節(jié)目。對于正在考慮的當(dāng)前符號屬性,在步驟520使用方程(1)對于每個可能的符號值xμ計算集合J的變化。在步驟530,選擇使這個變化最小的符號值xμ作為平均值。
在步驟540進行測試,以確定是否還有需要考慮的附加符號屬性。如果在步驟540確定還有需要考慮的附加符號屬性,則節(jié)目控制返回到步驟520,按以上所述的方式繼續(xù)進行。然而,如果在步驟540確定沒有需要考慮的附加的符號屬性,則節(jié)目控制返回到分組程序400。
通過計算,對于集合J中的每個符號特征值進行是否是xμ的試探,并且使所說的變化最小的符號值成為集合J中正在考慮的符號屬性的平均值。這里平均值計算可能有兩種類型,即基于節(jié)目的平均值和基于特征的平均值。
基于特征的符號平均值這里討論的典型的平均值計算程序500是基于特征的,其中最終的集合平均值是由從集合J中的實例(節(jié)目)中提取的特征值構(gòu)成的,因為符號屬性的特征值必須是它的可能的數(shù)值之一。重要的是要記住,集合的平均值還可以是“假想的”電視節(jié)目。這種假想的節(jié)目的特征值可能包括從一個實例(例如說EBC)中提取的頻道值以及從另一個實例中提取的題目值(例如說“BBC世界新聞”,然而在實際上,“BBC世界新聞”從來不在EBC上廣播)。這樣,選擇展示最小變化的任何特征來代表這個特征的平均值。對于所有的特征位置重復(fù)平均值計算程序500,直到在步驟540確定已經(jīng)考慮了所有的特征(即符號屬性)時為止。使用這樣獲得的最終的假想的節(jié)目來代表集合的平均值。
基于節(jié)目的符號平均值在下一種變型中,在用于變化的方程(1)中,xi可以是電視節(jié)目i本身,類似地,xμ是集合J中使集合J中節(jié)目組上的變化最小的節(jié)目(一個或多個)。在這種情況下,在節(jié)目之間的距離(不是單個特征值)是使其變?yōu)樽钚〉南嚓P(guān)度量標(biāo)準(zhǔn)。此外,在這情況下的最終平均值不是一個假想的節(jié)目,而是真正從集合J中拾取的一個節(jié)目。使用在集合J中這樣找到的并且使集合J中所有節(jié)目上的變化最小的任何節(jié)目代表這個集合的平均值。
使用多個節(jié)目的符號平均值以上討論的典型平均值計算程序500使用每個可能的特征的特征值使集合的平均值特征化(不管是基于特征的實施方案還是基于節(jié)目的實施方案)。然而已經(jīng)發(fā)現(xiàn),在平均值計算期間,只依靠每個特征的一個特征值經(jīng)常會導(dǎo)致不正確的分組,因為這個平均值不再是這個集合的具有代表性的集合中心。換言之,不期望只通過一個節(jié)目代表一個集合,與此相反,多個節(jié)目代表這個平均值,或者,可以使用多種方式代表這個集合。因而,在進一步的變化中,由每個可能的特征的多種方式或多個特征值代表一個集合。于是,在步驟530,選擇可以使所說的變化最小的N個特征(對于基于特征的符號平均值)或N個節(jié)目(對于基于節(jié)目的符號平均值),這里的N是用來表示一個集合的平均值的節(jié)目數(shù)。
在節(jié)目和集合之間的距離計算如以上所述,距離計算程序600由分組程序400調(diào)用,用于根據(jù)一個指定的電視節(jié)目和指定的集合的平均值之間的距離估算這個電視節(jié)目接近每個集合的程度。計算得到的距離度量標(biāo)準(zhǔn)將決定一個集合的范圍大小的采樣數(shù)據(jù)組中的各個實例之間的區(qū)別特征量化。為了能夠分組用戶的概況,必須計算在觀看歷史中任何兩個電視節(jié)目之間的距離。在一般情況下,彼此靠近的電視節(jié)目超向于落入一個集合內(nèi)。存在一系列相對來說簡單的技術(shù)可以計算數(shù)字數(shù)值矢量之間的距離,例如歐幾里得距離、Manhattan距離、Mahalanobis距離。但在電視節(jié)目矢量的情況下,不可能使用現(xiàn)有的距離計算技術(shù),因為電視節(jié)目主要是由符號特征值組成的。例如,兩個電視節(jié)目2001年3月22日下午8點在EBC臺上播放的一個選段“惡魔”和2001年3月25日下午8點在FEX臺上廣播的一個選段“西蒙斯(Simons)”可以使用以下的特征矢量表示題目惡魔 題目西蒙斯(Simons)頻道EBC 頻道FEX播放日期2001-03-22播放日期2001-03-25播出時間200 播出時間2000顯然,已知的數(shù)值距離度量標(biāo)準(zhǔn)不可能用來計算特征值“EBC”和“FEX”之間的距離。在符號特征值域內(nèi)度量特征值之間的距離的一種現(xiàn)有的技術(shù)是“數(shù)值差度量標(biāo)準(zhǔn)”(VDM)。VDM技術(shù)把每個特征的每個可能的數(shù)值的所有情況分類的整體相似性考慮在內(nèi)。使用這種方法,根據(jù)訓(xùn)練組內(nèi)的實例,按照統(tǒng)計學(xué)方法導(dǎo)出一個矩陣,這個矩陣可以確定一個特征的所有值之間的距離。對于計算符號特征值之間的距離的VDM技術(shù)的更加詳細的討論,例如可以參見Stanfill和Waltz的“面向基于存儲的合理性”(ACM通信,2912,1213-1228,1986),這里參照引用了該文獻。
本發(fā)明使用了VDM技術(shù)或者它的變型來計算兩個電視節(jié)目之間的特征值之間的距離或者其它感興趣的項目。最初的VDM建議技術(shù)在兩個特征值之間的距離計算中使用了一個權(quán)重項,這使距離度量標(biāo)準(zhǔn)不對稱。一種改進的VDM(MVDM)省去了權(quán)重項,以使距離矩陣對稱。對于計算符號特征值之間的距離的MVDM技術(shù)的更加詳細的討論,例如參見Cost和Salzberg的“用于學(xué)習(xí)符號特征的一種加權(quán)的最近相鄰算法”(機器學(xué)習(xí),第10卷,第57-58頁,Boston,MA,Kluwer出版社,1993年),這里參照引用了該文獻。按照MVDM,對于一個特定的特征,在兩個值V1和V2之間的距離δ由下式給出δ(V1,V2)=∑|C1i/C1-C2i/C2|r方程(3)在本發(fā)明的節(jié)目推薦環(huán)境中,MVDM方程(3)轉(zhuǎn)變成具體處理類別“觀看的”和“非觀看的”。
δ(V1,V2)=|C1_watchedC1_total-C2_watchedC2_total|+]]>|C1_not_watchedC1_total-C2_not_watchedC2_total|]]>方程(4)在方程(4)中,V1和V2是兩個正在考慮的可能的特征值。若計算上述實例,對于這個“特征”頻道,第一值V1等于“BBC”,第二值V2等于“FEX”。這些值之間的距離是對于實例被分類成的所有分類的總和。對于本發(fā)明典型節(jié)目推薦器實施例的相關(guān)類別是“觀看的”和“非觀看的”。C1i是V1(EBC)分類為類別i(i=1意味著是類別“觀看的”)的次數(shù),C1(C1_total)是在該數(shù)據(jù)組中發(fā)生V1的總次數(shù)。值“r”是一個常數(shù),通常設(shè)定為1。
由方程(4)確定的度量標(biāo)準(zhǔn)用于識別對于所有的類別以相同的相關(guān)頻度發(fā)生的一些相似的數(shù)值。項C1i/C1代表在考慮中的特征具有值V的條件下中心余項分類為i的似然率。這樣,如果兩個數(shù)值對于所有可能的分類給出相似的似然率,則這兩個值就是相似的。方程(4)通過尋找對于所有分類的這些似然率之差的總和來計算兩個值之間的總的相似性。在兩個電視節(jié)目之間的距離就是在兩個電視節(jié)目矢量的對應(yīng)的特征值之間的距離之和。
圖7A是與特征“頻道”有關(guān)的特征值的距離表的一部分。圖7A表示每個類別的每個頻道特征值的發(fā)生數(shù)。圖7A中表示的數(shù)值取自典型的第三方的觀看歷史130。
圖7B表示使用MVDM方程(4)從如圖7A所示的典型計數(shù)計算出來的每個特征值對之間距離。從直覺上看,EBC和ABS彼此應(yīng)該很“接近”,因為它們在大多數(shù)情況下出現(xiàn)在“觀看的”類別中,而不出現(xiàn)在“非觀看的”類別中(ABS有很小的“非觀看的”分量)。圖7B確認了這一個直覺,在EBC和ABS之間有很小(非零)的中距離。另一方面,ASPN在大多數(shù)情況下出現(xiàn)在“非觀看的”類別中,因此對于這個數(shù)據(jù)組而言,ASPN距EBS和ABS這兩者都很“遙遠”。圖7B列出了EBC和ASPN之間的距離,這個距離是1.895,而它的最大可能的值僅為2.0。類似地,在ABS和ASPN之間的距離也很大,其數(shù)值為1.828。
這樣,如圖6所示,在步驟610,距離計算程序600在一開始就識別在第三方的觀看歷史130中的節(jié)目。在步驟620,對于當(dāng)前正在考慮的節(jié)目,距離計算程序600使用方程(4)計算每個符號特征值到每個集合平均值(由平均值計算程序500確定)的對應(yīng)特征的距離。
在步驟630,通過聚集在對應(yīng)特征值之間的距離來計算當(dāng)前節(jié)目和集合平均值之間的距離。在步驟640進行測試,確定在第三方的觀看歷史130中是否還有需要考慮的附加節(jié)目。如果在步驟640確定在第三方的觀看歷史130中還有需要考慮的附加節(jié)目,則在步驟650識別下一個節(jié)目,并且按以上所述的方式繼續(xù)。
然而,如果在步驟640確定在第三方的觀看歷史130中沒有需要考慮的附加節(jié)目,則節(jié)目控制返回到分組程序400。
如以上在小標(biāo)題“從多個節(jié)目導(dǎo)出的符號平均值”中所討論的,使用每個可能特征的多個特征值可使集合的平均值特征化(不管是基于特征的實施方案還是基于節(jié)目的實施方案)。通過距離計算程序600的變化來匯總來自于多種方式的結(jié)果,以便通過表決得到一致的決定。例如,現(xiàn)在在步驟620計算一個節(jié)目的指定的特征值和各種方式得到的對應(yīng)的特征值之間的距離。例如,通過使用多數(shù)表決方式或者多個專家的表決方式來達到一致決定,從而可以匯總并使用最小距離結(jié)果。對于這種技術(shù)的更加詳細的討論,例如參見J.Kittler等人的“梳理分類法”(有關(guān)圖形識別的第13屆國際會議會議錄,第II卷,897-901,維也納,奧地利,1996年),這里參照引用了該文獻。
停止標(biāo)準(zhǔn)如以上所述,分組程序400調(diào)用集合性能評估程序800,如圖8所示,確定什么時候滿足產(chǎn)生集合的停止標(biāo)準(zhǔn)。典型的分組程序400使用動態(tài)k值,其條件是當(dāng)進一步分組實例數(shù)據(jù)對于分類精度沒有任何改善時已經(jīng)達到穩(wěn)定的k。此外,集合的大小可以增加到可以記錄空集合的點。這樣,當(dāng)達到集合的常態(tài)水平時,分組停止。
典型的集合性能評估程序800使用來自于第三方的觀看歷史130的節(jié)目子集(測試數(shù)據(jù)組)來測試分組程序400的分類精度。對于測試組中的每個節(jié)目,集合性能評估程序800確定最接近它的集合(這個集合的平均值是最近的),并且比較集合的類別標(biāo)記和正在考慮的節(jié)目。匹配的類別標(biāo)記的百分數(shù)翻譯成分組程序400的精度。
這樣,如圖8所示,在步驟810,集合性能評估程序800開始收集來自于第三方的觀看歷史130的節(jié)目子集,用作測試數(shù)據(jù)組。然后,在步驟820,根據(jù)集合中觀看的節(jié)目和非觀看的節(jié)目的百分數(shù),為每個集合分配一個類別標(biāo)記。例如,如果觀看一個集合中的大多數(shù)節(jié)目,這個集合就可以分配到一個標(biāo)記“觀看的”。
在步驟830,識別最接近測試組中每個節(jié)目的集合,將分配過標(biāo)記的集合的類別標(biāo)記與這個節(jié)目實際上是否正在被觀看的情況進行比較。在使用多個節(jié)目代表一個集合的平均值的實施方案中,可以使用(到每個節(jié)目)的平均距離或表決方案。在步驟840確定匹配的類別標(biāo)記的百分數(shù),而后節(jié)目控制返回到分組程序400。如果分類精度已經(jīng)達到預(yù)定閾值,則分組程序400終止。
應(yīng)該理解,這里表示并描述的實施例和變化只是說明本發(fā)明的原理,本領(lǐng)域的普通技術(shù)人員在不偏離本發(fā)明范圍和構(gòu)思的條件下可以實現(xiàn)各種改進。
權(quán)利要求
1.一種用于更新用戶的概況的方法,所說的用戶的概況表示用戶的愛好,包括如下步驟獲得第三方的選擇歷史130,第三方的選擇歷史(130)代表由至少一個第三方選擇的項目(205、210、220);分隔第三方的選擇歷史(130)使之成為項目的集合;接收來自于至少一個所說集合的所說用戶的一個選擇;用來自于所說的至少一個所選集合的項目(205、210、220)更新所說用戶的概況。
2.權(quán)利要求1的方法,進一步包括如下步驟根據(jù)所說用戶的概況推薦項目。
3.權(quán)利要求1的方法,進一步包括如下步驟為每個所說的集合分配一個標(biāo)記。
4.權(quán)利要求3的方法,其中所說用戶根據(jù)所說分配的標(biāo)記選擇至少一個集合。
5.權(quán)利要求1的方法,其中所說的分隔步驟進一步包括如下步驟使用k平均值分組程序。
6.權(quán)利要求1的方法,其中所說的項目(205、210、220)是節(jié)目、內(nèi)容、和產(chǎn)品中的至少一個類型。
7.一種用于更新用戶的概況的系統(tǒng)(100),所說的用戶的概況表示用戶的愛好,包括存儲器(120),用于存儲計算機可讀代碼;和處理器(115),按可操作方式耦合到所說的存儲器(120),對于所說的處理器(115)進行配置,以便獲得第三方的選擇歷史130,第三方的選擇歷史(130)代表由至少一個第三方選擇的項目(205、210、220);分隔第三方的選擇歷史(130)使之成為項目的集合;接收來自于至少一個所說集合的所說用戶的一個選擇;用來自于所說的至少一個所選集合的項目(205、210、220)更新所說用戶的概況。
8.權(quán)利要求7的系統(tǒng),其中對于所說的處理器(115)進行配置,以便可以根據(jù)所說所選的集合推薦項目(205、210、220)。
9.一種制品,用于更新用戶的概況,用戶的概況代表用戶的愛好,所說的制品包括計算機可讀介質(zhì),具有計算機可讀的代碼裝置,所說的計算機可讀的程序代碼裝置包括獲得第三方的選擇歷史130的步驟,第三方的選擇歷史(130)代表由至少一個第三方選擇的項目(205、210、220);分隔第三方的選擇歷史(130)使之成為項目的集合的步驟;接收來自于至少一個所說集合的所說用戶的一個選擇的步驟;用來自于所說的至少一個所選集合的項目(205、210、220)更新所說用戶的概況的步驟。
10.權(quán)利要求9的制品,所說的計算機可讀的程序代碼裝置還包括根據(jù)所說所選的集合推薦項目(205、210、220)的步驟。
全文摘要
本發(fā)明公開了一種方法和設(shè)備,用于在得到用戶的觀看歷史和購買歷史之前向用戶推薦感興趣的項目如電視節(jié)目推薦。處理第三方的觀看歷史或購買歷史以產(chǎn)生反映由具有代表性的電視觀眾選擇的項目的典型分布的原本定型的概況。用戶可以從所產(chǎn)生的原本定型的概況中選擇最相關(guān)的原本定型(一個或多個),借此利用最接近他或她的興趣的項目來啟動他或她的概況。公開了一種分組程序,用于把第三方的觀看歷史或購買歷史(數(shù)據(jù)組)分隔成多個集合,從而使一個集合中點(如電視節(jié)目)比任何其它的集合更接近這個集合的平均值。還公開了一種平均值計算程序,用于計算集合的符號平均值。
文檔編號H04N7/16GK1611074SQ02822385
公開日2005年4月27日 申請日期2002年11月5日 優(yōu)先權(quán)日2001年11月13日
發(fā)明者S·V·R·古特塔, K·庫拉帕蒂 申請人:皇家飛利浦電子股份有限公司