本發(fā)明涉及廣播電視
技術領域:
,更為具體地,涉及一種廣播電視用戶收視行為預測方法及系統(tǒng)。
背景技術:
:如今,傳統(tǒng)電視媒體同互聯(lián)網等新媒體一樣,對自身平臺的節(jié)目收視情況都格外看重。由于收視結果是海量用戶行為的累積,所以對用戶收視行為進行預測,將會從源頭解釋收視成因,也便于進一步采取措施吸引、培養(yǎng)、穩(wěn)固住忠實用戶,以守住盈利底線、制造更多潛在的營收途徑。speed算法(加強片段挖掘的序列預測)是以數據壓縮領域的ppm型算法為基礎、歷經leziupdate算法和alz(activelezi)算法改進而成的序列預測算法,其原理是對歷史數據建立前綴樹和有限階馬爾可夫模型,并利用ppm算法計算可能組合的預測概率,概率最大的組合即作為預測結果。現有技術中,沒有將speed算法應用到廣播電視收視行為的預測,更加沒有通過廣播電視用戶對節(jié)目或頻道的收聽情況,預測未來用戶最喜愛的收視節(jié)目或頻道組合。技術實現要素:鑒于上述問題,本發(fā)明的目的是提供一種基于speed算法對廣播電視用戶的收視行為進行預測的廣播電視用戶收視行為預測方法及系統(tǒng)。根據本發(fā)明的一個方面,提供一種廣播電視用戶收視行為預測方法,包括:步驟1,采集廣播電視用戶設定時間段內收視行為數據組成第一收視行為序列,所述收視行為包括收視指標、收聽節(jié)目的標示符和收聽頻道的標示符中的一種或多種;步驟2,采用至少一種序列長度將所述第一收視行為序列劃分為多個第二收視行為序列,所述第二收視行為序列的序列長度短于所述第一收視行為序列的序列長度;步驟3,根據第二收視行為序列構建第一收視行為序列的前綴樹,包括:設定所述前綴樹的最高層數,以第一收視行為序列中出現的每一個收視行為作為一個根節(jié)點,不大于所述最高層數的各第二收視行為序列中各種收視行為組合作為各分支,每一根節(jié)點與該根節(jié)點相連的各分支構成每一個子樹,根節(jié)點代表的收視行為在第一收視行為序列中出現的頻數為所述根節(jié)點的節(jié)點值,從根節(jié)點到子節(jié)點代表的收視行為組合在各第二收視行為序列中出現的頻數之和為所述子節(jié)點的節(jié)點值;步驟4,將上述前綴樹的子樹里每一個分支的根節(jié)點代表的收視行為與除去底層子節(jié)點的各子節(jié)點代表的收視行為按照層順序組成不同序列長度的多個第三收視行為序列;步驟5a,預測每一個第三收視行為序列下一次序的收視行為為所述第一收視行為序列中任一個收視行為的內部概率,所述內部概率按照下面的公式(1)和(2)計算,其中,i表示所述第一收視行為序列的前綴樹的層數索引也表示第三收視行為序列的次序索引,y1表示所述第一收視行為序列的前綴樹的子樹的根節(jié)點,y2,...,yi表示所述子樹的根節(jié)點y1的一個分支的第2層到第i層的子節(jié)點,y1y2...yi表示所述分支對應的序列長度為i的第三收視行為序列,1≤i≤n-1,n表示所述分支的最高層數,x表示要預測的收視行為,pint(x)表示所述第一收視行為序列的前綴樹的根節(jié)點為x的內部概率,n(y1=x)表示所述第一收視行為序列的前綴樹的子樹的第一層中根節(jié)點為x的節(jié)點值,∑n(y1)表示所述第一收視行為序列的前綴樹第一層的各子樹根節(jié)點的節(jié)點值之和,pint(x|y1y2...yi)表示所述第三收視行為序列次序為i+1的收視行為為x的內部概率,n(yi+1=x)表示所述分支第i層節(jié)點yi的第i+1層的子節(jié)點為x的節(jié)點值,n(yi)表示所述分支的第i層的節(jié)點yi的節(jié)點值;步驟5b,根據與第三收視行為序列中每一個收視行為對應節(jié)點的節(jié)點值以及屬于所述節(jié)點的下一層的子節(jié)點的節(jié)點值之和預測所述收視行為對應的節(jié)點從所在層逃逸的逃逸概率,所述逃逸概率按照下面的公式(3)計算,其中,pesc(i,yi)表示所述第三收視行為序列所在分支第i層節(jié)點yi的逃逸概率,表示所述第三收視行為序列所在分支第i層節(jié)點yi的第i+1層所有子節(jié)點的節(jié)點值的加和;步驟6,根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率,所述預測概率按照公式(4)和(5)計算p(x|y1y2...yi)=p(i+1,x)=pint(x|y1y2…yi)+pesc(i,yi)*p(i,x)(4)p(x)=pint(x)(5)其中,p(x|y1y2…yi)和p(i+1,x)表示序列長度為i的所述第三收視行為序列次序i+1的收視行為是x的預測概率,p(i,x)表示所述第三收視行為序列次序為i的收視行為是x預測概率,p(x)表示所述第三收視行為序列次序為1的收視行為是x預測概率;步驟7,上述各第三收視行為序列的下一次序收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。根據本發(fā)明的另一個方面,提供一種廣播電視用戶收視行為預測方法,包括:步驟10-步驟50a與上述廣播電視用戶收視行為預測方法相同,不同之處在于:根據與第三收視行為序列中每一個收視行為對應節(jié)點的下一層的子節(jié)點的節(jié)點值之和和所述下一層的子節(jié)點中收視行為的不同種類數預測所述收視行為對應的節(jié)點從所在層逃逸的逃逸概率,所述逃逸概率按照下面的公式(6)計算,其中,pesc′(i,yi)表示第三收視行為序列所在分支第i層節(jié)點為yi的逃逸概率,表示第三收視行為序列所在分支第i層節(jié)點為yi的第i+1層所有子節(jié)點中收視行為的不同種類數,表示所述第三收視行為序列所在分支第i層節(jié)點為yi的第i+1層所有子節(jié)點的節(jié)點值的加和;步驟60,根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述每一個第一收視行為序列中每一個收視行為的預測概率,所述預測概率按照公式(7)和(8)計算p′(x|y1y2…yi)=p′(i+1,x)=pint(x|y1y2…yi)+pesc′(i,yi)*p′(i,x)(7)p′(x)=pint(x)(8)其中,p′(x|y1y2…yi)和p′(i+1,x)表示序列長度i為的所述第三收視行為序列次序i+1的收視行為為x的預測概率,p′(i,x)表示所述第三收視行為序列次序為i的收視行為為x預測概率,p′(x)表示所述第三收視行為序列次序為1的收視行為為x預測概率;步驟70,上述各第三收視行為序列的下一次序收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。根據本發(fā)明的第三個方面,提供一種廣播電視用戶收視行為預測方法包括:步驟100-步驟400,與上述兩種廣播電視用戶收視行為預測方法的對應步驟相同,不同之處在于:預測每一個第三收視行為序列下一次序的收視行為為所述第一收視行為序列中任一個收視行為的內部概率,所述內部概率按照下面的公式(9)計算,其中,i表示所述第一收視行為序列的前綴樹的層數索引也表示第三收視行為序列的次序索引,1≤i≤n-1,n表示所述第三收視行為序列所在分支的最高層數,x表示要預測的收視行為,y1y2…yi表示根節(jié)點為y1,子節(jié)點依次為y2,…,yi的分支對應的序列長度為i的第三收視行為序列,pint′(x|y1y2…yi)表示所述序列長度為i的第三收視行為序列y1y2…yi下一次序收視行為為x的內部概率,pint′(x|y2…yi)表示根節(jié)點為y2,子節(jié)點依次為y3,…,yi的分支對應的序列長度為i-1的第三收視行為序列下一次序的收視行為為x的內部概率,pint′(x)表示根節(jié)點為x的內部概率,n(y1=x)表示所述第一收視行為序列的前綴樹的子樹的第一層中根節(jié)點為x的節(jié)點值,∑n(y1)表示所述第一收視行為序列的前綴樹第一層的各子樹根節(jié)點的節(jié)點值之和,n′(yi+1=x)表示各分支的底層的子節(jié)點為x的節(jié)點值,n′(yi)表示各分支的底層的上一層的節(jié)點yi的節(jié)點值;步驟500b,根據與第三收視行為序列中每一個收視行為作為根節(jié)點的各分支的底層子節(jié)點的節(jié)點值之和和所述底層子節(jié)點中收視行為的不同種類數預測所述每一個收視行為對應的節(jié)點從所在層逃逸的逃逸概率,所述逃逸概率按照下面的公式(10)計算,其中,pesc″(i,yi)表示根節(jié)點y1的分支y1y2...yi逃到根節(jié)點為y2的另一分支y2...yi的逃逸概率,表示根節(jié)點y1的分支y1y2...yi底層所有子節(jié)點中收視行為的不同種類數,表示根節(jié)點y1的分支y2...yi底層所有子節(jié)點的節(jié)點值的加和;步驟600,根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率,所述預測概率按照公式(11)和(12)計算p″(x|y1y2...yi)=pint′(x|y1y2...yi)+pesc″(i,yi)*p″(x|y2y3...yi)(11)p″(x)=pint′(x)(12)其中,p″(x|y1y2...yi)表示根節(jié)點y1的分支y1y2...yi對應的第三收視行為序列下一次序的收視行為為x的預測概率,p″(x|y2y3...yi)表示根節(jié)點為y2的分支y2...yi對應的第三收視行為序列下一次序的收視行為為x的預測概率,p″(x)表示根節(jié)點為x的預測概率;步驟700,上述各第三收視行為序列的下一次序的收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。根據本發(fā)明的第四個方面,提供一種廣播電視用戶收視行為預測系統(tǒng)包括采集部、序列劃分部、前綴樹構建部、第一預測序列構建部、第一內部概率預測部、第一逃逸概率預測部、第一預測概率預測部和第一最佳收視行為序列確定部,其中,采集部執(zhí)行上述步驟1的功能形成第一收視行為序,并將其發(fā)送給序列劃分部和前綴樹構建部;序列劃分部執(zhí)行上述步驟2的功能將第一收視行為序列劃分成多個第二收視行為序列并發(fā)送給前綴樹構建部;前綴樹構建部執(zhí)行步驟3的功能,根據劃分部劃分的多個第二收視行為序列構建對應的采集部形成的第一收視行為序列的前綴樹;第一預測序列構建部執(zhí)行步驟4的功能,調用前綴樹構建部構建的前綴樹形成多個第三收視行為序列,作為預測序列發(fā)送給第一內部概率預測部和第一逃逸概率預測部;第一內部概率預測部執(zhí)行步驟5a的功能,預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的內部概率,并將所述內部概率發(fā)送到第一預測概率預測部;第一逃逸概率預測部執(zhí)行步驟5b的功能,預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的逃逸概率,并將所述逃逸概率發(fā)送到第一預測概率預測部;第一預測概率預測部執(zhí)行步驟6的功能,根據第一內部概率預測部預測的上述內部概率和第一逃逸概率預測部預測的上述逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率,并將所述預測概率發(fā)送到第一最佳收視行為序列確定部;第一最佳收視行為序列確定部執(zhí)行步驟7的功能,篩選出最佳收視行為序列。根據本發(fā)明的第五個方面,提供一種廣播電視用戶收視行為預測系統(tǒng)包括采集部、序列劃分部、前綴樹構建部、第一預測序列構建部、第一內部概率預測部、第二逃逸概率預測部、第二預測概率預測部和第二最佳收視行為序列確定部,其中,采集部執(zhí)行上述步驟10的功能形成第一收視行為序,并將其發(fā)送給序列劃分部和前綴樹構建部;序列劃分部執(zhí)行上述步驟20的功能將第一收視行為序列劃分成多個第二收視行為序列并發(fā)送給前綴樹構建部;前綴樹構建部執(zhí)行步驟30的功能,根據劃分部劃分的多個第二收視行為序列構建對應的采集部形成的第一收視行為序列的前綴樹;第一預測序列構建部執(zhí)行步驟40的功能,調用前綴樹構建部構建的前綴樹形成多個第三收視行為序列,作為預測序列發(fā)送給第一內部概率預測部和第二逃逸概率預測部;第一內部概率預測部執(zhí)行步驟50a的功能,預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的內部概率,并將所述內部概率發(fā)送到第二預測概率預測部;第二逃逸概率預測部執(zhí)行步驟50b的功能,預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的逃逸概率,并將所述逃逸概率發(fā)送到第二預測概率預測部;第二預測概率預測部執(zhí)行步驟60的功能,根據第一內部概率預測部預測的上述內部概率和第二逃逸概率預測部預測的上述逃逸概率確定每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的預測概率,并將所述預測概率發(fā)送到第二最佳收視行為序列確定部;第二最佳收視行為序列確定部執(zhí)行步驟70的功能,篩選出最佳收視行為序列。根據本發(fā)明的第六個方面,提供一種廣播電視用戶收視行為預測系統(tǒng)包括采集部、序列劃分部、前綴樹構建部、第一預測序列構建部、第二內部概率預測部、第三逃逸概率預測部、第三預測概率預測部和第三最佳收視行為序列確定部,其中,采集部執(zhí)行上述步驟100的功能形成第一收視行為序列,并將其發(fā)送給序列劃分部和前綴樹構建部;序列劃分部執(zhí)行上述步驟200的功能將第一收視行為序列劃分成多個第二收視行為序列并發(fā)送給前綴樹構建部;前綴樹構建部執(zhí)行步驟300的功能,根據劃分部劃分的多個第二收視行為序列構建對應的采集部形成的第一收視行為序列的前綴樹;第一預測序列構建部執(zhí)行步驟400的功能,調用前綴樹構建部構建的前綴樹形成多個第三收視行為序列,作為預測序列發(fā)送給第二內部概率預測部和第三逃逸概率預測部;第二內部概率預測部執(zhí)行步驟500a的功能,預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的內部概率,并將所述內部概率發(fā)送到第三預測概率預測部;第三逃逸概率預測部執(zhí)行步驟500b的功能,預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的逃逸概率,并將所述逃逸概率發(fā)送到第三預測概率預測部;第三預測概率預測部執(zhí)行步驟600的功能,根據第二內部概率預測部預測的上述內部概率和第三逃逸概率預測部預測的上述逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列每一收視行為的預測概率,并將所述預測概率發(fā)送到第三最佳收視行為序列確定部;第三最佳收視行為序列確定部執(zhí)行步驟700的功能,篩選出最佳收視行為序列。本發(fā)明所述廣播電視用戶收視行為預測方法即系統(tǒng)將電視用戶收視行為數據看作是序列,采用內部概率和逃逸概率確定各預測序列組合的預測概率,基于speed算法以及改進的speed算法對用戶的收視偏好進行預測,能夠根據用戶的收視數據對其未來的收視偏好進行預測。附圖說明通過參考以下結合附圖的說明及權利要求書的內容,并且隨著對本發(fā)明的更全面理解,本發(fā)明的其它目的及結果將更加明白及易于理解。在附圖中:圖1是本發(fā)明所述廣播電視用戶收視行為預測方法的一個實施例的流程圖;圖2是本發(fā)明所述前綴樹的示意圖;圖3是本發(fā)明所述廣播電視用戶收視行為預測系統(tǒng)的一個實施例的構成框圖;圖4是本發(fā)明所述廣播電視用戶收視行為預測方法的另一個實施例的流程圖;圖5是本發(fā)明所述廣播電視用戶收視行為預測系統(tǒng)的另一個實施例的構成框圖;圖6是本發(fā)明所述廣播電視用戶收視行為預測方法的第三實施例的流程圖;圖7是本發(fā)明所述廣播電視用戶收視行為預測系統(tǒng)的第三實施例的構成框圖;圖8是本發(fā)明多種廣播電視用戶收視行為預測方法的預測準確率的比較圖。在所有附圖中相同的標號指示相似或相應的特征或功能。具體實施方式在下面的描述中,出于說明的目的,為了提供對一個或多個實施例的全面理解,闡述了許多具體細節(jié)。然而,很明顯,也可以在沒有這些具體細節(jié)的情況下實現這些實施例。以下將結合附圖對本發(fā)明的具體實施例進行詳細描述。以下將結合附圖對本發(fā)明的具體實施例進行詳細描述。圖1是本發(fā)明所述廣播電視用戶收視行為預測方法的一個實施例的流程圖,如圖1所示,所述廣播電視用戶收視行為預測方法是基于speed算法的收視行為預測方法,包括:步驟1,采集廣播電視用戶設定時間段內收視行為數據組成第一收視行為序列,所述收視行為包括收視指標、收聽節(jié)目的標示符和收聽頻道的標示符中的一種或多種,收視指標可以是收視率、收視頻次等,例如,某一個廣播電視用戶的第一收視行為序列為ebacbcabcdegfabcbacbg;步驟2,采用至少一種序列長度將所述第一收視行為序列劃分為多個第二收視行為序列,所述第二收視行為序列的序列長度短于所述第一收視行為序列的序列長度,例如,上例中廣播電視用戶的第一收視行為序列劃分成的第二收視行為序列包括ebacbc、abcde、gfab、cbacbg;步驟3,根據第二收視行為序列構建第一收視行為序列的前綴樹,包括:設定所述前綴樹的最高層數,以第一收視行為序列中出現的每一個收視行為作為一個根節(jié)點,不大于所述最高層數的各第二收視行為序列中各種收視行為組合作為各分支,每一根節(jié)點與該根節(jié)點相連的各分支構成每一個子樹,根節(jié)點代表的收視行為在第一收視行為序列中出現的頻數為所述根節(jié)點的節(jié)點值,從根節(jié)點到子節(jié)點代表的收視行為組合在各第二收視行為序列中出現的頻數之和為所述子節(jié)點的節(jié)點值,例如,上例中第一收視行為序列的前綴樹如圖2所示;步驟4,將上述前綴樹的子樹里每一個分支的根節(jié)點代表的收視行為與除去底層子節(jié)點的各子節(jié)點代表的收視行為按照層順序組成不同序列長度的多個第三收視行為序列,例如,一個第三收視行為序列bacb;步驟5a,預測每一個第三收視行為序列下一次序的收視行為為所述第一收視行為序列中任一個收視行為的內部概率,所述內部概率按照下面的公式(1)和(2)計算,其中,i表示所述第一收視行為序列的前綴樹的層數索引也表示第三收視行為序列的次序索引,y1表示所述第一收視行為序列的前綴樹的子樹的根節(jié)點,y2,...,yi表示所述子樹的根節(jié)點y1的一個分支的第2層到第i層的子節(jié)點,y1y2...yi表示所述分支對應的序列長度為i的第三收視行為序列,1≤i≤n-1,n表示所述分支的最高層數,x表示要預測的收視行為,pint(x)表示所述第一收視行為序列的前綴樹的根節(jié)點為x的內部概率,n(y1=x)表示所述第一收視行為序列的前綴樹的子樹的第一層中根節(jié)點為x的節(jié)點值,∑n(y1)表示所述第一收視行為序列的前綴樹第一層的各子樹根節(jié)點的節(jié)點值之和,pint(x|y1y2...yi)表示所述第三收視行為序列次序為i+1的收視行為為x的內部概率,n(yi+1=x)表示所述分支第i層節(jié)點yi的第i+1層的子節(jié)點為x的節(jié)點值,n(yi)表示所述分支的第i層的節(jié)點yi的節(jié)點值;步驟5b,根據與第三收視行為序列中每一個收視行為對應節(jié)點的節(jié)點值以及屬于所述節(jié)點的下一層的子節(jié)點的節(jié)點值之和預測所述收視行為對應的節(jié)點從所在層逃逸的逃逸概率,所述逃逸概率按照下面的公式(3)計算,其中,pesc(i,yi)表示所述第三收視行為序列所在分支第i層節(jié)點yi的逃逸概率,表示所述第三收視行為序列所在分支第i層節(jié)點yi的第i+1層所有子節(jié)點的節(jié)點值的加和;步驟6,根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率,所述預測概率按照公式(4)和(5)計算,p(x|y1y2...yi)=p(i+1,x)=pint(x|y1y2…yi)+pesc(i,yi)*p(i,x)(4)p(x)=pint(x)(5)其中,p(x|y1y2…yi)和p(i+1,x)表示序列長度為i的所述第三收視行為序列次序i+1的收視行為是x的預測概率,p(i,x)表示所述第三收視行為序列次序為i的收視行為是x預測概率,p(x)表示所述第三收視行為序列次序為1的收視行為是x預測概率,例如,第三收視行為序列bacb后為a的預測概率為:p(a|bacb)=pint(a|bacb)+pesc(4,b)*p(a|bac)=pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*p(a|ba)}=pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*{pint(a|ba)+pesc(2,a)*p(a|b)}}=pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*{pint(a|ba)+pesc(2,a)*[pint(a|b)+pesc(1,b)*p(a)]}}=pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*{pint(a|ba)+pesc(2,a)*[pint(a|b)+pesc(1,b)*pint(a)]}}=0;步驟7,上述各第三收視行為序列的下一次序收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。圖3示出本發(fā)明所述廣播電視用戶收視行為預測系統(tǒng)的一個實施例,如圖3所示,所述廣播電視用戶收視行為預測系統(tǒng)100包括采集部110、序列劃分部120、前綴樹構建部130、第一預測序列構建部140、第一內部概率預測部150、第一逃逸概率預測部160、第一預測概率預測部170和第一最佳收視行為序列確定部180,其中,采集部110執(zhí)行上述步驟1的功能形成第一收視行為序列,并將其發(fā)送給序列劃分部120和前綴樹構建部130;序列劃分部120執(zhí)行上述步驟2的功能將第一收視行為序列劃分成多個第二收視行為序列并發(fā)送給前綴樹構建部130;前綴樹構建部130執(zhí)行步驟3的功能,根據劃分部120劃分的多個第二收視行為序列構建對應的采集部110形成的第一收視行為序列的前綴樹;第一預測序列構建部140執(zhí)行步驟4的功能,調用前綴樹構建部130構建的前綴樹形成多個第三收視行為序列,作為預測序列發(fā)送給第一內部概率預測部和第一逃逸概率預測部;第一內部概率預測部150執(zhí)行步驟5a的功能,預測每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的內部概率,并將所述內部概率發(fā)送到第一預測概率預測部170;第一逃逸概率預測部160執(zhí)行步驟5b的功能,預測每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的逃逸概率,并將所述逃逸概率發(fā)送到第一預測概率預測部170;第一預測概率預測部170執(zhí)行步驟6的功能,根據第一內部概率預測部150預測的上述內部概率和第一逃逸概率預測部160預測的上述逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率,并將所述預測概率發(fā)送到第一最佳收視行為序列確定部180;第一最佳收視行為序列確定部180執(zhí)行步驟7的功能,篩選出最佳收視行為序列。上述基于speed算法的收視行為預測方法及系統(tǒng),體現了長上下文會比短上下文帶來更準確的預測結果,在計算預測概率時,賦予長上下文大權重、短上下文小權重,提高了預測準確率。在另一實施例中,如圖4所示,另一廣播電視用戶收視行為預測方法是基于speed-c算法(“基于優(yōu)化逃逸概率的speed算法”)的收視行為預測方法,步驟10-步驟50a與圖1示出的廣播電視用戶收視行為預測方法的步驟1-步驟5a相同,不同之處在于:在步驟50b,根據與第三收視行為序列中每一個收視行為對應節(jié)點的下一層的子節(jié)點的節(jié)點值之和和所述下一層的子節(jié)點中收視行為的不同種類數預測所述收視行為對應的節(jié)點從所在層逃逸的逃逸概率,所述逃逸概率按照下面的公式(6)計算,其中,pesc′(i,yi)表示第三收視行為序列所在分支第i層節(jié)點為yi的逃逸概率,表示第三收視行為序列所在分支第i層節(jié)點為yi的第i+1層所有子節(jié)點中收視行為的不同種類數,表示所述第三收視行為序列所在分支第i層節(jié)點為yi的第i+1層所有子節(jié)點的節(jié)點值的加和;步驟60,根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率,所述預測概率按照公式(7)和(8)計算,p′(x|y1y2…yi)=p′(i+1,x)=pint(x|y1y2…yi)+pesc′(i,yi)*p′(i,x)(7)p′(x)=pint(x)(8)其中,p′(x|y1y2…yi)和p′(i+1,x)表示序列長度i為的所述第三收視行為序列次序i+1的收視行為為x的預測概率,p′(i,x)表示所述第三收視行為序列次序為i的收視行為為x預測概率,p′(x)表示所述第三收視行為序列次序為1的收視行為為x預測概率,例如,圖1的例子中第三收視行為序列后為a的預測概率為:其中,pesc′(4,b)表示分支bacb第4層子節(jié)點b的逃逸概率,也是分支bacb跳到低階bac的逃逸概率;步驟70,上述各第三收視行為序列的下一次序收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。圖5示出本發(fā)明所述廣播電視用戶收視行為預測系統(tǒng)的另一個實施例,如圖5所示,所述廣播電視用戶收視行為預測系統(tǒng)100'包括采集部110、序列劃分部120、前綴樹構建部130、第一預測序列構建部140、第一內部概率預測部150、第二逃逸概率預測部160'、第二預測概率預測部170'和第二最佳收視行為序列確定部180',其中,采集部110執(zhí)行上述步驟10的功能形成第一收視行為序,并將其發(fā)送給序列劃分部120和前綴樹構建部130;序列劃分部120執(zhí)行上述步驟20的功能將第一收視行為序列劃分成多個第二收視行為序列并發(fā)送給前綴樹構建部130;前綴樹構建部130執(zhí)行步驟30的功能,根據劃分部120劃分的多個第二收視行為序列構建對應的采集部110形成的第一收視行為序列的前綴樹;第一預測序列構建部140執(zhí)行步驟40的功能,調用前綴樹構建部130構建的前綴樹形成多個第三收視行為序列,作為預測序列發(fā)送給第一內部概率預測部150和第二逃逸概率預測部160';第一內部概率預測部150執(zhí)行步驟50a的功能,預測每一個第三收視行為序列下一次序為第一收視行為序列的每一個收視行為的內部概率,并將所述內部概率發(fā)送到第二預測概率預測部170';第二逃逸概率預測部160'執(zhí)行步驟50b的功能,預測每一個第三收視行為序列下一次序為第一收視行為序列的每一個收視行為的逃逸概率,并將所述逃逸概率發(fā)送到第二預測概率預測部170';第二預測概率預測部170'執(zhí)行步驟60的功能,根據第一內部概率預測部150預測的上述內部概率和第二逃逸概率預測部160'預測的上述逃逸概率確定每一個第三收視行為序列下一次序為第一收視行為序列的每一個收視行為的預測概率,并將所述預測概率發(fā)送到第二最佳收視行為序列確定部180';第二最佳收視行為序列確定部180'執(zhí)行步驟70的功能,篩選出最佳收視行為序列。圖1和圖3示出的基于speed算法的廣播電視用戶收視行為預測方法及系統(tǒng)未能充分利用電視用戶收視行為的種類數據特點,在電視用戶收視行為序列預測上精度不高,圖4和圖5示出的基于speed-c算法的廣播電視用戶收視行為預測方法及系統(tǒng)通過逃逸概率的計算方法,在逃逸概率中體現用戶收視行為種類,對量級較大的序列具有更好的適應性,更能體現出“長上下文賦予大權重,短上下文賦予小權重”核心思想,提高了收視行為序列預測精度。在上述兩個實施例中,將短序列y1…yi-2yi-1yi依次刪除尾項所得各序列的預測概率加權求和值作為其后緊跟x的預測概率,并結合電視用戶收視行為序列的數據特點,在第三實施例中,如圖6所示,所述廣播電視用戶收視行為預測方法對短序列y1…yi-2yi-1yi依次刪除首項所得各序列的預測概率加權求和值作為其后緊跟x的預測概率,是基于speed-cr算法(“基于優(yōu)化逃逸概率和后綴匹配的speed算法”)的廣播電視用戶收視行為預測方法,包括:步驟100-步驟400,與圖1和圖4示出的廣播電視用戶收視行為預測方法步驟1-4和步驟10-40相同,不同之處在于:步驟500a,預測每一個第三收視行為序列下一次序的收視行為為所述第一收視行為序列中任一個收視行為的內部概率,所述內部概率按照下面的公式(9)計算,其中,i表示所述第一收視行為序列的前綴樹的層數索引也表示第三收視行為序列的次序索引,1≤i≤n-1,n表示所述第三收視行為序列所在分支的最高層數,x表示要預測的收視行為,y1y2…yi表示根節(jié)點為y1,子節(jié)點依次為y2,…,yi的分支對應的序列長度為i的第三收視行為序列,pint′(x|y1y2…yi)表示所述序列長度為i的第三收視行為序列y1y2…yi下一次序收視行為為x的內部概率,pint′(x|y2…yi)表示根節(jié)點為y2,子節(jié)點依次為y3,…,yi的分支對應的序列長度為i-1的第三收視行為序列下一次序的收視行為為x的內部概率,pint′(x)表示根節(jié)點為x的內部概率,n(y1=x)表示所述第一收視行為序列的前綴樹的子樹的第一層中根節(jié)點為x的節(jié)點值,∑n(y1)表示所述第一收視行為序列的前綴樹第一層的各子樹根節(jié)點的節(jié)點值之和,n′(yi+1=x)表示各分支的底層的子節(jié)點為x的節(jié)點值,n′(yi)表示各分支的底層的上一層的節(jié)點yi的節(jié)點值;步驟500b,根據與第三收視行為序列中每一個收視行為作為根節(jié)點的各分支的底層子節(jié)點的節(jié)點值之和和所述底層子節(jié)點中收視行為的不同種類數預測所述每一個收視行為對應的節(jié)點從所在層逃逸的逃逸概率,所述逃逸概率按照下面的公式(10)計算,其中,pesc″(i,yi)表示根節(jié)點y1的分支y1y2…yi逃到根節(jié)點為y2的另一分支y2…yi的逃逸概率,表示根節(jié)點y1的分支y1y2…yi底層所有子節(jié)點中收視行為的不同種類數,表示根節(jié)點y1的分支y1y2…yi底層所有子節(jié)點的節(jié)點值的加和;步驟600,根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率,所述預測概率按照公式(11)和(12)計算p″(x|y1y2…yi)=pint′(x|y1y2…yi)+pesc″(i,yi)*p″(x|y2y3…yi)(11)p″(x)=pint′(x)(12)其中,p″(x|y1y2…yi)表示根節(jié)點y1的分支y1y2…yi對應的第三收視行為序列下一次序的收視行為為x的預測概率,p″(x|y2y3…yi)表示根節(jié)點為y2的分支y2…yi對應的第三收視行為序列下一次序的收視行為為x的預測概率,p″(x)表示根節(jié)點為x的預測概率,例如,圖1的例子中第三收視行為序列后為a的預測概率為:其中,pesc″(5,b)表示從該分支bacb跳到低階acb的逃逸概率,另外,在圖2中采用細實線標出了計算上述第三收視行為序列設計到的各分支,從圖2中可以看出,speed-cr算法的內部概率、逃逸概率和預測概率都是在不同分支(分支bacb、分支acb、分支cb和分支b)上進行的,相對于speed和speed-c算法內部概率、逃逸概率和預測概率都是在同一分支(分支bacb)的不同層上進行,更符合按照后綴去預測下一個字符的思路,可以有效提高預測精度;步驟700,上述各第三收視行為序列的下一次序的收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。圖7示出本發(fā)明所述廣播電視用戶收視行為預測系統(tǒng)的第三實施例,如圖7所示,所述廣播電視用戶收視行為預測系統(tǒng)100"包括采集部110、序列劃分部120、前綴樹構建部130、第一預測序列構建部140、第二內部概率預測部150"、第三逃逸概率預測部160"、第三預測概率預測部170"和第三最佳收視行為序列確定部180",其中,采集部110執(zhí)行上述步驟100的功能形成第一收視行為序,并將其發(fā)送給序列劃分部120和前綴樹構建部130;序列劃分部120執(zhí)行上述步驟200的功能將第一收視行為序列劃分成多個第二收視行為序列并發(fā)送給前綴樹構建部130;前綴樹構建部130執(zhí)行步驟300的功能,根據劃分部120劃分的多個第二收視行為序列構建對應的采集部110形成的第一收視行為序列的前綴樹;第一預測序列構建部140執(zhí)行步驟400的功能,調用前綴樹構建部140構建的前綴樹形成多個第三收視行為序列,作為預測序列發(fā)送給第二內部概率預測部150"和第三逃逸概率預測部160";第二內部概率預測部150"執(zhí)行步驟500a的功能,預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的內部概率,并將所述內部概率發(fā)送到第三預測概率預測部170";第三逃逸概率預測部160"執(zhí)行步驟500b的功能,預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的逃逸概率,并將所述逃逸概率發(fā)送到第三預測概率預測部170";第三預測概率預測部170"執(zhí)行步驟600的功能,根據第二內部概率預測部150"預測的上述內部概率和第三逃逸概率預測部160"預測的上述逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率,并將所述預測概率發(fā)送到第三最佳收視行為序列確定部180";第三最佳收視行為序列確定部180"執(zhí)行步驟700的功能,篩選出最佳收視行為序列。在第二和第三實施例中的廣播電視用戶收視行為預測方法及系統(tǒng)逃逸概率是防止了零概率字符的出現,同時減小低階短上下文概率對預測概率的影響,相對于第一實施例中的廣播電視用戶收視行為預測方法及系統(tǒng)具有更高的預測準確率。在上述三個實施例中,通過speed算法、speed-c算法或者speed-cr算法建立了了一個有限階的馬爾科夫模型,其上下文之間的數學關系也維持在一定距離內,且其統(tǒng)計結果會受到局部某些頻繁出現的字符的影響。為了將用戶收視行為序列的長期習慣特征引入預測過程,優(yōu)選地,所述廣播電視用戶收視行為預測方法采用“s-markov方法”(“簡化馬爾可夫方法”)來對預測結果進行輔助性判斷,以便進一步提高預測精度,具體地,所述步驟4或步驟40或步驟400還包括:將第一收視行為序列中每一個收視行為作為一個狀態(tài),即將每一個根節(jié)點作為一個狀態(tài),根據一個狀態(tài)轉移到另一個狀態(tài)的轉移概率構建建立馬爾科夫模型,其中,所述轉移概率按照公式(13)計算其中,amn表示由狀態(tài)m到狀態(tài)n的轉移概率也是根節(jié)點m到根節(jié)點n的轉移概率,表示根節(jié)點為m的第二層子節(jié)點n的節(jié)點值也是第三收視序列mn在各第二收視頻道序列中出現的頻數之和,n(f2)表示所有只有二層的分支f2的個數也是所有序列長度為2的第三收視序列的個數;選定任一個狀態(tài)為起始狀態(tài)q1,從所述起始狀態(tài)位于馬爾科夫模型的狀態(tài)轉移矩陣的第hq1行中找到起始狀態(tài)q1的最大轉移概率值對應的狀態(tài)q2;從所述狀態(tài)位于所述馬爾科夫模型的狀態(tài)轉移矩陣的第hq2行找到狀態(tài)q2的最大轉移概率值對應的狀態(tài)q3,依次循環(huán),當其中任一個狀態(tài)第二次出現時,將所述任一個狀態(tài)第二次出現前各不同狀態(tài)組成第五收視行為序列{q1,q2,q3,...};判斷第五收視行為序列是否是非空集;如果是非空集,將所述第五收視行為序列作為最佳收視行為序列;如果是空集,則各第三收視行為序列執(zhí)行步驟5a至步驟7或者步驟50a至步驟70或者步驟500a至步驟700,將所述第四收視行為序列作為最佳收視行為序列。另外,優(yōu)選地,在步驟3或步驟30或步驟300中,還包括:設定頻數閾值,將節(jié)點值小于所述頻數閾值的節(jié)點從前綴樹中去除。相應地,圖3、圖5和圖7示出的廣播電視用戶收視行為預測系統(tǒng)還包括:模型構建部190-1,將第一收視行為序列中每一個收視行為作為一個狀態(tài),即將每一個根節(jié)點作為一個狀態(tài),根據一個狀態(tài)轉移到另一個狀態(tài)的轉移概率構建馬爾科夫模型,其中,所述轉移概率按照公式(13)計算其中,amn表示由狀態(tài)m到狀態(tài)n的轉移概率也是根節(jié)點m到根節(jié)點n的轉移概率,表示根節(jié)點為m的第二層子節(jié)點n的節(jié)點值也是第三收視序列mn在各第二收視頻道序列中出現的頻數之和,n(f2)表示所有只有二層的分支f2的個數也是所有序列長度為2的第三收視序列的個數;第二預測序列構建部190-2,選定任一個狀態(tài)為起始狀態(tài)q1,從所述起始狀態(tài)位于模型構建部構建的馬爾科夫模型的狀態(tài)轉移矩陣的第hq1行中找到起始狀態(tài)q1的最大轉移概率值對應的狀態(tài)q2,從所述狀態(tài)位于所述馬爾科夫模型的狀態(tài)轉移矩陣的第hq2行找到狀態(tài)q2的最大轉移概率值對應的狀態(tài)q3,依次循環(huán),當其中任一個狀態(tài)第二次出現時,將所述任一個狀態(tài)第二次出現前各不同狀態(tài)組成第五收視行為序列作為{q1,q2,q3,...}預測序列;判斷部190-3,判斷第五收視行為序列是否是非空集,如果是非空集,將第五收視行為序列發(fā)送給第一最佳收視行為序列確定部、第二最佳收視行為序列確定部或第三最佳收視行為序列確定部作為最佳收視行為序列,否則,將第三收視行為序列發(fā)送給第一內部概率預測部、第一逃逸概率預測部、第一預測概率預測部和第一最佳收視行為序列確定部或者第一內部概率預測部、第二逃逸概率預測部、第二預測概率預測部和第二最佳收視行為序列確定部或者第二內部概率預測部、第三逃逸概率預測部、第三預測概率預測部和第三最佳收視行為序列確定部,進行內部概率、逃逸概率和預測概率分析,得到最大預測概率對應的將所述第四收視行為序列作為最佳收視行為序列。另外,優(yōu)選地,上述廣播電視用戶收視行為預測系統(tǒng)還包括:閾值設定部190-4,設定頻數閾值,將節(jié)點值小于所述頻數閾值的節(jié)點從前綴樹構建部構建的前綴樹中去除。上述speed、speed-c、speed-cr以及與s-markov方法相結合的述廣播電視用戶收視行為預測方法及系統(tǒng),依次進行逃逸概率、預測概率計算過程、添加習慣列表判斷這三個角度的改進對電視用戶收視行為序列進行預測分析,提高了預測精度。在上述第一實施例至第三實施例中示出了將設定時間段內的收視收據組成一個第一收視行為序列,但是本發(fā)明并不限于此,當序列長度較大,為了加快運算速度或者預測設定時間段內不同單位時間的收視偏好時,可以將設定時間段劃分成多個單位時間段,構建多個第一收視行為序列,每一個第一收視行為序列有一個總節(jié)點,總節(jié)點的節(jié)點值為其下一層根節(jié)點的節(jié)點值之和,如圖2中的ω(21),又如,設定時間段為一星期,單位時間段為星期一至星期日,通過構建7個如圖2中的前綴樹,可以同時分析多個前綴樹,得到用戶星期一至星期日每天的收視偏好。本發(fā)明可以采用speed算法、speed算法和s-markov方法結合、speed-c算法、speed-c算法和s-markov方法結合、speed-cr算法或者speed-cr算法和s-markov方法結合的廣播電視用戶收視行為預測方法及系統(tǒng)預測廣播用戶的收視偏好,在本發(fā)明的一個具體實施例中,通過預測準確率來說明上述基于speed、speed-c、speed-cr及speed-cr+s-markov的四種收視行為預測方法的預測準確性,其中,所述預測準確率按照下面的公式(14)計算,其中,n表示某方法得到最佳收視行為組合與實際結果相符的數目,n表示第二收視行為序列的總數。選取2014年8月1日至2016年2月29日共18個月的機頂盒尾號為714的用戶收視頻道序列作為數據源,選取2016年3月1日至2016年4月30日共兩個月的數據作為預測準確率的驗證數據。上述數據源可以按照自然日或者小時或者星期等劃分成多個第一收視頻道序列,從而得到用戶在每一個自然日或者每一個小時或者每一個星期對頻道的收視偏好,例如,按自然日將一星期內的收視數據劃分為七組,選取星期一的這一組連續(xù)頻道序列形成一個第一收視頻道序列,如下所示:8,33,22,159,156,33,84,64,13,15,19,17,19,24,19,20,22,27,9...對上述第一收視頻道序列進行分解得到多個第二收視頻道序列,可以通過建立合適大小的滑動窗口來對第一收視頻道序列進行分解,在已確定大小的窗口向前滑動的同時,將每次移動后窗口內的第二收視頻道序列進行記錄,直到窗口滑到第一收視頻道序列末尾,則所記錄的一連串第二收視頻道序列便是第一收視序列的分解結果,其中,根據不同的實際問題,可選取適當的滑動窗口大小。使用定長的滑動窗口將會得到長度相同的許多第二收視頻道序列,其格式較為規(guī)整;使用變長的滑動窗口將會得到長度不同的多種第二收視頻道序列,對復雜序列的研究有較大意義,例如,當第一收視頻道序列是“8,33,22,159,156”,則按照不同序列長度經過序列分解過程后,得到的眾多第二收視頻道序列如表1所示:表1滑動窗口大小分解出的第二收視頻道序列18,33,22,159,1562833,3322,22159,159156383322,3322159,22159156483322159,3322159156583322159156在上述表1中,每個第二收視頻道序列的內部頻道按其在原序列中的前后順序排列,可以發(fā)生頻道空缺,如原序列“8,33,22,159,156”分解出了“8,22”,但不能發(fā)生順序顛倒的情況,如分解出了“8,22,33”。另外,還可以設置合適的頻數閾值,將其與第一收視頻道序列的前綴樹中各節(jié)點的出現頻次比較,來決定是否保留該節(jié)點,如本例中默認閾值為1,即出現頻數至少1次的節(jié)點都將被保留。本實例分別基于speed、speed-c、speed-cr及speed-cr+s-markov的四種收視頻道預測方法將上述收視用戶18個月的數據源按照設定時間段組成多個第一收視頻道序列,按照序列長度為5將每一個第一收視頻道序列劃分成多個第二收視頻道序列(如第一收視頻道序列abcdefg分解成abcde、bcdef、cdefg這三種第二收視頻道序列),構建每一個第一收視頻道序列的前綴樹,將節(jié)點值小于頻數閾值的節(jié)點進行刪除,得到每一個第一收視頻道序列的序列長度不大于4的多個第三收視頻道序列,預測各第三收視頻道序列后緊跟下一次序頻道的預測概率,得到最佳收視頻道序列,并與后兩個月的實際結果對比,得到預測準確率,表2示出了部分第一收視頻道序列的上述四種預測方法的預測精度,表2如圖8所示,橫軸代表每一條第一收視頻道序列按序列長度為5劃分后第二收視頻道序列總數目,縱軸代表預測準確率,圖中曲線a代表對頻道收視數據基于speed的收視頻道預測方法進行預測的預測準確率,曲線b代表對頻道收視數據基于speed-c的收視頻道預測方法進行預測的預測準確率,曲線c代表對頻道收視數據基于speed-cr的收視頻道預測方法進行預測的預測準確率,曲線d代表基于speed-cr和s-markov的收視頻道預測方法進行預測的預測準確率,可以看出,隨著實驗數據短序列數目的增加,預測精度也有增加的趨勢,曲線b、c和d代表的預測方法的預測精度要高于曲線a代表的預測方法,且曲線b、c和d代表的預測方法的平均預測精度相對于曲線a代表的預測方法的平均預測精度依次有1.2%、11.8%和17.9%的提升。綜上所述,參照附圖以示例的方式描述了根據本發(fā)明提出的廣播電視用戶收視行為預測方法及系統(tǒng)。但是,本領域技術人員應當理解,對于上述本發(fā)明所提出的系統(tǒng)及方法,還可以在不脫離本
發(fā)明內容的基礎上做出各種改進。因此,本發(fā)明的保護范圍應當由所附的權利要求書的內容確定。當前第1頁12