本發(fā)明涉及數(shù)據(jù)挖掘的計算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種熱點內(nèi)容預(yù)測的方法及裝置。
背景技術(shù):
互聯(lián)網(wǎng)在最近十多年經(jīng)歷了一個飛速發(fā)展的時期,互聯(lián)網(wǎng)的開放性使其成為人們獲取信息的重要渠道,然而互聯(lián)網(wǎng)每天都會產(chǎn)生海量的信息數(shù)據(jù),如何從這些海量數(shù)據(jù)中提取有用的關(guān)鍵信息已經(jīng)成為近年來研究的熱點。然而,網(wǎng)絡(luò)用戶量龐大,每天會產(chǎn)生數(shù)以億計的數(shù)據(jù),其中充斥著廣告、炒作等虛假信息,從這些數(shù)據(jù)中發(fā)現(xiàn)熱點內(nèi)容,將熱點內(nèi)容分類并進(jìn)行傳播趨勢預(yù)測,既能方便人們獲取重要信息,同時也能幫助政府進(jìn)行輿論監(jiān)控和突發(fā)事件監(jiān)測。
近年來,數(shù)據(jù)挖掘已經(jīng)引起信息產(chǎn)業(yè)界的極大關(guān)注,數(shù)據(jù)挖掘是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)之間關(guān)系的過程,使用這些模型和關(guān)系可以進(jìn)行預(yù)測或幫助決策者尋找各數(shù)據(jù)之間的潛在關(guān)聯(lián),發(fā)現(xiàn)被忽略的因素。而現(xiàn)有技術(shù)中,如貝葉斯預(yù)測方法應(yīng)用的前提是條件獨立性假設(shè),而熱點內(nèi)容預(yù)測的時間序列并不具有條件獨立性,對網(wǎng)絡(luò)熱點內(nèi)容時間序列的特殊性,無法實現(xiàn)擬合時間,邏輯較為復(fù)雜。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例的目的在于提供一種熱點內(nèi)容預(yù)測的方法及裝置,能夠針對網(wǎng)絡(luò)熱點內(nèi)容時間序列的特殊性,能夠更好地擬合時間序列,得到熱點內(nèi)容的預(yù)測值,并且邏輯簡潔易懂。
為達(dá)到上述目的,本發(fā)明實施例公開了一種熱點內(nèi)容預(yù)測的方法,包括:
獲取預(yù)設(shè)時間段中已知時間序列的熱點內(nèi)容的頻數(shù),其中,所述預(yù)設(shè)時間段中還存在所述熱點內(nèi)容的頻數(shù)未知的預(yù)測時間序列;
對所述已知時間序列的所述熱點內(nèi)容的頻數(shù)進(jìn)行等間隔劃分,得到N段初始頻數(shù)子區(qū)間,其中,所述N為大于1的整數(shù);
在所述熱點內(nèi)容的頻數(shù)在所述初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)達(dá)到預(yù)設(shè)條件時,對所述初始頻數(shù)子區(qū)間進(jìn)行劃分,得到M段最終頻數(shù)子區(qū)間,其中,所述M大于或等于所述N,所述M段最終頻數(shù)子區(qū)間包括:劃分的初始頻數(shù)子區(qū)間及未劃分的初始頻數(shù)子區(qū)間;
根據(jù)所述最終頻數(shù)子區(qū)間與預(yù)設(shè)的模糊集區(qū)間,確定所述預(yù)測時間序列的所述熱點內(nèi)容的傳播趨勢;
根據(jù)所述傳播趨勢,通過預(yù)測算法,確定所述預(yù)測時間序列的所述熱點內(nèi)容的預(yù)測值。
較佳的,所述獲取預(yù)設(shè)時間段中已知時間序列的熱點內(nèi)容的頻數(shù),包括:
通過話題標(biāo)簽采集獲取所述已知時間序列的熱點內(nèi)容、通過轉(zhuǎn)發(fā)采集獲取所述已知時間序列的熱點內(nèi)容或通過正則表達(dá)式采集獲取所述已知時間序列的熱點內(nèi)容,并確定所述熱點內(nèi)容的頻數(shù)。
較佳的,所述對所述已知時間序列的所述熱點內(nèi)容的頻數(shù)進(jìn)行等間隔劃分,得到N段初始頻數(shù)子區(qū)間,包括:
獲取第一數(shù)值、第二數(shù)值、所述已知時間序列中熱點內(nèi)容的頻數(shù)的最小值及所述已知時間序列中熱點內(nèi)容的頻數(shù)的最大值;
將所述已知時間序列中熱點內(nèi)容的頻數(shù)的最大值和所述第二數(shù)值之和、與所述已知時間序列中熱點內(nèi)容的頻數(shù)的最小值和所述第一數(shù)值之差、之間的差值均分為N段,得到N段初始頻數(shù)子區(qū)間,其中,所述差值為所述N的整數(shù)倍,所述N段初始頻數(shù)子區(qū)間分別為:
[dmin-d1,dmin-d1+l],[dmin-d1+l,dmin-d1+2l],...,[dmax+d2-l,dmax+d2];
其中,所述l=(dmax+d2-dmin+d1)/N,所述dmin為所述已知時間序列中熱點內(nèi)容的頻數(shù)的最小值,所述dmax為所述已知時間序列中熱點內(nèi)容的頻數(shù)的最大值,所述d1為所述第一數(shù)值,所述d2為所述第二數(shù)值,所述d1和d2為正數(shù),所述N為大于1的整數(shù)。
較佳的,所述在所述熱點內(nèi)容的頻數(shù)在所述初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)達(dá)到預(yù)設(shè)條件時,對所述初始頻數(shù)子區(qū)間進(jìn)行劃分,包括:
獲取所述熱點內(nèi)容的頻數(shù)在所述初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)的基準(zhǔn)范圍;
對所述次數(shù)由次數(shù)多到次數(shù)少進(jìn)行排序,將排序次序的前L項對應(yīng)的初始頻數(shù)子區(qū)間進(jìn)行劃分,得到最終頻數(shù)子區(qū)間,其中,所述熱點內(nèi)容的頻數(shù)在所述前L項對應(yīng)的初始頻數(shù)子區(qū)間中出現(xiàn)的次數(shù)大于所述基準(zhǔn)范圍中的數(shù)值,所述L為大于或等于1的整數(shù)。
較佳的,所述根據(jù)所述最終頻數(shù)子區(qū)間與預(yù)設(shè)的模糊集區(qū)間,確定所述預(yù)測時間序列的所述熱點內(nèi)容的傳播趨勢,包括:
根據(jù)公式:g(t)=f(t)-f(t-1),確定相鄰已知時間序列內(nèi)所述熱點內(nèi)容的頻數(shù)差值;
根據(jù)公式:h(t)=g(t)-g(t-1),確定相鄰已知時間序列內(nèi)所述熱點內(nèi)容的頻數(shù)差值的變化趨勢;
根據(jù){f(t-1)-β|h(t-1)|},確定所述預(yù)測時間序列內(nèi)所述熱點內(nèi)容的傳播趨勢;
其中,所述t-1為所述已知時間序列的第一時間段,所述t為所述已知時間序列的所述t-1后面相鄰時間段的第二時間段,所述f(t-1)為所述t-1內(nèi)所述熱點內(nèi)容的頻數(shù),所述f(t)為所述t內(nèi)所述熱點內(nèi)容的頻數(shù),所述g(t)為所述t與所述t-1內(nèi)所述熱點內(nèi)容的頻數(shù)差值,所述h(t)為所述t與所述t-1內(nèi)所述熱點內(nèi)容的頻數(shù)差值的變化趨勢,所述h(t-1)為所述t-1與所述t-1前面相鄰時間段內(nèi)所述熱點內(nèi)容的頻數(shù)差值的變化趨勢,所述β為預(yù)設(shè)常數(shù),β∈{±α,±1/α},所述α為(0,1)范圍內(nèi)的數(shù)值。
較佳的,所述根據(jù){f(t-1)-β|h(t-1)|},確定所述預(yù)測時間序列內(nèi)所述熱點內(nèi)容的傳播趨勢,包括:
判斷{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi),其中,β∈{±α},且
{f(t-1)-β|h(t-1)|}不包含在所述模糊區(qū)間內(nèi)時,其中,β∈{±1/α},則確定所述傳播趨勢為預(yù)定基本趨勢中的下降;
判斷{f(t-1)-β|h(t-1)|}包含在所述模糊區(qū)間內(nèi),其中,β∈{±1/α},且{f(t-1)-β|h(t-1)|}不包含在所述模糊區(qū)間內(nèi)時,其中,β∈{±α},則確定所述傳播趨勢為所述預(yù)定基本趨勢中的上升;
判斷{f(t-1)-β|h(t-1)|}不包含在所述模糊區(qū)間內(nèi),其中,β∈{±α,±1/α},則確定所述傳播趨勢為所述預(yù)定基本趨勢中的平穩(wěn);
判斷{f(t-1)-β|h(t-1)|}包含在所述模糊區(qū)間內(nèi),其中,β∈{±α},且{f(t-1)-β|h(t-1)|}包含在所述模糊區(qū)間內(nèi)時,其中,β=1/α和β=-1/α兩數(shù)值中只能取一個,則確定所述傳播趨勢為預(yù)定擴(kuò)展趨勢中的略微下降;
判斷{f(t-1)-β|h(t-1)|}包含在所述模糊區(qū)間內(nèi),其中,β∈{±1/α},且{f(t-1)-β|h(t-1)|}包含在所述模糊區(qū)間內(nèi)時,其中,β=α和β=-α兩數(shù)值中只能取一個,則確定所述傳播趨勢為所述預(yù)定擴(kuò)展趨勢中的略微上升。
較佳的,所述根據(jù)所述傳播趨勢,通過預(yù)測算法,確定所述預(yù)測時間序列的所述熱點內(nèi)容的預(yù)測值,包括:
如果所述傳播趨勢為所述預(yù)定基本趨勢,根據(jù)所述預(yù)定基本趨勢的預(yù)測算法:Vγ=Smin+α×(Smax-Smin),確定所述預(yù)定基本趨勢中不同傳播趨勢的所述熱點內(nèi)容的預(yù)測值;
其中,所述Vγ為所述預(yù)定基本趨勢中不同傳播趨勢的所述熱點內(nèi)容的預(yù)測值,所述Smin為當(dāng)前預(yù)測時間序列相鄰的前一個時間序列中所述熱點內(nèi)容的頻數(shù)子區(qū)間的下邊界,所述Smax為當(dāng)前預(yù)測時間序列相鄰的前一個時間序列中所述熱點內(nèi)容的頻數(shù)子區(qū)間的上邊界;
所述α1為所述預(yù)定基本趨勢中的下降的參數(shù),所述α2為所述預(yù)定基本趨勢中的平穩(wěn)的參數(shù),所述α3為所述預(yù)定基本趨勢中的上升的參數(shù),所述γ=1為所述預(yù)定基本趨勢中的下降,所述γ=2為所述預(yù)定基本趨勢中的平穩(wěn),所述γ=3為所述預(yù)定基本趨勢中的上升;
如果所述傳播趨勢為所述預(yù)定擴(kuò)展趨勢,則根據(jù)所述預(yù)定擴(kuò)展趨勢的預(yù)測算法:確定所述預(yù)定擴(kuò)展趨勢中不同傳播趨勢的所述熱點內(nèi)容的預(yù)測值;
其中,所述V為所述預(yù)定擴(kuò)展趨勢中不同傳播趨勢的所述熱點內(nèi)容的預(yù)測值,所述V1為所述預(yù)定基本趨勢中的下降的預(yù)測值,所述V2為所述預(yù)定基本趨勢中的平穩(wěn)的預(yù)測值,所述V3為所述預(yù)定基本趨勢中的上升的預(yù)測值,所述δ為所述預(yù)定基本趨勢中的下降的參數(shù),所述μ為所述預(yù)定基本趨勢中的平穩(wěn)的參數(shù),所述λ為所述預(yù)定基本趨勢中的上升的參數(shù),所述δ、所述μ和所述λ取值為[0,1]。
本發(fā)明實施例還公開了一種熱點內(nèi)容預(yù)測的裝置,包括:
數(shù)據(jù)采集模塊,用于獲取預(yù)設(shè)時間段中已知時間序列的熱點內(nèi)容的頻數(shù),其中,所述預(yù)設(shè)時間段中還存在所述熱點內(nèi)容的頻數(shù)未知的預(yù)測時間序列;
初始頻數(shù)子區(qū)間劃分模塊,用于對所述已知時間序列的所述熱點內(nèi)容的頻數(shù)進(jìn)行等間隔劃分,得到N段初始頻數(shù)子區(qū)間,其中,所述N為大于1的整數(shù);
最終頻數(shù)子區(qū)間劃分模塊,用于在所述熱點內(nèi)容的頻數(shù)在所述初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)達(dá)到預(yù)設(shè)條件時,對所述初始頻數(shù)子區(qū)間進(jìn)行劃分,得到M段最終頻數(shù)子區(qū)間,其中,所述M大于或等于所述N,所述M段最終頻數(shù)子區(qū)間包括:劃分的初始頻數(shù)子區(qū)間及未劃分的初始頻數(shù)子區(qū)間;
傳播趨勢分析模塊,用于根據(jù)所述最終頻數(shù)子區(qū)間與預(yù)設(shè)的模糊集區(qū)間,確定所述預(yù)測時間序列的所述熱點內(nèi)容的傳播趨勢;
時間序列預(yù)測模塊,用于根據(jù)所述傳播趨勢,通過預(yù)測算法,確定所述預(yù)測時間序列的所述熱點內(nèi)容的預(yù)測值。
較佳的,所述數(shù)據(jù)采集模塊進(jìn)一步用于,通過話題標(biāo)簽采集獲取所述已知時間序列的熱點內(nèi)容、通過轉(zhuǎn)發(fā)采集獲取所述已知時間序列的熱點內(nèi)容或通過正則表達(dá)式采集獲取所述已知時間序列的熱點內(nèi)容,并確定所述熱點內(nèi)容的頻數(shù)。
較佳的,所述初始頻數(shù)子區(qū)間劃分模塊包括:
數(shù)值獲取子模塊,用于獲取第一數(shù)值、第二數(shù)值、所述已知時間序列中熱點內(nèi)容的頻數(shù)的最小值及所述已知時間序列中熱點內(nèi)容的頻數(shù)的最大值;
初始頻數(shù)劃分子模塊,用于將所述已知時間序列中熱點內(nèi)容的頻數(shù)的最大值和所述第二數(shù)值之和、與所述已知時間序列中熱點內(nèi)容的頻數(shù)的最小值和所述第一數(shù)值之差、之間的差值均分為N段,得到N段初始頻數(shù)子區(qū)間,其中,所述差值為所述N的整數(shù)倍,所述N段初始頻數(shù)子區(qū)間分別為:
[dmin-d1,dmin-d1+l],[dmin-d1+l,dmin-d1+2l],...,[dmax+d2-l,dmax+d2];
其中,所述l=(dmax+d2-dmin+d1)/N,所述dmin為所述已知時間序列中熱點內(nèi)容的頻數(shù)的最小值,所述dmax為所述已知時間序列中熱點內(nèi)容的頻數(shù)的最大值,所述d1為所述第一數(shù)值,所述d2為所述第二數(shù)值,所述d1和d2為正數(shù),所述N為大于1的整數(shù)。
由上述的技術(shù)方案可見,本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法及裝置,通過獲取熱點內(nèi)容的頻數(shù)并對所述熱點內(nèi)容的頻數(shù)進(jìn)行劃分,得到最終頻數(shù)子區(qū)間,根據(jù)預(yù)設(shè)的模糊集區(qū)間,確定所述預(yù)測時間序列的所述熱點內(nèi)容的傳播趨勢,通過預(yù)測算法,確定所述預(yù)測時間序列的所述熱點內(nèi)容的預(yù)測值。應(yīng)用本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法及裝置,不僅能夠擬合時間序列的傳播趨勢,同時能夠獲得精確度更高的預(yù)測效果。同時,本發(fā)明操作簡單,邏輯簡潔易懂,通用性好,具有較好的實用化前景。當(dāng)然,實施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時達(dá)到以上所述的所有優(yōu)點。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法的流程圖;
圖2是現(xiàn)有技術(shù)中給定隸屬度函數(shù)的模糊區(qū)間的劃分表示示意圖;
圖3是本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置的結(jié)構(gòu)圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖對本發(fā)明作進(jìn)一步的詳細(xì)描述。
參見圖1,圖1為本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法的流程圖,包括如下步驟:
步驟101,獲取預(yù)設(shè)時間段中已知時間序列的熱點內(nèi)容的頻數(shù),其中,預(yù)設(shè)時間段中還存在熱點內(nèi)容的頻數(shù)未知的預(yù)測時間序列;
本發(fā)明實施例中,預(yù)設(shè)時間段為,在預(yù)測熱點內(nèi)容之前預(yù)先設(shè)定的時間段,包括已知時間序列和預(yù)測時間序列,其中,已知時間序列的熱點內(nèi)容的頻數(shù)已知,預(yù)測時間序列的熱點內(nèi)容的頻數(shù)未知,需要進(jìn)行預(yù)測。以預(yù)設(shè)時間段300天為例進(jìn)行說明,若前200天為已知時間序列,前200天的熱點內(nèi)容的頻數(shù)已知,則后100天為還未發(fā)生的預(yù)測時間序列且熱點內(nèi)容的頻數(shù)未知。
步驟102,對已知時間序列的熱點內(nèi)容的頻數(shù)進(jìn)行等間隔劃分,得到N段初始頻數(shù)子區(qū)間,其中,N為大于1的整數(shù);
步驟103,在熱點內(nèi)容的頻數(shù)在初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)達(dá)到預(yù)設(shè)條件時,對初始頻數(shù)子區(qū)間進(jìn)行劃分,得到M段最終頻數(shù)子區(qū)間,其中,M大于或等于N,M段最終頻數(shù)子區(qū)間包括:劃分的初始頻數(shù)子區(qū)間及未劃分的初始頻數(shù)子區(qū)間;
步驟104,根據(jù)最終頻數(shù)子區(qū)間與預(yù)設(shè)的模糊集區(qū)間,確定預(yù)測時間序列的熱點內(nèi)容的傳播趨勢;
本步驟中,確定預(yù)測時間序列的熱點內(nèi)容的傳播趨勢,指確定預(yù)測時間序列中的每一個時間段的熱點內(nèi)容的傳播趨勢。以步驟101中的300天為例進(jìn)行說明,假設(shè)每一個時間段為1天,根據(jù)前200天預(yù)測第201天的熱點內(nèi)容的傳播趨勢,在預(yù)測完成第201天的熱點內(nèi)容的頻數(shù)之后,根據(jù)前201天確定第202天的熱點內(nèi)容的傳播趨勢。以此類推,直至確定第300天的熱點內(nèi)容的傳播趨勢。
步驟105,根據(jù)傳播趨勢,通過預(yù)測算法,確定預(yù)測時間序列的熱點內(nèi)容的預(yù)測值。
本步驟與步驟104相結(jié)合,確定預(yù)測時間序列中的每一個時間段的熱點內(nèi)容的傳播趨勢和熱點內(nèi)容的預(yù)測值。
可見,應(yīng)用本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法,通過對熱點內(nèi)容的頻數(shù)進(jìn)行劃分,得到最終頻數(shù)子區(qū)間,根據(jù)最終頻數(shù)子區(qū)間與預(yù)設(shè)的模糊集區(qū)間,確定熱點內(nèi)容的傳播趨勢;根據(jù)預(yù)測算法確定熱點內(nèi)容的預(yù)測值。本發(fā)明實施例不僅能夠擬合時間序列的傳播趨勢,獲得精確度更高的預(yù)測效果,而且操作簡單,邏輯簡潔易懂,通用性好,具有較好的實用化前景。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法中,獲取預(yù)設(shè)時間段中已知時間序列的熱點內(nèi)容的頻數(shù),包括:
通過話題標(biāo)簽采集獲取已知時間序列的熱點內(nèi)容、通過轉(zhuǎn)發(fā)采集獲取已知時間序列的熱點內(nèi)容或通過正則表達(dá)式采集獲取已知時間序列的熱點內(nèi)容,并確定熱點內(nèi)容的頻數(shù)。
話題標(biāo)簽采集,利用熱點內(nèi)容中用來標(biāo)注熱點內(nèi)容的標(biāo)簽或熱點內(nèi)容中特征主體對特定網(wǎng)絡(luò)詞語進(jìn)行標(biāo)記與爬取。
轉(zhuǎn)發(fā)采集,利用網(wǎng)絡(luò)平臺中轉(zhuǎn)發(fā)關(guān)系爬取同一詞語數(shù)據(jù)。網(wǎng)絡(luò)用戶可以通過轉(zhuǎn)發(fā)參與到熱點內(nèi)容的討論之中。針對原始詞語信息,遍歷不同轉(zhuǎn)發(fā)節(jié)點網(wǎng)絡(luò),爬取海量相關(guān)數(shù)據(jù)。
正則表達(dá)式采集,利用正則表達(dá)式構(gòu)建熱點內(nèi)容語法,提取包含該熱點內(nèi)容語法的網(wǎng)絡(luò)文本,獲取海量相關(guān)詞語數(shù)據(jù)。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法中,對已知時間序列的熱點內(nèi)容的頻數(shù)進(jìn)行等間隔劃分,得到N段初始頻數(shù)子區(qū)間,包括:
獲取第一數(shù)值、第二數(shù)值、已知時間序列中熱點內(nèi)容的頻數(shù)的最小值及已知時間序列中熱點內(nèi)容的頻數(shù)的最大值;
將已知時間序列中熱點內(nèi)容的頻數(shù)的最大值和第二數(shù)值之和、與已知時間序列中熱點內(nèi)容的頻數(shù)的最小值和第一數(shù)值之差、之間的差值均分為N段,得到N段初始頻數(shù)子區(qū)間,其中,N段初始頻數(shù)子區(qū)間分別為:[dmin-d1,dmin-d1+l],[dmin-d1+l,dmin-d1+2l],...,[dmax+d2-l,dmax+d2];
其中,l=(dmax+d2-dmin+d1)/N,dmin為已知時間序列中熱點內(nèi)容的頻數(shù)的最小值,dmax為已知時間序列中熱點內(nèi)容的頻數(shù)的最大值,d1為第一數(shù)值,d2為第二數(shù)值,d1和d2為正數(shù),N為大于1的整數(shù)。
實際應(yīng)用中,已知時間序列中熱點內(nèi)容的頻數(shù)的最大值dmax、已知時間序列中熱點內(nèi)容的頻數(shù)的最小值dmin和數(shù)值N,不是方便計算的整數(shù),計算過程產(chǎn)生的小數(shù)不利于頻數(shù)的劃分。根據(jù)實際情況,通常選取合適的第一數(shù)值d1和第二數(shù)值d2,且d1和d2為正數(shù),使(dmax+d2-dmin+d1)/N為方便計算的整數(shù),提高計算效率。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法中,在熱點內(nèi)容的頻數(shù)在初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)達(dá)到預(yù)設(shè)條件時,對初始頻數(shù)子區(qū)間進(jìn)行劃分,包括:
獲取熱點內(nèi)容的頻數(shù)在初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)的基準(zhǔn)范圍;
本發(fā)明實施例中,在初始頻數(shù)子區(qū)間劃分完成之后,熱點內(nèi)容的頻數(shù)在初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)是不同的,對于次數(shù)較高的需要繼續(xù)劃分,需要根據(jù)熱點內(nèi)容的頻數(shù)在初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)設(shè)定繼續(xù)劃分的基準(zhǔn)范圍。
對次數(shù)由次數(shù)多到次數(shù)少進(jìn)行排序,將排序次序的前L項對應(yīng)的初始頻數(shù)子區(qū)間進(jìn)行劃分,得到最終頻數(shù)子區(qū)間,其中,熱點內(nèi)容的頻數(shù)在前L項對應(yīng)的初始頻數(shù)子區(qū)間中出現(xiàn)的次數(shù)大于基準(zhǔn)范圍中的數(shù)值,L為大于或等于1的整數(shù)。
實際應(yīng)用中,熱點內(nèi)容的頻數(shù)在不同初始頻數(shù)子區(qū)間中出現(xiàn)的次數(shù)是不同的,對次數(shù)進(jìn)行降序排列,通常將熱點內(nèi)容的頻數(shù)在前L項初始頻數(shù)子區(qū)間之外的頻數(shù)子區(qū)間中出現(xiàn)的次數(shù)范圍作為基準(zhǔn)范圍,分別對前L項初始頻數(shù)子區(qū)間進(jìn)行劃分,使得熱點內(nèi)容的頻數(shù)在劃分后每一個最終頻數(shù)子區(qū)間中出現(xiàn)的次數(shù)接近于基準(zhǔn)范圍。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法中,根據(jù)最終頻數(shù)子區(qū)間與預(yù)設(shè)的模糊集區(qū)間,確定預(yù)測時間序列的熱點內(nèi)容的傳播趨勢,包括:
根據(jù)公式:g(t)=f(t)-f(t-1),確定相鄰已知時間序列內(nèi)熱點內(nèi)容的頻數(shù)差值;
如果g(t)>0,則表示熱點內(nèi)容的頻數(shù)數(shù)值變化為正向變化;
如果g(t)<0,則表示熱點內(nèi)容的頻數(shù)數(shù)值變化為負(fù)向變化;
如果g(t)=0,則表示熱點內(nèi)容的頻數(shù)數(shù)值保持不變。
根據(jù)公式:h(t)=g(t)-g(t-1),確定相鄰已知時間序列內(nèi)熱點內(nèi)容的頻數(shù)差值的變化趨勢;
如果h(t)>0,則表示熱點內(nèi)容的頻數(shù)差值變化趨勢為上升趨勢;
如果h(t)<0,則表示熱點內(nèi)容的頻數(shù)差值變化趨勢為下降趨勢;
如果h(t)=0,則表示熱點內(nèi)容的頻數(shù)差值變化趨勢為保持不變。
根據(jù){f(t-1)-β|h(t-1)|},確定預(yù)測時間序列內(nèi)熱點內(nèi)容的傳播趨勢;
其中,t-1為已知時間序列的第一時間段,t為已知時間序列的t-1后面相鄰時間段的第二時間段,f(t-1)為t-1內(nèi)熱點內(nèi)容的頻數(shù),f(t)為t內(nèi)熱點內(nèi)容的頻數(shù),g(t)為t與t-1內(nèi)熱點內(nèi)容的頻數(shù)差值,h(t)為t與t-1內(nèi)熱點內(nèi)容的頻數(shù)差值的變化趨勢,h(t-1)為t-1與t-1前面相鄰時間段內(nèi)熱點內(nèi)容的頻數(shù)差值的變化趨勢,β為預(yù)設(shè)常數(shù),β∈{±α,±1/α},α為(0,1)范圍內(nèi)的數(shù)值。
論域U是有限集,U={u1,u2,...un},其中ui為集合元素,U上的任一模糊集A,其隸屬函數(shù)為{fA(ui)}(i=1,2,...n),fA(ui)∈[0,1],則模糊集表示為:A={fA(u1)/u1,fA(u2)/u2,...,fA(un)/un},
也可以表示為:A=fA(u1)/u1+fA(u2)/u2+...+fA(un)/un,
其中,fA(ui)/ui不是分?jǐn)?shù),“+”也不表示求和,只有符號意義,它表示點ui對模糊集A的隸屬度是fA(ui),隸屬度值選取的范圍和大小根據(jù)實際應(yīng)用場景進(jìn)行調(diào)整。
根據(jù)場景選取隸屬度值,本發(fā)明實施例中,選取隸屬度值分別為0、0.5、1,則模糊區(qū)間的劃分表示示意圖如圖2所示,則各模糊區(qū)間分別表示為:
模糊區(qū)間的集合構(gòu)成模糊集區(qū)間。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法中,根據(jù){f(t-1)-β|h(t-1)|},確定預(yù)測時間序列內(nèi)熱點內(nèi)容的傳播趨勢,包括:
判斷{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi),其中,β∈{±α},且
{f(t-1)-β|h(t-1)|}不包含在模糊區(qū)間內(nèi)時,其中,β∈{±1/α},則確定傳播趨勢為預(yù)定基本趨勢中的下降;
判斷{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi),其中,β∈{±1/α},且{f(t-1)-β|h(t-1)|}不包含在模糊區(qū)間內(nèi)時,其中,β∈{±α},則確定傳播趨勢為預(yù)定基本趨勢中的上升;
判斷{f(t-1)-β|h(t-1)|}不包含在模糊區(qū)間內(nèi),其中,β∈{±α,±1/α},則確定傳播趨勢為預(yù)定基本趨勢中的平穩(wěn);
判斷{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi),其中,β∈{±α},且{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi)時,其中,β=1/α和β=-1/α兩數(shù)值中只能取一個,則確定傳播趨勢為預(yù)定擴(kuò)展趨勢中的略微下降;
判斷{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi),其中,β∈{±1/α},且{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi)時,其中,β=α和β=-α兩數(shù)值中只能取一個,則確定傳播趨勢為預(yù)定擴(kuò)展趨勢中的略微上升。
實際應(yīng)用中,可以根據(jù)上升和下降趨勢的偏向程度進(jìn)一步進(jìn)行擴(kuò)展趨勢的定義和劃分。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法中,根據(jù)傳播趨勢,通過預(yù)測算法,確定預(yù)測時間序列的熱點內(nèi)容的預(yù)測值,包括:
如果傳播趨勢為預(yù)定基本趨勢,根據(jù)預(yù)定基本趨勢的預(yù)測算法:
Vγ=Smin+α×(Smax-Smin),確定預(yù)定基本趨勢中不同傳播趨勢的熱點內(nèi)容的預(yù)測值;
其中,Vγ為預(yù)定基本趨勢中不同傳播趨勢的熱點內(nèi)容的預(yù)測值,Smin為當(dāng)前預(yù)測時間序列相鄰的前一個時間序列中熱點內(nèi)容的頻數(shù)子區(qū)間的下邊界,Smax為當(dāng)前預(yù)測時間序列相鄰的前一個時間序列中熱點內(nèi)容的頻數(shù)子區(qū)間的上邊界;
α1為預(yù)定基本趨勢中的下降的參數(shù),α2為預(yù)定基本趨勢中的平穩(wěn)的參數(shù),α3為預(yù)定基本趨勢中的上升的參數(shù),γ=1為預(yù)定基本趨勢中的下降,γ=2為預(yù)定基本趨勢中的平穩(wěn),γ=3為預(yù)定基本趨勢中的上升;
如果傳播趨勢為預(yù)定擴(kuò)展趨勢,則根據(jù)預(yù)定擴(kuò)展趨勢的預(yù)測算法:確定預(yù)定擴(kuò)展趨勢中不同傳播趨勢的熱點內(nèi)容的預(yù)測值;
其中,V為預(yù)定擴(kuò)展趨勢中不同傳播趨勢的熱點內(nèi)容的預(yù)測值,V1為預(yù)定基本趨勢中的下降的預(yù)測值,V2為預(yù)定基本趨勢中的平穩(wěn)的預(yù)測值,V3為預(yù)定基本趨勢中的上升的預(yù)測值,δ為預(yù)定基本趨勢中的下降的參數(shù),μ為預(yù)定基本趨勢中的平穩(wěn)的參數(shù),λ為預(yù)定基本趨勢中的上升的參數(shù),δ、μ和λ取值為[0,1]。
實際應(yīng)用中,α1、α2、α3、δ、μ和λ根據(jù)實際場景可進(jìn)行參數(shù)值的選取。以新浪微博熱點詞語在300天內(nèi)的傳播分析為例進(jìn)行說明,如果熱點詞語的傳播趨勢為預(yù)定基本趨勢,則可選取α1=0.25,α2=0.5,α3=0.75,如果熱點詞語的傳播趨勢為預(yù)定擴(kuò)展趨勢中的略微下降,則可選取δ=0.75,λ=0.25,μ=0.5,如果熱點詞語的傳播趨勢為略微上升,則可選取δ=0.25,μ=0.5,λ=0.75。
在預(yù)測時間序列變?yōu)橐阎獣r間序列之后,將得到預(yù)測時間序列中熱點內(nèi)容的預(yù)測值和獲取的實際的熱點內(nèi)容的預(yù)測值進(jìn)行比較,結(jié)果顯示,本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法,與傳統(tǒng)的熱點內(nèi)容預(yù)測的方法相比,預(yù)測結(jié)果更精準(zhǔn)。
可見,應(yīng)用本發(fā)明實施例的熱點內(nèi)容預(yù)測的方法,不僅能夠擬合時間序列的傳播趨勢,而且能夠獲得精確度更高的預(yù)測效果。同時,本發(fā)明操作簡單,通用性好,具有較好的實用化前景。
參見圖3,圖3為本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置的結(jié)構(gòu)圖,與圖1所示的流程相對應(yīng),包括:
數(shù)據(jù)采集模塊301,用于獲取預(yù)設(shè)時間段中已知時間序列的熱點內(nèi)容的頻數(shù),其中,預(yù)設(shè)時間段中還存在熱點內(nèi)容的頻數(shù)未知的預(yù)測時間序列;
初始頻數(shù)子區(qū)間劃分模塊302,用于對已知時間序列的熱點內(nèi)容的頻數(shù)進(jìn)行等間隔劃分,得到N段初始頻數(shù)子區(qū)間,其中,N為大于1的整數(shù);
最終頻數(shù)子區(qū)間劃分模塊303,用于在熱點內(nèi)容的頻數(shù)在初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)達(dá)到預(yù)設(shè)條件時,對初始頻數(shù)子區(qū)間進(jìn)行劃分,得到M段最終頻數(shù)子區(qū)間,其中,M大于或等于N,M段最終頻數(shù)子區(qū)間包括:劃分的初始頻數(shù)子區(qū)間及未劃分的初始頻數(shù)子區(qū)間;
傳播趨勢分析模塊304,用于根據(jù)最終頻數(shù)子區(qū)間與預(yù)設(shè)的模糊集區(qū)間,確定預(yù)測時間序列的熱點內(nèi)容的傳播趨勢;
時間序列預(yù)測模塊305,用于根據(jù)傳播趨勢,通過預(yù)測算法,確定預(yù)測時間序列的熱點內(nèi)容的預(yù)測值。
可見,應(yīng)用本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置,通過對熱點內(nèi)容的頻數(shù)進(jìn)行劃分,得到最終頻數(shù)子區(qū)間,根據(jù)最終頻數(shù)子區(qū)間與預(yù)設(shè)的模糊集區(qū)間,確定熱點內(nèi)容的傳播趨勢;根據(jù)預(yù)測算法確定熱點內(nèi)容的預(yù)測值。本發(fā)明實施例不僅能夠擬合時間序列的傳播趨勢,獲得精確度更高的預(yù)測效果,而且操作簡單,邏輯簡潔易懂,通用性好,具有較好的實用化前景。
需要說明的是,本發(fā)明實施例的裝置是應(yīng)用上述熱點內(nèi)容預(yù)測的方法的裝置,則上述熱點內(nèi)容預(yù)測的方法的所有實施例均適用于該裝置,且均能達(dá)到相同或相似的有益效果。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置中,數(shù)據(jù)采集模塊進(jìn)一步用于,通過話題標(biāo)簽采集獲取已知時間序列的熱點內(nèi)容、通過轉(zhuǎn)發(fā)采集獲取已知時間序列的熱點內(nèi)容或通過正則表達(dá)式采集獲取已知時間序列的熱點內(nèi)容,并確定熱點內(nèi)容的頻數(shù)。
話題標(biāo)簽采集,利用熱點內(nèi)容中用來標(biāo)注熱點內(nèi)容的標(biāo)簽或熱點內(nèi)容中特征主體對特定網(wǎng)絡(luò)詞語進(jìn)行標(biāo)記與爬取。
轉(zhuǎn)發(fā)采集,利用網(wǎng)絡(luò)平臺中轉(zhuǎn)發(fā)關(guān)系爬取同一詞語數(shù)據(jù)。網(wǎng)絡(luò)用戶可以通過轉(zhuǎn)發(fā)參與到熱點內(nèi)容的討論之中。針對原始詞語信息,遍歷不同轉(zhuǎn)發(fā)節(jié)點網(wǎng)絡(luò),爬取海量相關(guān)數(shù)據(jù)。
正則表達(dá)式采集,利用正則表達(dá)式構(gòu)建熱點內(nèi)容語法,提取包含該熱點內(nèi)容語法的網(wǎng)絡(luò)文本,獲取海量相關(guān)詞語數(shù)據(jù)。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置中,初始頻數(shù)子區(qū)間劃分模塊包括:
數(shù)值獲取子模塊,用于獲取第一數(shù)值、第二數(shù)值、已知時間序列中熱點內(nèi)容的頻數(shù)的最小值及已知時間序列中熱點內(nèi)容的頻數(shù)的最大值;
初始頻數(shù)劃分子模塊,用于將已知時間序列中熱點內(nèi)容的頻數(shù)的最大值和第二數(shù)值之和、與已知時間序列中熱點內(nèi)容的頻數(shù)的最小值和第一數(shù)值之差、之間的差值均分為N段,得到N段初始頻數(shù)子區(qū)間,其中,N段初始頻數(shù)子區(qū)間分別為:
[dmin-d1,dmin-d1+l],[dmin-d1+l,dmin-d1+2l],...,[dmax+d2-l,dmax+d2];
其中,l=(dmax+d2-dmin+d1)/N,dmin為已知時間序列中熱點內(nèi)容的頻數(shù)的最小值,dmax為已知時間序列中熱點內(nèi)容的頻數(shù)的最大值,d1為第一數(shù)值,d2為第二數(shù)值,d1和d2為正數(shù),N為大于1的整數(shù)。
實際應(yīng)用中,已知時間序列中熱點內(nèi)容的頻數(shù)的最大值dmax、已知時間序列中熱點內(nèi)容的頻數(shù)的最小值dmin和數(shù)值N,不是方便計算的整數(shù),計算過程產(chǎn)生的小數(shù)不利于頻數(shù)的劃分。根據(jù)實際情況,通常選取合適的第一數(shù)值d1和第二數(shù)值d2,且d1和d2為正數(shù),使(dmax+d2-dmin+d1)/N為方便計算的整數(shù),提高計算效率。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置中,最終頻數(shù)子區(qū)間劃分模塊包括:
基準(zhǔn)范圍獲取子模塊,用于獲取熱點內(nèi)容的頻數(shù)在初始頻數(shù)子區(qū)間中、出現(xiàn)的次數(shù)的基準(zhǔn)范圍;
最終頻數(shù)劃分子模塊,用于對次數(shù)由次數(shù)多到次數(shù)少進(jìn)行排序,將排序次序的前L項對應(yīng)的初始頻數(shù)子區(qū)間進(jìn)行劃分,得到最終頻數(shù)子區(qū)間,其中,熱點內(nèi)容的頻數(shù)在前L項對應(yīng)的初始頻數(shù)子區(qū)間中出現(xiàn)的次數(shù)大于基準(zhǔn)范圍中的數(shù)值,L為大于或等于1的整數(shù)。
實際應(yīng)用中,熱點內(nèi)容的頻數(shù)在不同初始頻數(shù)子區(qū)間中出現(xiàn)的次數(shù)是不同的,對次數(shù)進(jìn)行降序排列,通常將熱點內(nèi)容的頻數(shù)在前L項初始頻數(shù)子區(qū)間之外的頻數(shù)子區(qū)間中出現(xiàn)的次數(shù)范圍作為基準(zhǔn)范圍,分別對前L項初始頻數(shù)子區(qū)間進(jìn)行劃分,使得熱點內(nèi)容的頻數(shù)在劃分后每一個最終頻數(shù)子區(qū)間中出現(xiàn)的次數(shù)接近于基準(zhǔn)范圍。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置中,傳播趨勢分析模塊包括:
頻數(shù)差值子模塊,用于根據(jù)公式:g(t)=f(t)-f(t-1),確定相鄰已知時間序列內(nèi)熱點內(nèi)容的頻數(shù)差值;
如果g(t)>0,則表示熱點內(nèi)容的頻數(shù)數(shù)值變化為正向變化;
如果g(t)<0,則表示熱點內(nèi)容的頻數(shù)數(shù)值變化為負(fù)向變化;
如果g(t)=0,則表示熱點內(nèi)容的頻數(shù)數(shù)值保持不變。
頻數(shù)差值變化趨勢子模塊,用于根據(jù)公式:h(t)=g(t)-g(t-1),確定相鄰已知時間序列內(nèi)熱點內(nèi)容的頻數(shù)差值的變化趨勢;
如果h(t)>0,則表示熱點內(nèi)容的頻數(shù)差值變化趨勢為上升趨勢;
如果h(t)<0,則表示熱點內(nèi)容的頻數(shù)差值變化趨勢為下降趨勢;
如果h(t)=0,則表示熱點內(nèi)容的頻數(shù)差值變化趨勢為保持不變。
傳播趨勢確定子模塊,用于根據(jù){f(t-1)-β|h(t-1)|},確定預(yù)測時間序列內(nèi)熱點內(nèi)容的傳播趨勢;
其中,t-1為已知時間序列的第一時間段,t為已知時間序列的t-1后面相鄰時間段的第二時間段,f(t-1)為t-1內(nèi)熱點內(nèi)容的頻數(shù),f(t)為t內(nèi)熱點內(nèi)容的頻數(shù),g(t)為t與t-1內(nèi)熱點內(nèi)容的頻數(shù)差值,h(t)為t與t-1內(nèi)熱點內(nèi)容的頻數(shù)差值的變化趨勢,h(t-1)為t-1與t-1前面相鄰時間段內(nèi)熱點內(nèi)容的頻數(shù)差值的變化趨勢,β為預(yù)設(shè)常數(shù),β∈{±α,±1/α},α為(0,1)范圍內(nèi)的數(shù)值。
論域U是有限集,U={u1,u2,...un},其中ui為集合元素,U上的任一模糊集A,其隸屬函數(shù)為{fA(ui)}(i=1,2,...n),fA(ui)∈[0,1],則模糊集表示為:A={fA(u1)/u1,fA(u2)/u2,...,fA(un)/un},
也可以表示為:A=fA(u1)/u1+fA(u2)/u2+...+fA(un)/un,
其中,fA(ui)/ui不是分?jǐn)?shù),“+”也不表示求和,只有符號意義,它表示點ui對模糊集A的隸屬度是fA(ui),隸屬度值選取的范圍和大小根據(jù)實際應(yīng)用場景進(jìn)行調(diào)整。
根據(jù)場景選取隸屬度值,本發(fā)明實施例中,選取隸屬度值分別為0、0.5、1,則模糊區(qū)間的劃分表示示意圖如圖2所示,則各模糊區(qū)間分別表示為:
模糊區(qū)間的集合構(gòu)成模糊集區(qū)間。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置中,傳播趨勢確定子模塊包括:
第一判斷單元,用于判斷{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi),其中,β∈{±α},且{f(t-1)-β|h(t-1)|}不包含在模糊區(qū)間內(nèi)時,其中,β∈{±1/α},則確定傳播趨勢為預(yù)定基本趨勢中的下降;
第二判斷單元,用于判斷{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi),其中,β∈{±1/α},且{f(t-1)-β|h(t-1)|}不包含在模糊區(qū)間內(nèi)時,其中,β∈{±α},則確定傳播趨勢為預(yù)定基本趨勢中的上升;
第三判斷單元,用于判斷{f(t-1)-β|h(t-1)|}不包含在模糊區(qū)間內(nèi),其中,β∈{±α,±1/α},則確定傳播趨勢為預(yù)定基本趨勢中的平穩(wěn);
第四判斷單元,用于判斷{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi),其中,β∈{±α},且{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi)時,其中,β=1/α和β=-1/α兩數(shù)值中只能取一個,則確定傳播趨勢為預(yù)定擴(kuò)展趨勢中的略微下降;
第五判斷單元,用于判斷{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi),其中,β∈{±1/α},且{f(t-1)-β|h(t-1)|}包含在模糊區(qū)間內(nèi)時,其中,β=α和β=-α兩數(shù)值中只能取一個,則確定傳播趨勢為預(yù)定擴(kuò)展趨勢中的略微上升。
實際應(yīng)用中,可以根據(jù)上升和下降趨勢的偏向程度進(jìn)一步進(jìn)行擴(kuò)展趨勢的定義和劃分。
優(yōu)選地,本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置中,時間序列預(yù)測模塊包括:
預(yù)定基本趨勢預(yù)測子模塊,用于根據(jù)預(yù)定基本趨勢的預(yù)測算法,確定預(yù)定基本趨勢中不同傳播趨勢的熱點內(nèi)容的預(yù)測值,包括:
根據(jù)預(yù)定基本趨勢的預(yù)測算法:Vγ=Smin+α×(Smax-Smin),確定預(yù)定基本趨勢中不同傳播趨勢的熱點內(nèi)容的預(yù)測值;
其中,Vγ為預(yù)定基本趨勢中不同傳播趨勢的熱點內(nèi)容的預(yù)測值,Smin為當(dāng)前預(yù)測時間序列相鄰的前一個時間序列中熱點內(nèi)容的頻數(shù)子區(qū)間的下邊界,Smax為當(dāng)前預(yù)測時間序列相鄰的前一個時間序列中熱點內(nèi)容的頻數(shù)子區(qū)間的上邊界;
α1為預(yù)定基本趨勢中的下降的參數(shù),α2為預(yù)定基本趨勢中的平穩(wěn)的參數(shù),α3為預(yù)定基本趨勢中的上升的參數(shù),γ=1為預(yù)定基本趨勢中的下降,γ=2為預(yù)定基本趨勢中的平穩(wěn),γ=3為預(yù)定基本趨勢中的上升。
預(yù)定擴(kuò)展趨勢預(yù)測子模塊,用于根據(jù)預(yù)定擴(kuò)展趨勢的預(yù)測算法,確定預(yù)定擴(kuò)展趨勢中不同傳播趨勢的熱點內(nèi)容的預(yù)測值,包括:
根據(jù)預(yù)定擴(kuò)展趨勢的預(yù)測算法:確定預(yù)定擴(kuò)展趨勢中不同傳播趨勢的熱點內(nèi)容的預(yù)測值;
其中,V為預(yù)定擴(kuò)展趨勢中不同傳播趨勢的熱點內(nèi)容的預(yù)測值,V1為預(yù)定基本趨勢中的下降的預(yù)測值,V2為預(yù)定基本趨勢中的平穩(wěn)的預(yù)測值,V3為預(yù)定基本趨勢中的上升的預(yù)測值,δ為預(yù)定基本趨勢中的下降的參數(shù),μ為預(yù)定基本趨勢中的平穩(wěn)的參數(shù),λ為預(yù)定基本趨勢中的上升的參數(shù),δ、μ和λ取值為[0,1]。
實際應(yīng)用中,α1、α2、α3、δ、μ和λ根據(jù)實際場景可進(jìn)行參數(shù)值的選取。以新浪微博熱點詞語在300天內(nèi)的傳播分析為例進(jìn)行說明,如果熱點詞語的傳播趨勢為預(yù)定基本趨勢,則可選取α1=0.25,α2=0.5,α3=0.75,如果熱點詞語的傳播趨勢為預(yù)定擴(kuò)展趨勢中的略微下降,則可選取δ=0.75,λ=0.25,μ=0.5,如果熱點詞語的傳播趨勢為略微上升,則可選取δ=0.25,μ=0.5,λ=0.75。
在預(yù)測時間序列變?yōu)橐阎獣r間序列之后,將得到預(yù)測時間序列中熱點內(nèi)容的預(yù)測值和獲取的實際的熱點內(nèi)容的預(yù)測值進(jìn)行比較,結(jié)果顯示,本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置,得到的預(yù)測結(jié)果更精準(zhǔn)。
可見,應(yīng)用本發(fā)明實施例的熱點內(nèi)容預(yù)測的裝置,不僅能夠擬合時間序列的傳播趨勢,而且能夠獲得精確度更高的預(yù)測效果。同時,本發(fā)明操作簡單,通用性好,具有較好的實用化前景。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。