專利名稱:多指標綜合權重視頻排序方法
技術領域:
本發(fā)明屬于視頻數(shù)據(jù)處理領域,特別涉及一種視頻排序系統(tǒng)。
背景技術:
隨著互聯(lián)網(wǎng)的發(fā)展,視頻的影響力正在逐步增強,互聯(lián)網(wǎng)上的視頻數(shù)量也與日倶 增。在海量的視頻中,要找到用戶需要的某個視頻,傳統(tǒng)的搜索引擎僅僅根據(jù)文本的相似性 對視頻進行排序,將那些視頻描述文本(如視頻標題,標簽等)與查詢文本相似的視頻排在 前面返回給用戶。
這樣的排序結果具有以下三個缺點 1.導致作弊現(xiàn)象比較嚴重,影響視頻搜索的準確性和客觀性;
2.影響用戶搜索體驗,降低對網(wǎng)站的滿意度和忠誠度;
3.增加用戶點擊或搜索次數(shù),加重服務器負擔。 鑒于此, 一些視頻網(wǎng)站采用了一些其他排序方式,如按照播放次數(shù)排序,視頻的播 放次數(shù)越多,排名越靠前?;蛘甙凑丈蟼鲿r間、視頻時長等要素進行排序。這些排序方式從 本質上來說,都只采用了一個衡量指標,而忽略了視頻的其他豐富特性,導致最后搜索排序 的結果不能滿足用戶的真正需求。 因此,目前的排序技術在視頻搜索的表現(xiàn)形式中過于單一,不能準確反映視頻的 質量和受歡迎程度,難以滿足用戶的真正搜索需求。
發(fā)明內容
為了解決以上問題,本發(fā)明提供一種多指標綜合權重視頻排序方法,通過分析視
頻的多重內在指標和用戶的反饋信息,構建了一套衡量視頻質量優(yōu)劣的指標體系,利用該
指標體系對每個視頻計算其得分,計算結果作為搜索引擎排序依據(jù)。 為實現(xiàn)上述目的,本發(fā)明采用如下技術方案 —種多指標綜合權重視頻排序方法,包括 視頻數(shù)據(jù)庫,用于保存視頻原始信息; 視頻分析處理步驟,用于對所述視頻數(shù)據(jù)庫中的視頻原始信息進行分析和處理;
主觀權重確定步驟,用于設定排序指標j并給出排序指標j的主觀權重;
客觀權重計算步驟,根據(jù)所述視頻分析處理步驟提供的數(shù)據(jù),計算所述主觀權重 確定步驟所確定的排序指標j的客觀權重; 優(yōu)化決策步驟,用于計算每個排序指標j的綜合權重Wj,其中, J]j^Wj = l,Wj > 0,F(w) = i:SUSj^(H[(Wj-ai)Zi(j)]2 + (1 - H)[(w廠bj)Zj(j)]2) 模型F(w)表示各指標排序得分的權重誤差平方和,F(xiàn)(w)越小,反映出權重Wj越準
確,更能刻畫各指標之間的關系,aj、bj, j = 1、2.....m分別為指標j的主觀和客觀權重;
0 < ii < 1為偏好系數(shù);
指標排序得分計算步驟,用于計算每個視頻i對于指標j的排序得分Zi(j);
綜合得分計算步驟,用于計算該視頻的加權得分值fi,其公式為 <formula>formula see original document page 6</formula>
本發(fā)明能真實客觀反映視頻的內在特性,真正優(yōu)秀和受用戶歡迎的視頻將排名靠 前,旨在解決現(xiàn)有視頻搜索引擎在排序技術上的不足,使最后排序得分更客觀公正。其綜合 考慮了視頻多項特征以及用戶對視頻的反饋,能夠對視頻進行智能化的靈活排序,以最佳 方式將搜索到的視頻結果返回給用戶。 為了使本發(fā)明的目的、技術方法和優(yōu)點更清晰明白,下面結合附圖,對本發(fā)明進一 步進行詳細解釋和說明。
圖1為本發(fā)明多指標綜合權重視頻排序方法流程圖。
具體實施例方式
如圖1所示,一種多指標綜合權重視頻排序方法,其包括 視頻數(shù)據(jù)庫,用于保存視頻原始信息,該視頻原始信息可包括視頻的播放次數(shù)、標 題、評論數(shù)、上傳時間、上傳人、被專輯收錄次數(shù)、均衡度等; 視頻分析處理步驟,用于對所述視頻數(shù)據(jù)庫中的視頻原始信息進行分析和處理, 例如將視頻內容轉化成其它處理步驟中需要的格式,同時還可對稀疏數(shù)據(jù)和噪音數(shù)據(jù)進行 處理; 主觀權重確定步驟,用來確定多個排序指標j,并對這些排序指標j給出主觀權 重。該主觀權重可通過隨機調查用戶需求,并征求視頻業(yè)內專家意見,確定多個排序指標 j,并給出這些排序指標j主觀權重。在本實施例中主要采用了文本匹配程度、日均播放次 數(shù)、上傳時間、被專輯收錄次數(shù)、上傳人重要程度、均衡度等指標作為排序的排序指標j。其 中文本匹配程度這一指標由搜索引擎負責度量,在搜索時與本系統(tǒng)計算的排序得分進行整 合??梢岳斫?,上述的幾個排序指標j只是用來解釋本說明,而不是構成本發(fā)明對排序指標 j選擇范圍的限制。 客觀權重計算步驟,根據(jù)所述視頻分析處理步驟提供的數(shù)據(jù),計算所述主觀權重 確定步驟所確定的排序指標j的客觀權重。其中所述客觀權重可通過熵值法計算得到。熵 (entropy)是系統(tǒng)狀態(tài)不確定性(混沌態(tài))的度量,可被用來度量排序指標j包含信息量的 大小。熵越大,說明該排序指標j包含的信息越多,該指標對于視頻的排序效果就越大,即 指標傳輸?shù)臎Q策信息也就越大,它的權重系數(shù)值也就越大。熵值法的優(yōu)點在于該方法最大 程度地利用了評價方案的目標值或屬性值來計算各指標的權重系數(shù),因而是較為客觀的權 重系數(shù)賦權方法。
熵值法計算公式如下 設各指標的客觀權重為bj, j = 1、2.....m,則
m<formula>formula see original document page 6</formula>
其中,hj = (lnn)-^!UPj(i)lnpj(i)為每個指標j的熵;Pj(i) = Zj(i)/SJUzj(i)用
來刻畫所有視頻對于指標j的分布;Zj(i)為每個指標的標準化(規(guī)范化)得分;且當Pj(i) =0時,規(guī)定Pj(i)l即j(i) = O(i = 1、2.....n ;j = 1、2.....m)。 優(yōu)化決策步驟,與所述客觀權重計算步驟相連接,用于計算每個排序指標j的綜 合權重Wj。根據(jù)客觀權重和主觀權重,建立數(shù)學模型,并計算其最優(yōu)解,該最優(yōu)解就是每個 排序指標j的綜合權重Wj。如果僅僅根據(jù)主觀權重進行視頻排序,不能真實準確反映指標 的重要程度,往往造成排序結果的不準確。因此為了兼顧主觀權重的偏好,又充分利用客觀 權重帶來的客觀信息,建立如下優(yōu)化決策模型
設各項指標的綜合權重為Wj,其中,5^iWj = l,Wj 2 0 ,F(w) = ZC^S^0i[(w廠ai)Zi(j)]2 + (1 — H)[(w廠bi)Zi(j)〗2}( * ) 模型F(w)表示各指標排序得分的權重誤差平方和,F(xiàn)(w)越小,反映出權重Wj越準
確,更能刻畫各指標之間的關系。其中aj、bj, j = 1、2.....m分別為指標j的主觀和客觀
權重。0< < 1為偏好系數(shù),反映分析者對主觀權重和客觀權重的偏好程度,這里取P =0. 5。 通過證明知,當綜合權重Wi = iiai+(l-ii)bi, i = 1、2.....m時,模型F(w)得到
唯一最優(yōu)解,即取得最小值。 指標排序得分計算步驟,用來計算每個視頻i對于指標j的排序得分Zi (j)。本發(fā) 明中采用的排序指標j有日平均播放次數(shù)、上傳時間、視頻節(jié)目擁有人上傳視頻數(shù)量、被專 輯收錄數(shù)、被挖(支持)數(shù)、被收藏數(shù)、均衡度,其指標j分別記為1、2、3、4、5、6、7。下面就 排序得分Zi(j)的具體計算方法加以說明。
日平均播放次數(shù)得分Zi (1):
腿M(NP(i)) Zj(l)=
最大值
MAX(NORM(NP(i)))i=123..
其中,NP(i)為第i個視頻的日均播放數(shù);MAX((xl)(下同)用來計算集合{x}
WUKIVHXJ — U00 + LOG2(x —99) x>100.
的
為數(shù)學變換函數(shù),對數(shù)據(jù): 上傳時間得分Zi(2):
z說=
0.7 + 0.6 +
0,5 + 0.4 +
:過大的進行處理;L0G2(x)是以2為底的對數(shù)變換c
如果0 ^ days(i) S 3 如果4 S days(i) < 31
如果31 ^ days(i) < 91
如果91 S days(i) < 366
如果366 S days(i).
days(i)
days(i)—21
days(i)—81
days(i)-356 其中days(i)為該節(jié)目上傳時間離現(xiàn)在的天數(shù)。該函數(shù)是單調遞減的分段函數(shù), 用來刻畫隨著已上傳天數(shù)的增加,視頻重要性逐漸降低這一現(xiàn)象。
7
視頻節(jié)目擁有人上傳視頻數(shù)量得分Zi (3):
— NORM(NU(i))
Zi(3) = MAXWORIVKNUCO))^,^,... 其中,NU(i)表示第i個視頻的上傳人總的上傳視頻數(shù),該指標的設計原則是創(chuàng)作 視頻越多的人其創(chuàng)作的視頻質量越高,用來鼓勵視頻創(chuàng)作大戶上傳更多的節(jié)目,特別是原 創(chuàng)節(jié)目。 被專輯收錄數(shù)得分Zi (4):
應M(NZ(i)) L0052」Zj"J - MAX(NORM(NZ(i)))i=1,2,3,... 其中,NZ(i)表示第i個視頻被專輯收錄的次數(shù),其被專輯收錄次數(shù)越多,說明越
受歡迎,其排名應該越靠前。 被挖(支持)數(shù)得分Zi (5):
,、 NORM(NW(i))
Zi(5) = MAX(NORM(NW(i)))i=1,2,3,...其中,麗(i)表示第i個視頻被挖(支持)次數(shù),其被挖(支持)次數(shù)越多,說明 越受歡迎,其排名應該越靠前。
被收藏數(shù)得分Zi (6):
,、 NORM(NF(i))
Zi(6) = MAX(N0RM(NF(i)))i=1,2,3,... 其中,NF(i)表示第i個視頻被收藏次數(shù),其被收藏次數(shù)越多,說明越受歡迎,其排
名應該越靠前。 均衡度得分Zi (7): 影響均衡度的因素有挖NW(i)、評論NC(i)、收藏NF(i)、評分數(shù)NP(i),節(jié)目的均 衡度得分指的是各個視頻被評論、挖、評分和被收藏次數(shù)之間的均衡程度的度量,這四個數(shù) 字越均衡,說明越能激發(fā)用戶參與互動的積極性,排序得分越高;反之應該在得分上受到懲 罰。該度量指標的引入能夠避免用戶刻意的在某一項上的作弊行為對節(jié)目公正性的影響。 均衡度得分Zi(7)采用變異系數(shù)法來計算,分成以下幾步進行 [OO62] 步驟(1):預處理(無量綱化處理) 通過統(tǒng)計采樣計算各個指標的權重,然后初始化麗(i) , NC(i) , NF(i) , NP(i)。本 發(fā)明中使用的方法是抽樣1000個視頻,分別計算其挖、評論、收藏、評分的平均數(shù),并以此 作為這四個指標的權重,然后針對每個視頻,用原始的挖數(shù)、評論數(shù)、收藏數(shù)、評分數(shù)分別除 以各指標的權重即得到初始化值麗(i) , NC(i) , NF(i) , NP(i)。
步驟(2):計算平均數(shù)
NW(i) + NC(i) + NF(i) + NP(i)
X(i) = 4
步驟(3):計算均方差
D(i) =(NW(i)-X(i))2+(NC(i)-X(i))2+(NF(i)-X(i))2 + (NP(i)-X(i))2
步驟(4):計算變異系數(shù)V(i)
V(i) = II 步驟(5):相對法規(guī)范化處理,計算均衡度得分
「7、=最大變異系數(shù)-當前變異系數(shù)一 MAX(V(i))-V(i) ZjL J —最大變異系數(shù)-最小變異系數(shù)一 MAX(V(i))-MIN(V(i)) 綜合得分計算步驟,利用所述指標排序得分計算步驟計算的每個視頻對單個排序
指標j的得分值和綜合權重Wj,計算該視頻的加權得分值fi,其公式為fi = S^iWj * Zj(j), i = l、 2、 …、n。 應當說明的是,本發(fā)明中的步驟即可以內置于搜索引擎中,也可以獨立于搜索引 擎外,供搜索引擎調用排序結果,本發(fā)明中所使用的客觀權重計算方法及均衡度算法,并不 局限于所提及的幾種,根據(jù)需要可以另行更換和調整。另外本發(fā)明中使用的綜合權重方法 也不局限于以上提及的情形。以上所述的算法僅為本發(fā)明的較佳實施方法而已,并不用于 限制本發(fā)明,凡在本發(fā)明精神和原則范圍之類所做的任何修改、等同替換和改進等,例如調 整其中的步驟順序,均應包含在本發(fā)明的保護之內。
權利要求
一種多指標綜合權重視頻排序方法,其特征在于包括以下步驟1)視頻分析處理步驟,用于對所述視頻數(shù)據(jù)庫中的視頻原始信息進行分析和處理;2)主觀權重確定步驟,用于設定排序指標j并給出排序指標j的主觀權重;3)客觀權重計算步驟,根據(jù)所述視頻分析處理步驟提供的數(shù)據(jù),計算所述主觀權重確定步驟所確定的排序指標j的客觀權重;4)優(yōu)化決策步驟,用于計算每個排序指標j的綜合權重wj,其中, <mrow><mi>F</mi><mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo></mrow><mo>=</mo><msubsup> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></msubsup><msubsup> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></msubsup><mo>{</mo><mi>μ</mi><mo>[</mo><mrow> <mo>(</mo> <msub><mi>w</mi><mi>j</mi> </msub> <mo>-</mo> <msub><mi>a</mi><mi>j</mi> </msub> <mo>)</mo></mrow><msub> <mi>z</mi> <mi>j</mi></msub><mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo></mrow><msup> <mo>]</mo> <mn>2</mn></msup><mo>+</mo><mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>μ</mi> <mo>)</mo></mrow><mo>[</mo><mrow> <mo>(</mo> <msub><mi>w</mi><mi>j</mi> </msub> <mo>-</mo> <msub><mi>b</mi><mi>j</mi> </msub> <mo>)</mo></mrow><msub> <mi>z</mi> <mi>j</mi></msub><mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo></mrow><msup> <mo>]</mo> <mn>2</mn></msup><mo>}</mo> </mrow>模型F(w)表示各指標排序得分的權重誤差平方和,F(xiàn)(w)越小,反映出權重wj越準確,更能刻畫各指標之間的關系,aj、bj,j=1、2、…、m分別為指標j的主觀和客觀權重;0<μ<1為偏好系數(shù);5)指標排序得分計算步驟,用于計算每個視頻i對于指標j的排序得分zi(j);6)綜合得分計算步驟,用于計算該視頻的加權得分值fi,其公式為 <mrow><msub> <mi>f</mi> <mi>i</mi></msub><mo>=</mo><msubsup> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></msubsup><msub> <mi>w</mi> <mi>j</mi></msub><mo>*</mo><msub> <mi>z</mi> <mi>i</mi></msub><mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo></mrow><mo>,</mo><mi>i</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>…</mo><mo>,</mo><mi>n</mi><mo>.</mo> </mrow>F2008102021990C0000011.tif
2. 根據(jù)權利要求1所述的多指標綜合權重視頻排序方法,其特征在于所述步驟4)優(yōu)化決策步驟中,所述y =0.5,綜合權重<formula>formula see original document page 2</formula>
3. 根據(jù)權利要求1或2所述的多指標綜合權重視頻排序方法,其特征在于 所述步驟3)客觀權重計算步驟中采用熵值法計算,熵值法計算公式如下 設各排序指標j的客觀權重為bj, j = 1、2、…、m,則<formula>formula see original document page 2</formula>其中,<formula>formula see original document page 2</formula>為每個指標j的熵;<formula>formula see original document page 2</formula>用來刻畫所有視頻對于指標j的分布;Zj(i)為每個指標的標準化(規(guī)范化)得分;且當Pj(i)= 0時,規(guī)定Pj(i)l即j(i) = 0, i = 1、2、 ...、n;j = l、2、…、m。
4. 根據(jù)權利要求3所述的多指標綜合權重視頻排序方法,其特征在于 所述步驟5)指標排序得分計算步驟為計算排序指標j :日平均播放次數(shù)、上傳時間、視頻節(jié)目擁有人上傳視頻數(shù)量、被專輯收錄數(shù)、被挖數(shù)、被收藏數(shù)、均衡度中的多個或全部排 序指標。
5. 根據(jù)權利要求4所述的多指標綜合權重視頻排序方法,其特征在于所述日平均播放次數(shù)得分Zi(l)的計算方法為<formula>formula see original document page 2</formula>其中,NP(i)為第i個視頻的日均播放數(shù);MAX((xl)(下同)用來計算集合{x}的最大值;<formula>formula see original document page 2</formula>為數(shù)學變換函數(shù),對數(shù)據(jù)量過大的進行處理;L0G2(x)是以2為底的對數(shù)變換; 所述上傳時間得分Zi(2)的計算方法為<formula>formula see original document page 3</formula>如果0 S days(i) S 3 如果4 ^ days(i) < 31如果31 ^ days(i) < 91如果91 ^ days(i) < 366如果366 S days(i).days(i)-356其中days(i)為該節(jié)目上傳時間離現(xiàn)在的天數(shù)。
6. 根據(jù)權利要求4或5所述的多指標綜合權重視頻排序方法,其特征在于 所述視頻節(jié)目擁有人上傳視頻數(shù)量得分Zi(3)的計算方法為<formula>formula see original document page 3</formula>其中,NU(i)表示第i個視頻的上傳人總的上傳視頻數(shù); 所述被專輯收錄數(shù)得分Zi(4)的計算方法為<formula>formula see original document page 3</formula>其中,NZ(i)表示第i個視頻被專輯收錄的次數(shù);所述被挖數(shù)得分Zi(5)的計算方法為 _ NORM(NW(i)) =MAX(NORM(NW(i)))i=1,2,3"..其中,NW(i)表示第i個視頻被挖次數(shù),其被挖次數(shù)越多; 所述被收藏數(shù)得分Zi(6)的計算方法為<formula>formula see original document page 3</formula>其中,NF(i)表示第i個視頻被收藏次數(shù)。
7. 根據(jù)權利要求6所述的多指標綜合權重視頻排序方法,其特征在于 所述均衡度得分Zi(7)的計算方法為視頻被挖麗(i)、評論NC(i)、收藏次數(shù)NF(i)、評分數(shù)NP (i)之間的均衡程度的度量。
8. 根據(jù)權利要求7所述的多指標綜合權重視頻排序方法,其特征在于 所述均衡度得分Zi(7)的計算包括以下步驟步驟(1):通過統(tǒng)計采樣計算各個指標的權重,然后用原始的挖數(shù)、評論數(shù)、收藏數(shù)、評分數(shù)分別除以各指標的權重即得到初始化值麗(i) , NC(i) , NF(i) , NP(i);步驟(2):計算平均數(shù)<formula>formula see original document page 3</formula>步驟(3):計算均方差<formula>formula see original document page 3</formula>步驟(4):計算變異系數(shù)V(i)<formula>formula see original document page 4</formula>步驟(5):相對法規(guī)范化處理,計算均衡度得分最大變異系數(shù)-當前變異系數(shù)— <formula>formula see original document page 4</formula>最大變異系數(shù)-最小變異系數(shù) MAX(V(i))-MIN(V(i))
全文摘要
一種多指標綜合權重視頻排序方法,包括視頻數(shù)據(jù)庫,視頻分析處理步驟,主觀權重確定步驟,客觀權重計算步驟,根據(jù)所述視頻分析處理步驟提供的數(shù)據(jù),計算所述主觀權重確定步驟所確定的排序指標的客觀權重;優(yōu)化決策步驟,用于計算每個排序指標的綜合權重,指標排序得分計算步驟,用于計算每個視頻對于指標的排序得分;綜合得分計算步驟,用于計算該視頻的加權得分值,本發(fā)明綜合考慮了視頻多項特征以及用戶對視頻的反饋,能夠對視頻進行智能化的靈活排序,以最佳方式將搜索到的視頻結果返回給用戶。
文檔編號G06F17/30GK101739416SQ200810202199
公開日2010年6月16日 申請日期2008年11月4日 優(yōu)先權日2008年11月4日
發(fā)明者楊杰, 譚明 申請人:未序網(wǎng)絡科技(上海)有限公司