本發(fā)明涉及計算機領(lǐng)域,尤其涉及視頻節(jié)目的搜索方法和裝置。
背景技術(shù):
在做綜藝節(jié)目推薦時,ContentBase方法是一種重要的策略,主要是通過綜藝內(nèi)容描述的相似度進(jìn)行聚類推薦,這種方法將內(nèi)容相近的文本進(jìn)行了聚類,現(xiàn)有主要是基于TF-IDF的Rocchio算法,Rocchio算法來源于向量空間模型理論,向量空間模型Vector space model的基本思想為采用向量來表示一個文本,之后的處理過程就可以轉(zhuǎn)化為空間中向量的運算。Rocchio算法訓(xùn)練的過程,其實就是建立類別特征向量的過程,對于給定的一個未知文本,生成該文本的向量,然后計算該向量與各類別特征向量的相似度,最后將該文本分到與其最相似的類別中去。
但是采用上述算法存在以缺點:Rocchio算法無法挖掘文檔的潛在語義。二、它假設(shè)訓(xùn)練數(shù)據(jù)是絕對正確的,因為它沒有任何定量衡量樣本是否含有噪聲的機制,因而也就對錯誤數(shù)據(jù)毫無抵抗力。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提出的一種視頻節(jié)目的搜索方法和裝置,能挖掘出文檔的潛在語義,提高搜索視頻節(jié)目的準(zhǔn)確度和搜索效率。
本發(fā)明實施例提供的一種視頻節(jié)目的搜索方法,包括:
接收用戶輸入的描述視頻節(jié)目的描述詞條和所述視頻節(jié)目所屬的視頻類別;
選取與所述視頻類別相對應(yīng)的潛在語義索引模型,并根據(jù)所述語義索引模型的索引矩陣的構(gòu)建方式,構(gòu)建所述描述詞條的查詢向量;其中,所述潛在語義索引模型是對由描述同一視頻類別的視頻節(jié)目的描述文檔所構(gòu)建成的索引矩陣進(jìn)行奇異值分解而獲得的;
根據(jù)所述潛在語義索引模型,計算所述索引矩陣的每一列向量與所述查詢向量的余弦相似度;
對計算獲得的余弦相似度進(jìn)行從大到小的排序,并選取排序號屬于排序區(qū)間的余弦相似度的列向量對應(yīng)的視頻節(jié)目提供給所述用戶。
進(jìn)一步地,由描述視頻節(jié)目的描述文檔構(gòu)建成索引矩陣的過程包括:將第i個關(guān)鍵詞在第j個視頻節(jié)目的描述文檔中出現(xiàn)的詞頻作為索引矩陣的第j列的第i個元素的數(shù)值;
構(gòu)建所述描述詞條的查詢向量的過程包括:設(shè)置所述查詢向量的第i個元素代表的關(guān)鍵詞與所述索引矩陣的第i行元素代表的關(guān)鍵詞相同,并將第i個元素對應(yīng)的關(guān)鍵詞在所述描述詞條中出現(xiàn)的詞頻作為所述查詢向量的第i個元素的數(shù)值;其中,所述查詢向量為列向量。
進(jìn)一步地,由描述同一視頻類別的視頻節(jié)目的描述文檔構(gòu)建成索引矩陣的過程,具體為:
對于數(shù)據(jù)庫存儲的描述同一視頻類別的視頻節(jié)目的所有描述文檔,根據(jù)標(biāo)準(zhǔn)詞條格式,對所述所有描述文檔包含的詞條進(jìn)行格式調(diào)整;其中,所述數(shù)據(jù)庫存儲有多種視頻類別的描述文檔,一個描述文檔描述一個視頻節(jié)目,不同的描述文檔描述的視頻節(jié)目互不相同;
調(diào)用分詞工具;
利用所述分詞工具對格式調(diào)整后的所述所有描述文檔的詞條進(jìn)行分詞,獲得第一詞語集;
根據(jù)TF-IDF算法從所述第一詞語集中提取關(guān)鍵詞;
根據(jù)所提取的每一個關(guān)鍵詞在每一個描述文檔中出現(xiàn)的詞頻,構(gòu)建索引矩陣;其中,所述索引矩陣的行順序是根據(jù)關(guān)鍵詞在所述所有描述文檔出現(xiàn)的總詞頻進(jìn)行由高到低的排列,所述索引矩陣的列順序根據(jù)關(guān)鍵詞在每一個描述文檔中出現(xiàn)的詞頻進(jìn)行由高到低的排列。
進(jìn)一步地,所述構(gòu)建所述描述詞條的查詢向量,具體為:
根據(jù)標(biāo)準(zhǔn)詞條格式,對所述描述詞條進(jìn)行格式調(diào)整;
調(diào)用分詞工具;
利用所述分詞工具對格式調(diào)整后的所述描述詞條進(jìn)行分詞,獲得第二詞語集;
根據(jù)TF-IDF算法從所述第二詞語集中提取關(guān)鍵詞;
根據(jù)所提取的每一個關(guān)鍵詞在所述描述詞條中出現(xiàn)的詞頻,構(gòu)建所述描述詞條的查詢向量。
進(jìn)一步地,所述索引矩陣為H,則對所述索引矩陣進(jìn)行奇異值分解所獲得的所述潛在語義索引模型為:H=T*S*DT;其中,T為正交矩陣,矩陣T的每一列是所述索引矩陣H的左奇異向量;S為對角矩陣,矩陣S的對角線元素是所述索引矩陣H的奇異值;D為正交矩陣,矩陣D的每一列為所述索引矩陣H的右奇異向量;所述查詢向量為Q;
所述根據(jù)所述潛在語義索引模型,計算所述索引矩陣的每一列向量與所述查詢向量的余弦相似度,具體為:
選取TK、SK和DK矩陣,修訂所述潛在語義索引模型為HK=TK*SK*DKT;其中,TK為由矩陣T的前K列形成的矩陣,SK為由矩陣S的前K個對角線元素形成的對角矩陣,DK為由矩陣D的前K列形成的矩陣;K的數(shù)值大于所述排序區(qū)間包含的最大排序號;
對于修訂后的所述潛在語義索引模型的索引矩陣HK,計算所述查詢向量的轉(zhuǎn)置矩陣QT與所述矩陣TK相乘所得的行向量和所述矩陣DK與所述矩陣SK相乘所得矩陣的第j行向量的兩行向量之間的余弦相似度,作為所述索引矩陣HK的第j列向量與所述查詢向量Q的余弦相似度。
進(jìn)一步地,所述搜索方法還包括:
當(dāng)數(shù)據(jù)庫增加描述新的視頻節(jié)目的描述文檔時,對與所述新的視頻節(jié)目所屬的視頻類別相對應(yīng)的潛在語義索引模型進(jìn)行更新。
相應(yīng)地,本發(fā)明實施例提供一種視頻節(jié)目的搜索裝置,包括:
用戶信息接收模塊,用于接收用戶輸入的描述視頻節(jié)目的描述詞條和所述視頻節(jié)目所屬的視頻類別;
查詢向量構(gòu)建模塊,用于選取與所述視頻類別相對應(yīng)的潛在語義索引模型,并根據(jù)所述語義索引模型的索引矩陣的構(gòu)建方式,構(gòu)建所述描述詞條的查詢向量;其中,所述潛在語義索引模型是對由描述同一視頻類別的視頻節(jié)目的描述文檔所構(gòu)建成的索引矩陣進(jìn)行奇異值分解而獲得的;
相似度計算模塊,用于根據(jù)所述潛在語義索引模型,計算所述索引矩陣的每一列向量與所述查詢向量的余弦相似度;
視頻節(jié)目選取模塊,用于對計算獲得的余弦相似度進(jìn)行從大到小的排序,并選取排序號屬于排序區(qū)間的余弦相似度的列向量對應(yīng)的視頻節(jié)目提供給所述用戶。
進(jìn)一步地,所述查詢向量構(gòu)建模塊包括的用于根據(jù)描述視頻節(jié)目的描述文檔構(gòu)建成索引矩陣的單元,具體用于:將第i個關(guān)鍵詞在第j個視頻節(jié)目的描述文檔中出現(xiàn)的詞頻作為索引矩陣的第j列的第i個元素的數(shù)值;
所述查詢向量構(gòu)建模塊包括的用于構(gòu)建描述詞條的查詢向量的單元,具體用于:設(shè)置所述查詢向量的第i個元素代表的關(guān)鍵詞與所述索引矩陣的第i行元素代表的關(guān)鍵詞相同,并將第i個元素對應(yīng)的關(guān)鍵詞在所述描述詞條中出現(xiàn)的詞頻作為所述查詢向量的第i個元素的數(shù)值;其中,所述查詢向量為列向量。
進(jìn)一步地,所述查詢向量構(gòu)建模塊包括用于根據(jù)描述同一視頻類別的視頻節(jié)目的描述文檔構(gòu)建成索引矩陣的單元,具體為:
第一格式調(diào)整單元,用于對于數(shù)據(jù)庫存儲的描述同一視頻類別的視頻節(jié)目的所有描述文檔,根據(jù)標(biāo)準(zhǔn)詞條格式,對所述所有描述文檔包含的詞條進(jìn)行格式調(diào)整;其中,所述數(shù)據(jù)庫存儲有多種視頻類別的描述文檔,一個描述文檔描述一個視頻節(jié)目,不同的描述文檔描述的視頻節(jié)目互不相同;
第一工具調(diào)用單元,用于調(diào)用分詞工具;
第一分詞單元,用于利用所述分詞工具對格式調(diào)整后的所述所有描述文檔的詞條進(jìn)行分詞,獲得第一詞語集;
第一關(guān)鍵詞提取單元,用于根據(jù)TF-IDF算法從所述第一詞語集中提取關(guān)鍵詞;
索引矩陣構(gòu)建單元,用于根據(jù)所提取的每一個關(guān)鍵詞在每一個描述文檔中出現(xiàn)的詞頻,構(gòu)建索引矩陣;其中,所述索引矩陣的行順序是根據(jù)關(guān)鍵詞在所述所有描述文檔出現(xiàn)的總詞頻進(jìn)行由高到低的排列,所述索引矩陣的列順序根據(jù)關(guān)鍵詞在每一個描述文檔中出現(xiàn)的詞頻進(jìn)行由高到低的排列。
進(jìn)一步地,所述查詢向量構(gòu)建模塊還包括用于構(gòu)建所述描述詞條的查詢向量的單元,具體為:
第二格式調(diào)整單元,用于根據(jù)標(biāo)準(zhǔn)詞條格式,對所述描述詞條進(jìn)行格式調(diào)整;
第二工具調(diào)用單元,用于調(diào)用分詞工具;
第二分詞單元,用于利用所述分詞工具對格式調(diào)整后的所述描述詞條進(jìn)行分詞,獲得第二詞語集;
第二關(guān)鍵詞提取單元,用于根據(jù)TF-IDF算法從所述第二詞語集中提取關(guān)鍵詞;
查詢向量構(gòu)建單元,用于根據(jù)所提取的每一個關(guān)鍵詞在所述描述詞條中出現(xiàn)的詞頻,構(gòu)建所述描述詞條的查詢向量。
進(jìn)一步地,所述索引矩陣為H,則對所述索引矩陣進(jìn)行奇異值分解所獲得的所述潛在語義索引模型為:H=T*S*DT;其中,T為正交矩陣,矩陣T的每一列是所述索引矩陣H的左奇異向量;S為對角矩陣,矩陣S的對角線元素是所述索引矩陣H的奇異值;D為正交矩陣,矩陣D的每一列為所述索引矩陣H的右奇異向量;所述查詢向量為Q;
所述相似度計算模塊具體包括:
模型修訂單元,用于選取TK、SK和DK矩陣,修訂所述潛在語義索引模型為HK=TK*SK*DKT;其中,TK為由矩陣T的前K列形成的矩陣,SK為由矩陣S的前K個對角線元素形成的對角矩陣,DK為由矩陣D的前K列形成的矩陣;K的數(shù)值大于所述排序區(qū)間包含的最大排序號;
計算單元,用于對于修訂后的所述潛在語義索引模型的索引矩陣HK,計算所述查詢向量的轉(zhuǎn)置矩陣QT與所述矩陣TK相乘所得的行向量和所述矩陣DK與所述矩陣SK相乘所得矩陣的第j行向量的兩行向量之間的余弦相似度,作為所述索引矩陣HK的第j列向量與所述查詢向量Q的余弦相似度。
進(jìn)一步地,所述搜索裝置還包括:
模型更新模塊,用于當(dāng)數(shù)據(jù)庫增加描述新的視頻節(jié)目的描述文檔時,對與所述新的視頻節(jié)目所屬的視頻類別相對應(yīng)的潛在語義索引模型進(jìn)行更新。
實施本發(fā)明實施例,具有如下有益效果:
本發(fā)明實施例提供的視頻節(jié)目的搜索方法和裝置,通過計算要搜索視頻的查詢向量與潛在語義索引模型的索引矩陣的每一列向量的余弦相似度,可獲得要搜索視頻的描述詞條與索引矩陣的每一列向量代表的描述文檔之間的相關(guān)程度,數(shù)值越高,則相關(guān)程度越高,進(jìn)而將與該描述詞條相關(guān)程度高的描述文檔所對應(yīng)的視頻節(jié)目推薦給用戶,并由于潛在語義索引模型是根據(jù)描述視頻節(jié)目的描述文檔構(gòu)建(訓(xùn)練)成的,能挖掘出文檔的潛在語義,提高搜索視頻節(jié)目的準(zhǔn)確度。另外,通過用戶輸入的所述視頻節(jié)目所屬的視頻類別,選擇與該視頻類別對應(yīng)的潛在語義索引模型來進(jìn)行計算,能進(jìn)一步提高搜索視頻節(jié)目的效率。
附圖說明
圖1是本發(fā)明提供的視頻節(jié)目的搜索方法的一個實施例的流程示意圖;
圖2是本發(fā)明提供的視頻節(jié)目的搜索裝置的一個實施例的結(jié)構(gòu)示意圖;
圖3是本發(fā)明提供的視頻節(jié)目的搜索裝置的查詢向量構(gòu)建模塊的一個實施例的結(jié)構(gòu)示意圖;
圖4是本發(fā)明提供的視頻節(jié)目的搜索裝置的相似度計算模塊的一個實施例的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
參見圖1,是本發(fā)明提供的視頻節(jié)目的搜索方法的一個實施例的流程示意圖;該搜索方法,包括步驟S1至S4,具體為:
S1,接收用戶輸入的描述視頻節(jié)目的描述詞條和所述視頻節(jié)目所屬的視頻類別;
S2,選取與所述視頻類別相對應(yīng)的潛在語義索引模型,并根據(jù)所述語義索引模型的索引矩陣的構(gòu)建方式,構(gòu)建所述描述詞條的查詢向量;其中,所述潛在語義索引模型是對由描述同一視頻類別的視頻節(jié)目的描述文檔所構(gòu)建成的索引矩陣進(jìn)行奇異值分解而獲得的;所述索引矩陣的第j列的第i個元素的數(shù)值代表第i個關(guān)鍵詞在第j個視頻節(jié)目的描述文檔中出現(xiàn)的詞頻;所述查詢向量為列向量,所述查詢向量的第i個元素代表的關(guān)鍵詞與所述索引矩陣的第i行元素代表的關(guān)鍵詞相同,且所述查詢向量的第i個元素的數(shù)值代表所述第i個元素對應(yīng)的關(guān)鍵詞在所述描述詞條中出現(xiàn)的詞頻;
S3,根據(jù)所述潛在語義索引模型,計算所述索引矩陣的每一列向量與所述查詢向量的余弦相似度;
S4,對計算獲得的余弦相似度進(jìn)行從大到小的排序,并選取排序號屬于排序區(qū)間的余弦相似度的列向量對應(yīng)的視頻節(jié)目提供給所述用戶。
需要說明的是,通過計算要搜索視頻的查詢向量與潛在語義索引模型的索引矩陣的每一列向量的余弦相似度,可獲得要搜索視頻的描述詞條與索引矩陣的每一列向量代表的描述文檔之間的相關(guān)程度,數(shù)值越高,則相關(guān)程度越高,進(jìn)而將與該描述詞條相關(guān)程度高的描述文檔所對應(yīng)的視頻節(jié)目推薦給用戶,并由于潛在語義索引模型是根據(jù)描述視頻節(jié)目的描述文檔構(gòu)建(訓(xùn)練)成的,能挖掘出文檔的潛在語義,提高搜索視頻節(jié)目的準(zhǔn)確度。另外,通過用戶輸入的所述視頻節(jié)目所屬的視頻類別,選擇與該視頻類別對應(yīng)的潛在語義索引模型來進(jìn)行計算,能進(jìn)一步提高搜索視頻節(jié)目的效率。其中,上述的排序區(qū)間一般優(yōu)選為排列在前的10個排序號。
進(jìn)一步地,上述步驟S2中的根據(jù)描述同一視頻類別的視頻節(jié)目的描述文檔構(gòu)建成索引矩陣的過程,具體為:
對于數(shù)據(jù)庫存儲的描述同一視頻類別的視頻節(jié)目的所有描述文檔,根據(jù)標(biāo)準(zhǔn)詞條格式,對所述所有描述文檔包含的詞條進(jìn)行格式調(diào)整;其中,所述數(shù)據(jù)庫存儲有多種視頻類別的描述文檔,一個描述文檔描述一個視頻節(jié)目,不同的描述文檔描述的視頻節(jié)目互不相同;對于對詞條的格式調(diào)整,可以但不限于,將詞條中的小寫統(tǒng)一成大寫、對詞條中多余的空格刪除、統(tǒng)一詞條中的標(biāo)點符號、將詞條的全角格式或半角格式統(tǒng)一為一種等。
調(diào)用分詞工具;優(yōu)選地,所述分詞工具為jieba分詞工具,但不限于為此分詞工具。
利用所述分詞工具對格式調(diào)整后的所述所有描述文檔的詞條進(jìn)行分詞,獲得第一詞語集;分詞工具對描述詞條進(jìn)行分詞的模式有多種,除了按正常分詞模式切分外,還可以繼續(xù)長詞進(jìn)行切分,提高召回率,尤其對短文本,可以切出比正常切分出更多的詞,對后續(xù)的輸出視頻節(jié)目的準(zhǔn)確度有提升效果。
根據(jù)TF-IDF算法從所述第一詞語集中提取關(guān)鍵詞;
根據(jù)所提取的每一個關(guān)鍵詞在每一個描述文檔中出現(xiàn)的詞頻,構(gòu)建索引矩陣;其中,所述索引矩陣的行順序是根據(jù)關(guān)鍵詞在所述所有描述文檔出現(xiàn)的總詞頻進(jìn)行由高到低的排列,所述索引矩陣的列順序根據(jù)關(guān)鍵詞在每一個描述文檔中出現(xiàn)的詞頻進(jìn)行由高到低的排列。
需要說明的是,構(gòu)建上述索引矩陣是預(yù)先根據(jù)數(shù)據(jù)庫存儲的描述文檔構(gòu)建而成的,構(gòu)建過程需遵循:索引矩陣的第j列的第i個元素的數(shù)值代表第i個關(guān)鍵詞在第j個視頻節(jié)目的描述文檔中出現(xiàn)的詞頻。其中,索引矩陣的第i行的所有元素所代表的同一個關(guān)鍵詞,且不同行的元素所代表的關(guān)鍵詞不相同。例如,假設(shè)索引矩陣的第1行的所有元素代表關(guān)鍵詞A,索引矩陣的第1列的元素代表描述文檔B,則該索引矩陣的第1行第1列的元素的數(shù)值代表關(guān)鍵詞A在描述文檔B出現(xiàn)的概率。
進(jìn)一步地,上述步驟S2中的構(gòu)建所述描述詞條的查詢向量,具體為:
根據(jù)標(biāo)準(zhǔn)詞條格式,對所述描述詞條進(jìn)行格式調(diào)整;例如,將詞條中的小寫統(tǒng)一成大寫、對詞條中多余的空格刪除、統(tǒng)一詞條中的標(biāo)點符號、將詞條的全角格式或半角格式統(tǒng)一為一種等。
調(diào)用分詞工具;優(yōu)選地,所述分詞工具為jieba分詞工具,但不限于為此分詞工具。
利用所述分詞工具對格式調(diào)整后的所述描述詞條進(jìn)行分詞,獲得第二詞語集;分詞工具對描述詞條進(jìn)行分詞的模式有多種,除了按正常分詞模式切分外,還可以繼續(xù)長詞進(jìn)行切分,提高召回率,尤其對短文本,可以切出比正常切分出更多的詞,對后續(xù)的輸出視頻節(jié)目的準(zhǔn)確度有提升效果。
根據(jù)TF-IDF算法從所述第二詞語集中提取關(guān)鍵詞;
根據(jù)所提取的每一個關(guān)鍵詞在所述描述詞條中出現(xiàn)的詞頻,構(gòu)建所述描述詞條的查詢向量。
需要說明的是,構(gòu)建所述描述詞條的查詢向量時,要確保所述查詢向量的第i個元素代表的關(guān)鍵詞與上述潛在語義索引模型的索引矩陣的第i行元素代表的關(guān)鍵詞相同,使得比較查詢向量與索引矩陣的每一列向量的余弦相似度具有意義。
另外,構(gòu)建向量的過程還需遵循以下原則:所述查詢向量的第i個元素代表的關(guān)鍵詞與所述索引矩陣的第i行元素代表的關(guān)鍵詞相同,且所述查詢向量的第i個元素的數(shù)值代表所述第i個元素對應(yīng)的關(guān)鍵詞在所述描述詞條中出現(xiàn)的詞頻;例如,在假設(shè)索引矩陣的第1行的所有元素代表關(guān)鍵詞A,則查詢向量的第1行的元素代表的關(guān)鍵詞為關(guān)鍵詞A,則查詢向量的第1行的元素的數(shù)值代表關(guān)鍵詞A在描述詞條中出現(xiàn)的詞頻。
進(jìn)一步地,所述索引矩陣為H,則對所述索引矩陣進(jìn)行奇異值分解所獲得的所述潛在語義索引模型為:H=T*S*DT;其中,T為正交矩陣,矩陣T的每一列是所述索引矩陣H的左奇異向量;S為對角矩陣,矩陣S的對角線元素是所述索引矩陣H的奇異值;D為正交矩陣,矩陣D的每一列為所述索引矩陣H的右奇異向量;所述查詢向量為Q;
上述步驟S3的具體實施過程具體為:
選取TK、SK和DK矩陣,修訂所述潛在語義索引模型為HK=TK*SK*DKT;其中,TK為由矩陣T的前K列形成的矩陣,SK為由矩陣S的前K個對角線元素形成的對角矩陣,DK為由矩陣D的前K列形成的矩陣;K的數(shù)值大于所述排序區(qū)間包含的最大排序號;
對于修訂后的所述潛在語義索引模型的索引矩陣HK,計算所述查詢向量的轉(zhuǎn)置矩陣QT與所述矩陣TK相乘所得的行向量和所述矩陣DK與所述矩陣SK相乘所得矩陣的第j行向量的兩行向量之間的余弦相似度,作為所述索引矩陣HK的第j列向量與所述查詢向量Q的余弦相似度。
需要說明的是,此處的K值是個閾值選擇,可以根據(jù)實際情況選擇,分解過程采用H的K秩,是讓索引矩陣H的前K個最大奇異值以后的奇異值都為零。上述對潛在語義索引模型的修訂,能夠提高檢索效率。
進(jìn)一步地,所述搜索方法還包括:
當(dāng)數(shù)據(jù)庫增加描述新的視頻節(jié)目的描述文檔時,對與所述新的視頻節(jié)目所屬的視頻類別相對應(yīng)的潛在語義索引模型進(jìn)行更新。
需要說明的是,由于視頻節(jié)目會不斷增加的,而對于描述新增加的視頻節(jié)目的描述文檔也會不斷添加到數(shù)據(jù)庫當(dāng)中,因此需要對舉在語義索引模型進(jìn)行更新。
本發(fā)明實施例提供的視頻節(jié)目的搜索方法,通過計算要搜索視頻的查詢向量與潛在語義索引模型的索引矩陣的每一列向量的余弦相似度,可獲得要搜索視頻的描述詞條與索引矩陣的每一列向量代表的描述文檔之間的相關(guān)程度,數(shù)值越高,則相關(guān)程度越高,進(jìn)而將與該描述詞條相關(guān)程度高的描述文檔所對應(yīng)的視頻節(jié)目推薦給用戶,并由于潛在語義索引模型是根據(jù)描述視頻節(jié)目的描述文檔構(gòu)建(訓(xùn)練)成的,能挖掘出文檔的潛在語義,提高搜索視頻節(jié)目的準(zhǔn)確度。另外,通過用戶輸入的所述視頻節(jié)目所屬的視頻類別,選擇與該視頻類別對應(yīng)的潛在語義索引模型來進(jìn)行計算,能進(jìn)一步提高搜索視頻節(jié)目的效率。
參閱圖2,是本發(fā)明提供的視頻節(jié)目的搜索裝置的一個實施例的結(jié)構(gòu)示意圖。該搜索裝置能夠執(zhí)行上述實施例提供的視頻節(jié)目的搜索方法的全部流程,該搜索裝置,包括:
用戶信息接收模塊10,用于接收用戶輸入的描述視頻節(jié)目的描述詞條和所述視頻節(jié)目所屬的視頻類別;
查詢向量構(gòu)建模塊20,用于選取與所述視頻類別相對應(yīng)的潛在語義索引模型,并根據(jù)所述語義索引模型的索引矩陣的構(gòu)建方式,構(gòu)建所述描述詞條的查詢向量;其中,所述潛在語義索引模型是對由描述同一視頻類別的視頻節(jié)目的描述文檔所構(gòu)建成的索引矩陣進(jìn)行奇異值分解而獲得的;
相似度計算模塊30,用于根據(jù)所述潛在語義索引模型,計算所述索引矩陣的每一列向量與所述查詢向量的余弦相似度;
視頻節(jié)目選取模塊40,用于對計算獲得的余弦相似度進(jìn)行從大到小的排序,并選取排序號屬于排序區(qū)間的余弦相似度的列向量對應(yīng)的視頻節(jié)目提供給所述用戶。
進(jìn)一步地,所述查詢向量構(gòu)建模塊包括的用于根據(jù)描述視頻節(jié)目的描述文檔構(gòu)建成索引矩陣的單元,具體用于:將第i個關(guān)鍵詞在第j個視頻節(jié)目的描述文檔中出現(xiàn)的詞頻作為索引矩陣的第j列的第i個元素的數(shù)值;
所述查詢向量構(gòu)建模塊包括的用于構(gòu)建描述詞條的查詢向量的單元,具體用于:設(shè)置所述查詢向量的第i個元素代表的關(guān)鍵詞與所述索引矩陣的第i行元素代表的關(guān)鍵詞相同,并將第i個元素對應(yīng)的關(guān)鍵詞在所述描述詞條中出現(xiàn)的詞頻作為所述查詢向量的第i個元素的數(shù)值;其中,所述查詢向量為列向量。
進(jìn)一步地,參見圖3,是本發(fā)明提供的視頻節(jié)目的搜索裝置的查詢向量構(gòu)建模塊的一個實施例的結(jié)構(gòu)示意圖,所述查詢向量構(gòu)建模塊20包括用于根據(jù)描述同一視頻類別的視頻節(jié)目的描述文檔構(gòu)建成索引矩陣的單元,具體為:
第一格式調(diào)整單元21,用于對于數(shù)據(jù)庫存儲的描述同一視頻類別的視頻節(jié)目的所有描述文檔,根據(jù)標(biāo)準(zhǔn)詞條格式,對所述所有描述文檔包含的詞條進(jìn)行格式調(diào)整;其中,所述數(shù)據(jù)庫存儲有多種視頻類別的描述文檔,一個描述文檔描述一個視頻節(jié)目,不同的描述文檔描述的視頻節(jié)目互不相同;
第一工具調(diào)用單元22,用于調(diào)用分詞工具;
第一分詞單元23,用于利用所述分詞工具對格式調(diào)整后的所述所有描述文檔的詞條進(jìn)行分詞,獲得第一詞語集;
第一關(guān)鍵詞提取單元34,用于根據(jù)TF-IDF算法從所述第一詞語集中提取關(guān)鍵詞;
索引矩陣構(gòu)建單元25,用于根據(jù)所提取的每一個關(guān)鍵詞在每一個描述文檔中出現(xiàn)的詞頻,構(gòu)建索引矩陣;其中,所述索引矩陣的行順序是根據(jù)關(guān)鍵詞在所述所有描述文檔出現(xiàn)的總詞頻進(jìn)行由高到低的排列,所述索引矩陣的列順序根據(jù)關(guān)鍵詞在每一個描述文檔中出現(xiàn)的詞頻進(jìn)行由高到低的排列。
進(jìn)一步地,所述查詢向量構(gòu)建模塊20還包括用于構(gòu)建所述描述詞條的查詢向量的單元,具體為:
第二格式調(diào)整單元26,用于根據(jù)標(biāo)準(zhǔn)詞條格式,對所述描述詞條進(jìn)行格式調(diào)整;
第二工具調(diào)用單元27,用于調(diào)用分詞工具;
第二分詞單元28,用于利用所述分詞工具對格式調(diào)整后的所述描述詞條進(jìn)行分詞,獲得第二詞語集;
第二關(guān)鍵詞提取單元29,用于根據(jù)TF-IDF算法從所述第二詞語集中提取關(guān)鍵詞;
查詢向量構(gòu)建單元31,用于根據(jù)所提取的每一個關(guān)鍵詞在所述描述詞條中出現(xiàn)的詞頻,構(gòu)建所述描述詞條的查詢向量。
進(jìn)一步地,參見圖4,是本發(fā)明提供的視頻節(jié)目的搜索裝置的相似度計算模塊的一個實施例的結(jié)構(gòu)示意圖,所述索引矩陣為H,則對所述索引矩陣進(jìn)行奇異值分解所獲得的所述潛在語義索引模型為:H=T*S*DT;其中,T為正交矩陣,矩陣T的每一列是所述索引矩陣H的左奇異向量;S為對角矩陣,矩陣S的對角線元素是所述索引矩陣H的奇異值;D為正交矩陣,矩陣D的每一列為所述索引矩陣H的右奇異向量;所述查詢向量為Q;
所述相似度計算模塊30具體包括:
模型修訂單元32,用于選取TK、SK和DK矩陣,修訂所述潛在語義索引模型為HK=TK*SK*DKT;其中,TK為由矩陣T的前K列形成的矩陣,SK為由矩陣S的前K個對角線元素形成的對角矩陣,DK為由矩陣D的前K列形成的矩陣;K的數(shù)值大于所述排序區(qū)間包含的最大排序號;
計算單元33,用于對于修訂后的所述潛在語義索引模型的索引矩陣HK,計算所述查詢向量的轉(zhuǎn)置矩陣QT與所述矩陣TK相乘所得的行向量和所述矩陣DK與所述矩陣SK相乘所得矩陣的第j行向量的兩行向量之間的余弦相似度,作為所述索引矩陣HK的第j列向量與所述查詢向量Q的余弦相似度。
進(jìn)一步地,所述搜索裝置還包括:
模型更新模塊50,用于當(dāng)數(shù)據(jù)庫增加描述新的視頻節(jié)目的描述文檔時,對與所述新的視頻節(jié)目所屬的視頻類別相對應(yīng)的潛在語義索引模型進(jìn)行更新。
本發(fā)明實施例提供的視頻節(jié)目的搜索裝置,通過計算要搜索視頻的查詢向量與潛在語義索引模型的索引矩陣的每一列向量的余弦相似度,可獲得要搜索視頻的描述詞條與索引矩陣的每一列向量代表的描述文檔之間的相關(guān)程度,數(shù)值越高,則相關(guān)程度越高,進(jìn)而將與該描述詞條相關(guān)程度高的描述文檔所對應(yīng)的視頻節(jié)目推薦給用戶,并由于潛在語義索引模型是根據(jù)描述視頻節(jié)目的描述文檔構(gòu)建(訓(xùn)練)成的,能挖掘出文檔的潛在語義,提高搜索視頻節(jié)目的準(zhǔn)確度。另外,通過用戶輸入的所述視頻節(jié)目所屬的視頻類別,選擇與該視頻類別對應(yīng)的潛在語義索引模型來進(jìn)行計算,能進(jìn)一步提高搜索視頻節(jié)目的效率。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)或隨機存儲記憶體(Random Access Memory,RAM)等。
以上所述是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也視為本發(fā)明的保護(hù)范圍。