音頻、圖片、文本等多媒 體資源,或者,商品等購物信息。這些內(nèi)容資源通常采用標(biāo)題、商品名稱等文本信息進(jìn)行標(biāo) 識。這些文本信息的特點(diǎn)是內(nèi)容短,可供搜索的文本信息較少,在這些文本信息中采用用戶 輸入的關(guān)鍵詞進(jìn)行搜索的情況下,僅采用傳統(tǒng)的TF/IDF技術(shù),搜索結(jié)果可能不準(zhǔn)確。
[0067] 本發(fā)明實(shí)施例,可以根據(jù)內(nèi)容資源的文本信息確定各搜索詞,該搜索詞可以與用 戶輸入的關(guān)鍵詞相同,也可以比用戶輸入的關(guān)鍵詞更短。對于每個搜索詞,均可以根據(jù)之前 統(tǒng)計(jì)的用戶行為數(shù)據(jù),計(jì)算出對應(yīng)的點(diǎn)擊量。其中,用戶行為數(shù)據(jù)可以包括,在一段時(shí)間內(nèi), 各個用戶輸入多種關(guān)鍵詞訪問某一內(nèi)容資源的數(shù)據(jù),例如:訪問某一視頻的關(guān)鍵詞及其對 應(yīng)的點(diǎn)擊量等。
[0068] 然后,確定出每個搜索詞在該文本信息中所占的重要因子,并將該重要因子與該 搜索詞的全局初始權(quán)重結(jié)合,從而確定出該搜索詞在該文本信息中所占的權(quán)重。其中,每個 搜索詞的全局初始權(quán)重可以采用傳統(tǒng)的TF/ IDF等權(quán)重確定方法來獲得。在計(jì)算各搜索詞的 權(quán)重之后,如果有用戶在搜索引擎中輸入該搜索詞,則可以根據(jù)該搜索詞的權(quán)重對搜索結(jié) 果進(jìn)行排序。舉例而言,如果采用搜索詞Wj能得到i個視頻[VI,V2…Vi],Wj在各視頻中的權(quán)重 分別為[ρ( ν?^),ρ(ν2,^)···ρ(νι,^)],那么在不考慮其他因素對結(jié)果排序影響的前提下, 結(jié)果的排序優(yōu)選為按照P ( VI,wj ),p ( V2,Wj )…p ( Vi,Wj )]降序排列。
[0069] 本發(fā)明實(shí)施例由于采用各搜索詞在內(nèi)容資源的文本信息中所占的重要因子和各 搜索詞的全局初始權(quán)重,綜合確定各搜索詞在內(nèi)容資源的文本信息中所占的權(quán)重,在用戶 輸入搜索詞時(shí),有利于獲得更準(zhǔn)確地搜索結(jié)果。
[0070] 進(jìn)一步地,本發(fā)明實(shí)施例更適用于短文本的詞權(quán)重計(jì)算,可以在服務(wù)器端定期更 新用戶行為數(shù)據(jù),并定期計(jì)算各內(nèi)容資源的詞權(quán)重。為了減少對網(wǎng)絡(luò)資源的占用,還可以采 用離線計(jì)算的方式,定期將計(jì)算結(jié)果更新到服務(wù)器端,即可實(shí)現(xiàn)準(zhǔn)確的獲得搜索結(jié)果。
[0071] 實(shí)施例2
[0072] 圖2示出根據(jù)本發(fā)明另一實(shí)施例的確定搜索詞權(quán)重的方法的流程圖。圖2中標(biāo)號與 圖1相同的步驟具有相同的功能,為簡明起見,省略對這些步驟的詳細(xì)說明。
[0073] 如圖2所示,與圖1所示確定搜索詞權(quán)重的方法的主要區(qū)別在于,步驟101具體可以 包括:
[0074] 步驟201、統(tǒng)計(jì)內(nèi)容資源對應(yīng)的用戶輸入的各關(guān)鍵詞及其對應(yīng)的點(diǎn)擊數(shù)據(jù);
[0075] 步驟202、根據(jù)各所述關(guān)鍵詞及其對應(yīng)的點(diǎn)擊數(shù)據(jù),對所述文本信息進(jìn)行分詞處 理,得到各所述搜索詞及其對應(yīng)的點(diǎn)擊數(shù)據(jù)。
[0076] 具體而言,本發(fā)明實(shí)施例中,預(yù)先收集每個內(nèi)容資源對應(yīng)的用戶行為數(shù)據(jù)。例如, 統(tǒng)計(jì)一段時(shí)間內(nèi)為某一視頻帶來點(diǎn)擊的各個關(guān)鍵詞以及每個關(guān)鍵詞對應(yīng)的點(diǎn)擊量。
[0077]如圖3所示,為視頻(vid: 343828256)的用戶輸入的各關(guān)鍵詞對應(yīng)的點(diǎn)擊量。具體 而言,視頻(vid: 343828256)的文本信息包括"【09D0TA高分局】來自劣勢路的輸出"以及"用 戶:伍聲2009"。其中,關(guān)鍵詞"2009"對應(yīng)的點(diǎn)擊量為400, "09"對應(yīng)的點(diǎn)擊量為600, "09dota"對應(yīng)的點(diǎn)擊量為300, "dota高分局"對應(yīng)的點(diǎn)擊量為100, "劣勢路"對應(yīng)的點(diǎn)擊量 為50, "伍聲2009"對應(yīng)的點(diǎn)擊量為100, "雙^^一"對應(yīng)點(diǎn)擊量為10。
[0078] 如圖4所示,為根據(jù)用戶輸入的關(guān)鍵詞及其對應(yīng)的點(diǎn)擊數(shù)據(jù),對上述視頻的文本信 息進(jìn)行分詞處理后,計(jì)算得到的每個搜索詞對應(yīng)的點(diǎn)擊數(shù)據(jù)。具體而言,搜索詞"09"對應(yīng)的 點(diǎn)擊量為900,這是根據(jù)圖3中關(guān)鍵詞"09"對應(yīng)的點(diǎn)擊量600以及關(guān)鍵詞"09dota"對應(yīng)的點(diǎn) 擊量300相加得到。同理,可以計(jì)算得到搜索詞"2009"對應(yīng)的點(diǎn)擊量為500,"dota"對應(yīng)的點(diǎn) 擊量為400, "高分局"對應(yīng)的點(diǎn)擊量為100, "伍聲"對應(yīng)的點(diǎn)擊量為100, "劣勢路"對應(yīng)的點(diǎn) 擊量為50, "雙"對應(yīng)的點(diǎn)擊量為10, "十一"對應(yīng)點(diǎn)擊量為10。
[0079] 上述示例中,用戶輸入的關(guān)鍵詞,與根據(jù)視頻的文本信息所劃分的搜索詞不是一 一對應(yīng)的,因此,根據(jù)用戶輸入的關(guān)鍵詞及其點(diǎn)擊數(shù)據(jù),然后計(jì)算文本信息中的搜索詞及其 點(diǎn)擊數(shù)據(jù)。例如:關(guān)鍵詞"〇9dota"被劃分為搜索詞"09"和搜索詞"dota",并將關(guān)鍵詞 "09dota"的點(diǎn)擊量300分別與搜索詞"09"和搜索詞"dota"的其他點(diǎn)擊量進(jìn)行疊加,得到最 終的點(diǎn)擊量。如果用戶輸入的關(guān)鍵詞與文本信息中所劃分的搜索詞一一對應(yīng),也可以不進(jìn) 行這一步的計(jì)算。
[0080] 在一種可能的實(shí)現(xiàn)方式中,步驟102具體可以包括:
[0081] 采用下式1計(jì)算各所述搜索詞在所述內(nèi)容資源的文本信息中所占的重要因子,
[0082]
[0083] 其中,Pl(Vl,Wj)表示所述搜索詞巧在所述內(nèi)容資源Vl的文本信息中所占的重要因 子;count (d( Vi, Wj))表示所述搜索詞Wj為所述內(nèi)容資源Vi帶來的點(diǎn)擊量。
[0084] 具體而言,將圖3和圖4中的統(tǒng)計(jì)計(jì)數(shù),按照上面的式1計(jì)算可以求得各詞^在該視 頻vi中的重要因子pi,如下表1所示。
[0085] 表 1 Γηηοβ?
Luut5/」 衣做駝賧巷I衣現(xiàn)忮系例仕該恍頻懷題Ttf」里安?王。
[0088] 在一種可能的實(shí)現(xiàn)方式中,步驟103具體可以包括:
[0089] 采用下式2計(jì)算各所述搜索詞在所述內(nèi)容資源的文本信息中所占的權(quán)重,
[0090] p(vi,Wj)=ai[p0(wj)+Ppi(vi,Wj)]式2,
[0091] 其中,p(Vl,w〇表示所述搜索詞巧在所述內(nèi)容資源Vl的文本信息中所占的權(quán)重的 值;<^表示歸一化因子,優(yōu)選ii
表示所述搜索詞^的全局初始權(quán)重的 值,優(yōu)選地
3表示pl(Vl, Wj)的重要性系數(shù),優(yōu)選地可以選取經(jīng) 驗(yàn)值,例如
,其中,4 Y))表示各所述搜索詞為所述內(nèi)容資源 Vl帶來的總點(diǎn)擊量。
[0092]沿用上例,采用
玎以計(jì)算搜索詞W在整個視頻庫中 IDF的換算值pQ(Wj)如下表2所示。
[0093]表 2 ΓηηΡ4?
[0095] 此外,參見表1和表2,代入上述式2,可以計(jì)算得到p (Vi,Wj)的值,如下表3所示。
[0096] 表 3 「00971
[0098]表3中的p的數(shù)值即為搜索詞%在視頻Vl的標(biāo)題中所占的權(quán)重的值。
[0099]例如,用戶輸入搜索詞"dota",其中的2個搜索結(jié)果,一個為上例所列視頻VI,一個 為Ti 11 e為"dota、dota、dota"的劣質(zhì)視頻V2 (用戶搜"dota"時(shí)的有效點(diǎn)擊數(shù)很低)。如果單 純從TF/IDF來排序的話,則視頻V2得分將是視頻VI的3倍(因?yàn)?dota"在視頻V2的TF值是視 頻VI的3倍,二者的IDF相同);但是如果采用本發(fā)明實(shí)施例的確定搜索詞權(quán)重的方法,由于 在詞權(quán)重中考慮了用戶行為數(shù)據(jù)中的點(diǎn)擊數(shù)據(jù),則能很好的避免此種情況的發(fā)生。
[0100] 本發(fā)明實(shí)施例由于采用各搜索詞在內(nèi)容資源的文本信息中所占的重要因子和各 搜索詞的全局初始權(quán)重,綜合確定各搜索詞在內(nèi)容資源的文本信息中所占的權(quán)重,在用戶 輸入搜索詞時(shí),有利于獲得更準(zhǔn)確地搜索結(jié)果。
[0101] 進(jìn)一步地,本發(fā)明實(shí)施例更適用于短文本的詞權(quán)重計(jì)算,可以在服務(wù)器端定期更 新用戶行為數(shù)據(jù),并定期計(jì)算各內(nèi)容資源的詞權(quán)重。為了減少對網(wǎng)絡(luò)資源的占用,還可以采 用離線計(jì)算的方式,定期將計(jì)算結(jié)果更新到服務(wù)器端,即可實(shí)現(xiàn)準(zhǔn)確的獲得搜索結(jié)果。
[0102] 具體而言,在視頻(商品等)短文本搜索中,由于文本長度過短而使TF/IDF技術(shù)體 系下的詞權(quán)重描述無法很好地工作,而通過本發(fā)明實(shí)施例采集用戶的查詢點(diǎn)擊數(shù)據(jù),能反 過來很好的標(biāo)注各個詞的權(quán)重。承上述示例,對于視頻標(biāo)題中的所有詞按TF/IDF來來標(biāo)注 詞權(quán)重,則除了"伍聲"其他都非常低,但是我們通過用戶的搜索點(diǎn)擊數(shù)據(jù)進(jìn)一步發(fā)現(xiàn)搜索 "09"、"2009"、"dota"等詞其實(shí)也為該視頻很多的點(diǎn)擊(有效查詢),所以我們根據(jù)這些數(shù)據(jù) 調(diào)整詞在視頻中的詞權(quán)重,這樣我們在搜索"09"、"2009"、"dota"時(shí),該視頻也能在較為靠 前的位置展示在搜索用戶面前。
[0103] 實(shí)施例3
[0104] 圖5示出根據(jù)本發(fā)明一實(shí)施例的確定搜索詞權(quán)重的裝置的結(jié)構(gòu)框圖。如圖5所示, 該確定搜索詞權(quán)重的裝置主要可以包括:
[0105] 點(diǎn)擊數(shù)據(jù)獲取模塊51,用于根據(jù)內(nèi)容資源對應(yīng)的用戶行為數(shù)據(jù),獲取為所述內(nèi)容 資源帶來點(diǎn)擊的各搜索詞及其對應(yīng)的點(diǎn)擊數(shù)據(jù);
[0106] 重要因子確定模塊53,與所述點(diǎn)擊數(shù)據(jù)獲取模塊51連接,用于根據(jù)各所述搜索詞 及其對應(yīng)的點(diǎn)擊數(shù)據(jù),確定各所述搜索詞在所述內(nèi)容資源的文本信息中所占的重要因子;
[0107] 權(quán)重確定模塊55,與所述重要因子確定模塊53連接,用于根據(jù)各所述搜索詞在所 述內(nèi)容資源的文本信息中所占的重要因子和全局初始權(quán)重,確定各所述搜索詞在所述內(nèi)容 資源的文本信息中所占的權(quán)重。
[0108] 本實(shí)施例的確定搜索