確定搜索詞權(quán)重的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種確定搜索詞權(quán)重的方法和裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息非常巨大。用戶(hù)需要在海量信息里查找大自己 所需的信息是非常困難的,需要采用搜索引擎等技術(shù)對(duì)用戶(hù)輸入的搜索請(qǐng)求進(jìn)行匹配。
[0003] 在采用搜索詞進(jìn)行搜索的技術(shù)中,通常采用TF/IDF(Term Frequency/Inverse Document Frequency,詞頻/反轉(zhuǎn)文件頻率)技術(shù)來(lái)確定文本詞權(quán)重,采用TF/IDF技術(shù)在長(zhǎng) 文本搜索中能夠較好地辨識(shí)某一搜索詞在整個(gè)搜索文本中的重要性。
[0004] 但是,對(duì)于例如視頻標(biāo)題、商品名等這樣的短文本,由于信息量很少,采用TF/IDF 技術(shù)通常不能很好的辨識(shí)搜索詞的權(quán)重,從而影響搜索的效果。
【發(fā)明內(nèi)容】
[0005] 技術(shù)問(wèn)題
[0006] 有鑒于此,本發(fā)明要解決的技術(shù)問(wèn)題是,如何準(zhǔn)確地確定搜索詞在內(nèi)容資源的文 本信息中所占的權(quán)重,從而有利于得到準(zhǔn)確地搜索結(jié)果。
[0007] 解決方案
[0008] 為了解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明的一實(shí)施例,提供了一種確定搜索詞權(quán)重的 方法,包括:
[0009] 根據(jù)內(nèi)容資源對(duì)應(yīng)的用戶(hù)行為數(shù)據(jù),獲取為所述內(nèi)容資源帶來(lái)點(diǎn)擊的各搜索詞及 其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù);
[0010]根據(jù)各所述搜索詞及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù),確定各所述搜索詞在所述內(nèi)容資源的文 本信息中所占的重要因子;
[0011] 根據(jù)各所述搜索詞在所述內(nèi)容資源的文本信息中所占的重要因子和各所述搜索 詞的全局初始權(quán)重,確定各所述搜索詞在所述內(nèi)容資源的文本信息中所占的權(quán)重。
[0012] 對(duì)于上述方法,在一種可能的實(shí)現(xiàn)方式中,根據(jù)內(nèi)容資源對(duì)應(yīng)的用戶(hù)行為數(shù)據(jù),獲 取為所述內(nèi)容資源帶來(lái)點(diǎn)擊的各搜索詞及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù),包括:
[0013] 統(tǒng)計(jì)所述內(nèi)容資源對(duì)應(yīng)的用戶(hù)輸入的各關(guān)鍵詞及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù);
[0014] 根據(jù)各所述關(guān)鍵詞及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù),對(duì)所述文本信息進(jìn)行分詞處理,得到各 所述搜索詞及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)。
[0015] 對(duì)于上述方法,在一種可能的實(shí)現(xiàn)方式中,根據(jù)各所述搜索詞及其對(duì)應(yīng)的點(diǎn)擊數(shù) 據(jù),確定各所述搜索詞在所述內(nèi)容資源的文本信息中所占的重要因子,包括:
[0016] 采用下式1計(jì)算各所述搜索詞在所述內(nèi)容資源的文本信息中所占的重要因子,
[0017]
式1,
[0018]其中,Pl(Vl,Wj)表示所述搜索詞巧在所述內(nèi)容資源Vl的文本信息中所占的重要因 子;
[0019] count (d( Vi, Wj))表示所述搜索詞Wj為所述內(nèi)容資源Vi帶來(lái)的點(diǎn)擊量。
[0020] 對(duì)于上述方法,在一種可能的實(shí)現(xiàn)方式中,根據(jù)各所述搜索詞在所述內(nèi)容資源的 文本信息中所占的重要因子和全局初始權(quán)重,確定各所述搜索詞在所述內(nèi)容資源中所占的 權(quán)重,包括:
[0021] 采用下式2計(jì)算各所述搜索詞在所述內(nèi)容資源的文本信息中所占的權(quán)重,
[0022] p(vi,Wj)=ai[p0(wj)+Ppi(vi,Wj)]式2,
[0023] 其中,p(Vl,Wj)表示所述搜索詞巧在所述內(nèi)容資源Vl的文本信息中所占的權(quán)重的 值;
[0024] ai表不歸一化因子;
[0025] pQ(Wj)表示所述搜索詞%的全局初始權(quán)重的值;
[0026] β表示?1(^,%)的重要性系數(shù)。
[0027] 對(duì)于上述方法,在一種可能的實(shí)現(xiàn)方式中,所述歸一化因弓
所述 全局初始權(quán)重的
所述重要性系數(shù)
其中,count(d(Vi))表示各所述搜索詞為所述內(nèi)容資源Vi帶來(lái)的總點(diǎn)擊量。
[0028] 為了解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明的另一實(shí)施例,提供了一種確定搜索詞權(quán)重 的裝置,包括:
[0029]點(diǎn)擊數(shù)據(jù)獲取模塊,用于根據(jù)內(nèi)容資源對(duì)應(yīng)的用戶(hù)行為數(shù)據(jù),獲取為所述內(nèi)容資 源帶來(lái)點(diǎn)擊的各搜索詞及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù);
[0030] 重要因子確定模塊,與所述點(diǎn)擊數(shù)據(jù)獲取模塊連接,用于根據(jù)各所述搜索詞及其 對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù),確定各所述搜索詞在所述內(nèi)容資源的文本信息中所占的重要因子;
[0031] 權(quán)重確定模塊,與所述重要因子確定模塊連接,用于根據(jù)各所述搜索詞在所述內(nèi) 容資源的文本信息中所占的重要因子和全局初始權(quán)重,確定各所述搜索詞在所述內(nèi)容資源 的文本信息中所占的權(quán)重。
[0032] 對(duì)于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述點(diǎn)擊數(shù)據(jù)獲取模塊包括:
[0033]統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述內(nèi)容資源對(duì)應(yīng)的用戶(hù)輸入的各關(guān)鍵詞及其對(duì)應(yīng)的點(diǎn)擊數(shù) 據(jù);
[0034] 分詞單元,與所述統(tǒng)計(jì)單元連接,用于根據(jù)各所述關(guān)鍵詞及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù),對(duì) 所述文本信息進(jìn)行分詞處理,得到各所述搜索詞及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)。
[0035] 對(duì)于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述重要因子確定模塊具體用于:
[0036] 采用下式1計(jì)算各所述搜索詞在所述內(nèi)容資源的文本信息中所占的重要因子,
[0037]
[0038] 其中,Pl(Vl,Wj)表示所述搜索詞%在所述內(nèi)容資源^的文本信息中所占的重要因 子;
[0039] count (d( Vi, Wj))表示所述搜索詞Wj為所述內(nèi)容資源Vi帶來(lái)的點(diǎn)擊量。
[0040] 對(duì)于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述權(quán)重確定模塊具體用于:
[0041] 采用下式2計(jì)算各所述搜索詞在所述內(nèi)容資源的文本信息中所占的權(quán)重,
[0042] p(vi,Wj)=ai[p0(wj)+Ppi(vi,Wj)]式2,
[0043] 其中,p(Vl,Wj)表示所述搜索詞巧在所述內(nèi)容資源Vl的文本信息中所占的權(quán)重的 值;
[0044] ai表不歸一化因子;
[0045] pMwJ表示所述搜索詞^的全局初始權(quán)重的值;
[0046] β表示?1(^,%)的重要性系數(shù)。
[0047] 對(duì)于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述歸一化因 ?
所述 全局初始權(quán)重的信
所述重要性系數(shù)
其中,count(d(Vi))表示各所述搜索詞為所述內(nèi)容資源Vi帶來(lái)的總點(diǎn)擊量。
[0048] 有益效果
[0049]本發(fā)明實(shí)施例的確定搜索詞權(quán)重的裝置由于采用各搜索詞在內(nèi)容資源的文本信 息中所占的重要因子和各搜索詞的全局初始權(quán)重,綜合確定各搜索詞在內(nèi)容資源的文本信 息中所占的權(quán)重,在用戶(hù)輸入搜索詞時(shí),有利于獲得更準(zhǔn)確地搜索結(jié)果。
[0050] 根據(jù)下面參考附圖對(duì)示例性實(shí)施例的詳細(xì)說(shuō)明,本發(fā)明的其它特征及方面將變得 清楚。
【附圖說(shuō)明】
[0051] 包含在說(shuō)明書(shū)中并且構(gòu)成說(shuō)明書(shū)的一部分的附圖與說(shuō)明書(shū)一起示出了本發(fā)明的 示例性實(shí)施例、特征和方面,并且用于解釋本發(fā)明的原理。
[0052] 圖1示出根據(jù)本發(fā)明一實(shí)施例的確定搜索詞權(quán)重的方法的流程圖;
[0053] 圖2示出根據(jù)本發(fā)明另一實(shí)施例的確定搜索詞權(quán)重的方法的流程圖;
[0054] 圖3示出根據(jù)本發(fā)明另一實(shí)施例的確定搜索詞權(quán)重的方法中關(guān)鍵詞與點(diǎn)擊量的示 意圖;
[0055] 圖4示出根據(jù)本發(fā)明另一實(shí)施例的確定搜索詞權(quán)重的方法中搜索詞與點(diǎn)擊量的示 意圖;
[0056] 圖5示出根據(jù)本發(fā)明一實(shí)施例的確定搜索詞權(quán)重的裝置的結(jié)構(gòu)框圖;
[0057] 圖6示出根據(jù)本發(fā)明另一實(shí)施例的確定搜索詞權(quán)重的裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0058] 以下將參考附圖詳細(xì)說(shuō)明本發(fā)明的各種示例性實(shí)施例、特征和方面。附圖中相同 的附圖標(biāo)記表示功能相同或相似的元件。盡管在附圖中示出了實(shí)施例的各種方面,但是除 非特別指出,不必按比例繪制附圖。
[0059] 在這里專(zhuān)用的詞"示例性"意為"用作例子、實(shí)施例或說(shuō)明性"。這里作為"示例性" 所說(shuō)明的任何實(shí)施例不必解釋為優(yōu)于或好于其它實(shí)施例。
[0060] 另外,為了更好的說(shuō)明本發(fā)明,在下文的【具體實(shí)施方式】中給出了眾多的具體細(xì)節(jié)。 本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,沒(méi)有某些具體細(xì)節(jié),本發(fā)明同樣可以實(shí)施。在一些實(shí)例中,對(duì)于 本領(lǐng)域技術(shù)人員熟知的方法、手段、元件和電路未作詳細(xì)描述,以便于凸顯本發(fā)明的主旨。
[0061] 實(shí)施例1
[0062] 圖1示出根據(jù)本發(fā)明一實(shí)施例的確定搜索詞權(quán)重的方法的流程圖。如圖1所示,該 確定搜索詞權(quán)重的方法主要可以包括:
[0063] 步驟101、根據(jù)內(nèi)容資源對(duì)應(yīng)的用戶(hù)行為數(shù)據(jù),獲取為所述內(nèi)容資源帶來(lái)點(diǎn)擊的各 搜索詞及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)。
[0064] 步驟102、根據(jù)各所述搜索詞及其對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù),確定各所述搜索詞在所述內(nèi)容 資源的文本信息中所占的重要因子。
[0065] 步驟103、根據(jù)各所述搜索詞在所述內(nèi)容資源的文本信息中所占的重要因子和全 局初始權(quán)重,確定各所述搜索詞在所述內(nèi)容資源的文本信息中所占的權(quán)重。
[0066] 具體而言,服務(wù)器中可以保存很多內(nèi)容資源,例如:視頻、