一種詞權(quán)重的分析方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種詞權(quán)重的分析方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)中總的存儲(chǔ)數(shù)據(jù)量非常巨大,因此為了使用戶(hù)能夠快速準(zhǔn)確的查找到所需要的數(shù)據(jù)內(nèi)容,提供互聯(lián)網(wǎng)搜索服務(wù)的廠(chǎng)商就需要對(duì)搜索引擎的搜索質(zhì)量進(jìn)行優(yōu)化。其中,權(quán)重是搜索引擎給予一個(gè)網(wǎng)頁(yè)的評(píng)估值,這個(gè)權(quán)重可以反映出網(wǎng)頁(yè)的重要程度,權(quán)重越高,說(shuō)明網(wǎng)頁(yè)獲得更多搜索引擎的信任和認(rèn)可。而在用戶(hù)使用搜索引擎的過(guò)程中,會(huì)在搜索框中提交查詢(xún)內(nèi)容,這些查詢(xún)內(nèi)容通常稱(chēng)之為query,搜索引擎需要根據(jù)query在海量數(shù)據(jù)中獲取有用信息。由于query中具有不同的詞語(yǔ)term,其中每個(gè)term對(duì)于獲取有用查詢(xún)結(jié)果而言其重要程度各不相同,因此若要根據(jù)query準(zhǔn)確獲取到目標(biāo)查詢(xún)結(jié)果就需要參考query中各個(gè)term的重要性,也就是需要利用query中term的權(quán)重進(jìn)行目標(biāo)結(jié)果的查詢(xún)。
[0003]在現(xiàn)有確定term權(quán)重的方法中,通常會(huì)利用共同點(diǎn)擊、詞性以及命名實(shí)體來(lái)確定term權(quán)重,但是這些方法并不是以用戶(hù)在互聯(lián)網(wǎng)環(huán)境中使用搜索引擎獲取內(nèi)容為基礎(chǔ),從而導(dǎo)致通過(guò)上述方法確定的term權(quán)重在互聯(lián)網(wǎng)搜索領(lǐng)域中的參考價(jià)值并不高。因此如何在互聯(lián)網(wǎng)搜索引擎環(huán)境下確定term權(quán)重成為使用互聯(lián)網(wǎng)搜索引擎時(shí)亟待解決的問(wèn)題。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明提出了一種詞權(quán)重的分析方法及裝置,主要目的在于解決現(xiàn)有確定term權(quán)重的方法無(wú)法在互聯(lián)網(wǎng)搜索引擎環(huán)境下準(zhǔn)確確定query中term權(quán)重的問(wèn)題。
[0005]依據(jù)本發(fā)明的第一個(gè)方面,本發(fā)明提供一種詞權(quán)重的分析方法,包括:
[0006]獲取〈查詢(xún),標(biāo)題〉對(duì);
[0007]統(tǒng)計(jì)〈查詢(xún),標(biāo)題〉對(duì)中所述查詢(xún)的詞片段中每個(gè)詞的出現(xiàn)情況信息;
[0008]根據(jù)所述出現(xiàn)情況信息計(jì)算相同詞片段中每個(gè)詞的出現(xiàn)概率;
[0009]根據(jù)所述相同詞片段中每個(gè)詞的出現(xiàn)概率確定所述相同詞片段中每個(gè)詞的權(quán)重。
[0010]進(jìn)一步的,所述獲取〈查詢(xún),標(biāo)題〉對(duì)包括:
[0011]獲取用戶(hù)點(diǎn)擊日志,所述點(diǎn)擊日志中包括用戶(hù)提交的所有查詢(xún)以及得到的所有標(biāo)題;
[0012]整理所述點(diǎn)擊日志,將用戶(hù)提交的查詢(xún)與點(diǎn)擊所述查詢(xún)的url得到的標(biāo)題一一對(duì)應(yīng),形成〈查詢(xún),標(biāo)題〉對(duì)。
[0013]進(jìn)一步的,所述統(tǒng)計(jì)〈查詢(xún),標(biāo)題〉對(duì)中所述查詢(xún)的詞片段中每個(gè)詞的出現(xiàn)情況信息包括:
[0014]獲取〈查詢(xún),標(biāo)題〉對(duì)中所述查詢(xún)的所有詞片段,所述詞片段包括所述查詢(xún)中的每一個(gè)詞和相鄰兩個(gè)及以上的詞組成的詞組;
[0015]統(tǒng)計(jì)所述查詢(xún)的所有詞片段中每個(gè)詞的出現(xiàn)情況信息。
[0016]進(jìn)一步的,統(tǒng)計(jì)所述查詢(xún)的所有詞片段中每個(gè)詞的出現(xiàn)情況信息包括:
[0017]判斷所述查詢(xún)的詞片段中每個(gè)詞是否在所述查詢(xún)的〈查詢(xún),標(biāo)題〉對(duì)中對(duì)應(yīng)的標(biāo)題中出現(xiàn);
[0018]根據(jù)判斷結(jié)果統(tǒng)計(jì)所述查詢(xún)的詞片段中每個(gè)詞的出現(xiàn)情況信息,所述出現(xiàn)情況信息用預(yù)設(shè)的出現(xiàn)符號(hào)以及未出現(xiàn)符號(hào)表示。
[0019]進(jìn)一步的,根據(jù)所述出現(xiàn)情況信息計(jì)算相同詞片段中每個(gè)詞的出現(xiàn)概率包括:
[0020]獲取相同詞片段所對(duì)應(yīng)的所有標(biāo)題的總個(gè)數(shù);
[0021]獲取所述相同詞片段中每個(gè)詞在所述對(duì)應(yīng)的所有標(biāo)題中出現(xiàn)的次數(shù);
[0022]用所述次數(shù)除以所述對(duì)應(yīng)的所有標(biāo)題的總個(gè)數(shù)得到相同詞片段中每個(gè)詞在所述對(duì)應(yīng)的所有標(biāo)題中的出現(xiàn)概率。
[0023]進(jìn)一步的,根據(jù)所述相同詞片段中每個(gè)詞的出現(xiàn)概率確定所述相同詞片段中每個(gè)詞的權(quán)重包括:
[0024]將相同詞片段中每個(gè)詞在所述對(duì)應(yīng)的所有標(biāo)題中的出現(xiàn)概率作為所述相同詞片段中每個(gè)詞的權(quán)重。
[0025]依據(jù)本發(fā)明的第二個(gè)方面,本發(fā)明提供一種詞權(quán)重的分析裝置,包括:
[0026]獲取單元,用于獲取〈查詢(xún),標(biāo)題〉對(duì);
[0027]統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述獲取單元獲取的〈查詢(xún),標(biāo)題〉對(duì)中所述查詢(xún)的詞片段中每個(gè)詞的出現(xiàn)情況信息;
[0028]計(jì)算單元,用于根據(jù)所述出現(xiàn)情況信息計(jì)算相同詞片段中每個(gè)詞的出現(xiàn)概率;
[0029]確定單元,用于根據(jù)所述計(jì)算單元計(jì)算的所述相同詞片段中每個(gè)詞的出現(xiàn)概率確定所述相同詞片段中每個(gè)詞的權(quán)重。
[0030]進(jìn)一步的,所述獲取單元包括:
[0031]獲取模塊,用于獲取用戶(hù)點(diǎn)擊日志,所述點(diǎn)擊日志中包括用戶(hù)提交的所有查詢(xún)以及得到的所有標(biāo)題;
[0032]整理模塊,用于整理所述獲取模塊獲取的所述點(diǎn)擊日志,將用戶(hù)提交的查詢(xún)與點(diǎn)擊所述查詢(xún)的url得到的標(biāo)題--對(duì)應(yīng),形成〈查詢(xún),標(biāo)題〉對(duì)。
[0033]進(jìn)一步的,所述統(tǒng)計(jì)單元包括:
[0034]切分模塊,用于獲取〈查詢(xún),標(biāo)題〉對(duì)中所述查詢(xún)的所有詞片段,所述詞片段包括所述查詢(xún)中的每一個(gè)詞和相鄰兩個(gè)及以上的詞組成的詞組;
[0035]統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)所述切分模塊獲取的所述查詢(xún)的所有詞片段中每個(gè)詞的出現(xiàn)情況信息。
[0036]進(jìn)一步的,所述統(tǒng)計(jì)單元還用于判斷所述查詢(xún)的詞片段中每個(gè)詞是否在所述查詢(xún)的〈查詢(xún),標(biāo)題〉對(duì)中對(duì)應(yīng)的標(biāo)題中出現(xiàn),以及根據(jù)判斷結(jié)果統(tǒng)計(jì)所述查詢(xún)的詞片段中每個(gè)詞的出現(xiàn)情況信息,所述出現(xiàn)情況信息用預(yù)設(shè)的出現(xiàn)符號(hào)以及未出現(xiàn)符號(hào)表示。
[0037]進(jìn)一步的,所述計(jì)算單元包括:
[0038]計(jì)數(shù)模塊,用于獲取相同詞片段所對(duì)應(yīng)的所有標(biāo)題的總個(gè)數(shù);
[0039]所述計(jì)數(shù)模塊還用于獲取所述相同詞片段中每個(gè)詞在所述對(duì)應(yīng)的所有標(biāo)題中出現(xiàn)的次數(shù);
[0040]計(jì)算模塊,用于用所述次數(shù)除以所述對(duì)應(yīng)的所有標(biāo)題的總個(gè)數(shù)得到相同詞片段中每個(gè)詞在所述對(duì)應(yīng)的所有標(biāo)題中的出現(xiàn)概率。
[0041]進(jìn)一步的,所述確定單元用于將相同詞片段中每個(gè)詞在所述對(duì)應(yīng)的所有標(biāo)題中的出現(xiàn)概率作為所述相同詞片段中每個(gè)詞的權(quán)重。
[0042]借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的一種詞權(quán)重的分析方法及裝置,能夠在用戶(hù)大規(guī)模使用互聯(lián)網(wǎng)搜索引擎的過(guò)程中獲取到〈查詢(xún),標(biāo)題〉對(duì),并統(tǒng)計(jì)查詢(xún)中的詞片段中每個(gè)詞的出現(xiàn)情況信息,根據(jù)每個(gè)詞的出現(xiàn)情況信息計(jì)算相同詞片段中每個(gè)詞的出現(xiàn)概率,根據(jù)所述相同詞片段中每個(gè)詞的出現(xiàn)概率確定所述相同詞片段中每個(gè)詞的權(quán)重。而在現(xiàn)有技術(shù)中,當(dāng)確定搜索查詢(xún)中詞的權(quán)重時(shí)無(wú)法基于互聯(lián)網(wǎng)環(huán)境中使用搜索引擎獲取內(nèi)容為基礎(chǔ),從而造成搜索詞的詞權(quán)重確定不準(zhǔn)確,進(jìn)而影響搜索結(jié)果的準(zhǔn)確性。與現(xiàn)有技術(shù)中的這一缺陷相比,本發(fā)明能夠以用戶(hù)大規(guī)模使用搜索引擎點(diǎn)擊形成的日志為基礎(chǔ),在互聯(lián)網(wǎng)搜索引擎環(huán)境下準(zhǔn)確確定搜索查詢(xún)中詞的權(quán)重,從而有效提高搜索結(jié)果的準(zhǔn)確性。
[0043]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說(shuō)明】
[0044]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0045]圖1示出了本發(fā)明實(shí)施例提供的一種詞權(quán)重的分析方法的流程圖;
[0046]圖2示出了本發(fā)明實(shí)施例提供的一種詞權(quán)重的分析裝置的組成框圖;
[0047]圖3示出了本發(fā)明實(shí)施例提供的另一種詞權(quán)重的分析裝置的組成框圖;
[0048]圖4示出了本發(fā)明實(shí)施例提供的另一種詞權(quán)重的分析裝置的組成框圖;
[0049]圖5示出了本發(fā)明實(shí)施例提供的另一種詞權(quán)重的分析裝置的組成框圖。
【具體實(shí)施方式】
[0050]下面將參照附圖更加詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0051 ] 在用戶(hù)使用搜索引擎時(shí)需要提交查詢(xún)query,查詢(xún)query中具有不同的詞語(yǔ)term,其中每個(gè)term對(duì)于獲取有用查詢(xún)結(jié)果而言其重要程度各不相同,因此若要根據(jù)query準(zhǔn)確獲取到目標(biāo)查詢(xún)結(jié)果就需要參考query中各個(gè)term的重要性,也就是需要利用query中term的權(quán)重進(jìn)行目標(biāo)結(jié)果的查詢(xún)。在現(xiàn)有確定term權(quán)重的方法中,通常會(huì)利用共同點(diǎn)擊、詞性以及命名實(shí)體來(lái)確定term權(quán)重,但是這些方法并不是以用戶(hù)在互聯(lián)網(wǎng)環(huán)境中使用搜索引擎獲取內(nèi)容為基礎(chǔ),