從而導(dǎo)致通過上述方法確定的term權(quán)重在互聯(lián)網(wǎng)搜索領(lǐng)域中的參考價值并不尚。
[0052]為了解決上述問題,本發(fā)明實施例提供了一種詞權(quán)重的分析方法,能夠基于互聯(lián)網(wǎng)搜索引擎環(huán)境準確確定用戶提交的查詢query中各個關(guān)鍵詞term的權(quán)重,如圖1所示,該方法包括:
[0053]101、獲取〈查詢,標題〉對。
[0054]在用戶使用搜索引擎查詢所需要的內(nèi)容時需要提交包含有關(guān)鍵詞term的查詢query,搜索引擎根據(jù)用戶提交的query匹配到一些相關(guān)的標題title供用戶點擊觀看,當用戶點擊相關(guān)的t i 11 e后,本發(fā)明實施例就可以將用戶提交的query和點擊的t i 11 e進行組合形成〈查詢,標題〉對,也可以記作〈query,title〉對。
[0055]102、統(tǒng)計〈查詢,標題〉對中查詢的詞片段中每個詞的出現(xiàn)情況信息。
[0056]由于搜索引擎在根據(jù)用戶提交的query在互聯(lián)網(wǎng)上搜索相應(yīng)的內(nèi)容時,需要根據(jù)query中每個詞term的重要性調(diào)整搜索策略,而query中的term出現(xiàn)在query對應(yīng)的title中的次數(shù)越多說明query中該term越重要,因此本發(fā)明實施例需要執(zhí)行步驟102統(tǒng)計大規(guī)模的〈qUery,title>對中查詢的詞片段中每個詞的出現(xiàn)情況信息,根據(jù)出現(xiàn)情況信息確定詞片段中每個詞的重要性。
[0057]103、根據(jù)所述出現(xiàn)情況信息計算相同詞片段中每個詞的出現(xiàn)概率。
[0058]由于本發(fā)明實施例需要統(tǒng)計大規(guī)模的〈query,title>對,因此所有統(tǒng)計的query中包含有大量的相同詞片段,對相同詞片段ABC而言,所有包含詞片段ABC的query中,各個query對應(yīng)的title里有部分title包含term-A,部分title里不包含term-A;部分title包含就是說相同詞片段中每個詞在所有包含所述相同詞片段的query所對應(yīng)的title中的出現(xiàn)概率不相同,因此相同詞片段中每個詞的重要性也就不一樣。由此本發(fā)明實施例需要執(zhí)行步驟103根據(jù)相同詞片段中每個詞在所有包含所述相同詞片段的query所對應(yīng)的title中的出現(xiàn)情況信息計算相同詞片段中每個詞的出現(xiàn)概率。
[0059]104、根據(jù)相同詞片段中每個詞的出現(xiàn)概率確定相同詞片段中每個詞的權(quán)重。
[0060]由于權(quán)重是一個相對的概念,針對某個指標而言,該指標的權(quán)重是指該指標在整體評價中的相對重要程度。而對本發(fā)明實施例而言,某個term的權(quán)重就是指該term在其所在的query的詞片段中的相對重要程度,同時重要程度越高的term在其詞片段所在的query對應(yīng)的title中出現(xiàn)的概率越高,因此當在步驟103中計算出相同詞片段中每個詞在所有包含所述相同詞片段的query所對應(yīng)的title中的出現(xiàn)概率之后,就可以根據(jù)相同詞片段中每個詞的出現(xiàn)概率確定相同詞片段中每個詞的權(quán)重,以便搜索引擎根據(jù)由大規(guī)模統(tǒng)計〈查詢,標題〉對所確定的term權(quán)重調(diào)整搜索策略,提高搜索結(jié)果的準確性。
[0061]本發(fā)明實施例提供的一種詞權(quán)重的分析方法,能夠在用戶大規(guī)模使用互聯(lián)網(wǎng)搜索引擎的過程中獲取到〈查詢,標題〉對,并統(tǒng)計查詢中的詞片段中每個詞的出現(xiàn)情況信息,根據(jù)每個詞的出現(xiàn)情況信息計算相同詞片段中每個詞的出現(xiàn)概率,根據(jù)所述相同詞片段中每個詞的出現(xiàn)概率確定所述相同詞片段中每個詞的權(quán)重。而在現(xiàn)有技術(shù)中,當確定搜索查詢中詞的權(quán)重時無法基于互聯(lián)網(wǎng)環(huán)境中使用搜索引擎獲取內(nèi)容為基礎(chǔ),從而造成搜索詞的詞權(quán)重確定不準確,進而影響搜索結(jié)果的準確性。與現(xiàn)有技術(shù)中的這一缺陷相比,本發(fā)明能夠以用戶大規(guī)模使用搜索引擎點擊形成的日志為基礎(chǔ),在互聯(lián)網(wǎng)搜索引擎環(huán)境下準確確定搜索查詢中詞的權(quán)重,從而有效提高搜索結(jié)果的準確性。
[0062]為了更好的對上述圖1所示的方法進行理解,作為對上述實施方式的細化和擴展,本發(fā)明實施例將針對圖1中的步驟進行詳細說明。
[0063]通常用戶在使用互聯(lián)網(wǎng)的過程中會產(chǎn)生大量的點擊日志,這些點擊日志信息中包括用戶在搜索引擎里提交的查詢query,所述query點擊的統(tǒng)一資源定位符ur 1以及ur 1對應(yīng)的標題t i 11 e等數(shù)據(jù)。由于用戶提交的query以及點擊所述query的ur 1得到的t i 11 e通常都具有相互對應(yīng)的關(guān)系,因此通過大規(guī)模的統(tǒng)計點擊日志信息就可以得到互聯(lián)網(wǎng)搜索引擎環(huán)境下確定搜索關(guān)鍵詞term權(quán)重的數(shù)據(jù)基礎(chǔ)。由于用戶在提交一個query時,有時會點擊多個url得到多個相關(guān)title,這些title的質(zhì)量也就是與query的匹配度也會存在高低差異,因此本發(fā)明實施例需要對獲取的點擊日志進行整理,將點擊日志中的query與title--對應(yīng),得到<query,title>對。其中,由于用戶在提交一個query時,可能點擊多個url得到多個對應(yīng)的title,因此在獲得的大規(guī)模的〈query,title〉對中,同一個query也會具有多個〈query,title>)^0
[0064]由于用戶在搜索引擎里提交query后,搜索引擎需要根據(jù)query中每個term(關(guān)鍵詞)的相對重要程度也就是權(quán)重調(diào)整搜索策略,以便獲取到準確的搜索結(jié)果。而query中每個term的重要程度可以用term在query對應(yīng)的title中的出現(xiàn)情況來表示,如果在大量query中的某個term在對應(yīng)的title中出現(xiàn)的次數(shù)越多,說明該term越重要。由于各個query中會包含有多種多樣的詞片段,詞片段包括query中的每一個term和相鄰兩個及以上的term組成的詞組,而且各個query中也會包含相同的詞片段,就同一個詞片段來說,所述同一個詞片段中的term在所有包含所述詞片段的query對應(yīng)的ti 11 e中出現(xiàn)的次數(shù)越多,說明在所述詞片段中該term越重要。因此,本發(fā)明實施例需要統(tǒng)計所有query的詞片段中每個term的出現(xiàn)情況信息。為了統(tǒng)計所有query的詞片段中每個term的出現(xiàn)情況信息,本發(fā)明實施例需要對所有的query進行分詞,也就是處理所有的〈query,title〉對,將各個query進行分詞,得到query中的每一個term和相鄰兩個及以上的term組成的詞組也就是上述的詞片段,并統(tǒng)計詞片段中每個t e rm在其對應(yīng)的t i 11 e中的出現(xiàn)情況信息。
[0065]在統(tǒng)計每個query的所有詞片段中每個term的出現(xiàn)情況信息時,可以用預(yù)設(shè)的出現(xiàn)符號以及未出現(xiàn)符號進行表示。也就是判斷query的詞片段中每個term是否在所述query的〈query,title〉對中對應(yīng)的title中出現(xiàn),若出現(xiàn),貝lj用預(yù)設(shè)出現(xiàn)符號表示,若未出現(xiàn),貝lj用預(yù)設(shè)未出現(xiàn)符號表示。例如對于〈query: ABO),title:CDEFG>而言,其query中的一個詞片段為ABC,這個詞片段ABC中的term-A在title:CDEFG中未出現(xiàn),則用未出現(xiàn)符號0表示;term-B在title:CDEFG中未出現(xiàn),則用未出現(xiàn)符號0表示;term_C在titie: CDEFG中出現(xiàn),則用出現(xiàn)符號1表示,因此統(tǒng)計詞片段ABC中每個term的出現(xiàn)情況信息就可以用ABC: 001表示。
[0066]當通過上述方式確定〈query,title〉對中query的詞片段中每個term的出現(xiàn)情況信息后,就可以計算相同詞片段中每個term的出現(xiàn)概率。具體的在計算相同詞片段中每個term的出現(xiàn)概率時,需要獲取相同詞片段所對應(yīng)的所有title的總個數(shù)。對于同一個詞片段而言,就是query中包含所述同一個詞片段的所有〈query,title〉對的總個數(shù),在所有這些〈query,title〉對的總個數(shù)中,部分〈query,title〉對中的title包含有所述同一個詞片段的term,部分〈query,title〉對中的title不包含有所述同一個詞片段的term,因此在獲取同一個詞片段所對應(yīng)的所有title的總個數(shù)之后,還需要獲取同一個詞片段中每個term在所述所有title中出現(xiàn)的次數(shù),也就是在所有title中包含某個term的title的個數(shù)。用同一個詞片段中每個term在所有title中出現(xiàn)的次數(shù)除以對應(yīng)的所有title的總個數(shù)得到相同詞片段中每個term在對應(yīng)的所有t i 11 e中的出現(xiàn)概率。[°067 ]對于同一個詞片段而言,其中某個term在其所在query對應(yīng)的title中的出現(xiàn)頻率越高,該term就越重要,因此根據(jù)計算得到的相同詞片段中每個term的出現(xiàn)概率可以確定相同詞片段中每個term的權(quán)重。作為一種可選的實施方式,本發(fā)明實施例可以將相同詞片段中每個term在其對應(yīng)的所有title中的出現(xiàn)概率作為所述相同詞片段中每個term的權(quán)重。
[0068]為了更好的對上述方法進行理解,本發(fā)明實施例將以兩個〈query,title〉對為例,對上述過程進行詳細說明。這兩個〈