專利名稱:利用刪除預(yù)測對多搜索項搜索查詢中搜索項的相對價值排名的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機搜索查詢。更具體而言,本發(fā)明涉及用于確定提交給萬維網(wǎng)(World Wide Web)搜索引擎的包括兩個或更多個字(word)、短語(phrase)、數(shù)字和符號的搜索查詢中的各種搜索項(term)的相對價值的方法和裝置。
背景技術(shù):
許許多多的人每天都使用因特網(wǎng)搜索引擎來查找位于越來越多的網(wǎng)站上的信息,這些網(wǎng)站具有各種各樣的商業(yè)和非商業(yè)內(nèi)容,這些內(nèi)容散布在不同長度的幾十億個頁面上。對于Web的大量站點中的任何站點的基本挑戰(zhàn)是可見性,即使得盡可能多的Web用戶知悉其存在。這對于商業(yè)站點來說尤為重要,并且與其他媒體一樣,廣告是使?jié)撛陬櫩椭獣云錁I(yè)務(wù)、其商品和其位置的主要手段。
Web仍然是最新的媒體形式。在Web上作廣告是極有競爭力的業(yè)務(wù),其中廣告呈遞手段仍在發(fā)展。這種發(fā)展一部分由技術(shù)措施來引導(dǎo),所述技術(shù)措施例如是彈出廣告攔截器,用于消除通過先占顯示屏“土地”來煩擾并且常常激怒用戶的廣告或站點鏈接。并且它一部分是通過下述方式來引導(dǎo)的嘗試使廣告適當(dāng)?shù)蒯槍撛谟脩?。被放在網(wǎng)頁上保留的空間中的橫幅廣告經(jīng)常只是“通用廣告”,這種廣告通常提供到商業(yè)站點的鏈接,但是其對顧客的針對性卻不比公路廣告牌強。
行式廣告(line ad)是置于網(wǎng)頁上為其保留的空間中的一個或多個(通常是簡短的)句子,這些行式廣告提供到商業(yè)站點的鏈接,但是其針對性常常也不是很強-尤其是在搜索項由多個字組成的情況下更是如此。當(dāng)搜索引擎不知道兩個或更多個字中的哪一個應(yīng)當(dāng)被認(rèn)為是最重要的搜索項,或者不知道一些鄰接的字是否要被認(rèn)為是單個搜索項時,就會導(dǎo)致搜索引擎的針對性較差。廣告的針對性較差意味著廣告的有效性變低,這對于對購買這種廣告的興趣和廣告的價格有負(fù)面的影響。利用現(xiàn)有方法,僅在約30%的時間中可以預(yù)測多搜索項查詢中的重要搜索項。在圖3、4和5中可以看到此問題的當(dāng)前結(jié)果的示例。在圖3中,搜索項是單個字,即被標(biāo)注為302的“Honda”。該頁面在被標(biāo)注為304的右側(cè)列中有許多廣告。類似地,在圖4中,搜索項是被標(biāo)注為402的單個字“test”,并且在被標(biāo)注為404的右側(cè)列中有許多廣告。但是在圖5中,搜索項是被標(biāo)注為502的“Honda test”,在被標(biāo)注為504的右側(cè)列中什么廣告也沒有。
理解查詢中的兩個或更多個搜索項的相對價值的更好手段將會更好地集中廣告機會,并且增加搜索引擎公司及其廣告客戶的收入。例如,雙字查詢占所有美國搜索查詢的近30%,但是卻不存在用于預(yù)測任一字與搜索相對更相關(guān)的概率的方法,盡管知悉任一字對于搜索者意圖的相對重要性對于搜索結(jié)果的相關(guān)性以及廣告機會來說顯然都是有價值的。
發(fā)明內(nèi)容
根據(jù)本發(fā)明,兩個或更多個搜索項的搜索引擎查詢的可能相關(guān)性是其搜索項的刪除概率得分的函數(shù)。當(dāng)兩個或更多個搜索項的搜索引擎查詢的相關(guān)性得分大于預(yù)定的數(shù)值閾值時,搜索引擎查詢的搜索項之一將被認(rèn)為是與搜索最相關(guān)的搜索項。個體搜索項的相關(guān)性不僅影響搜索結(jié)果,還影響廣告的針對性。
兩個或更多個搜索項的搜索查詢的個體搜索項的刪除概率得分是根據(jù)其中在搜索項中的一個或多個被刪除之后后續(xù)查詢被同一用戶提交的兩個或更多個搜索項的搜索查詢的歷史記錄來確定的。搜索查詢的特定搜索項的刪除概率得分被計算為以下比率在由同一用戶進(jìn)行的后續(xù)搜索之前特定搜索項本身被刪除的次數(shù)除以其中包括該給定搜索項在內(nèi)的任意一個或多個搜索項在后續(xù)搜索之前被同一用戶刪除的由同一用戶進(jìn)行的后續(xù)搜索查詢的次數(shù)。
提交給搜索引擎的搜索查詢搜索項的刪除概率得分于是可用于確定搜索查詢的相關(guān)性是否超過目標(biāo)閾值,并且如果搜索查詢相關(guān)性超過了閾值,則可用于確定哪個搜索項是該搜索查詢中影響搜索引擎關(guān)于哪些結(jié)果與搜索最相關(guān)以及哪些廣告最適合與搜索結(jié)果一起返回的判定的最重要搜索項。
因此,刪除概率得分使得可以大大提高搜索查詢搜索項對于廣告針對性以及搜索查詢結(jié)果改進(jìn)的價值。
圖1是示出用來為具有多個搜索項的搜索查詢形成刪除概率得分的方法的邏輯流程圖。
圖2是搜索查詢搜索項的刪除概率被用于將適合搜索項之一的廣告置于搜索結(jié)果頁面上的過程的邏輯流程圖。
圖3是適合單搜索項搜索查詢的右側(cè)列行式廣告中示出的萬維網(wǎng)搜索結(jié)果頁面。
圖4是適合另一個單搜索項搜索查詢的右側(cè)列行式廣告中示出的萬維網(wǎng)搜索結(jié)果頁面。
圖5是一個萬維網(wǎng)搜索結(jié)果頁面,其中示出了圖3和4的兩個單搜索項搜索查詢被組合成一個雙搜索項查詢,其結(jié)果是不顯示行式廣告。
圖6是示出用來根據(jù)本發(fā)明為具有多個搜索項的搜索查詢形成刪除概率得分的系統(tǒng)的框圖。
圖7是示出一個系統(tǒng)的框圖,搜索引擎利用該系統(tǒng)根據(jù)本發(fā)明響應(yīng)于多個搜索項的互聯(lián)網(wǎng)搜索查詢返回廣告。
具體實施例方式
現(xiàn)在將參考附圖中圖示的本發(fā)明的幾個優(yōu)選實施例來詳細(xì)描述本發(fā)明。在以下描述中,闡述了許多具體細(xì)節(jié)以幫助全面理解本發(fā)明。但對于本領(lǐng)域的技術(shù)人員來說很明顯的是,沒有這些具體細(xì)節(jié)中的一些或全部也能實現(xiàn)本發(fā)明。此外,沒有詳細(xì)描述公知的過程步驟和/或結(jié)構(gòu),以避免不必要地喧賓奪主。參考附圖和下面的討論可以更好地理解本發(fā)明的特征和優(yōu)點。
搜索查詢搜索項搜索查詢由一個或多個“搜索項”組成。搜索查詢搜索項的實例包括個體的字母字(alphabetic word)、字母字片段、非字母字(non-alphabeticword)、非字母字片段、首字母縮略詞、縮寫詞、個體的符號、字母、非字母字成分以及數(shù)字。搜索項的實例還包括具有各種關(guān)系中的任何一種的上述實例的群組,包括兩個或更多個鄰接的字母字或字母字片段;兩個或更多個鄰接的非字母字或字片段;兩個或更多個鄰接的符號;兩個或更多個鄰接的數(shù)字;兩個或更多個鄰接的首字母縮略詞;以及字母和/或非字母字和/或字片段和/或符號和/或首字母縮略詞和/或數(shù)字和/或縮寫詞的各種組合。
雖然在這里是聯(lián)系字母語言來討論本發(fā)明的,但是本發(fā)明適用于由包括ASCII或Unicode數(shù)字的一個或更多個串或者任何合適的代碼的兩個或更多個搜索項組成的任何搜索查詢。
計算刪除概率確定兩個或更多個搜索項的搜索引擎查詢中使用的許多搜索項的相對價值可以使得許多兩個或更多個搜索項的搜索查詢對于用作廣告鏈接和改進(jìn)搜索結(jié)果有價值。知悉在搜索項本身或同一查詢中的另一搜索項在同一搜索引擎用戶進(jìn)行的實際后續(xù)搜索中被刪除之前該搜索項出現(xiàn)在實際先前搜索中的頻率可以給出該搜索項的刪除概率,該刪除概率可被用于計算兩個或更多個搜索項的搜索引擎查詢的相對價值。
在圖1和6中,圖示了用于計算多搜索項搜索查詢中的搜索項的刪除概率得分的示例性方法和系統(tǒng)。圖6示出了一個計算機系統(tǒng),該計算機系統(tǒng)具有輸入/輸出裝置602;系統(tǒng)總線604;中央處理單元606;以及存儲裝置614,該存儲裝置614包含歷史互聯(lián)網(wǎng)搜索查詢記錄608;計算器610,用于確定互聯(lián)網(wǎng)搜索查詢記錄608中包含的搜索項的刪除概率得分;以及612中的由計算器610確定的所有刪除概率得分。在圖1中針對多字搜索查詢中涉及的字,圖示了用于計算刪除概率得分的方法,其中雙字查詢的一個字被刪除并且同一用戶進(jìn)行的后續(xù)搜索被進(jìn)行。雖然此示例是利用其中每個字是一個搜索項的雙字搜索查詢來說明的,但是用于計算刪除預(yù)測得分的方法中使用的技術(shù)也適用于三個或更多個字的搜索查詢,包括三個或更多個搜索項的搜索查詢,以及涉及除字母字之外的其他搜索項的搜索查詢。
在步驟106中,從步驟104中收集的雙字搜索查詢的記錄中選擇一個搜索查詢搜索項,例如Honda。允許雙字搜索查詢中的另一個字是任何其他單個字。步驟108發(fā)現(xiàn)在同一用戶進(jìn)行的后續(xù)搜索之前,雙字查詢中存在對Honda或其他字之一的字刪除。為了在步驟116中計算Honda的刪除概率得分,首先將某個字在同一用戶進(jìn)行的后續(xù)搜索中被從包括Honda的雙字搜索查詢中刪除的次數(shù)制成表格。Honda在其中一個字來自在同一用戶進(jìn)行的后續(xù)搜索之前的雙字搜索查詢的數(shù)據(jù)樣本中被觀察到6059次。在這6059次中,字Honda被刪除了1874次。Honda被刪除的次數(shù)除以包括Honda的雙字搜索查詢中的任何字被刪除的次數(shù)的比率是1874/6059,或者說約0.31,這就是刪除概率得分。其他統(tǒng)計方法,包括被稱為“平滑”的技術(shù),也可被用于計算刪除概率得分。當(dāng)在步驟116中計算了Honda的刪除概率得分之后,在步驟118中它被添加到刪除概率得分的列表。
此計算將Honda的刪除概率與和Honda同處一個雙字查詢中的任何其他搜索項的刪除相比較。這就是Honda的刪除概率得分與雙字查詢的“其他任何內(nèi)容”的刪除概率得分。
更一般而言,用于計算作為個體字的兩個搜索項之一被刪除的似然的最大似然估計的比率是該搜索項被刪除的次數(shù)除以該搜索項出現(xiàn)在同一用戶進(jìn)行的后續(xù)搜索之前的其中有字被刪除的搜索查詢中的次數(shù),在用于估計刪除概率得分的這一方法中,該比率可被表達(dá)為PMLE,bigram(wi)=Σwi{wiwj}→wj/Σwi{wiwj}→wi+Σwi{wiwj}→wj]]>[公式1]公式1給出了由個體字組成的兩個搜索項(bigram)的查詢的最大似然估計,其中wi是第一字,wj是第二字。這種bigram搜索查詢的刪除概率得分可用于利用圖2所示的方法確定查詢的搜索項的相關(guān)性。
用于確定查詢搜索項的相對價值的列表在搜索項本身或同一查詢中的另一搜索項在同一用戶進(jìn)行的實際后續(xù)搜索中被刪除之前從該搜索項出現(xiàn)的這些實際先前搜索中提取出的刪除概率得分的列表是以下工作的關(guān)鍵確定多搜索項查詢中的搜索項的相對價值,以判定多搜索項查詢的任何搜索項是否要被用于伴隨著多搜索項查詢的搜索結(jié)果顯示廣告。對搜索查詢中找到的搜索項而言,除了在搜索項本身或同一查詢中的另一搜索項被刪除之前從該搜索項出現(xiàn)的實際先前搜索中提取出的刪除概率得分的列表之外,還需要兩個其他列表來判定多搜索項查詢的任何搜索項是否被用于伴隨著搜索結(jié)果顯示廣告。所需要的第二列表是“短語”列表——短語例如可以是兩個字,這兩個字可以被預(yù)期以出現(xiàn)在搜索窗口中的順序同時出現(xiàn)。第三列表是與可用廣告中的搜索項有精確匹配的搜索項的列表。
刪除概率列表一個實施例涉及由兩個字母字組成的搜索查詢。
搜索查詢由兩個字母字組成的實施例所使用的一個列表是這樣一個列表,該列表中包括在其中一個字在同一用戶進(jìn)行的后續(xù)搜索中被刪除的雙字搜索查詢中找到的一大組字中的每一個的刪除概率得分。其中一個字在同一用戶進(jìn)行的后續(xù)搜索中被刪除的雙字搜索查詢的這個列表是通過檢查搜索引擎查詢記錄來形成的。在步驟104中,雙字搜索查詢的集合被收集。在步驟106中一個查詢被選擇,并且在步驟108中其查詢記錄被檢查,以了解雙字搜索查詢中的兩個字之一是否被刪除并且由同一用戶進(jìn)行的后續(xù)搜索已被進(jìn)行。如果否,則在步驟106中另一查詢被選擇。但是,如果雙字搜索查詢中的兩個字之一被刪除并且由同一用戶進(jìn)行的后續(xù)搜索被進(jìn)行了,則在步驟110中查詢數(shù)目被增加1,在步驟111中確定查詢搜索項是兩個單獨的字,并且在步驟112中,被刪除的字被添加到刪除列表。當(dāng)步驟114發(fā)現(xiàn)沒有更多查詢要檢查時,在步驟116中,通過用每個字被刪除的次數(shù)除以兩個字中的任何一個被刪除的次數(shù),來計算其中一個字在同一用戶進(jìn)行的后續(xù)搜索中被刪除的雙字搜索查詢中的所有字的刪除概率。在步驟118中,所有這些字及其刪除概率得分的列表被創(chuàng)建,并且過程在步驟120結(jié)束。
短語列表搜索項是兩個字母字的實施例中所需的第二列表是雙字短語列表?!八阉黜棥边@一表述既可以指短語也可以指個體字??深A(yù)期會以其出現(xiàn)在搜索窗口中的順序同時出現(xiàn)的兩個字的示例包括名稱,例如“TomCruise”;以及短語,例如“fighter aircraft”、“middle ages”,以及名為“bad attitude”的樂團(tuán)。可預(yù)期會以特定順序同時出現(xiàn)的兩個字的這種例子在這里被稱為“短語”。很明顯,如果可以預(yù)期字會以其出現(xiàn)在搜索窗口中的順序同時出現(xiàn),則單獨搜索每個字對于發(fā)起查詢的搜索引擎用戶來說是不適當(dāng)?shù)?,而且也不太可能有什么幫助?br>
廣告列表搜索項是兩個字母字的實施例中所需的第三列表是與可用廣告中的搜索項有精確匹配的搜索項的列表。
因此,在開始檢查雙字搜索查詢的過程之前,搜索引擎已經(jīng)具備了對以下列表的訪問權(quán)限存儲在位于數(shù)據(jù)存儲裝置726中的720中的從各種來源積累的大量雙字組合——短語——的列表;存在于位于數(shù)據(jù)存儲裝置726中的722中的在雙字搜索查詢中找到的字的刪除概率得分的列表;以及位于數(shù)據(jù)存儲裝置726中的724中的與可用廣告中的搜索項有精確匹配的搜索項的列表。
雖然這里說明了使用兩個搜索項的實施例,但是應(yīng)當(dāng)理解,利用所說明技術(shù)可以實現(xiàn)用于確定任何大于2個搜索項的搜索查詢的每個搜索項的相關(guān)性的其他實施例。并且因此,在需要時也可對三個或更多個搜索項的相關(guān)性進(jìn)行排名,而不是只專注于最相關(guān)的搜索項。
利用刪除預(yù)測來確定搜索引擎查詢中的搜索項的相關(guān)性用于廣告目的并且針對搜索結(jié)果的多搜索項搜索引擎查詢的可能的相關(guān)性是搜索項的刪除概率得分的函數(shù)。用于量化作為適合于具有兩個搜索項的查詢的刪除概率的函數(shù)的多搜索項搜索引擎查詢的可能相關(guān)性的有用計算由以下公式給出[公式2]-0.0448(NWD)+1.1639(DP搜索項1)+1.2635(1-DP搜索項2)=查詢相關(guān)性值其中NWD=被刪除的搜索項中的字?jǐn)?shù)目;DP搜索項1=被刪除搜索項的刪除概率;DP搜索項2=被保留搜索項的刪除概率。
因此,當(dāng)搜索引擎接收到雙搜索項查詢時,它可以通過以下操作使用公式2來判定兩個搜索項的搜索查詢的相關(guān)性首先刪除搜索項之一,并且通過利用被刪除搜索項中的字的數(shù)目、被刪除搜索項的刪除概率和“被保留搜索項”(未被刪除的搜索項)的刪除概率來計算查詢相關(guān)性。在利用關(guān)于哪個搜索項被刪除的這些假設(shè)計算搜索查詢相關(guān)性之后,利用相反的假設(shè)再次計算搜索查詢相關(guān)性值。也就是說,先前被刪除的搜索項現(xiàn)在是被保留的搜索項,而先前被保留的搜索項現(xiàn)在是被刪除的搜索項,重新計算公式2并獲得第二搜索查詢相關(guān)性值。如果這些計算出的相關(guān)性值中的任何一個超過了搜索查詢相關(guān)性閾值,則認(rèn)為查詢具有適合于連同搜索結(jié)果返回廣告的搜索項。并且產(chǎn)生超過相關(guān)性閾值的相關(guān)性值的被保留搜索項是被選擇為就返回廣告而言最相關(guān)的搜索項。
其他這樣的刪除概率函數(shù)也可用于確定用于廣告目的的針對搜索結(jié)果的多搜索項搜索查詢的相關(guān)性。公式2的不那么一般化的應(yīng)用示出了兩個搜索項的搜索查詢的可能相關(guān)性可作為刪除概率的函數(shù)被確定的方式,正如從這里討論的實施例中所看到的,其中搜索項的刪除概率得分之間的絕對差被計算作為搜索查詢的相關(guān)性的得分,并且如果該值超過相關(guān)性閾值,則具有最低刪除概率得分的搜索項是被選擇為就返回廣告而言最相關(guān)的搜索項。
搜索查詢由兩個搜索項組成并且這兩個搜索項是字母字的實施例現(xiàn)在參考圖2和7,其中示出了用于利用刪除概率得分來確定搜索查詢搜索項的相關(guān)性以響應(yīng)于搜索引擎查詢選擇和顯示廣告的示例性方法和系統(tǒng)。圖7示出了一個系統(tǒng),其中用戶輸入多搜索項搜索查詢到搜索查詢窗口708中,該搜索查詢窗口708被顯示在客戶端web瀏覽器顯示704中。查詢經(jīng)由互聯(lián)網(wǎng)702被發(fā)送到搜索引擎服務(wù)器710。搜索引擎服務(wù)器710中的文檔鏈接檢索器712訪問存儲在數(shù)據(jù)存儲裝置716中的萬維網(wǎng)文檔鏈接718,并且經(jīng)由互聯(lián)網(wǎng)702將其返回到客戶端web瀏覽器顯示704,在這里文檔鏈接被顯示在搜索結(jié)果706中。此外,響應(yīng)于同一個互聯(lián)網(wǎng)搜索查詢,搜索引擎服務(wù)器710中的廣告檢索器714訪問存儲在數(shù)據(jù)存儲裝置726中的短語列表720、查詢中搜索項刪除概率得分722和廣告列表724,然后使用圖2的方法來確定哪些廣告適合搜索查詢,并且如果存在適合搜索查詢的廣告則經(jīng)由互聯(lián)網(wǎng)702將廣告返回到客戶端瀏覽器顯示704,在這里它們伴隨檢索出的萬維網(wǎng)文檔鏈接被顯示在搜索結(jié)果706中。
圖2的方法可利用雙字搜索查詢來說明。在步驟204中,通過以下操作確定兩個字和它們出現(xiàn)在搜索窗口中的順序是或不是一個單元將搜索引擎用戶放在搜索窗口中的字和它們出現(xiàn)在搜索窗口中的字順序與位于數(shù)據(jù)存儲裝置726中的可預(yù)期會以特定順序同時出現(xiàn)的兩個字的短語的列表720相比較。如果搜索引擎用戶放在搜索窗口中的兩個字以它們出現(xiàn)在搜索窗口中的字順序存在于短語列表上,并且,在此實施例中,步驟208發(fā)現(xiàn),查詢中除了這兩個字外沒有更多的字,那么步驟212將會發(fā)現(xiàn)在查詢中沒有更多的搜索項,并且過程進(jìn)行到步驟226。在步驟226,將該單元與存在于廣告列表中的短語相比較,并且尋找精確匹配。如果該單元在位于數(shù)據(jù)存儲裝置726中的廣告列表724中的廣告列表中有精確匹配,則對搜索查詢的搜索引擎響應(yīng)是伴隨搜索結(jié)果返回廣告,其中廣告被顯示在預(yù)先指定的區(qū)域中。過程隨后進(jìn)行到步驟230,在該步驟中過程結(jié)束。如果在廣告列表中沒有找到該單元的精確匹配,則過程直接轉(zhuǎn)到步驟230,在該步驟中過程結(jié)束。
但是,如果在步驟204發(fā)現(xiàn)雙字查詢不是一個單元,則步驟210將每個字分類為一個搜索項,并且步驟212發(fā)現(xiàn)該查詢由兩個搜索項組成。步驟214詢問是否存在搜索項之一的刪除概率得分。如果在位于數(shù)據(jù)存儲裝置726中的刪除概率列表722中的刪除概率得分列表中沒有搜索項的刪除概率得分,則在步驟216中為該搜索項分配默認(rèn)的刪除概率得分,并且過程進(jìn)行到步驟220。已經(jīng)證明在步驟216分配等于0的默認(rèn)刪除概率得分既實用而且又在數(shù)學(xué)上可接受。如果相反該搜索項確實具有刪除概率得分,則在步驟218中為該搜索項分配該刪除概率得分。在任一種情況下,都會分配刪除概率得分,并且過程進(jìn)行到步驟220,在該步驟中,由于在查詢中有第二搜索項,因此過程返回步驟214以查明第二搜索項是否具有位于數(shù)據(jù)存儲裝置726中的刪除概率列表722中的刪除概率得分。同樣,如果該搜索項不具有刪除概率得分,則在步驟216中分配默認(rèn)刪除概率得分,并且過程再次進(jìn)行到步驟220,以詢問是否有更多的搜索項。但是,如果相反該第二搜索項具有刪除概率得分,則在步驟218中分配該刪除概率得分,并且過程進(jìn)行到步驟220,現(xiàn)在在該步驟中確定查詢中沒有更多的搜索項,因此過程進(jìn)行到步驟222。在步驟222中,比較查詢的兩個搜索項的刪除概率得分。然后,在步驟224中,確定查詢的兩個搜索項的刪除概率得分的絕對差是否大于或等于預(yù)先固定的閾值差。基于數(shù)學(xué)分析、實驗和市場需求發(fā)現(xiàn)閾值0.50是閾值差的合適值。要等于或超過閾值0.50,一個搜索項被刪除的可能性必定大于不被刪除的可能性(刪除概率大于或等于0.5),而另一搜索項被保留的可能性大于被刪除的可能性(刪除概率小于或等于0)。如果刪除概率得分的差的絕對值不大于預(yù)先固定的閾值差,則過程進(jìn)行到步驟230,在該步驟中過程停止。但是,如果刪除概率得分的差的量確實大于預(yù)先固定的閾值差,則在步驟226中,在廣告列表中尋找搜索項的精確匹配。如果搜索項在被指定為數(shù)據(jù)存儲裝置726中的廣告列表724的廣告列表中有精確匹配,則對搜索引擎查詢的搜索引擎響應(yīng)是在步驟228中伴隨搜索結(jié)果返回廣告,其中廣告可被顯示在頁面的預(yù)先指定的區(qū)域中。過程隨后進(jìn)行到步驟230,在該步驟中過程停止。如果在廣告列表中沒有找到搜索項的精確匹配,則過程直接轉(zhuǎn)到步驟230,在該步驟中過程停止。
在對此實施例的說明中,對雙字查詢HONDA TEST的搜索引擎響應(yīng)開始于搜索引擎在步驟202中接收到查詢。步驟204詢問HONDA TEST是否是一個單元。當(dāng)位于數(shù)據(jù)存儲裝置726中的短語列表720被搜索并且發(fā)現(xiàn)HONDA TEST不是一個單元時,步驟210將兩個字HONDA和TEST中的每一個分類為一個單獨的搜索項。并且由于步驟212發(fā)現(xiàn)存在兩個或更多個搜索項,因此步驟214搜索位于數(shù)據(jù)存儲裝置726中的DP列表722,以確定HONDA是否具有刪除概率得分。HONDA的刪除概率得分約為0.31,于是在步驟218中將0.31分配給搜索項HONDA。響應(yīng)于詢問在查詢中是否有更多的搜索項的步驟220,過程返回步驟214,并且向位于數(shù)據(jù)存儲裝置726中的列表722詢問TEST的刪除概率得分。TEST的刪除概率得分約為0.89,于是在步驟218中將0.89分配給TEST?,F(xiàn)在,響應(yīng)于詢問在查詢中是否有更多的搜索項的步驟220,答復(fù)是否,并且在步驟222中搜索項HONDA和TEST的刪除概率得分的絕對差被計算。查詢中的兩個搜索項的刪除概率得分的絕對差如果超過,則如果在步驟226中找到具有較低刪除概率得分的搜索項(在此查詢中是HONDA)的精確匹配的話,在步驟228中可能導(dǎo)致廣告被顯示在搜索結(jié)果頁面上。將會觸發(fā)步驟226中對HONDA的精確匹配的搜索的兩個搜索項之間刪除概率得分的合適閾值差已經(jīng)預(yù)先被固定在0.50。步驟224發(fā)現(xiàn)HONDA具有約0.31的刪除概率得分而TEST具有約0.89的刪除概率得分,絕對差約為0.58,這大于閾值差0.50。由于HONDA具有較低的得分,因此在步驟226中考查位于數(shù)據(jù)存儲裝置726中的廣告列表724以尋找HONDA的精確匹配。精確匹配被找到,從而在步驟228中HONDA廣告伴隨搜索結(jié)果被返回到客戶端瀏覽器,顯示在頁面的預(yù)先指定的區(qū)域中,并且過程在步驟230中停止。
圖3、4和5示出了先前方法未能在頁面的右側(cè)列中的行式廣告空間中產(chǎn)生任何廣告。HONDA作為單個搜索項302已在標(biāo)注為304的區(qū)域中產(chǎn)生了許多行式廣告。類似地,TEST作為單個搜索項402也已在標(biāo)注為404的區(qū)域中產(chǎn)生了許多行式廣告。但是兩個搜索項作為搜索查詢502被一起使用時,結(jié)果是在標(biāo)注為504的行式廣告空間中沒有任何廣告。
在另一實施例中,示例性的搜索查詢具有三個字,其中的兩個是一個單元。這意味著三個字的示例性搜索查詢具有兩個搜索項。作為單元的搜索項在步驟206中將被分類為一個搜索項,不是該搜索項的一部分的字將在步驟210中被分類為一個搜索項。在步驟212中確定存在兩個搜索項,并且步驟214詢問一個搜索項是否具有刪除概率得分。如果有,則在步驟218中該搜索項被分配以它的得分。如果沒有,則在步驟216中該搜索項被分配以默認(rèn)得分。然后,如果第二搜索項具有刪除概率得分則在步驟218中它被分配以其刪除概率得分,如果沒有則被分配以默認(rèn)刪除概率得分。在步驟222中這些得分之間的絕對差被計算,并且如果在步驟224中絕對差大于閾值,則在步驟226中尋找廣告列表中該搜索項的精確匹配,如果找到,則廣告伴隨搜索結(jié)果被返回并被置于頁面上的指定空間中,并且過程停止。但是,如果在步驟226中沒有精確匹配或者刪除概率得分的絕對差小于閾值,則過程就會停止了。
也可以為其他實施例計算刪除概率得分,這些其他實施例包括具有比這里示出的說明性示例中所討論的要多得多的搜索項的實施例。計算其中搜索項在同一用戶進(jìn)行的后續(xù)搜索中被刪除的n個搜索項(即ngram)的搜索查詢的更一般情況的刪除概率得分的一種方法由以下公式來表達(dá)PMLE,ngram(wi)=Σwi{w1..wi..wn}→{w1..wn}\wi/Σwj{w1..wi..wn}→{w1..wn}\wj]]>[公式3]公式3給出了具有任何數(shù)目的搜索項并且這些搜索項是個體字(ngram)的查詢最大似然估計,其中w1是第一字,wn是第n字。
由圖1和6所示的針對任何數(shù)目的搜索項的搜索查詢的系統(tǒng)和方法所確定的刪除概率得分可用于確定ngram的搜索查詢的搜索項的相關(guān)性,并因此可用于利用圖2和7所示的方法的系統(tǒng)來選擇和顯示有針對性的廣告。
利用雙搜索項搜索查詢的示例可以清楚看出利用刪除概率來找出兩個或更多個搜索項的搜索查詢的更相關(guān)的字的價值的示例。在本發(fā)明之前只能在不到30%的時間中預(yù)測雙搜索項查詢的搜索項之一的相關(guān)性,而根據(jù)我們的實驗中的計算,可以在61%的時間中預(yù)測雙搜索項查詢的搜索項之一的相關(guān)性。由于我們發(fā)現(xiàn)我們的歷史數(shù)據(jù)中30%的搜索查詢是兩個搜索項的查詢,因此單對這些查詢而言,刪除預(yù)測就能具有重要應(yīng)用。并且,由于刪除預(yù)測技術(shù)被應(yīng)用到n搜索項的搜索查詢,因此刪除預(yù)測對廣告針對性的影響相當(dāng)廣泛。
但是,在搜索查詢搜索項相關(guān)性上的任何改進(jìn)不僅提高廣告針對性和廣告機會。對于搜索引擎用戶來說的一個顯然很重要的益處是通過頻繁地幫助確定多搜索項搜索查詢中的各種搜索項的相關(guān)性,刪除概率得分也提高了搜索結(jié)果的適當(dāng)性。
例外列表刪除預(yù)測的另一個優(yōu)點是它可用于進(jìn)一步增強識別兩個或更多個搜索項的搜索查詢中的高相關(guān)性搜索項的工作。這可以利用“例外”列表來完成。像這里的說明(其中HONDA是雙字查詢的一個字,其中每個字是一個搜索項)中的HONDA的刪除概率得分那樣的刪除概率得分是在以下操作之后進(jìn)行的計算的結(jié)果分析其中HONDA或另一字在同一用戶進(jìn)行的后續(xù)搜索之前被刪除的搜索查詢記錄,并將每個字被刪除的次數(shù)和被刪除的字是HONDA的次數(shù)制成表格以進(jìn)行刪除概率得分計算。刪除概率得分是基于實際歷史數(shù)據(jù)的,其中HONDA被與<任何內(nèi)容>相比較,也就是說,與其中一個字在同一用戶進(jìn)行的后續(xù)搜索之前被刪除的雙字搜索查詢的搜索查詢記錄中的每一個其他字相比較。同一方法被用于得到除HONDA外的其他字的刪除概率得分。并且,正如這里所見,具有與HONDA相差不超過閾值0.50的刪除預(yù)測得分的字當(dāng)在雙字搜索查詢中與HONDA具體配對時將會導(dǎo)致不伴隨搜索結(jié)果向用戶返回廣告。然而,在歷史數(shù)據(jù)表明當(dāng)與HONDA具體配對時某個字已被確定具有與HONDA相差小于閾值量的刪除得分的情況下,該字可能是在由同一用戶進(jìn)行的后續(xù)雙字搜索查詢中通常會刪除的字。如果是這樣的話,在這種情況下存在這樣的機會,即盡管兩個單字搜索項的刪除概率得分相差不超過閾值,卻仍顯示HONDA廣告。雖然許多這樣的情況都不太重要或者沒有什么價值,但在一些情況下卻不是這樣。如果識別出特別感興趣的廣告者(例如HONDA),則HONDA<任何內(nèi)容>過程可用于拉出這樣的字其刪除概率得分與HONDA的刪除概率得分相差不超過閾值差,但在與HONDA配對時卻很有可能是被刪除的字,如果在同一用戶進(jìn)行的后續(xù)搜索之前已經(jīng)進(jìn)行過刪除的話。如果找到這樣的字,并且一些現(xiàn)有的或潛在的廣告客戶對于這些配對特別感興趣,則這種字配對的列表被制作并被用作“例外過濾器”,以便這種情況下的廣告針對性不受刪除概率得分比較的影響。這種過濾器可以與過程中用來嘗試使用刪除預(yù)測提高廣告針對性的其他列表一起被存儲在數(shù)據(jù)存儲裝置中。該例外過濾器對于多于兩個搜索項的搜索查詢也有價值。
發(fā)明范圍雖然已經(jīng)就若干個優(yōu)選實施例描述了本發(fā)明,但是存在變更、修改、置換和替換等同,它們都落在本發(fā)明的范圍內(nèi)。還應(yīng)當(dāng)注意,存在許多實現(xiàn)本發(fā)明的方法和裝置的替換方式。雖然提供了小節(jié)標(biāo)題來幫助對本發(fā)明的描述,但是這些標(biāo)題只是說明性的,而并不意圖限制本發(fā)明的范圍。此外,雖然以上對本發(fā)明的描述是在基于web的頁面分類的上下文中的,但是本領(lǐng)域的技術(shù)人員將能夠在其他分類應(yīng)用中實現(xiàn)本發(fā)明。
因此,希望所附權(quán)利要求被解釋為包括落在本發(fā)明的真實精神和范圍之內(nèi)的所有這種變更、修改、置換和替換等同。
權(quán)利要求
1.一種計算機實現(xiàn)的用于識別后續(xù)多搜索項搜索查詢中的相關(guān)搜索項的方法,該方法包括跟蹤多個多搜索項搜索查詢中的每個特定搜索項的刪除次數(shù),其中所述多個多搜索項搜索查詢中的每一個包括每個特定搜索項;跟蹤所述多個多搜索項搜索查詢中的刪除總次數(shù);根據(jù)所述每個特定搜索項的刪除次數(shù)和所述刪除總次數(shù)確定每個特定搜索項的刪除概率;以及識別所述后續(xù)多搜索項搜索查詢中的相關(guān)搜索項,所述相關(guān)搜索項的刪除概率與來自所述后續(xù)多搜索項搜索查詢的其余搜索項的刪除概率之差大于某個閾值。
2.一種計算機實現(xiàn)的用于識別后續(xù)多搜索項搜索查詢中的相關(guān)搜索項的系統(tǒng),該系統(tǒng)包括刪除預(yù)測器,其被配置為跟蹤多個多搜索項搜索查詢中的每個特定搜索項的刪除次數(shù),其中所述多個多搜索項搜索查詢中的每一個包括每個特定搜索項;跟蹤所述多個多搜索項搜索查詢中的刪除總次數(shù);以及根據(jù)所述每個特定搜索項的刪除次數(shù)和所述刪除總次數(shù)確定每個特定搜索項的刪除概率;以及相關(guān)性識別器,其被配置為識別所述后續(xù)多搜索項搜索查詢中的相關(guān)搜索項,所述相關(guān)搜索項的刪除概率與來自所述后續(xù)多搜索項搜索查詢的其余搜索項的刪除概率之差大于某個閾值。
全文摘要
兩個或更多個搜索項的搜索引擎查詢的每個搜索項的可能相關(guān)性由它們的刪除概率得分確定。如果刪除概率得分很不相同,則刪除概率得分可用于伴隨搜索結(jié)果返回與更相關(guān)的一個或多個搜索項有關(guān)的針對性廣告。刪除概率得分是通過首先收集其中在搜索項中的一個或多個被刪除之后后續(xù)查詢被同一用戶提交的兩個或更多個搜索項的搜索查詢的歷史記錄來確定的。搜索查詢的特定搜索項的刪除概率得分被計算為以下比率在由同一用戶進(jìn)行的后續(xù)搜索之前特定搜索項本身被刪除的次數(shù)除以其中包括該給定搜索項在內(nèi)的任何一個或多個搜索項在后續(xù)搜索之前被同一用戶刪除的由同一用戶進(jìn)行的后續(xù)搜索查詢的次數(shù)。搜索項不限于個體的字母字。
文檔編號G06F7/00GK101080711SQ200580042984
公開日2007年11月28日 申請日期2005年12月14日 優(yōu)先權(quán)日2004年12月14日
發(fā)明者羅斯·瓊斯, 丹尼爾·C·費恩 申請人:雅虎公司