使用深度網(wǎng)絡(luò)對(duì)概念術(shù)語(yǔ)評(píng)分的制作方法
【專利說(shuō)明】
【背景技術(shù)】
[0001]互聯(lián)網(wǎng)資源(例如,網(wǎng)頁(yè)、圖像、文本文檔、多媒體內(nèi)容)可以包括描述任何各種各樣概念的內(nèi)容。
【發(fā)明內(nèi)容】
[0002]本說(shuō)明書(shū)涉及使用深度網(wǎng)絡(luò)識(shí)別與資源相關(guān)的概念術(shù)語(yǔ)。
[0003]在一般性方面1,一種由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行的方法,所述方法包括:接收包括資源的多個(gè)特征的輸入,其中每個(gè)特征是資源的相應(yīng)屬性的值;使用相應(yīng)嵌入函數(shù)處理每個(gè)特征,以生成一個(gè)或多個(gè)數(shù)值;處理數(shù)值,以生成資源的特征的替選表示,其中處理所述數(shù)值包括將一個(gè)或多個(gè)非線性變換應(yīng)用到所述數(shù)值;以及處理輸入的替選表示,以生成預(yù)定概念術(shù)語(yǔ)組中的每個(gè)概念術(shù)語(yǔ)的相應(yīng)相關(guān)性分值,其中每個(gè)相應(yīng)相關(guān)性分值測(cè)量對(duì)應(yīng)概念術(shù)語(yǔ)與資源的預(yù)測(cè)相關(guān)性。
[0004]根據(jù)方面I的方面2,其中,每個(gè)嵌入函數(shù)特定于相應(yīng)特征類型的特征,其中,每個(gè)嵌入函數(shù)接收相應(yīng)類型的特征,并且將變換應(yīng)用到特征,根據(jù)嵌入函數(shù)參數(shù)組將特征映射到數(shù)值表示。
[0005]根據(jù)方面I或2中的任何一個(gè)的方面3,進(jìn)一步包括:響應(yīng)于接收將要進(jìn)行在線廣告拍賣(mài)以選擇用于包括在資源的特定呈現(xiàn)中的一個(gè)或多個(gè)廣告的指示,獲得資源的多個(gè)特征。
[0006]根據(jù)方面I至3中的任何一個(gè)的方面4,進(jìn)一步包括:基于相關(guān)性分值選擇概念術(shù)語(yǔ)中的一個(gè)或多個(gè)作為在選擇參與在線廣告拍賣(mài)的候選廣告時(shí)使用的廣告關(guān)鍵字。
[0007]根據(jù)方面I至4中的任何一個(gè)的方面5,進(jìn)一步包括:過(guò)濾與資源不是相同語(yǔ)言的概念術(shù)語(yǔ)。
[0008]根據(jù)方面I至5中的任何一個(gè)的方面6,進(jìn)一步包括:過(guò)濾具有超過(guò)閾值的詞頻逆文檔頻率(TF-1DF)分值的概念術(shù)語(yǔ)。
[0009]根據(jù)方面I至6中的任何一個(gè)的方面7,其中,所述數(shù)值是浮點(diǎn)值。
[0010]根據(jù)方面I至7中的任何一個(gè)的方面8,其中,所述數(shù)值是量化整數(shù)值,并且其中,量化整數(shù)值的編碼表示浮點(diǎn)值。
[0011]在一般性方面9中,一種用于訓(xùn)練系統(tǒng)預(yù)測(cè)預(yù)定概念術(shù)語(yǔ)組中的每一個(gè)與資源的相關(guān)性的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述系統(tǒng)包括嵌入函數(shù)層、一個(gè)或多個(gè)神經(jīng)網(wǎng)絡(luò)層和分類器,其中,所述方法包括:獲得識(shí)別訓(xùn)練資源的數(shù)據(jù)和用于每個(gè)訓(xùn)練資源的一個(gè)或多個(gè)相應(yīng)關(guān)聯(lián)概念術(shù)語(yǔ);對(duì)于每個(gè)訓(xùn)練資源指定用于分類器生成的相應(yīng)預(yù)測(cè)輸出的輸出標(biāo)準(zhǔn);以及基于每個(gè)訓(xùn)練資源的相應(yīng)特征和指定的輸出標(biāo)準(zhǔn)來(lái)訓(xùn)練嵌入函數(shù)層、神經(jīng)網(wǎng)絡(luò)層和分類器,其中每個(gè)特征是資源的相應(yīng)屬性的值。
[0012]根據(jù)方面9的方面10,其中,指定輸出標(biāo)準(zhǔn)包括:對(duì)于每個(gè)訓(xùn)練資源,指定為與訓(xùn)練資源相關(guān)聯(lián)的概念術(shù)語(yǔ)生成的相關(guān)性分值應(yīng)超過(guò)為多個(gè)概念術(shù)語(yǔ)中與訓(xùn)練資源不相關(guān)聯(lián)的其他概念術(shù)語(yǔ)的隨機(jī)樣本生成的相關(guān)性分值。
[0013]根據(jù)方面9或10中的任何一個(gè)的方面11,進(jìn)一步包括:獲得識(shí)別用戶查看的訓(xùn)練資源的數(shù)據(jù);獲得識(shí)別用戶在查看訓(xùn)練資源的閾值時(shí)間窗口內(nèi)選擇的第一資源中的廣告的數(shù)據(jù);以及將在第一資源中放置廣告所使用的關(guān)鍵字與用戶查看的訓(xùn)練資源相關(guān)聯(lián)作為概念術(shù)語(yǔ)。
[0014]這些方面的其他實(shí)施例包括相應(yīng)的計(jì)算機(jī)系統(tǒng)、裝置和在一個(gè)或多個(gè)計(jì)算機(jī)存儲(chǔ)設(shè)備上記錄的計(jì)算機(jī)程序,每個(gè)都被配置為執(zhí)行方法的動(dòng)作。
[0015]在本說(shuō)明書(shū)中描述的主題的特定實(shí)施例可以實(shí)現(xiàn)為達(dá)到下述優(yōu)點(diǎn)中的一個(gè)或多個(gè)。深度網(wǎng)絡(luò)可以有效并可靠地用于預(yù)測(cè)與資源相關(guān)的概念術(shù)語(yǔ)。一旦訓(xùn)練完,深度網(wǎng)絡(luò)可以用于預(yù)測(cè)新資源(即,深度網(wǎng)絡(luò)先前未知的資源)的相關(guān)概念術(shù)語(yǔ)。深度網(wǎng)絡(luò)可以由此利用機(jī)器學(xué)習(xí)方案更快更有效地處理新數(shù)據(jù)資源。例如,深度網(wǎng)絡(luò)可以用于選擇與資源相關(guān)的關(guān)鍵字(例如,廣告關(guān)鍵字)。使用深度網(wǎng)絡(luò)來(lái)選擇關(guān)鍵字可以導(dǎo)致更相關(guān)的搜索結(jié)果(例如,廣告)被包括在資源中,例如,通過(guò)增加為參與將一個(gè)或多個(gè)結(jié)果(例如,廣告)放置到資源中進(jìn)行的在線內(nèi)容選擇過(guò)程(例如,廣告拍賣(mài))選擇的結(jié)果(例如,廣告)與資源的相關(guān)性。
[0016]在附圖和以下描述中闡述了本說(shuō)明書(shū)的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)。本主題的其它特征,方面和優(yōu)點(diǎn)將從說(shuō)明書(shū)、附圖和權(quán)利要求變得顯而易見(jiàn)。
【附圖說(shuō)明】
[0017]圖1是示例概念術(shù)語(yǔ)評(píng)分系統(tǒng)的框圖。
[0018]圖2是用于對(duì)概念術(shù)語(yǔ)評(píng)分的示例過(guò)程的流程圖。
[0019]圖3是訓(xùn)練概念術(shù)語(yǔ)評(píng)分系統(tǒng)的示例過(guò)程的流程圖。
[0020]在各個(gè)附圖中,相同的參考標(biāo)號(hào)和標(biāo)記指示相同的元素。
【具體實(shí)施方式】
[0021]圖1是示例概念術(shù)語(yǔ)評(píng)分系統(tǒng)100的框圖。概念術(shù)語(yǔ)評(píng)分系統(tǒng)100是在一個(gè)或多個(gè)位置的一個(gè)或多個(gè)計(jì)算機(jī)上被實(shí)現(xiàn)為計(jì)算機(jī)程序的系統(tǒng)的示例,其中可以實(shí)現(xiàn)下面描述的系統(tǒng)、組件和技術(shù)。
[0022]概念術(shù)語(yǔ)評(píng)分系統(tǒng)100接收輸入,并且基于接收的輸入生成預(yù)測(cè)輸出。具體地,輸入是資源的一組特征,并且概念術(shù)語(yǔ)評(píng)分系統(tǒng)100基于輸入生成的輸出是一組概念術(shù)語(yǔ)中的每一個(gè)的相應(yīng)分值。該組概念術(shù)語(yǔ)是預(yù)定的,并且表示已經(jīng)被確定為與系統(tǒng)相關(guān)的或資源集合的概念。為概念術(shù)語(yǔ)生成的分值是概念術(shù)語(yǔ)的每一個(gè)與資源的相關(guān)程度的預(yù)測(cè)。例如,概念術(shù)語(yǔ)可以是用于選擇參與在線廣告拍賣(mài)的廣告的關(guān)鍵字。
[0023]資源的特征是資源的相應(yīng)屬性的值,其以某種方式表征資源,并且可以包括多個(gè)相應(yīng)明確區(qū)分的特征類型的特征。特定類型的特征是從特征類型的可能活動(dòng)特征元素的詞匯表選擇的一個(gè)或多個(gè)活動(dòng)特征元素的列表,即令牌或令牌值對(duì)的列表。例如,令牌可以是自然語(yǔ)言,例如英語(yǔ),特征類型的詞匯表可以是自然語(yǔ)言中已知的詞。特征類型的詞匯表可以重疊或不重疊,并且給定特征類型的列表可以有序或無(wú)序。
[0024]例如,概念術(shù)語(yǔ)評(píng)分系統(tǒng)100可以從特征數(shù)據(jù)存儲(chǔ)102接收特征120。例如,特征120可以是響應(yīng)于接收將要進(jìn)行在線廣告拍賣(mài)以選擇將被包括在資源的特定呈現(xiàn)中的一個(gè)或多個(gè)廣告的指示而已經(jīng)從特定資源提取的各種特征類型的特征。例如,資源的特征可以包括任何下述的:資源的統(tǒng)一資源定位符(URL)、資源的域名、資源的發(fā)布者的標(biāo)識(shí)符、由識(shí)別與資源相關(guān)的類別或?qū)嶓w類型的概念評(píng)分系統(tǒng)100獲得的數(shù)據(jù)、資源中出現(xiàn)最頻繁的術(shù)語(yǔ)等。資源的特征也可以包括從匯總資源的內(nèi)容或效用的其它系統(tǒng)或服務(wù)獲得的特征,例如,嘗試識(shí)別資源中的最重要術(shù)語(yǔ)的系統(tǒng),識(shí)別與資源相關(guān)的實(shí)體的系統(tǒng)等。
[0025]概念術(shù)語(yǔ)評(píng)分系統(tǒng)100使用接收的輸入特性來(lái)預(yù)測(cè)輸出。輸出可以存儲(chǔ)在評(píng)分的概念術(shù)語(yǔ)數(shù)據(jù)存儲(chǔ)114中或用于一些直接的目的。具體地,輸出是分值的向量,其包括概念術(shù)語(yǔ)組中的每一個(gè)的相應(yīng)分值。在在線廣告的上下文中,例如,在輸入特征是將要對(duì)其進(jìn)行在線廣告拍賣(mài)的資源的特征的情況下,概念術(shù)語(yǔ)評(píng)分系統(tǒng)100可以生成用于概念術(shù)語(yǔ)組中的每一個(gè)的分值,所述概念術(shù)語(yǔ)可以用作用于選擇參與拍賣(mài)的廣告的廣告關(guān)鍵字。
[0026]概念術(shù)語(yǔ)評(píng)分系統(tǒng)100包括深度網(wǎng)絡(luò)106和分類器112。深度網(wǎng)絡(luò)使用一組機(jī)器學(xué)習(xí)算法,其嘗試通過(guò)使用由一個(gè)或多個(gè)非線性變換構(gòu)成的體系結(jié)構(gòu)對(duì)數(shù)據(jù)中的結(jié)構(gòu)或抽象建?;蚰M。具體地,深度網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)系統(tǒng),其包括輸入和輸出層之間的一個(gè)或多個(gè)隱藏層。每個(gè)隱藏層根據(jù)參數(shù)組對(duì)從深度網(wǎng)絡(luò)中的先前層接收的輸入應(yīng)用相應(yīng)的非線性變換,并且將非線性變換的結(jié)果提供給深度網(wǎng)絡(luò)中的下一層。隱藏層提供抽象的水平,從而增加深度網(wǎng)絡(luò)的建模能力。深度網(wǎng)絡(luò)106包括一組嵌入函數(shù)108和一個(gè)或多個(gè)隱藏人工神經(jīng)網(wǎng)絡(luò)層110,每一個(gè)都具有相應(yīng)的一組參數(shù)。每個(gè)嵌入函數(shù)108接收相應(yīng)類型的相應(yīng)特征,并且根據(jù)參數(shù)組對(duì)特征應(yīng)用變換,其將特征映射到數(shù)值表示。例如,嵌入函數(shù)108可以對(duì)特征120應(yīng)用變換,以將特征映射到浮點(diǎn)表示122。下面將參照?qǐng)D2更加詳細(xì)地描述嵌入函數(shù)。
[0027]神經(jīng)網(wǎng)絡(luò)層110的初始層接收嵌入函數(shù)生成的輸入特征的浮點(diǎn)表示作為輸入,并且神經(jīng)網(wǎng)絡(luò)層110每個(gè)對(duì)浮點(diǎn)表示應(yīng)用一個(gè)或多個(gè)相應(yīng)的非線性變換,以生成輸入的替選表示。替選表示是通過(guò)對(duì)輸入的初始數(shù)值表示應(yīng)用一個(gè)或多個(gè)非線性變換生成的輸入的數(shù)值表示,例如,通過(guò)嵌入函數(shù)108生成的表示。例如,神經(jīng)網(wǎng)絡(luò)層110可以從自嵌入函數(shù)108接收的特征120的浮點(diǎn)表示122生成替選表示124。每個(gè)神經(jīng)網(wǎng)絡(luò)層是人工節(jié)點(diǎn)的集合,其接收輸入并且從輸入計(jì)算輸出,即,根據(jù)參數(shù)組通過(guò)對(duì)輸入應(yīng)用非線性變換從輸入計(jì)算輸出。輸出隨后被饋送到其他神經(jīng)網(wǎng)絡(luò)層或深度網(wǎng)絡(luò)的其它組件。代替或除神經(jīng)網(wǎng)絡(luò)層110,深度網(wǎng)絡(luò)106可以包括另一組層,其在嵌