專利名稱:基于因特網(wǎng)的廣告的自動監(jiān)控和驗證的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對廣告內(nèi)容進行自動監(jiān)控和驗證的方法和系統(tǒng),該方法和系統(tǒng) 適用于經(jīng)由數(shù)據(jù)網(wǎng)絡(luò)萬維網(wǎng)和其它形式的基于因特網(wǎng)的媒體(基于與因特網(wǎng)類似的協(xié) 議的媒體,通常稱為數(shù)字媒體)傳遞的廣告內(nèi)容。這包括但不限于桌面因特網(wǎng)(desktop internet)、移動電話和基于因特網(wǎng)協(xié)議的TV(IPTV)。
背景技術(shù):
當一公司從媒體銷售方購買廣告空間或時間時,其包括關(guān)于何時、何地和怎樣播 出該廣告的具體指示。在利用各種不同工具進行廣泛搜索研究后,廣告購買方將匯集這些 指示,在其看來,這些指示將能最佳地反映其廣告目的并且代表了其廣告預(yù)算的最理想的 使用。廣告費也直接與廣告計劃(廣告活動,campaign)播出指示的類型和程度相關(guān)。這些指示可包括廣告要被發(fā)布或播出的日期和在一天中的時間、廣告應(yīng)被播出的 次數(shù)、廣告應(yīng)被播出的觀眾類型、廣告地點、廣告應(yīng)被播出的頻率以及廣告應(yīng)該遵守的其它 各種規(guī)章、政策和公約??菑V告者(廣告主)與媒體銷售方一起排列的包含這些指示且 被媒體銷售方接受的次序通常被稱作“插入命令”(10)。插入命令通常由各種不同的排布 構(gòu)成,每種排布代表不同的插入。插入命令代表了有關(guān)該廣告計劃的廣告購買方和銷售方 之間的書面合約。廣告銷售方利用計算機程序(通常稱作廣告服務(wù)器)將廣告?zhèn)鞑サ狡淙f維網(wǎng)上的 網(wǎng)址或其它形式的數(shù)字媒體上。應(yīng)顯示廣告內(nèi)容的每個網(wǎng)頁具有嵌入在其(背景)代碼中 的一個或多個廣告服務(wù)器標簽。這種廣告服務(wù)器標簽是一種請求遠程廣告服務(wù)器傳遞廣告 至該網(wǎng)頁的代碼段。這種廣告標簽將有關(guān)該網(wǎng)頁以及有關(guān)訪問該網(wǎng)頁的用戶的信息發(fā)送至 廣告服務(wù)器。廣告服務(wù)器基于網(wǎng)站傳遞給它的信息,通過基于插入命令(insertion order) 和排布的定義而將最合適的廣告與相應(yīng)的用戶和網(wǎng)頁匹配,以從龐大的廣告庫中選擇合適 的廣告來播出。由于插入命令的復(fù)雜性、通常較短的設(shè)定廣告的時段(時巾貞,timeframe)以及其 它的技術(shù)難題,廣告的實際播出內(nèi)容常常與插入命令中確定的指示不同。這些不一致可導(dǎo) 致廣告購買方數(shù)百萬美元的廣告預(yù)算浪費。另一種監(jiān)控的常規(guī)方法被稱為“跟蹤像素”(TP,一種跟蹤動作的方法,廣告主在頁 面上放置代表一個像素的圖像標簽,其在動作被跟蹤后立即顯示),它是一種不可見的點, 可被用來識別原始網(wǎng)站。但是,這種方式是非常受限制的,因為許多不一致性(例如廣告在 網(wǎng)頁中的位置、相同頁面上同時顯示競爭性的廣告、廣告的欺騙顯示(fraud display)以及 被另一個廣告覆蓋等)可能不被識別。而且,在內(nèi)聯(lián)框架(IFrame-被嵌入在網(wǎng)站上另一個 HTML文件內(nèi)的HTML文件。IFrame HTML元素通常被用來將另一來源的內(nèi)容(例如廣告) 插入到網(wǎng)頁中)內(nèi)、甚至植入IFrame內(nèi)傳遞的廣告,由于IFrame安全性定義的原因,其不 會公開廣告被傳遞至的地址的URL,因此不允許從跟蹤像素的常規(guī)和標準的日期中識別被 訪問的URL。同樣,這導(dǎo)致廣告主損失金錢。
上述所有方法未能為提供一種用于經(jīng)由數(shù)據(jù)網(wǎng)絡(luò)(例如因特網(wǎng))傳遞的廣告內(nèi)容 的自動監(jiān)控和驗證的方法和系統(tǒng)這一問題提供令人滿意的解決方案。本發(fā)明的目的在于提供一種方法和系統(tǒng),其能自動地監(jiān)控和驗證經(jīng)由數(shù)據(jù)網(wǎng)絡(luò)傳 遞的廣告內(nèi)容。本發(fā)明的另一目的在于提供一種方法和系統(tǒng),其能自動地監(jiān)控和驗證廣告內(nèi)容是 否最理想地符合廣告主定義的廣告插入命令。本發(fā)明的另一目的在于提供一種方法和系統(tǒng),其能自動監(jiān)控和驗證廣告是否代表 廣告預(yù)算的更加理想的使用,其中所述廣告預(yù)算對應(yīng)于由廣告主定義的插入命令。本發(fā)明的另一目的在于提供一種方法和系統(tǒng),其能自動第監(jiān)控和驗證在插入命令 中規(guī)定的指示是否符合廣告主的意圖。本發(fā)明的其它目的和優(yōu)點將隨著進一步的描述而更加明顯。發(fā)明概述本發(fā)明涉及一種用于在廣告活動中自動監(jiān)控和驗證經(jīng)由數(shù)據(jù)網(wǎng)絡(luò)傳遞的廣告內(nèi) 容的方法。因此,一個或多個廣告主經(jīng)由用戶界面提交(可手動生成或通過映射爬蟲程序 (mapping crawler)生成)站點清單或每一站點的區(qū)段(section)清單,廣告內(nèi)容應(yīng)根據(jù)期 望的插入命令(插入命令信息可在任何時間點被修改)被放置在站點上。跟蹤像素過程被 激活用于跟蹤動作,在該過程中,廣告主放置標簽(例如Javascript代碼),該標簽探測頁 面以尋找特定參數(shù),隨后生成(利用所尋找到的參數(shù))圖像標簽,該圖像標簽代表在頁面上 的一個像素,動作被跟蹤后圖像標簽被立即顯示。另外,一個或多個映射爬蟲程序被激活, 以訪問這些站點并且定位那些屬于所需要區(qū)段的具有廣告的頁面、以及那些不屬于所需要 區(qū)段的頁面或具有高差錯(incident)可能性的頁面。根據(jù)預(yù)定的站點訪問計劃,每個站點 生成要訪問的頁面清單(通常由蜘蛛程序進行,即,由訪問網(wǎng)站并閱讀它們的網(wǎng)頁和其它 信息并為搜索引擎索引創(chuàng)造入口的程序進行),并允許一個或多個(獨立的或插件式的)視 覺爬蟲(visual crawler)訪問這一列頁面。爬蟲管理器在視覺爬蟲之間分配頁面,用于獲 得在視覺爬蟲上的所需要的足夠的差錯覆蓋率和負載。差錯識別器將插入命令與傳遞數(shù)據(jù) 進行比較,當插入命令與其相應(yīng)的傳遞數(shù)據(jù)不匹配時,則生成差錯報告。一些頁面可能是廣告主購買內(nèi)容之內(nèi)或之外的區(qū)段的一部分。訪問計劃可包括有 關(guān)每個頁面每天應(yīng)被訪問多少次以及廣告計劃的開始和結(jié)束日期的信息。插入命令的改變可立即生效、在將來的日期生效或可追溯地生效。廣告主可在任何時間點訪問用戶界面,以查看差錯并更新它們的狀態(tài)。站點管理 器可訪問用戶界面,以查看正在他們的站點上發(fā)生的差錯。廣告主可經(jīng)由用戶界面查看有關(guān)正在他們的站點上發(fā)生的差錯的報告。優(yōu)選地,映射爬蟲程序被用來a)從網(wǎng)頁提取html文本;b)分析在網(wǎng)頁中的文本和元數(shù)據(jù)(meta-data),而不對頁面中的對象進行任何分 級操作;c)通過識別頁面中的廣告服務(wù)器簽名來識別包含廣告的頁面;d)識別頁面中的廣告的數(shù)目以及每個廣告的大?。籩)識別廣告服務(wù)器關(guān)鍵值和每個頁面所屬的廣告類別,用于產(chǎn)生站點類別地圖(映射圖);f)對于每個廣告服務(wù)器,識別特定的站點身份(id),站點身份可用于識別在廣告 服務(wù)器前的站點。記錄站點身份,以便后續(xù)在分析TP數(shù)據(jù)的過程中使用;g)通過分析頁面中的鏈接查找該頁面連接的頁面;h)確定頁面的長度,并檢測自上次分析后是否對該頁面做過任何更改;i)分析頁面的跳轉(zhuǎn)(重定向,redirection);j)報告并記錄頁面中的任何錯誤;k)如果站點/頁面需要,輸入用戶數(shù)據(jù)。用戶輸入數(shù)據(jù)可包括但不限于用戶點 擊、登錄參數(shù)、用戶信息和任何其它用戶相關(guān)的數(shù)據(jù);1)識別廣告服務(wù)器路由(server route);m)識別并產(chǎn)生屬于廣告網(wǎng)絡(luò)和廣告服務(wù)器的站點地圖;η)識別并產(chǎn)生屬于站點網(wǎng)絡(luò)的站點地圖;ο)模擬(impersonation)——如廣告計劃所需要的,使用cookie、會話(session) (傳送數(shù)據(jù)/獲取數(shù)據(jù))、用戶代理能夠識別爬蟲(統(tǒng)計學(xué)上的用戶參數(shù)等);ρ)識別頁面中有關(guān)廣告計劃的信息(地點、大小、類型、廣告主的網(wǎng)址、創(chuàng)意地點 (creative location)、創(chuàng)意資產(chǎn)(creative asset)等)。站點地圖可包括每個頁面被鏈接的次數(shù)以及代表頁面權(quán)重(weight)的參數(shù)。優(yōu)選地,視覺爬蟲被用來a)以圖的形式呈遞(提交,render)網(wǎng)頁,并基于頁面的html生成頁面的分級代 表;b)識別間隙(interstitial)c)識別被顯示的媒體類型;對于每種媒體類型d)追索其著陸頁;e)查找其在頁面上的位置;f)查找其尺寸;g)識別廣告服務(wù)器路由h)識別站點跳轉(zhuǎn)i)檢查其html/JavaScript標簽是否具有將媒體定義為廣告的特定簽名;j)分析頁面中的文本和元數(shù)據(jù),以將頁面、站點和伴隨的廣告分類;k)如果站點/頁面需要,則輸入用戶數(shù)據(jù)。用戶輸入數(shù)據(jù)可包括但不限于登錄 參數(shù)、用戶信息和任何其它用戶相關(guān)數(shù)據(jù)。媒體類型可包括圖片、Flash動畫、流式視頻或文本廣告。視覺爬蟲可使用會話爬行(crawling) ,cookie爬行、文脈(語境,contextual)爬 行或分類(classification)爬行。爬蟲管理器被用來a)在數(shù)據(jù)儲存庫和運行爬蟲之間介導(dǎo)和判斷;以及b)從數(shù)據(jù)儲存庫提取需要被爬行的站點或頁面,并將它們分配給不同的爬蟲。廣告可以為頁面上的任何媒體片段,包括圖象、flash動畫、文本、流式視頻。優(yōu)選地,廣告或廣告主是根據(jù)HTML標簽(類似圖象)、Flash標簽、JavaScript或含有其它廣告的Iframe來辨別的。廣告可通過識別在頁面上對應(yīng)廣告服務(wù)器的簽名的所有標簽并剖析標簽和提取 信息(例如創(chuàng)意文件的URL、著陸頁、廣告類型、廣告大小和廣告類別)來辨別。差錯可按每頁每差錯類型來計分、每類別頁每差錯類型來計分、每站點來計分或 每站點類別每差錯類別來計分。計分也可通過所有差錯類型的累積來進行。對于重疊下差錯(fold incident),即使沒有10,也可生成廣告混亂差錯、廣告欺 騙差錯、廣告劫持差錯(hijacking incident)或內(nèi)容不合適差錯。本發(fā)明還涉及一種用于從與多媒體內(nèi)容操作相關(guān)的多媒體網(wǎng)絡(luò)中,提取預(yù)定義內(nèi) 容的數(shù)據(jù)處理系統(tǒng),該系統(tǒng)包含a)至少一個中介服務(wù)器,該中介服務(wù)器包含a. 1)至少一個與該中介服務(wù)器操作相關(guān)(operatively associatedwith)的網(wǎng)絡(luò) 爬蟲;a. 2)至少一個與該中介服務(wù)器操作相關(guān)、并包含與至少一個廣告主相關(guān)的視覺內(nèi) 容的視覺內(nèi)容數(shù)據(jù)庫;其中,該中介服務(wù)器被設(shè)置為用來從數(shù)據(jù)庫接收與廣告主相關(guān)的指示,并指示至 少一個爬蟲在多媒體網(wǎng)絡(luò)上應(yīng)用預(yù)定義視覺內(nèi)容的視覺內(nèi)容提取過程。該數(shù)據(jù)處理系統(tǒng)還可被用于監(jiān)控、驗證和審計與多媒體內(nèi)容操作相關(guān)的多媒體網(wǎng) 絡(luò)廣告。在這種情況下,數(shù)據(jù)處理系統(tǒng)可包含a)至少一個中介服務(wù)器;b)至少一個與該中介服務(wù)器操作相關(guān)的廣告數(shù)據(jù)庫,該廣告數(shù)據(jù)庫包含與至少一 個廣告主和相應(yīng)廣告計劃相關(guān)的視覺內(nèi)容以及從多媒體網(wǎng)絡(luò)中提取出的視覺內(nèi)容;其中,該中介服務(wù)器被設(shè)置為用來從該數(shù)據(jù)庫接收與廣告主和相應(yīng)的廣告計劃相 關(guān)的視覺內(nèi)容,并在考慮到在相應(yīng)多媒體網(wǎng)絡(luò)上視覺內(nèi)容之排布的基礎(chǔ)上,而在多媒體網(wǎng) 絡(luò)上應(yīng)用廣告計劃的預(yù)定義的監(jiān)控、驗證和審計過程;而且,其中,該中介服務(wù)器進一步被設(shè)置為用來提供驗證和監(jiān)控報告。
通過以下參考附圖進行的對本發(fā)明優(yōu)選實施方式的非限制性的詳細描述,將更容 易理解本發(fā)明的以上和其它特征及優(yōu)點,其中圖1是顯示本發(fā)明的操作環(huán)境的示意圖;圖2-4是本發(fā)明的一些實施方式的數(shù)據(jù)處理系統(tǒng)的示意性方框圖;和圖5-9是根據(jù)本發(fā)明某些具體實施方式
之方法步驟的流程圖。
具體實施例方式在以下詳細描述中,闡述了許多具體的細節(jié)以提供對公開內(nèi)容的充分理解。但是, 本領(lǐng)域技術(shù)人員應(yīng)理解,本發(fā)明的教導(dǎo)可不需要這些具體細節(jié)即可實施。在其它情況下,熟 知的方法、程序、零件和電路未被詳細描述,以不使得本發(fā)明的教導(dǎo)模糊不清。本發(fā)明在其實施方式中公開了一種用來自動監(jiān)控廣告計劃的實際傳遞以及驗證廣告的實際傳遞與插入命令是否一致的系統(tǒng)和方法。雖然在本文中的解釋和例子特別涉 及因特網(wǎng)上的廣告,但相同的方法可應(yīng)用至在任何數(shù)據(jù)網(wǎng)絡(luò)和數(shù)字媒體上的其它形式的廣 告,例如在移動設(shè)備、基于IP的電視以及廣播媒體上的廣告。本發(fā)明提供的系統(tǒng)的結(jié)構(gòu)如 圖1所示。如圖2-4詳細所示,本發(fā)明的一些實施方式的系統(tǒng)包含以下部分。定義視覺爬蟲——一種可以訪問任何網(wǎng)址和該網(wǎng)址內(nèi)的單個網(wǎng)頁并“呈遞”網(wǎng)頁(以 與人類查看網(wǎng)頁方式相同的方式查看網(wǎng)頁)的自動計算機程序(視覺爬蟲)。該程序也可提 取被查看的頁面上的信息,如頁面的URL以及頁面的其它數(shù)據(jù)和元數(shù)據(jù),并且可以提取有 關(guān)頁面中的廣告的信息,例如廣告的位置、尺寸、類型、廣告主的網(wǎng)址、創(chuàng)意位置、創(chuàng)意資產(chǎn) 以及任何其它可從該頁面直接或間接得到的信息,例如,驗證在非正派的(un-decent)站 點或不應(yīng)顯示被傳遞的廣告的站點中沒有被傳遞的廣告。該程序還可仿效對特定主題有興 趣的人并測定反應(yīng)時間。該計算機程序隨后可將所有這些信息保存到中央數(shù)據(jù)儲存庫中, 例如數(shù)據(jù)庫或日志文件。這種數(shù)據(jù)將被稱作傳遞數(shù)據(jù),因為它描述了廣告被傳遞的實際方 式。該計算機程序還保存了網(wǎng)頁的視覺圖像,這可被用于驗證目的。映射爬蟲程序——一種可訪問任何網(wǎng)址和該網(wǎng)址內(nèi)的單個網(wǎng)頁并提取和分析該 頁面內(nèi)的數(shù)據(jù)和元數(shù)據(jù)(例如頁面的URL、頁面中有關(guān)廣告的信息(位置、尺寸、類型、廣告 主的網(wǎng)址、創(chuàng)意位置、創(chuàng)意資產(chǎn)等))的自動計算機程序。映射爬蟲程序還可仿效對特定主 題有興趣的人并測定反應(yīng)時間。然后,所有的這些信息被存儲在中央數(shù)據(jù)庫或日志文件中。 映射爬蟲程序可完成以下任務(wù)-查找頁面中的廣告服務(wù)器的簽名,以確定該頁面是否含有廣告;-確定頁面的廣告類別;-計數(shù)頁面中的廣告數(shù)目以及它們的尺寸,以檢查該頁面是否具有某種類型的差 錯的較高概率;-查找該頁面所鏈接的所有網(wǎng)頁的URL地址以及發(fā)生次數(shù);-測定頁面的“長度”以檢查該頁面是否具有某種類型差錯的較高概率;分析頁面 中的數(shù)據(jù)/文本或元數(shù)據(jù)以查找可允許我們分類該頁面的某種預(yù)定義的關(guān)鍵詞;-檢查自其上一次分析之后是否已對該頁面作出任何改變。爬蟲管理器——在含有有關(guān)需要被爬行的頁面的信息的數(shù)據(jù)儲存庫以及各種視 覺爬蟲或映射爬蟲程序之間判斷的自動計算機程序(爬蟲管理器)。爬蟲管理器將頁面爬 行任務(wù)基于各種參數(shù)分配給每個爬蟲,此類參數(shù)例如但不限于每個爬蟲的地理位置、要被 爬行的頁面的數(shù)目、要被爬行的站點、操作系統(tǒng)的類型以及要被模擬的瀏覽器。用戶界面——允許用戶將插入命令信息輸入至系統(tǒng)、查閱和管理差錯的用戶界 面。用戶被要求將廣告計劃的協(xié)議條款(插入命令和排布)輸入至系統(tǒng),因而它們可被與 實際傳遞相比較。這些信息包括如前所述的與媒體銷售方協(xié)商好的傳遞條款,并且將被稱 作條款和條件。差錯隨后可被查看且可跟蹤它們的狀態(tài)。差錯識別器——一種將通過爬蟲經(jīng)跟蹤像素和來自小組(panel)收集到的實際傳 遞數(shù)據(jù)與接收自每個廣告主的條款和條件進行比較、并識別實際傳遞與在條款和條件中所 指定內(nèi)容之不同的自動計算機程序(差錯識別器)。在發(fā)現(xiàn)傳遞不同時,差錯識別器將生成差錯報告??梢杂性S多差錯類型,這取決于所出現(xiàn)的不一致性的類型。當生成差錯報告時, 該報告可包括時間戳、差錯被識別所在的網(wǎng)站和網(wǎng)頁的地址和其它與該頁面有關(guān)的信息, 以及有關(guān)該特定排布的條款和條件的相關(guān)信息。差錯報告還包括廣告主的廣告的圖像,以 及具有所出現(xiàn)的實際差錯的網(wǎng)頁圖像和爬蟲所記錄的網(wǎng)頁圖像,從而證明該差錯的出現(xiàn)。報告界面——允許搜索和查看差錯報告以及搜索、查看和分析有關(guān)差錯的累積的 和統(tǒng)計學(xué)的信息的報告界面。廣告服務(wù)器——廣告服務(wù)器是存儲用在在線市場營銷中的廣告并將它們傳遞至 網(wǎng)站訪問者的網(wǎng)絡(luò)服務(wù)器,服務(wù)器根據(jù)預(yù)定規(guī)則上傳廣告。廣告服務(wù)器可計數(shù)廣告計劃的 點擊數(shù)目并生成報告。當提及廣告服務(wù)器時,也是指廣告網(wǎng)絡(luò)和廣告交換服務(wù)。站點——當提及站點時,也是指站點網(wǎng)絡(luò)。小組(panel)——組用戶,關(guān)于他們已有一些信息(例如,人口統(tǒng)計學(xué)背景、社 會經(jīng)濟學(xué)背景、地理學(xué)背景等)。這些用戶可具有爬蟲插件,該插件不適合用來爬行,而是用 來分析用戶訪問的頁面。系統(tǒng)結(jié)構(gòu)圖1顯示本發(fā)明的各部分的結(jié)構(gòu)圖。一些下述服務(wù)器可以作為一個單獨的服務(wù)器 來執(zhí)行。以下是監(jiān)控和驗證過程的描述廣告主提交一列站點(站點清單),廣告要被放置在這些站點上,并且如果合適的 話,每個站點提交一列區(qū)段(清單),并且它們經(jīng)由用戶界面被輸入進系統(tǒng)中。隊列生成器產(chǎn)生一列要被映射爬蟲程序和視覺爬蟲訪問的頁面。這個隊列包括在 IO中指定的頁面以及IO之外的頁面。隊列還將包括已根據(jù)爬蟲或跟蹤像素檢測到差錯的 要被爬行的頁面以及具有發(fā)生差錯的高概率的頁面。隊列可根據(jù)廣告計劃、站點和差錯相 關(guān)數(shù)據(jù)的優(yōu)先性而被排序。映射爬蟲程序被構(gòu)建用來訪問站點并定位屬于所需要的區(qū)段的具有廣告的頁面 以及不屬于所需要區(qū)段的額外頁面。或者,該階段可被手動完成。視覺爬蟲被構(gòu)建用來訪問在步驟2中產(chǎn)生的每個站點的一列頁面,某些頁面是被 包括在廣告主的購買范圍內(nèi)的區(qū)段的一部分,有些則是在購買范圍之外的區(qū)段的一部分。 爬蟲也被指示每個頁面每天應(yīng)被訪問多少次以及廣告計劃的開始和結(jié)束日期。視覺爬蟲開始它們的爬行任務(wù),在廣告計劃期間每天訪問許多頁面。爬蟲管理器 在許多爬蟲之間分配頁面以達到所需的足夠的差錯覆蓋率以及在爬蟲上的負載。廣告主的插入命令通過用戶界面被輸入進系統(tǒng),詳細設(shè)計每個單獨的站點排布。 該步驟可在監(jiān)控和驗證過程中的任何時間進行。由跟蹤像素過程、小組和爬蟲收集的數(shù)據(jù) 被組合以產(chǎn)生向預(yù)定站點傳遞的廣告內(nèi)容的傳遞數(shù)據(jù)。差別識別器周期性地將插入命令與 傳遞數(shù)據(jù)比較,并如前所述生成差錯。在任何時間點都可改變系統(tǒng)中的插入命令信息。這種改變可立即生效,可被定時 以在將來的日期生效,甚至可以自歷史日期追溯地生效。隨后可相應(yīng)地再生差錯。廣告主可在任何時間點訪問用戶界面以查看差錯并更新它們的狀態(tài)。一個任選的步驟是允許站點訪問用戶界面以查看正在它們的站點上發(fā)生的差錯。報告界面可在任何時間被訪問以查看差錯和報告。廣告主或其代表人可接觸單個網(wǎng)站以更正廣告?zhèn)鬟f或基于他們在任何時間已發(fā)現(xiàn)差錯要求給予信譽,并提供差錯報告作 為證據(jù)。映射爬蟲程序映射爬蟲程序從網(wǎng)頁提取html文本并分析頁面中的文本和元數(shù)據(jù),而不對該頁 面的對象進行任何分級操作。圖7顯示映射爬蟲程序的流程。映射爬蟲程序被用來做以下任務(wù)通過識別在頁面中的廣告服務(wù)器簽名來識別含有廣告的頁面。利用通過識別在頁面中的廣告服務(wù)器簽名來對含有廣告的頁面進行的識別來識 別頁面中的廣告數(shù)目以及各廣告的尺寸。利用通過識別在頁面中的廣告服務(wù)器簽名來對含有廣告的頁面進行的識別來識 別廣告服務(wù)器關(guān)鍵值以及每個頁面所屬的廣告類別,因而隨后可產(chǎn)生站點類別地圖。通過分析頁面中的鏈接來查找此頁面鏈接的頁面。通過使用所找到的含有廣告的頁面所鏈接的頁面,可產(chǎn)生站點地圖,每個頁面被 鏈接的次數(shù)以及其它參數(shù)代表了頁面的權(quán)重?;谠摍?quán)重,隨后可選擇要被爬行的頁面。確定頁面的長度并檢測自上次分析之后該頁面是否做過任何改變。視覺爬蟲程序視覺爬蟲是一種更復(fù)雜的爬行方法,它以圖的形式呈遞頁面并給予頁面的html 文本生成頁面的分級代表(類似網(wǎng)頁瀏覽器)。視覺爬蟲的操作類似于人類訪問頁面。這些視覺爬蟲被用來識別顯示在頁面上的各種媒體類型,例如圖像(jpg、gif等);flash 動畫;流式視頻;文本廣告。對于每種媒體類型,它可以追蹤其著陸頁(通過URL點擊)。這種追蹤可包括幾個服務(wù)器,點擊搜索這些服務(wù) 器直到到達其最終目的地;查找其在網(wǎng)頁的位置;查找其尺寸(寬X高);檢查其html/JavaScript標簽是否具有將媒體定義為廣告的特定簽名。這些簽名 可衍生自廣告服務(wù)器。這些爬蟲可識別頁面上對應(yīng)廣告服務(wù)器的簽名的所有標簽。標簽被分析,例如創(chuàng) 意文件的URL、著陸頁、廣告類型、廣告尺寸、廣告類別和更多的參數(shù)的信息被提取出來。這 樣,由爬蟲(映射爬蟲程序或視覺爬蟲)識別的每個標簽可被制圖,從而識別出該特定標簽 已被查看的網(wǎng)站。視覺爬行方法視覺爬蟲可使用各種方法會話爬行——會話是當用戶第一次訪問網(wǎng)站時訪問者接收的唯一 ID。該會話ID 在訪問者訪問網(wǎng)站頁面的整個過程中跟隨訪問者直到用戶離開該網(wǎng)站至另一個網(wǎng)站或關(guān)閉瀏覽器。一些廣告技術(shù)基于會話,例如周圍會話(surround session),其中在用戶在網(wǎng)站 上的整個時間段內(nèi)或在注冊的用戶登錄期間,用戶被提供由相同廣告主的廣告。在會話爬 行中,視覺爬蟲模擬用戶會話并跟蹤會話內(nèi)的廣告?zhèn)鬟f。Cookie爬行——cookie是網(wǎng)站可保存在訪問者電腦上的病在訪問者每次訪問站 點時從訪問者的電腦中讀取的唯一 ID。一些廣告技術(shù)基于cookie,例如注冊用戶將人口數(shù) 據(jù)保存在cookie中,該數(shù)據(jù)被用于靶定或行為靶定(behavioral targeting),其中廣告被 基于用戶過去訪問過的站點和頁面提供給用戶。在cookie爬行中,視覺爬蟲模擬cookie, 并基于cookie來跟蹤廣告的傳遞。文脈爬行——在這種方法中,爬蟲識別文本的文脈(語境)。這用于文脈靶定,其 中廣告被基于頁面中文本的文脈被提供。分類爬蟲分類爬蟲類似于映射爬蟲程序。它們從網(wǎng)頁中提取HTML文本并分析頁面中的文 本和元數(shù)據(jù)。區(qū)別在于分析本身。爬蟲利用不同的分析技術(shù)來分析網(wǎng)頁并確定其不同的分類。爬蟲管理器爬蟲管理服務(wù)器在數(shù)據(jù)儲存庫和在世界各地運行的各種爬蟲之間介導(dǎo)并判斷。爬 蟲管理器直到每個爬蟲的位置和狀態(tài),并且通過知道每個爬蟲的可利用性和爬行要求,它 決定如何分配爬行任務(wù)。圖8顯示爬蟲管理器通常操作流程爬蟲管理器負責以下事項·從數(shù)據(jù)儲存庫提取需要被爬行的站點/頁面并將它們分配給不同的爬蟲。每個 爬行需求可包括 ·要被爬行的頁面的URL地址·爬行需在何時進行·爬行的地理位置·同一人訪問頁面的次數(shù)(cookie是一個任選的執(zhí)行)·要模擬的瀏覽器/電腦/屏幕尺寸·更多的特征·更新數(shù)據(jù)儲存庫中的被爬行和網(wǎng)頁/站點以及爬行位置·將爬蟲爬行結(jié)果插入數(shù)據(jù)儲存庫爬蟲執(zhí)行爬蟲可被執(zhí)行的方法有幾種,其中兩種描述如下·獨立爬蟲——這種爬蟲一種獨立的計算機程序。它通常被安裝在專用的爬行服 務(wù)器上。·插件爬蟲——這種爬蟲以各種瀏覽器的附件或插件的形式被執(zhí)行,例如 Internet Explorer、Firefox、Opera等。這些爬蟲在瀏覽器應(yīng)用中運作并且通常被安裝 在許多客戶電腦上,例如在觀眾小組中,并形成更多的分布式爬行。這也可通過將html/ Javascript標簽嵌入在網(wǎng)頁本身來實現(xiàn),直接嵌入在頁面中或通過第三方計算機程序(例 如廣告服務(wù)器)間接地提供給頁面。
廣告和廣告主辨別廣告是推銷廣告主的產(chǎn)品的文本/圖像/flash/視頻或其它形式的媒體。非常普 遍的是,點擊廣告將引導(dǎo)至具有更多關(guān)于產(chǎn)品的信息且通常位于廣告主的網(wǎng)站的頁面。該 頁面通常被稱為廣告的著陸頁或者通過URL點擊。這些廣告被顯示在網(wǎng)頁中,通常位于網(wǎng) 站內(nèi)容的旁邊。廣告可以是頁面上的任何媒體片段,像圖像、flash動畫、文本、流式視頻,隨著技 術(shù)進步和變化,每天都有在網(wǎng)頁上顯示廣告的新方法。圖9顯示廣告/廣告主辨別流程。廣告可以多種不同方式存在于網(wǎng)頁中。一些這 些方式為· Html標簽(類似圖像)· Flash 標簽· JavaScript 含有其它廣告的IFrame當前,大多數(shù)廣告是通過商業(yè)廣告服務(wù)系統(tǒng)或廣告網(wǎng)絡(luò)來提供的,所述廣告網(wǎng)絡(luò) 例如是DoubleClick、Google、Atlas、RightMedia等,一些站點具有它們自己的內(nèi)部廣告服 務(wù)系統(tǒng)。這些都被統(tǒng)稱為廣告服務(wù)器。廣告辨別可以多種方法執(zhí)行,建議使用以下方法1.每個廣告服務(wù)器具有其用于其提供的不同廣告的廣告標簽的唯一簽名,以及一 組被包括在簽名中并且不同于其它廣告服務(wù)系統(tǒng)的參數(shù)。2.識別頁面上對應(yīng)于廣告服務(wù)器簽名的所有標簽(可通過如前所述的爬蟲大規(guī) 模地實現(xiàn),但也可通過其它方法實現(xiàn))。3.分析標簽并提取信息,所述信息例如是創(chuàng)意文件的URL、著陸頁、廣告類型、廣 告尺寸、廣告類別等。每個站點都需要被廣告服務(wù)器識別。這通常是通過將參數(shù)(id)發(fā)送至廣告服務(wù) 器來實現(xiàn)的。本發(fā)明提議使用的制圖過程將每個id與所查看的站點聯(lián)系起來。例如,如果 特定站點“A”被廣告服務(wù)器1識別為站點身份13,被廣告服務(wù)器2識別為站點身份41,等 等,那么跟蹤像素每次識別由廣告服務(wù)器1提供服務(wù)的站點身份13或由廣告服務(wù)器2提供 服務(wù)的站點身份41,都知道站點“A”已被查看。有時,廣告服務(wù)器對站點的識別是通過以某一參數(shù)指定站點的實際名稱來完成 的。該數(shù)據(jù)通過跟蹤像素來傳遞,并且隨后被提取以產(chǎn)生原始URL。該技術(shù)允許提取和翻譯 URL,即使它是在IFrame或植入IFrame內(nèi)也是這樣。它還允許反向追蹤廣告已通過的廣告 服務(wù)器的路由,因而識別誰將廣告?zhèn)鬟f至不合適或不期望的站點。差錯生成差錯是指插入命令的條款和條件與實際廣告遞送之間的任何偏差、不遵守或不一 致性。差錯生成是通過分析從爬蟲(傳遞數(shù)據(jù))和跟蹤像素中提取的數(shù)據(jù),并將其與條款 和條件相比較而完成的。當發(fā)現(xiàn)在插入命令(條款和條件)中的排布定義與廣告的實際傳 遞之間不匹配時,即產(chǎn)生差錯。每個差錯都可具有基于該正在發(fā)生的差錯的程度和其它可 配置的參數(shù)的嚴重級別。差錯類型基于廣告主與站點之間的合同。此處給出一些可基于某些合同生成的差錯類型的例子·第一屏之下(below the fold)差錯(下滾差錯)該差錯發(fā)生在廣告被顯示在 頁面的第一屏之下時(因而用戶需要滾動才能看見它)。并且廣告計劃不允許將廣告顯示 在第一屏之下。根據(jù)本發(fā)明建議的方法,這種類型的差錯即使在沒有任何關(guān)于IO的信息時 也可生成。·競爭性沖突這種差錯發(fā)生在廣告與競爭性廣告主的另一廣告顯示在相同頁面 時。競爭者定義可來自廣告計劃定義或來自不同廣告主的一個競爭者列表。·頻率差錯這種差錯發(fā)生在廣告(特定的廣告主)在制定的時間段內(nèi)對單個的 重復(fù)訪問者顯示太多次的時候。這種頻率可在廣告計劃中定義?!ざ鄠€廣告這種差錯發(fā)生在廣告(特定的廣告主)與相同廣告主的另一個廣告 顯示在相同頁面上,并且這不被廣告計劃定義所允許。·錯失地理靶定這種差錯發(fā)生在,當廣告計劃不允許廣告顯示在指定地理區(qū)域之 外時,廣告(特定的廣告主)被顯示給位于指定地理區(qū)域之外的訪問者?!ゅe失靶定這種差錯發(fā)生在廣告被顯示給未在廣告計劃中定義的訪問者目標 觀眾中的訪問者。這種差錯的一些例子可包括(但不限于)文脈靶定、行為靶定再靶定 (retargeting)、人口統(tǒng)計學(xué)靶定和用戶數(shù)據(jù)靶定?!づ挪嘉幢话l(fā)現(xiàn)這種差錯發(fā)生在廣告(特定的廣告主)未顯示在廣告計劃定義 的應(yīng)該顯示的頁面或區(qū)段中,或者發(fā)生在廣告未準時開始或在其結(jié)束時間之前結(jié)束?!べ澲P(guān)系未被執(zhí)行這種差錯發(fā)生在廣告的購買涉及一定的媒體占有率(share of voice)(意思是售出的廣告每隔一定數(shù)目的網(wǎng)頁或區(qū)段訪問就出現(xiàn)一次,而不論訪問的 次數(shù)),但實際上接收到不同的媒體占有率。 錯誤廣告/創(chuàng)意——這種差錯發(fā)生在廣告使用錯誤的創(chuàng)意(錯誤的圖片/flash 等)被提供。長加載時間——·時間錯誤——這種差錯發(fā)生在廣告未在所要求的一天中的時間被提供?!ゎl道之外——這種差錯發(fā)生在廣告在錯誤的頻道被提供(頻道是指被廣告主具 體指定的站點的部分,例如站點的金融部分)錯誤日期——這種差錯發(fā)生在廣告未在所要求日期被提供。廣告混亂——這種差錯發(fā)生在廣告在含有大量廣告的頁面中被提供(廣告混 亂)。根據(jù)本發(fā)明建議的方法,這種類型的差錯即使在沒有任何關(guān)于IO的信息的情況下也 可被生成。廣告欺騙——這種差錯發(fā)生在廣告與其它廣告一起被提供,但僅有其中一個廣告 被實際上顯示。根據(jù)本發(fā)明建議的方法,這種類型的差錯即使在沒有任何關(guān)于IO的信息的 情況下也可被生成。廣告劫持——這種差錯發(fā)生在廣告被提供給站點時,隨后被導(dǎo)向至另一站點,但 是,被識別為第一個站點。在這種情況下,廣告服務(wù)器將第一個站點注冊為被傳遞站點,而 廣告被傳遞的實際站點是后一個站點。根據(jù)本發(fā)明建議的方法,這種類型的差錯即使在沒 有任何關(guān)于IO的信息的情況下也可被生成。不合適內(nèi)容——這種差錯發(fā)生在廣告被傳遞在含有不合適內(nèi)容的站點上。根據(jù)本發(fā)明建議的方法,這種類型的差錯即使在沒有任何關(guān)于IO的信息的情況下也可被生成。包含站點之外——這種差錯發(fā)生在廣告被傳遞在未被包括在廣告計劃IO中指定 的一列站點之內(nèi)的站點上。被排除的站點——這種差錯發(fā)生在廣告被傳遞在被排除在廣告計劃IO中指定的 一列站點之外的站點上。差錯計分 計分是廣告計劃管理器/廣告主/站點、將實際結(jié)果與廣告計劃中的定義相比較, 而知道廣告的運行情況的方式。分數(shù)是在0至100之間的數(shù)字。0是可能的最低分數(shù),100 是可能的最好分數(shù)(沒有生成差錯)?;镜挠嫹挚砂匆韵聵藴释瓿伞っ宽撁婷坎铄e類型?!っ宽撁骖悇e每差錯類型。·每站點 每站點類別每差錯類別。更復(fù)雜的計分可在所有差錯類型的累積上進行·每頁面 每頁面類別·每站點 每站點類別每個差錯類型被單獨計分,因此廣告計劃管理器可知道它們的插入命令運行的如 何。該計分算法必須要考慮發(fā)生的差錯的數(shù)量以及所發(fā)現(xiàn)的廣告的數(shù)目。一個簡單可行的計分算法如下所示用所發(fā)行的廣告的總數(shù)除所發(fā)生的差錯的數(shù) 量??偛铄e得分是用于所有差錯類型的一個分數(shù),給差錯一個總的分數(shù)(如前所述)。有幾 種算法來計算差錯得分,這取決于每個差錯類型對抗所有其它差錯類型的嚴重程度??偟梅炙惴ǖ囊粋€例子是·選取最低得分的三種差錯類型并給它們評分,例如(A*4+BM+C) /7,其中A是最 低得分,C是第三低得分?!槊糠N差錯類型設(shè)定優(yōu)先性,并基于該優(yōu)先性乘以差錯類型得分來計算平均值。差錯報告差錯可通過不同的歸類選項而被歸類,并且根據(jù)差錯給予分數(shù)。報告可被這些歸類來歸類,并通過例如以下的不同參數(shù)來過濾·站點 頁面類別·日期 差錯類型有幾種類型的可關(guān)于差錯而產(chǎn)生的報告,其中一些如下撕頁報告——撕頁是指具有粘附了 IO的廣告的頁面的屏幕破碎。在差錯生成器 處理頁面并且沒有識別差錯之后,該頁被報告為撕頁,作為廣告?zhèn)鬟f過程的證據(jù)。概要報告——通過給定的過濾器和歸類總結(jié)差錯。隨后,對每個差錯類型顯示出分數(shù),或顯示出總差錯類型分數(shù)。進展報告——通過給定的過濾器和歸類總結(jié)差錯。隨后,每天對每個差錯類型顯 示出分數(shù)或顯示出總差錯類型分數(shù),并在插入命令的整個有效期內(nèi)顯示得分的進展。根據(jù)本發(fā)明的一些實施方式,所述系統(tǒng)可在數(shù)字電路中執(zhí)行,或在計算機硬件、固 件、軟件中執(zhí)行,或以它們的組合的形式執(zhí)行。本發(fā)明的儀器可在計算機中執(zhí)行或在可觸知 地包括(tangibly embodied)在信息載體中的便攜式電話程序(軟件)產(chǎn)品中執(zhí)行,例如 在計算機可讀取的存儲裝置中,或傳播的信號中,以通過可編程處理器來執(zhí)行;并且本發(fā)明 的方法步驟可通過可編程處理器來進行,處理器執(zhí)行指令程序以通過在輸入數(shù)據(jù)上操作并 生成輸出數(shù)據(jù)而實現(xiàn)本發(fā)明的功能。優(yōu)選地,本發(fā)明可在一個或多個可在可編程系統(tǒng)中執(zhí)行的計算機程序(軟件)中 執(zhí)行,所述可編程系統(tǒng)包括至少一個連接用來從數(shù)據(jù)存儲系統(tǒng)接收數(shù)據(jù)和指令以及傳送數(shù) 據(jù)和指令至數(shù)據(jù)存儲系統(tǒng)的可編程處理器、至少一個輸入裝置和至少一個輸出裝置。計算 機程序(軟件)是可直接或間接地被用在計算機中以實現(xiàn)特定活動或帶來特定結(jié)果的一組 指令。計算機程序(軟件)可以任何形式的編程語言來編寫,(將來可能利用的任何種類 的軟件)包括編譯型語言或解釋型語言,并且它可任何形式被使用,包括作為單機程序或 作為模塊、組件、子程序或其它適用于計算機環(huán)境的單元來使用。用于執(zhí)行指令程序的合適的處理器包括,例如,通用微處理器和特殊用途的微處 理器,和任何種類計算機的單處理器或多處理器中的一個。通常,處理器從只讀存儲器或隨 機存取存儲器或兩者中接受指令和數(shù)據(jù)。計算機的基本元件是用于執(zhí)行指令的處理器和一 個或多個用于存儲指令和數(shù)據(jù)的存儲器。通常,計算機還將包括或一個或多個用于存儲數(shù) 據(jù)文件的大容量存儲裝置,或被可操作地連接以與大容量存儲裝置通信;這種裝置包括磁 盤,例如內(nèi)部硬盤和可移動磁盤;磁光盤;和光盤。適用于可觸知地包括計算機程序指令和 數(shù)據(jù)的存儲裝置包括所有形式的非易失性存儲器,包括例如半導(dǎo)體存儲裝置,例如EPR0M、 EEPROM和閃存裝置;磁盤,例如內(nèi)部硬盤盒可移動磁盤;磁光盤;和CD-ROM及DVD-ROM盤。 處理器和存儲器可被補充有,或被結(jié)合至ASIC (專用集成電路)。為了與用戶之間交流,本發(fā)明可在具有顯示裝置、鍵盤和指向裝置或手機鍵盤、 操縱桿或任何其它相關(guān)裝置的計算機上執(zhí)行,所述顯示裝置例如是CRT (陰極射線管)或 LCD (液晶顯示器)顯示器,用于將信息顯示給用戶,所述指向裝置例如是鼠標或軌跡球,通 過指向裝置用戶可對計算機提供輸入數(shù)據(jù)。本發(fā)明可在包括后端組件(例如數(shù)據(jù)服務(wù)器)的計算機系統(tǒng)中運行,或在包括中 間設(shè)備組件(例如應(yīng)用服務(wù)器或因特網(wǎng)服務(wù)器)的計算機系統(tǒng)中運行,或在包括前端組件 的計算機系統(tǒng)中運行,所述前端組件例如是具有圖形用戶界面或因特網(wǎng)瀏覽器或任何其它 有用的軟件應(yīng)用或它們的任何組合的客戶計算機或手機。系統(tǒng)的組件可通過任何形式或任 何介質(zhì)的數(shù)字數(shù)據(jù)通信來連接,例如通信網(wǎng)絡(luò)。通信網(wǎng)絡(luò)的例子包括,例如LAN、WAN,并且 計算機與網(wǎng)絡(luò)形成因特網(wǎng)和無線網(wǎng)絡(luò)。計算機系統(tǒng)可包括多媒體客戶和服務(wù)器??蛻艉头?wù)器通常可彼此遠離并且通常 通過網(wǎng)絡(luò)相互作用,例如如上所述的那些網(wǎng)絡(luò)。多媒體客戶與服務(wù)器之間的關(guān)系由在各自 計算機上或任何硬件上運行的、彼此具有客戶-服務(wù)器關(guān)系的計算機程序或任何任何軟件 引起。
當然,上述實施例和描述僅為說明的目的提供,并非有意以任何方式限制本發(fā)明。 本領(lǐng)域技術(shù)人員可以理解,本發(fā)明可以以各種其它方式實施,這些方式可使用不同于以上 所述一個以上的技術(shù)特征,而不超出本發(fā)明的范圍。
權(quán)利要求
1.一種用于自動監(jiān)控和驗證在廣告活動期間經(jīng)由數(shù)據(jù)網(wǎng)絡(luò)傳遞的廣告內(nèi)容的方法,所 述方法包括a)允許一個或多個廣告主經(jīng)由用戶界面提交站點清單或每一站點的區(qū)段清單,在站點 或區(qū)段上,根據(jù)所需要的插入命令確定廣告內(nèi)容是否進行排布;b)激活一個或多個映射爬蟲程序,以訪問所述站點并定位b. 1)屬于所要求的區(qū)段的具有廣告的頁面;b. 2)不屬于所要求的區(qū)段的頁面;b. 3)具有高差錯概率的頁面;c)每一站點生成要訪問的頁面清單;d)根據(jù)預(yù)定的站點訪問計劃,允許一個或多個視覺爬蟲訪問所述要訪問的頁面清單;e)允許爬蟲管理器在視覺爬蟲之間分配頁面,用于獲得所要求的足夠的差錯覆蓋率和 在所述視覺爬蟲上的負載;f)通過差錯識別器將插入命令與傳遞數(shù)據(jù)進行比較;以及g)每當插入命令與其相應(yīng)的傳遞數(shù)據(jù)不匹配時生成差錯報告。
2.如權(quán)利要求1所述的方法,其進一步包括a)激活像素跟蹤過程,用于跟蹤一個或多個動作,在該過程中,廣告主將一代表像素的 圖像標簽放置在頁面上,在所述動作被跟蹤后立即顯示該圖像標簽;以及b)將由爬蟲收集的數(shù)據(jù)添加至由所述像素跟蹤過程收集的數(shù)據(jù)中,從而生成傳遞至預(yù) 定站點的廣告內(nèi)容的傳遞數(shù)據(jù)。
3.如權(quán)利要求2所述的方法,其中,所述像素跟蹤過程利用被添加的數(shù)據(jù),對已顯示了 廣告的被訪問站點的URL進行分析和提取。
4.如權(quán)利要求2所述的方法,其中,所述像素跟蹤過程利用被添加的數(shù)據(jù),對已顯示的 廣告的標簽ID進行檢測。
5.如權(quán)利要求2所述的方法,其中,所述像素跟蹤過程利用被添加的數(shù)據(jù),提取廣告服 務(wù)器之間的路徑,其中,廣告沿著該路徑傳遞直到被顯示在站點中。
6.如權(quán)利要求1所述的方法,其中,一些頁面是在廣告主的購買內(nèi)容之內(nèi)或之外的區(qū) 段的一部分。
7.如權(quán)利要求1所述的方法,其中,所述訪問計劃包括每個頁面每天應(yīng)被訪問多少次 以及廣告活動的開始和結(jié)束日期。
8.如權(quán)利要求1所述的方法,其中,所述插入命令指定每個單獨站點的排布。
9.如權(quán)利要求1所述的方法,其中,所述清單是手動生成的或通過所述映射爬蟲程序 生成的。
10.如權(quán)利要求1所述的方法,其中,所述的插入命令信息能在任何時點進行修改。
11.如權(quán)利要求1所述的方法,其中,所述的修改能立即生效、在將來的時間生效或追 溯地生效。
12.如權(quán)利要求1所述的方法,其進一步包括允許廣告主在任何時間訪問所述用戶界 面,以查看差錯并更新它們的狀態(tài)。
13.如權(quán)利要求1所述的方法,其進一步包括允許站點訪問所述用戶界面,以查看正在 它們的站點發(fā)生的差錯。
14.如權(quán)利要求1所述的方法,其進一步包括允許廣告主經(jīng)由所述用戶界面,查看關(guān)于 正發(fā)生在它們的站點上的差錯的報告。
15.如權(quán)利要求1所述的方法,其中,所述的映射爬蟲程序被用來執(zhí)行以下一個或多個 事項a)從網(wǎng)頁中提取html文本;b)分析在所述網(wǎng)頁中的文本和元數(shù)據(jù),而不對頁面中的對象進行任何分級操作;c)通過識別頁面中的廣告服務(wù)器簽名來識別包含廣告的頁面;d)識別頁面中的廣告的數(shù)目以及每個廣告的大??;e)識別廣告服務(wù)器關(guān)鍵值和每個頁面所屬的廣告類別,用于產(chǎn)生站點類別映射圖;f)對于每個廣告服務(wù)器,識別特定的站點身份,該站點身份識別在廣告服務(wù)器前的站 點,且該站點身份被記錄,用于后續(xù)分析TP數(shù)據(jù)的過程;g)通過分析所述頁面中的鏈接,查找該頁面所連接的頁面;h)確定頁面的長度,并檢測自上次分析后是否對該頁面做過任何更改;i)分析頁面的跳轉(zhuǎn);j)報告并記錄頁面中的任何錯誤;k)如果站點/頁面需要,輸入用戶數(shù)據(jù);用戶輸入數(shù)據(jù)包括但不限于用戶點擊、登錄 參數(shù)、用戶信息和任何其它與用戶相關(guān)的數(shù)據(jù); 1)識別廣告服務(wù)器路由;m)識別并產(chǎn)生屬于廣告網(wǎng)絡(luò)和廣告服務(wù)器的站點圖; η)識別并產(chǎn)生屬于站點網(wǎng)絡(luò)的站點圖;ο)模擬——按廣告活動所需要的,利用cookie、會話(傳送數(shù)據(jù)/獲取數(shù)據(jù))、用戶代 理來識別爬蟲(統(tǒng)計學(xué)上的用戶參數(shù)等)。
16.如權(quán)利要求1所述的方法,其中,所述站點圖包括每個頁面被鏈接的次數(shù)以及代表 頁面權(quán)重的參數(shù)。
17.如權(quán)利要求1所述的方法,其中,所述的視覺爬蟲被用來a)以圖的形式呈遞網(wǎng)頁,并基于頁面的html生成頁面的分級代表;b)識別間隙;c)識別被顯示的媒體類型; 其中,對于每種媒體類型d)追索其著陸頁;e)查找其在頁面上的位置;f)查找其尺寸;g)識別廣告服務(wù)器路由;h)識別站點跳轉(zhuǎn);i)檢查其html/JavaScript標簽是否具有將媒體定義為廣告的特定簽名;j)分析頁面中的文本和元數(shù)據(jù),以查找隨后可被用來將頁面、站點和伴隨的廣告分類 的某些預(yù)定義的關(guān)鍵詞;k)如果站點/頁面需要,則輸入用戶數(shù)據(jù)。
18.如權(quán)利要求17所述的方法,其中,所述用戶輸入數(shù)據(jù)包括登錄參數(shù); 與用戶相關(guān)的數(shù)據(jù)。
19.如權(quán)利要求1所述的方法,其中,所述的媒體類型包括 圖像;Flash云力畫; 流式視頻; 文本廣告。
20.如權(quán)利要求1所述的方法,其中,所述的視覺爬蟲使用 會話爬行;Cookie 爬行; 文脈(語境)爬行; 分類爬行。
21.如權(quán)利要求1所述的方法,其中,所述的爬蟲管理器被用來a)在數(shù)據(jù)儲存庫和運行的爬蟲之間進行介導(dǎo)和判斷;以及b)從數(shù)據(jù)儲存庫中提取需被爬行的站點或頁面,并將它們分配給不同的爬蟲。
22.如權(quán)利要求1所述的方法,其中,所述爬蟲是獨立的爬蟲或插件爬蟲。
23.如權(quán)利要求1所述的方法,其中,廣告是頁面上的任何媒體片段,包括圖像、flash 動畫、文本和/或流式視頻。
24.如權(quán)利要求1所述的方法,其中,廣告或廣告主是根據(jù)以下事項被辨別的 HTML標簽 Flash標簽 JavaScript 包含其它廣告的IFrame。
25.如權(quán)利要求1所述的方法,其中,廣告是通過以下方法被辨別的a)識別頁面上對應(yīng)于廣告服務(wù)器簽名的所有標簽;以及b)分析標簽并提取如創(chuàng)意文件的URL、著陸頁、廣告類型、廣告尺寸和廣告類別的信息。
26.如權(quán)利要求1所述的方法,其中,差錯是根據(jù)下列一個或多個內(nèi)容來生成的 下滾差錯 競爭性沖突 頻率差錯 多個廣告 錯失地理靶定 錯失靶定 排布未被發(fā)現(xiàn) 贊助關(guān)系未被執(zhí)行 錯誤廣告/創(chuàng)意 時間錯誤 頻道之外 錯誤日期 廣告混亂 廣告欺騙 廣告劫持 不合適內(nèi)容 包含站點之外 被排除的站點。
27.如權(quán)利要求沈所述的方法,其中,即使沒有插入命令也生成下滾差錯、廣告混亂差 錯、廣告欺騙差錯、廣告劫持差錯或不合適內(nèi)容差錯。
28.如權(quán)利要求1所述的方法,其進一步包括按以下方法給差錯計分 每頁面每差錯類型; 每頁面類別每差錯類型; 每站點; 每站點類別每差錯類型。
29.如權(quán)利要求1所述的方法,其中,計分是通過所有差錯類型的累積而完成的。
30.如權(quán)利要求1所述的方法,其中,廣告服務(wù)器對站點的識別是通過將站點的實際名 稱指定為特定的參數(shù)來完成的。
31.如權(quán)利要求1所述的方法,其進一步包括通過跟蹤像素而傳遞站點的實際名稱,隨 后提取所述名稱,以產(chǎn)生原始URL。
32.如權(quán)利要求1所述的方法,其中,所產(chǎn)生的報告包括以下一個或多個內(nèi)容 撕頁報告;概要報告; 進展報告。
33.一種用于從與多媒體內(nèi)容操作相關(guān)的多媒體網(wǎng)絡(luò)中提取預(yù)定義內(nèi)容的數(shù)據(jù)處理系 統(tǒng),該系統(tǒng)包含a)至少一個中介服務(wù)器,所述中介服務(wù)器包含a. 1)至少一個與所述中介服務(wù)器操作相關(guān)的網(wǎng)絡(luò)爬蟲;a. 2)至少一個與所述中介服務(wù)器操作相關(guān)的視覺內(nèi)容數(shù)據(jù)庫,該視覺內(nèi)容數(shù)據(jù)庫包含 與至少一個廣告主相關(guān)的視覺內(nèi)容;其中,所述的中介服務(wù)器被設(shè)置為用來從所述數(shù)據(jù)庫接收與廣告主相關(guān)的指示,并指 示至少一個爬蟲在所述多媒體網(wǎng)絡(luò)上應(yīng)用預(yù)定義視覺內(nèi)容的視覺內(nèi)容提取過程。
34.一種用于監(jiān)控、驗證和審計與多媒體內(nèi)容操作相關(guān)的多媒體網(wǎng)絡(luò)廣告的數(shù)據(jù)處理 系統(tǒng),該數(shù)據(jù)處理系統(tǒng)包含a)至少一個中介服務(wù)器;b)至少一個與所述中介服務(wù)器操作相關(guān)的廣告數(shù)據(jù)庫,該廣告數(shù)據(jù)庫包含與至少一個 廣告主和相應(yīng)廣告活動相關(guān)的視覺內(nèi)容,并能從多媒體網(wǎng)絡(luò)中提取出的視覺內(nèi)容;其中,所述的中介服務(wù)器被設(shè)置為用來從所述數(shù)據(jù)庫接收與廣告主相關(guān)的視覺內(nèi)容以 及相應(yīng)的廣告計劃,并在考慮到在相應(yīng)多媒體網(wǎng)絡(luò)上的視覺內(nèi)容排布之基礎(chǔ)上,而在多媒 體網(wǎng)絡(luò)上應(yīng)用廣告活動預(yù)定義的監(jiān)控、驗證和審計過程;以及其中, 所述的中介服務(wù)器進一步被設(shè)置為用來提供驗證和監(jiān)控報告。
全文摘要
本發(fā)明提供了一種用于自動監(jiān)控和驗證在廣告計劃期間經(jīng)由數(shù)據(jù)網(wǎng)絡(luò)傳遞的廣告內(nèi)容。根據(jù)本發(fā)明,一個或多個廣告主經(jīng)由用戶界面提交站點清單或每一站點提交區(qū)段清單(可手動生成或通過映射爬蟲程序生成),在站點或區(qū)段上,廣告內(nèi)容根據(jù)期望的插入命令進行排布(插入命令信息可在任何時間點被改變)。另外,激活一個或多個映射爬蟲程序,以訪問所述站點,定位屬于所要求的區(qū)段的具有廣告的頁面、不屬于所要求的區(qū)段的頁面或者具有高差錯概率的頁面。根據(jù)預(yù)定的站點訪問計劃,每個站點生成要訪問的頁面清單,并允許獨立的或插件視覺爬蟲訪問該頁面清單。爬蟲管理器在視覺爬蟲之間分配頁面,用于獲得所要求的足夠的差錯覆蓋率和在視覺爬蟲上的負載。差錯識別器將插入命令與傳遞數(shù)據(jù)比較,每當插入命令與其相應(yīng)的傳遞數(shù)據(jù)不匹配時,即生成差錯報告。
文檔編號G06Q30/00GK102084388SQ200980123803
公開日2011年6月1日 申請日期2009年6月23日 優(yōu)先權(quán)日2008年6月23日
發(fā)明者亞歷克斯·利瓦倫特, 奧林·內(nèi)策 申請人:雙重驗證有限公司