層級(jí)行為簡(jiǎn)檔的制作方法
【專利摘要】在層級(jí)簡(jiǎn)檔中,每個(gè)節(jié)點(diǎn)表示關(guān)于歸檔的實(shí)體(102)的所收集(300)的行為數(shù)據(jù)的至少一個(gè)特征,其中最上面的節(jié)點(diǎn)被選擇(306)為該數(shù)據(jù)的“統(tǒng)計(jì)上最大信息量”特征。簡(jiǎn)檔可以涵蓋多種域,并且可以在每個(gè)域中都非常有預(yù)測(cè)力。多個(gè)觀察可以被一起“聚集”(316)成單個(gè)數(shù)據(jù)點(diǎn)。使用中,將該簡(jiǎn)檔的結(jié)構(gòu)同與該實(shí)體相關(guān)聯(lián)的當(dāng)前信息作比較(402),以產(chǎn)生(406)推薦或預(yù)測(cè)。如果該簡(jiǎn)檔表示至少某種數(shù)據(jù)聚集,那么基于聚集的統(tǒng)計(jì)權(quán)重,將新的觀察(500)調(diào)入(504a,504b,504c)簡(jiǎn)檔。因?yàn)樵摵?jiǎn)檔被創(chuàng)建和更新的方法,其層級(jí)結(jié)構(gòu)映射了收集的觀察。因此,隨著新的觀察被納入,如果新的觀察顯著改變(600a)了該簡(jiǎn)檔的結(jié)構(gòu),那么可以假設(shè)(602)該實(shí)體發(fā)生了某種“有趣”的事情。
【專利說明】層級(jí)行為簡(jiǎn)檔
【技術(shù)領(lǐng)域】
[0001]本發(fā)明總體上涉及個(gè)人計(jì)算機(jī),并且更具體地,涉及歸檔(profile)計(jì)算機(jī)用戶的行為。
【背景技術(shù)】
[0002]隨著個(gè)人通信設(shè)備(例如,小區(qū)電話)被開發(fā)成支持越來越多的功能,人們使用這些功能來進(jìn)行遠(yuǎn)超過通話的操作。眾所周知,這些設(shè)備現(xiàn)在通常允許其用戶訪問網(wǎng)站、運(yùn)行基于web的應(yīng)用,以創(chuàng)建媒體文件(例如,通過使用在該設(shè)備上的相機(jī)來拍攝照片或錄制視頻),并且從遠(yuǎn)程服務(wù)器(經(jīng)由設(shè)備所支持w的web接口)來下載媒體文件。在進(jìn)行這些活動(dòng)的過程中,用戶生成關(guān)于其偏好和行為的大量信息。該信息中的一些在用戶在簡(jiǎn)檔中設(shè)置偏好時(shí)被明確生成。其他信息可能是暗示的,諸如用戶運(yùn)行具體應(yīng)用的頻率。
[0003]廣告商和其他商業(yè)實(shí)體認(rèn)識(shí)到明示的和暗示的該信息有怎樣的價(jià)值。(當(dāng)然,除了商戶以外的實(shí)體收集關(guān)于除了潛在客戶之外的實(shí)體的行為信息,但是該示例很好地用于促進(jìn)本討論)。當(dāng)廣告商在“傳統(tǒng)”媒體(例如,雜志和電視)以外尋求“新媒體”(例如,線上和移動(dòng)服務(wù))以提高他們廣告活動(dòng)的有效性時(shí),這些廣告商可能想要針對(duì)具體用戶來個(gè)性化消息。如果個(gè)性化基于關(guān)于該用戶喜好和厭惡的真實(shí)信息,那么至少在理論上,與對(duì)每個(gè)人廣播的傳統(tǒng)一般消息相比,該個(gè)性化消息對(duì)于用戶更有意義。例如,零售商可以將消息引導(dǎo)到活躍地搜索關(guān)于與該零售商所銷售的類似的商品的信息的用戶。這允許零售商挖掘準(zhǔn)備購買的人的需要,而不是如傳統(tǒng)方式中的盲目地向僅僅觀看電視或閱讀印刷媒體的人發(fā)送廣告。
[0004]已經(jīng)開發(fā)的若干技術(shù)來收集客戶信息。例如,web瀏覽器通常追蹤個(gè)人的搜索,并且將搜索請(qǐng)求報(bào)告給可以提供該人正在搜索的產(chǎn)品的商戶。通常的經(jīng)驗(yàn)是,在網(wǎng)頁上搜索例如“吹雪機(jī)”時(shí),并且然后在初始搜索之后僅幾秒就看到關(guān)于吹雪機(jī)的彈出廣告。購買習(xí)慣也在本地雜貨鋪的結(jié)賬通道中被追蹤,并且該信息用于將非常特定的優(yōu)惠券與其收據(jù)一起提供給該客戶。收集的信息被不斷地饋送到商戶,使得這些商戶能夠細(xì)化他們的產(chǎn)品、定位潛在的未來市場(chǎng)、將廣告引導(dǎo)到可能的候選人、管理庫存等。
[0005]在收集到關(guān)于特定人的信息時(shí),創(chuàng)建該人的“簡(jiǎn)檔”。從商業(yè)實(shí)體的角度,虧送到個(gè)人簡(jiǎn)檔的信息越多,則該信息的特定性越高、越好。為了更好地制定激勵(lì),流送電影的提供商可能想要知道特定的人喜歡看西部片,但是也想要知道該人僅在其小孩已經(jīng)入睡后的工作日的晚9點(diǎn)后觀看西部片。
[0006]該示例開始暗示可能用于被收集到個(gè)人簡(jiǎn)檔中的大量信息。為了控制該大量信息,仔細(xì)地創(chuàng)建個(gè)人簡(jiǎn)檔。眾所周知,每個(gè)信息樣本能夠被描繪為多維空間中的點(diǎn)。該空間中的維度表示數(shù)據(jù)樣本的特征(例如,在收集到該樣本時(shí)用戶在哪里?他多大?他正在做什么?他和誰在一起?)。沿著維度的位置表示該特征的值。該類型的結(jié)構(gòu)使得相對(duì)易于在多維空間中并且從那些偏好中“找出”個(gè)人的偏好,以產(chǎn)生合理準(zhǔn)確的推薦結(jié)果。
[0007]然而,該表示個(gè)人簡(jiǎn)檔的多維度方式存在問題。存在得到的簡(jiǎn)檔開始消耗大量存儲(chǔ)空間的很多可能的特征以及那些特征的很多值,產(chǎn)生了僅隨著對(duì)于具體個(gè)人收集的數(shù)據(jù)量的增加并且隨著個(gè)人簡(jiǎn)檔數(shù)目的增加而增加的成本和維護(hù)問題。而且,傳統(tǒng)的個(gè)人簡(jiǎn)檔可能僅涵蓋了人的活動(dòng)的一個(gè)域(例如,媒體消費(fèi)),使得該簡(jiǎn)檔對(duì)于該域之外的預(yù)測(cè)沒有用處。在相關(guān)的發(fā)展中,即使這些簡(jiǎn)檔可能非常大,但是從統(tǒng)計(jì)學(xué)的角度,其通常是“數(shù)量非常稀少”,因?yàn)槠淇赡軆H具有沿著任何給定維度的一些數(shù)據(jù)點(diǎn)。這嚴(yán)重限制了簡(jiǎn)檔的預(yù)測(cè)力。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的解決了上述考慮以及其他問題,通過參考本說明、附圖和權(quán)利要求可以理解本發(fā)明。本發(fā)明收集行為數(shù)據(jù),并且創(chuàng)建實(shí)體的層級(jí)簡(jiǎn)檔。該簡(jiǎn)檔可以被想成一棵松樹的形狀,其中一個(gè)節(jié)點(diǎn)在最高的偏好級(jí)別,并且在每個(gè)更低的級(jí)別處一個(gè)或多個(gè)節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)表示收集的行為數(shù)據(jù)的至少一個(gè)特征,其中最上面的節(jié)點(diǎn)被選擇為該數(shù)據(jù)的“統(tǒng)計(jì)上最大信息量”的特征。較低級(jí)別的節(jié)點(diǎn)基于其相對(duì)“信息量”來以降序排列。該層級(jí)可以被擴(kuò)展到越來越低的層,直到“涵蓋準(zhǔn)則”被滿足。例如,該準(zhǔn)則可以闡述當(dāng)特定量的收集的行為觀察被包含在該簡(jiǎn)檔中或者當(dāng)該簡(jiǎn)檔包括給定數(shù)目的偏好級(jí)別時(shí),該簡(jiǎn)檔是滿意的。
[0009]所收集的行為觀察可以包括被動(dòng)使用數(shù)據(jù)、通過該實(shí)體或通過某個(gè)其他主體明確陳述的偏好、上下文信息以及統(tǒng)計(jì)數(shù)據(jù)。收集的行為數(shù)據(jù)可以被過濾,使得得到的簡(jiǎn)檔涵蓋單個(gè)域。另一方面,通過包括盡可能多的行為觀察,可以形成涵蓋多個(gè)域并且由于所基于的大量觀察而導(dǎo)致在每個(gè)域中預(yù)測(cè)力很強(qiáng)的簡(jiǎn)檔。
[0010]簡(jiǎn)檔的實(shí)體不一定是個(gè)人??梢允且蝗喝?不管如何定義)、公司實(shí)體或甚至是由收集規(guī)則定義的數(shù)據(jù)實(shí)體(例如,一類電影)。使用本發(fā)明的數(shù)據(jù)分析技術(shù),在給定觀察數(shù)據(jù)集合的情況下,一些實(shí)施例甚至可以選擇最適當(dāng)?shù)膶?shí)體來進(jìn)行歸檔。
[0011 ] 在一些情況下,很多行為觀察可以被一起“聚集”成單個(gè)數(shù)據(jù)點(diǎn)。單個(gè)節(jié)點(diǎn)可以表示行為觀察的很多特征或統(tǒng)計(jì)聚集。聚集可能導(dǎo)致一些數(shù)據(jù)丟失,但是具有顯著減少存儲(chǔ)要求的好處。在其他情況下,保持所有的行為觀察。
[0012]在使用中,將簡(jiǎn)檔的層級(jí)結(jié)構(gòu)同與該實(shí)體相關(guān)聯(lián)的當(dāng)前上下文(或其他)信息作比較。簡(jiǎn)檔的結(jié)構(gòu)直接導(dǎo)致了在進(jìn)行推薦、預(yù)測(cè)結(jié)果或針對(duì)該實(shí)體映射行為模式中所要遵循的統(tǒng)計(jì)上最可能的過程。如上所述,如果利用來自多個(gè)域的數(shù)據(jù)創(chuàng)建了簡(jiǎn)檔,那么在給定關(guān)于該實(shí)體的這個(gè)部分的大量觀察數(shù)據(jù)以及特定動(dòng)作的一致性(通過簡(jiǎn)檔中的權(quán)重分析可證實(shí))的情況下,其在所有那些域中并且可能甚至在一些新的域中都是有用的。例如,即使不存在駕駛時(shí)對(duì)個(gè)人的音樂偏好的觀察,該簡(jiǎn)檔能夠基于在該人不駕駛時(shí)的音樂偏好以及該人駕駛時(shí)的通常所作的觀察來推薦在該人駕駛時(shí)播放的音樂。
[0013]在新的行為觀察變得可用時(shí),持續(xù)更新該簡(jiǎn)檔。如果已經(jīng)保存了所有觀察,那么可以重復(fù)初始用于創(chuàng)建簡(jiǎn)檔的該過程以對(duì)其進(jìn)行更新。更有趣的是,如果現(xiàn)有的簡(jiǎn)檔表示至少一些數(shù)據(jù)聚集(并且因此一些數(shù)據(jù)丟失),那么可以基于這些聚集的統(tǒng)計(jì)權(quán)重來將新的觀察有效地調(diào)入現(xiàn)有簡(jiǎn)檔。該新的觀察可以使得該簡(jiǎn)檔在指派至其節(jié)點(diǎn)的統(tǒng)計(jì)權(quán)重或甚至其層級(jí)的特定結(jié)構(gòu)中進(jìn)行修改。
[0014]由于創(chuàng)建和更新簡(jiǎn)檔的方式,該層級(jí)的結(jié)構(gòu)是所收集的觀察的圖。該事實(shí)可以以有趣的方式被使用:當(dāng)新的觀察被作出并且被合并到該簡(jiǎn)檔時(shí),如果新的觀察顯著改變?cè)摵?jiǎn)檔的結(jié)構(gòu),那么可以假設(shè),該實(shí)體可能發(fā)生了“有趣”的事。因此,檢測(cè)簡(jiǎn)檔的改變可以觸發(fā)諸如向該實(shí)體發(fā)送廣告或其他通知或者發(fā)起對(duì)該實(shí)體的文件的查看的動(dòng)作。例如,如果個(gè)人已經(jīng)觀察到近期購買了更多“升級(jí)”貨物,那么該人的投資經(jīng)紀(jì)人可能會(huì)呼叫該人以確認(rèn)其投資政策是否應(yīng)被重新考慮。
【專利附圖】
【附圖說明】
[0015]雖然所附的權(quán)利要求具體闡述了本發(fā)明的特征,但是可以結(jié)合附圖從下面的具體描述最好地理解本發(fā)明及其目的和優(yōu)點(diǎn),在附圖中:
[0016]圖1是可以實(shí)踐本發(fā)明的代表性環(huán)境的概況;
[0017]圖2是圖1中示出的一些設(shè)備的廣義示意圖;
[0018]圖3a和圖3b —起形成了用于創(chuàng)建實(shí)體的層級(jí)簡(jiǎn)檔的代表性方法的流程圖;
[0019]圖4a是在執(zhí)行動(dòng)作時(shí)使用層級(jí)簡(jiǎn)檔的一般方法的流程圖;
[0020]圖4b是在總是找到“完美”匹配時(shí)使用的圖4a的方法的特定示例;
[0021]圖4c是在并非總是找到“完美”匹配時(shí)使用的圖4a的方法的特定示例;
[0022]圖5是在附加行為數(shù)據(jù)變得可用時(shí)修改層級(jí)簡(jiǎn)檔的代表性方法的流程圖;
[0023]圖6是用于響應(yīng)于層級(jí)簡(jiǎn)檔的變化的代表性方法的流程圖;以及
[0024]圖7是用于合并兩個(gè)層級(jí)簡(jiǎn)檔的代表性方法的流程圖。
【具體實(shí)施方式】
[0025]轉(zhuǎn)到附圖,其中,相同附圖標(biāo)記指代相同元件,本發(fā)明被示出為在適當(dāng)?shù)沫h(huán)境中實(shí)現(xiàn)。下文的描述基于本發(fā)明的實(shí)施例,并且不應(yīng)被理解為將本發(fā)明限制為對(duì)關(guān)于此處未明確描述的可選實(shí)施例。
[0026]本發(fā)明的各方面可以在圖1的代表性通信環(huán)境100中實(shí)踐。用戶102使用其通信設(shè)備104來執(zhí)行各種任務(wù),諸如訪問網(wǎng)站106、與朋友108通信、為了工作或樂趣運(yùn)行基于web的應(yīng)用、購物和記錄健康信息。當(dāng)進(jìn)行這些活動(dòng)時(shí),用戶102生成關(guān)于他的行為、偏好、健康狀態(tài)和社交聯(lián)系的信息。該信息中的一些在用戶102在簡(jiǎn)檔中設(shè)置偏好時(shí)被明確生成。其他信息可能是暗示的,諸如用戶102運(yùn)行具體應(yīng)用或者與特定個(gè)人進(jìn)行通信的頻率。關(guān)于用戶的動(dòng)作和偏好的其他信息可以通過與除了他的通信設(shè)備104之外的設(shè)備的用戶互相作用而生成。例如,在他的車中的GPS單元可以找出并且記錄他的當(dāng)前位置和速度。用戶家中的機(jī)頂盒(或者服務(wù)機(jī)頂盒的頭端)可以記錄用戶的瀏覽選擇。
[0027]該信息對(duì)用戶102本身以及許多商業(yè)和個(gè)人實(shí)體是有意義的。例如,廣告商可能喜歡使用該信息,以使得廣告活動(dòng)與用戶102的特定需要和偏好適應(yīng)。餐館店主可能希望推薦在用戶102經(jīng)常行駛的路線附近的那些餐館。該信息還可以用于推薦音樂,以在通信設(shè)備104上對(duì)用戶102播放。
[0028]圖2示出了代表性通信設(shè)備104 (例如,移動(dòng)電話、個(gè)人數(shù)字助理、平板電腦或個(gè)人計(jì)算機(jī))或服務(wù)器106的主要內(nèi)部組件。網(wǎng)路接口 200發(fā)送和接收媒體呈現(xiàn)、相關(guān)信息和下載請(qǐng)求。處理器202控制設(shè)備104、106的操作,并且具體地,支持下文所述的如圖3至圖6所示的本發(fā)明的各方面。用戶接口 204支持與設(shè)備104、106的用戶(或管理人)的相互作用。通信設(shè)備104的典型用戶接口包括顯示器、小鍵盤和其他用戶輸入設(shè)備。該小鍵盤可以是物理的或虛擬的,涉及在觸摸屏上顯示的虛擬鍵。在下文將適當(dāng)?shù)赜懻撎囟ㄔO(shè)備對(duì)這些組件的具體使用。
[0029]圖3呈現(xiàn)了根據(jù)本發(fā)明的各方面的用于創(chuàng)建登記簡(jiǎn)檔的方法。(應(yīng)該注意的是,圖3至圖6的流程圖主要旨在支持下文討論。在一些實(shí)施例和一些情形下,在流程圖中的這些“步驟”是可選的并且可以以不同的順序執(zhí)行,如果進(jìn)行的話。)該方法在圖3a的步驟300開始,其中收集關(guān)于要?dú)w檔的實(shí)體的行為信息。
[0030]如上所述,從明確陳述的經(jīng)歷的偏好或等級(jí),幾乎任何信息都可以用于被動(dòng)使用和上下文數(shù)據(jù)、觀察和其他數(shù)據(jù)的統(tǒng)計(jì)聚合(例如人口統(tǒng)計(jì)信息)。如從下文討論顯而易見的是,所進(jìn)行的觀察和觀察的類型越多,得到的層級(jí)簡(jiǎn)檔的預(yù)測(cè)能力就越強(qiáng)。
[0031]過去,行為數(shù)據(jù)通常由上下文屬性過濾,使得得到的簡(jiǎn)檔僅反映關(guān)于觀影行為的觀察。歸檔文件技術(shù)在某些先前技術(shù)中是重要的,因?yàn)楫?dāng)面對(duì)稀疏地覆蓋非常大的上下文域的大量觀察時(shí),那些技術(shù)變得非常低效。當(dāng)該類型的過濾可以在此應(yīng)用時(shí),對(duì)于從許多上下文接受觀察這可能更加有用。得到的層級(jí)簡(jiǎn)檔的結(jié)構(gòu)有助于從許多不同的域進(jìn)行觀察的感測(cè)。
[0032]關(guān)于歸檔的“實(shí)體”的詞在本文是適當(dāng)?shù)?。為了?jiǎn)潔本公開,歸檔的實(shí)體通常被認(rèn)為是圖1的用戶102。然而,這些實(shí)體的其他類型是可能的或可能有用的。歸檔的實(shí)體可以是法人團(tuán)體、社交網(wǎng)絡(luò)或者任何可定義的一組人。歸檔的一組人可以通過共享的上下文屬性來定義(如廣告中通常使用的)。對(duì)廣告商而言,這種分組比基于單個(gè)人的簡(jiǎn)檔更有趣,因?yàn)橄鄬?duì)于關(guān)于該組的任何特定人員,關(guān)于該組的更多觀察是可用的。因此,該組(及其行為響應(yīng))的特性可以比其參與者中的任何之一的特性更精確。該實(shí)體還可以通過關(guān)于用戶、社交網(wǎng)絡(luò)、或任何可限定組的人的觀察的上下文限定子集來限制,例如,該實(shí)體可以由給定用戶構(gòu)成,因?yàn)樗麅H在工作日或僅當(dāng)他在車內(nèi)時(shí)被觀察到。
[0033]在一些實(shí)施例中,該實(shí)體通過搜索規(guī)則來定義,S卩,定義什么觀察數(shù)據(jù)適用于要被歸檔的實(shí)體的規(guī)則。因此,該實(shí)體本身可以通過數(shù)據(jù)收集處理來定義。其有用的應(yīng)用將在下文關(guān)于圖3b的步驟320來討論。
[0034]在步驟302中,在所收集的觀察識(shí)別特征?!疤卣鳌笔强梢再x值的變量。例如,“當(dāng)進(jìn)行該觀察時(shí)用戶在哪里?”的“特征”可以具有“在他的車?yán)铩钡闹?,或者更有信息量的是,“在其處于州際公路250英里的上班路上的車中”。通常,單個(gè)觀察是特征和值的集合。不同的觀察將包含不同特征和這些特征的不同值。大部分的有效歸檔的挑戰(zhàn)是,當(dāng)特征集合在不同觀察之間大幅度變化時(shí)處理觀察數(shù)據(jù)。應(yīng)當(dāng)注意,當(dāng)進(jìn)行觀察時(shí),一些觀察的“特征豐富度”受可用的傳感器的限制。例如,這對(duì)于在進(jìn)行觀察時(shí)知道例如該用戶附近的其他人的身份通常是有用的(例如,特別是在選擇要觀看的電影時(shí)),但是社交存在信息的類型可能并不總是可用的。
[0035]用于構(gòu)造中的層級(jí)簡(jiǎn)檔的“覆蓋準(zhǔn)則”可選地在步驟304中設(shè)置。這將在下文參考圖3b的步驟312來討論。
[0036]構(gòu)建簡(jiǎn)檔的層級(jí)所需要的計(jì)算分析真正開始于步驟306。對(duì)步驟302中識(shí)別的特征的觀察數(shù)據(jù)集合進(jìn)行分析,識(shí)別統(tǒng)計(jì)上最具信息量的特征。該步驟后的算數(shù)允許對(duì)于本領(lǐng)域的技術(shù)人員是已知的,但是簡(jiǎn)單的示例可以有助于說明當(dāng)前的討論。如果創(chuàng)建用于回答問題:“該用戶通常穿著連衣裙上班? ”的簡(jiǎn)檔,則該特征“頭發(fā)顏色”和“身高”可能不是非常具有信息量的。該用戶的性別將被預(yù)期是更具信息量的,該用戶的工作性質(zhì)也是。然而,為了使得結(jié)果簡(jiǎn)檔最廣泛地有用,其不會(huì)被創(chuàng)建以回答具體問題(或者甚至是具體一類的問題)。即使具有這種普遍性,已知的算數(shù)技術(shù)可用于步驟306。
[0037]使用來自步驟306的選擇特征,在步驟308中選擇特征的值。通常,選擇的特征的統(tǒng)計(jì)上最具信息量的值在此處被選擇。另一簡(jiǎn)單的示例應(yīng)當(dāng)有幫助??紤]該查詢:“什么是用戶最可能的頭發(fā)顏色?”如果選擇的特征時(shí)“國籍”,那么將期望特征“中國”、“日本”、“肯尼亞”和“挪威”是回答該查詢的統(tǒng)計(jì)上最具信息量的,而“美國”和“澳大利亞”則不是(由于較之前四個(gè),后兩個(gè)國家存在極大的種族混合)。
[0038]在統(tǒng)計(jì)上最重要的特征和該特征的值被選擇的情況下,在步驟310中創(chuàng)建層級(jí)簡(jiǎn)檔的第一偏好級(jí)別。圖3的過程的重要性開始至少部分地被看到。(這在使用完整的簡(jiǎn)檔時(shí)在圖4和圖6的的討論中變得更清楚)。雖然在上文的討論中使用了具體的查詢以澄清一些概念,但是在創(chuàng)建該層級(jí)時(shí)不使用這些查詢。即,層級(jí)不反映將被引導(dǎo)到得到的簡(jiǎn)檔的查詢的預(yù)先假設(shè);相反,層級(jí)反映了觀察數(shù)據(jù)集合本身的深層次方面。因此,得到的簡(jiǎn)檔捕獲了所有域中的行為觀察的首要“含義”,并且因此在回答來自任何域或關(guān)于跨域的查詢中是有用的。而且,通過將簡(jiǎn)檔的層級(jí)結(jié)構(gòu)“根植”有統(tǒng)計(jì)上最具信息的特征,可以快速進(jìn)行針對(duì)該簡(jiǎn)檔的比較(參見下關(guān)結(jié)合圖4的討論),即使該簡(jiǎn)檔表示了大量的數(shù)目持續(xù)增加的觀察。在行為數(shù)據(jù)的“含義”在不同域中是不同的情況下(或者差異超過了統(tǒng)計(jì)閾值所允許的范圍),則域本身可以用作簡(jiǎn)檔中的其他上下文特征。以該方式,不同域中的“含義”可以根據(jù)需要在簡(jiǎn)檔中捕獲。將域信息包含簡(jiǎn)檔的處理可以在涵蓋多個(gè)域的觀察被處理或者通過來自獨(dú)立域的簡(jiǎn)檔被合并的另外處理而發(fā)生,當(dāng)包括域信息和相關(guān)特定域簡(jiǎn)檔時(shí),識(shí)別統(tǒng)計(jì)上最具信息量的特征(參見下文圖7所附的討論)。
[0039]在圖3b的步驟312中,檢查覆蓋準(zhǔn)則(如果在圖3a的步驟304中進(jìn)行了設(shè)置)。如果覆蓋準(zhǔn)則沒有被滿足,那么通過返回到圖3a的步驟306繼續(xù)該過程,以創(chuàng)建簡(jiǎn)檔的層級(jí)結(jié)構(gòu)的下一偏好級(jí)別。在步驟306指312的循環(huán)的第一次遍歷中,選擇統(tǒng)計(jì)上最具信息量的特征。現(xiàn)在,選擇下一個(gè)最具信息量的特征。通過以這種方式繼續(xù),演進(jìn)的層級(jí)開始像一棵樹,其中每個(gè)節(jié)點(diǎn)表示比位于其上的特征具有較少統(tǒng)計(jì)信息量的觀察數(shù)據(jù)集合中的特征。
[0040]越來越低的層級(jí)被添加到層級(jí)中,直到覆蓋準(zhǔn)則被滿足。一種可能的覆蓋準(zhǔn)則是直接的“繼續(xù)知道所有觀察[在圖3a的步驟300中所收集的]在層級(jí)中被表示?!?。然而,利用非常零散的數(shù)據(jù)集合,該準(zhǔn)則可能導(dǎo)致在層級(jí)中存在大量的越來越不相關(guān)(即,不是非常具有信息量)的級(jí)別。其他可能的覆蓋準(zhǔn)則是“繼續(xù)直到特定量的觀察在層級(jí)中被表示”以及“繼續(xù)直到層級(jí)具有特定數(shù)目的級(jí)別?!备鼜?fù)雜的覆蓋準(zhǔn)則在簡(jiǎn)檔增加時(shí)分析結(jié)果簡(jiǎn)檔,然后,當(dāng)期望其他級(jí)別的添加表示了在閾值之下的最終簡(jiǎn)檔的“預(yù)測(cè)力”的增益時(shí),停止該過程。當(dāng)層級(jí)沒有擴(kuò)展為表示每個(gè)單個(gè)觀察特征時(shí),其余特征可以被統(tǒng)計(jì)地聚集到該簡(jiǎn)檔。因此,該過程可以智能地執(zhí)行行為數(shù)據(jù)的失真壓縮,確保觀察數(shù)據(jù)集合的統(tǒng)計(jì)上最具信息量的特征被保持。
[0041]可選步驟314表示歸檔的用戶102可能甚至比收集到的關(guān)于他的觀察數(shù)據(jù)更具信息量。即,他能夠?qū)⑿畔⑻砑拥胶?jiǎn)檔(例如,通過在給定節(jié)點(diǎn)設(shè)置規(guī)則),這使得簡(jiǎn)檔更具預(yù)測(cè)性,但是這一點(diǎn)并未在觀察數(shù)據(jù)集合中反映。
[0042]可選步驟316表示通常將在簡(jiǎn)檔的創(chuàng)建期間應(yīng)用的多個(gè)改良(即,在步驟306至312的循環(huán)中),而不是在該過程的末尾?;趯?duì)數(shù)據(jù)的分析,簡(jiǎn)檔中的節(jié)點(diǎn)可以表示所收集的行為數(shù)據(jù)的統(tǒng)計(jì)聚集。例如,多個(gè)觀察可以被統(tǒng)計(jì)地組合,并且以簡(jiǎn)檔表示該組合,而非所有獨(dú)立觀察。這通過縮小簡(jiǎn)檔大小而使其更可用,但是可能具有某些數(shù)據(jù)損失。
[0043]而且,在步驟316,統(tǒng)計(jì)分析可以示出,數(shù)據(jù)集合的兩個(gè)特征是可比較的,并且其具有顯著的重復(fù)度。將這兩個(gè)特征組合成一個(gè)節(jié)點(diǎn)(而不是允許其保持在獨(dú)立的節(jié)點(diǎn)中)能夠增加這些特征觀察的統(tǒng)計(jì)能力,并且不使其信息在其他觀察特征中被“稀釋”。
[0044]可選步驟318強(qiáng)調(diào)了簡(jiǎn)檔可以在一個(gè)設(shè)備上創(chuàng)建,并且然后被全部或部分發(fā)送到另一設(shè)備以供使用。例如,網(wǎng)絡(luò)服務(wù)器106可以訪問由許多設(shè)備收集的行為觀察。服務(wù)器106可以具有足夠空間和處理能力,以將其收集的全部觀察包含在非常全面的層級(jí)簡(jiǎn)檔中。然后,其可以發(fā)送摘要簡(jiǎn)檔,或者為在特定域的決策或?yàn)樘囟▽?shí)體而優(yōu)化的簡(jiǎn)檔,以用于具有更受限性能的設(shè)備(例如,該用戶的通信設(shè)備104)。
[0045]在可選步驟320中,分析觀察數(shù)據(jù)集合,以試圖確定哪個(gè)實(shí)體應(yīng)被歸檔。通常,該實(shí)體被預(yù)先選擇,并且收集關(guān)于該實(shí)體的觀察。此處,觀察被收集并且統(tǒng)計(jì)分析,以觀察該數(shù)據(jù)集合是否指向在觀察中正在反映的特定實(shí)體。當(dāng)大量觀察可用時(shí),特別是包含在許多域中做出的觀察,該數(shù)據(jù)集合可以揭露迄今未知的實(shí)體。例如,全面的分析可以揭露社會(huì)群體的存在以及其中的人。在已經(jīng)提取了該群體的知識(shí)之后,可以創(chuàng)建簡(jiǎn)檔以反映該群體的具體興趣。
[0046]在已經(jīng)產(chǎn)生了層級(jí)簡(jiǎn)檔的情況下,圖4呈現(xiàn)了使用該層級(jí)簡(jiǎn)檔的代表性方法。圖4a是非常通用的,并且用于介紹一些有用的概念。圖4b和圖4c是更具體和詳細(xì)的,示出了在某些情形下能夠發(fā)生什么。
[0047]圖4a的方法始于步驟400,其中,終止準(zhǔn)則被選擇性地定義。下文討論的準(zhǔn)則與步驟404相關(guān)。
[0048]在步驟402中收集關(guān)于當(dāng)前上下文的信息。隨著行為觀察進(jìn)入簡(jiǎn)檔的創(chuàng)建,當(dāng)前上下文由特征/值對(duì)組成。例如,上下文能夠包含下文三個(gè)特征/值對(duì):(哪里?在我開著上班的車上)、(何時(shí)?星期一早晨)、(和誰?我的狗)。應(yīng)當(dāng)注意,許多其他特征和值是可能的,但是在給定的上下文條件下,該列表將通常受到可用于收集該數(shù)據(jù)的傳感器類型的限制。將當(dāng)前上下文中已知的特征和值與層級(jí)簡(jiǎn)檔作比較,從簡(jiǎn)檔的最上部偏好級(jí)別開始。(在下文圖4b和4c的討論中將考慮可能隨著簡(jiǎn)檔上下文和覆蓋范圍的變化而變化的該處理的細(xì)節(jié)。)
[0049]當(dāng)前上下文與層級(jí)簡(jiǎn)檔的比較能夠在步驟404中逐級(jí)別進(jìn)行,直到終止準(zhǔn)則被滿足。例如,該終止準(zhǔn)則可以表明該比較繼續(xù),直到當(dāng)前上下文的所有特征被滿足,或者直到它們中的某部分被匹配,或者直到達(dá)到該層級(jí)簡(jiǎn)檔中的某個(gè)級(jí)別。
[0050]在任何情形下,在給定當(dāng)前上下文中所包含的信息的條件下,一旦比較停止,在層級(jí)簡(jiǎn)檔中達(dá)到的節(jié)點(diǎn)是最具信息量的一個(gè)。基于該節(jié)點(diǎn),在步驟406中執(zhí)行動(dòng)作。該動(dòng)可以是,例如,向用戶推薦一首歌,發(fā)送消息給用戶(例如,廣告),預(yù)測(cè)該用戶可能在不久的將來執(zhí)行某個(gè)動(dòng)作,將用戶行為分類為某個(gè)動(dòng)作,或者映射該用戶行為的模式。在這些示例的某些中,基于該實(shí)體的當(dāng)前上下文與層級(jí)簡(jiǎn)檔的比較所執(zhí)行的動(dòng)作針對(duì)該實(shí)體本身。然而,在若干其他示例中,執(zhí)行的動(dòng)作根本不指向該納入簡(jiǎn)檔的實(shí)體。相反,其可以被引導(dǎo)到對(duì)于歸檔的實(shí)體感興趣的某人(例如,廣告商),或者嘗試預(yù)測(cè)大規(guī)模社交模式的某人。
[0051]圖4b呈現(xiàn)圖4a的一般方法的更具體版本。在圖4b的方法中,總能找到“完美”(或接近足夠)的匹配。(這在下文結(jié)合步驟412進(jìn)行了解釋)。該流程開始于步驟408,其中,終止準(zhǔn)則被設(shè)置。
[0052]當(dāng)前上下文與層級(jí)簡(jiǎn)檔的比較開始于步驟410。選擇上下文最具信息量的特征。上下文本身不指定其哪些特征最具信息量。相反,該信息來自簡(jiǎn)檔?;叵朐摵?jiǎn)檔自上而下創(chuàng)建,開始于收集的行為數(shù)據(jù)集合(圖3a的步驟306)的最具統(tǒng)計(jì)信息量的特征。該信息現(xiàn)在在查看當(dāng)前上下文的特征時(shí)被使用??紤]圖4a的示例,其中,當(dāng)前上下文是:(哪里?在我開車上班的車?yán)?,(何時(shí)?周一早上),(和誰?我的狗)。當(dāng)手頭任務(wù)自動(dòng)選擇并且向用戶102呈現(xiàn)媒體內(nèi)容時(shí),層級(jí)簡(jiǎn)檔的查看可以表明在當(dāng)前上下文中的三個(gè)特征中最具信息量的是“哪里?”特征。很明顯,當(dāng)用戶102正在開車時(shí),為用戶102選擇的媒體不應(yīng)當(dāng)包括電影。在步驟412中,找到匹配該“哪里? ”的層級(jí)簡(jiǎn)檔中的節(jié)點(diǎn)。應(yīng)當(dāng)注意,雖然“哪里? ”是當(dāng)前上下文的最具信息量的特征,但是不一定是該簡(jiǎn)檔的最具信息量的特征。該簡(jiǎn)檔可能,并且通常將反應(yīng)比在任何特定上下文中所含有的更多的特征。
[0053]上文將步驟412描述為找到匹配在當(dāng)前上下文中的選擇特征的節(jié)點(diǎn)。有時(shí),存在最優(yōu)匹配。在其他情況下,該匹配可能不是最優(yōu)的,但是足夠接近(例如,在設(shè)置閾值內(nèi)),以用于圖4b的方法。即使匹配的類型是不能的,那么也可以使用4c的過程。
[0054]在步驟414中檢查終止準(zhǔn)則。可以應(yīng)用上文結(jié)合圖4a的步驟所討論的相同類型的準(zhǔn)則。如果終止準(zhǔn)則尚未被滿足,那么該過程返回到步驟410,并且在步驟412中選擇的節(jié)點(diǎn)之下審查層級(jí)簡(jiǎn)檔,直到找到用于當(dāng)前上下文的下一個(gè)最具信息量的特征的匹配。繼續(xù)上述示例,該“何時(shí)? ”特征可能不是那么具有信息量(用戶的品味不取決一天中的時(shí)間),但是“和誰?”特征可能是。層級(jí)簡(jiǎn)檔的結(jié)構(gòu)示出了,當(dāng)用戶102將受到任何節(jié)目的時(shí)候,該用戶的狗是聲名狼藉的藍(lán)調(diào)獵犬,并且不能忍受隨便收聽的廣播。匹配“和誰? ”特征的節(jié)點(diǎn)在該簡(jiǎn)檔中找到。
[0055]在該示例中,因?yàn)楫?dāng)前上下文的所有三個(gè)特征已經(jīng)被考慮(在簡(jiǎn)檔中兩個(gè)被匹配,并且“何時(shí)? ”由于無信息量而被忽略),所以終止準(zhǔn)則現(xiàn)在被滿足。該流程移動(dòng)至步驟416。
[0056]在步驟416中,基于在簡(jiǎn)檔中的最后匹配節(jié)點(diǎn)來執(zhí)行動(dòng)作(如在圖4a的步驟406中)。在該示例中,汽車的立體聲開始播放Bessie Smith的“Downhearted Blues(TM) ”。
[0057]圖4c是圖4a中所示一般方法的另一具體示例。該圖呈現(xiàn)了當(dāng)無法找到“完美”匹配時(shí)可能采取的可能動(dòng)作。
[0058]同圖4a和4b的方法開始一樣,通過在步驟418中選擇性的設(shè)置終止條件,圖4c的方法開始。在步驟420中,如在圖4b的方法中,當(dāng)前上下文的最具信息量的特征與層級(jí)簡(jiǎn)檔中的節(jié)點(diǎn)一一進(jìn)行匹配。這以循環(huán)方式繼續(xù),直到當(dāng)前上下文的特征被認(rèn)為不能找到與之的“完美”匹配。(如果在步驟420直到終止準(zhǔn)則被滿足時(shí)找到完美匹配,那么,在這中具體情形下,圖4c的方法與圖4b的方法相同)。
[0059]當(dāng)目前正在考慮文本特征和在層級(jí)簡(jiǎn)檔中的最接近節(jié)點(diǎn)之間的距離大于上文結(jié)合圖4b的步驟412所討論的閾值時(shí),進(jìn)入步驟422。在該點(diǎn),若干動(dòng)作是可能的。在第一示例中,最接近當(dāng)前正在考慮的文本特征的簡(jiǎn)檔中的節(jié)點(diǎn)被選擇。該動(dòng)作的問題是,發(fā)現(xiàn)最近的節(jié)點(diǎn)可能需要點(diǎn)兒時(shí)間。在第二示例中,選擇簡(jiǎn)檔中被發(fā)現(xiàn)處于當(dāng)前正在考慮的上下文特征第二閾值內(nèi)的第一節(jié)點(diǎn)。雖然這個(gè)可能不是最近的可能匹配,但是可以發(fā)現(xiàn)其比最近的可能匹配更快。
[0060]在步驟422要采取的第三個(gè)可能動(dòng)作中,在層級(jí)簡(jiǎn)檔中找到節(jié)點(diǎn)的組合,其一起接近于當(dāng)前正在考慮的上下文特征。簡(jiǎn)檔的結(jié)構(gòu)使得直接找到這樣的節(jié)點(diǎn)組合。
[0061]無論在步驟422應(yīng)用哪個(gè)“次優(yōu)”動(dòng)作,在步驟424中使用“次優(yōu)”匹配,以執(zhí)行某個(gè)動(dòng)作,如在圖4a和4b的兩個(gè)先前示例中一樣。
[0062]在一些實(shí)施例中,“次優(yōu)”匹配的使用能夠觸發(fā)對(duì)層級(jí)簡(jiǎn)檔的創(chuàng)建者或用戶的其他動(dòng)作。經(jīng)驗(yàn)豐富的用戶可能被賦予置信度分?jǐn)?shù),其測(cè)量在當(dāng)前上下文與層級(jí)簡(jiǎn)檔不完美匹配的條件下在步驟424中采取的動(dòng)作是正確的確定性級(jí)別。通過收集其他行為信息以加強(qiáng)簡(jiǎn)檔,簡(jiǎn)檔的創(chuàng)建者能夠?qū)υ摗按蝺?yōu)”匹配條件進(jìn)行響應(yīng),并且可能防止未來使用“次優(yōu)”匹配的需要。
[0063]注意,在實(shí)際實(shí)施例中,圖4a、4b和4c的方法能夠全部以單個(gè)、復(fù)雜的流程來執(zhí)行。為了便于討論,這些方法被分離。
[0064]還應(yīng)當(dāng)注意,構(gòu)建的層級(jí)簡(jiǎn)檔可以通過不需要遍歷層級(jí)另外方式來使用。例如,除了與上下文匹配之外,簡(jiǎn)檔中的信息可以用于檢索對(duì)于給定特征的用于實(shí)體的值。本領(lǐng)域的技術(shù)人員將承認(rèn)的是,對(duì)于特征特定的訪問,遍歷簡(jiǎn)檔僅是訪問特征值的一種選擇。諸如創(chuàng)建對(duì)于簡(jiǎn)檔的另外索引的其他技術(shù)是眾所熟知的,并且對(duì)于實(shí)體需要用于單一特征的值時(shí),能夠提供快速訪問。
[0065]層級(jí)簡(jiǎn)檔一旦通過圖3的方法生成,通常不會(huì)保持靜止。隨著更多觀察變得可用,其可以用于更新層級(jí)簡(jiǎn)檔。圖5呈現(xiàn)了用于這樣做的方法。
[0066]該方法始于步驟500,此時(shí),更多的觀察被收集。這些可以是具有與首先生成層級(jí)簡(jiǎn)檔時(shí)使用的觀察數(shù)據(jù)的類型相同(參見圖3a的討論)。還可能的是,新類型的觀察變得可用,例如,當(dāng)部署新的傳感器(硬件或軟件)時(shí)或者當(dāng)用戶102開始使用新的應(yīng)用或訪問新的網(wǎng)站時(shí)。
[0067]與原始觀察一樣,新的觀察包括特征/值對(duì)。這些在步驟502中被識(shí)別。
[0068]新的觀察在步驟504a中被分析并且被饋送到層級(jí)。有若干中進(jìn)行的方法。如果所有原始觀察數(shù)據(jù)已經(jīng)被保留,那么新的觀察和較舊的觀察能夠被輸入到單個(gè)數(shù)據(jù)集合。然后,然后在圖3的創(chuàng)建方法的重復(fù)過程中使用該數(shù)據(jù)集合。即,現(xiàn)有的層級(jí)簡(jiǎn)檔可以簡(jiǎn)單地被丟棄,并且然后使用迄今為止可用的所有觀察數(shù)據(jù)生成一個(gè)新的。
[0069](可能顯而易見但應(yīng)注意的是,“迄今為止可用的所有觀察數(shù)據(jù)”可能是一種委婉表達(dá)。在許多情形下,觀察是帶有時(shí)間戳的,并且最舊的觀察由于歸檔實(shí)體的年齡或改變的情況而可能不再相關(guān)而被丟棄。給定的觀察還可以由隨后的觀察取代。一些觀察在檢驗(yàn)或與其他觀察比較時(shí),發(fā)現(xiàn)是假的或誤導(dǎo)性的。因此,該短語更準(zhǔn)確的表達(dá)是“迄今為止因某種原因尚未被丟棄的所有可用觀察數(shù)據(jù)”。
[0070]在給定所有現(xiàn)存數(shù)據(jù)的情況下,該重新創(chuàng)建簡(jiǎn)檔的簡(jiǎn)單方法可能產(chǎn)生最準(zhǔn)確的簡(jiǎn)檔,但這通常是不可行的。第一原因是,其取決于所有觀察已經(jīng)被保存的事實(shí)。在觀察數(shù)據(jù)量突然升高的情況下,保存所有的可能不可行,即使對(duì)于具有大量服務(wù)器和存儲(chǔ)庫區(qū)大型公司實(shí)體。在前文結(jié)合圖3b的步驟316的討論中,已經(jīng)提出了這種考慮。各個(gè)觀察可以在統(tǒng)計(jì)上被聚集,并且然后,各個(gè)觀察被丟棄,通常引起非常大的存儲(chǔ)量和處理能力的保存(在生成和使用層級(jí)簡(jiǎn)檔過程中)。因此,圖3a的原始觀察數(shù)據(jù)集合整體上可能無法再用于重新分析。
[0071]也可能的是,從新重新創(chuàng)建層級(jí)簡(jiǎn)檔從計(jì)算資源的角度可能是不可行的,即使所有原始數(shù)據(jù)仍然可用。重復(fù)重新創(chuàng)建簡(jiǎn)檔可能占用太多處理能力,尤其是對(duì)于具有頻繁更新的大簡(jiǎn)檔。
[0072]幸運(yùn)的是,在不被重新創(chuàng)建的情況下,層級(jí)簡(jiǎn)檔通常能夠被更新。將每個(gè)新的觀察與現(xiàn)有簡(jiǎn)檔相比較。當(dāng)在簡(jiǎn)檔中找到適當(dāng)?shù)奈恢脮r(shí),將新的觀察添加到現(xiàn)有結(jié)構(gòu)。有時(shí),這僅涉及在現(xiàn)有層級(jí)結(jié)構(gòu)的底部添加新的節(jié)點(diǎn)。有時(shí),在步驟504b的情況下,僅可以通過改變適當(dāng)節(jié)點(diǎn)的統(tǒng)計(jì)權(quán)重而包含新的觀察。如此一來,使得現(xiàn)有節(jié)點(diǎn)代表新的觀察以及其已經(jīng)代表的任何觀察,權(quán)重賦予了這些觀察的重要性。(也參見圖3b的步驟316的上述討論,其中,創(chuàng)建用于表示觀察數(shù)據(jù)的聚合的新的節(jié)點(diǎn)。
[0073]有時(shí),新的觀察不同于現(xiàn)有層級(jí)簡(jiǎn)檔所已經(jīng)代表的觀察。在這種情況下,當(dāng)將新的觀察與現(xiàn)有簡(jiǎn)檔比較時(shí),發(fā)現(xiàn)新的觀察并不容易與現(xiàn)有結(jié)構(gòu)契合。在步驟504c中,層級(jí)的結(jié)構(gòu)改變以容納新的觀察。即,現(xiàn)有的節(jié)點(diǎn)可能已經(jīng)改變了其“統(tǒng)計(jì)信息量”的排序(參見圖3a的步驟306的討論)?;谶@些觀察的總和,隨著這些節(jié)點(diǎn)被移動(dòng)到其新的位置,層級(jí)結(jié)構(gòu)被改變。現(xiàn)有的層級(jí)結(jié)構(gòu)保持了這些移動(dòng)通常能被實(shí)現(xiàn)的足夠統(tǒng)計(jì)信息,即使一些原始觀察對(duì)于重新分析不再可用時(shí)。
[0074]步驟504b和504c的上述討論導(dǎo)致有趣的可能性。如果新的觀察的添加導(dǎo)致了簡(jiǎn)檔層級(jí)結(jié)構(gòu)顯著變化,那么,關(guān)于納入簡(jiǎn)檔的實(shí)體的某些有趣事情可能已經(jīng)變化。該種可能行在圖6的方法中考慮。
[0075]方法始于步驟600a中檢測(cè)到簡(jiǎn)檔變化時(shí)。通常,當(dāng)新的觀察變得可用并且利用圖5的方法將其添加到簡(jiǎn)檔中時(shí),這種改變發(fā)生。當(dāng)舊的觀察不再相關(guān)而被刪除時(shí),步驟600a也能夠被處罰,并且刪除導(dǎo)致簡(jiǎn)檔的變化。(參見圖5的步驟504a的討論。)
[0076]步驟600b至600e列出了可以在步驟600a中檢測(cè)到的簡(jiǎn)檔的一些具體變化。這些結(jié)構(gòu)性要素在上文結(jié)合圖3進(jìn)行了討論。
[0077]檢測(cè)到的改變觸發(fā)步驟602中的動(dòng)作。根據(jù)檢測(cè)到的改變的性質(zhì)和幅度,許多可能的動(dòng)作是可用的。作為簡(jiǎn)單的示例,如果用戶102已經(jīng)開始訪問銷售吹雪機(jī)的網(wǎng)站,那么可以發(fā)送贊助商的吹雪機(jī)廣告。類似地,也可以對(duì)用戶102進(jìn)行健康推薦。檢測(cè)到的改變也可以用于更新對(duì)于該納入簡(jiǎn)檔用戶的分析。如果歸檔的實(shí)體是一大群人,那么該改變可以指示新的社會(huì)現(xiàn)象:例如,利用對(duì)大量的人做出了非常大量的觀察,一種疾病的傳播是可辨別的。
[0078]上文涉及域的討論(參見圖3的步驟310)提高了單個(gè)層級(jí)簡(jiǎn)檔能夠覆蓋超過一個(gè)域的可能性。在一些情形下,使用上文所述的技術(shù)來從所有域中收集的觀察從頭產(chǎn)生交叉域。
[0079]在其他情況下,更方便的是,首先針對(duì)該實(shí)體創(chuàng)建獨(dú)立的簡(jiǎn)檔,每個(gè)域一個(gè)簡(jiǎn)檔,并且然后,將這些獨(dú)立的簡(jiǎn)檔合并。(例如,觀察的收集可能嚴(yán)格按照域進(jìn)行,并且可以盡在獨(dú)立的簡(jiǎn)檔被產(chǎn)生之后,做出產(chǎn)生統(tǒng)一的交叉域簡(jiǎn)檔的決策。)圖7呈現(xiàn)了用于合并兩個(gè)預(yù)先存在的層級(jí)簡(jiǎn)檔的方法。在該方法中,在步驟700中選擇第一簡(jiǎn)檔的特征。(第一簡(jiǎn)檔的統(tǒng)計(jì)上最具信息量的特征當(dāng)然是根節(jié)點(diǎn),因此,從該節(jié)點(diǎn)開始通常是有意義的。然而,圖7的方法不需要該選擇。)
[0080]在步驟702中,在第二簡(jiǎn)檔中發(fā)現(xiàn)可比較的特征。在最簡(jiǎn)單的情況下,來自這兩個(gè)簡(jiǎn)檔的特征是相同的(即,他們都是“彩色偏好”)。更具體地,如果兩種特征在意義上相差少于閾值量,則這兩個(gè)特征是可比較的。總體上應(yīng)當(dāng)注意,在步驟702中,可比較的是這些特征;當(dāng)判斷可比性時(shí),不考慮這些特定的具體值。
[0081]在步驟704中,可比較特征的值被比較。在最簡(jiǎn)單的情況下,在兩個(gè)預(yù)先存在的簡(jiǎn)檔中,這些值是相同的。然后,具有其值的特征被簡(jiǎn)單地復(fù)制到正在產(chǎn)生的合并簡(jiǎn)檔中。
[0082]然而,通常,這些特征的值不必是相同的,因?yàn)閷?shí)體不需要在所有域中完全一致。如果這些值不同,但是實(shí)際上不沖突,那么在步驟706中,這些值在該特征之下被合并,并且具有其合并值的特征被添加到新的簡(jiǎn)檔中。例如,當(dāng)該特征為“色彩偏好”時(shí),在一個(gè)簡(jiǎn)檔中的值“喜歡黑色”與在另一簡(jiǎn)檔中的值“喜歡紅色”不沖突,所以可以進(jìn)行合并。
[0083]有時(shí),在獨(dú)立域中的值實(shí)際上有沖突。這實(shí)際上并不奇怪,因?yàn)橐粋€(gè)人可能在家里喜歡看電影,但僅在駕駛的時(shí)候聽音樂。當(dāng)在步驟708中發(fā)現(xiàn)沖突值時(shí),具有它們的值的兩個(gè)特征的副本被添加到新的簡(jiǎn)檔。即,對(duì)這些特征不作合并。
[0084]圖7的方法示出了如何合并來自了兩個(gè)預(yù)先存在簡(jiǎn)檔的每個(gè)的一個(gè)特征。很明顯的是可以擴(kuò)展到更多特征和更多簡(jiǎn)檔。在極限范圍內(nèi),所有預(yù)先存在的簡(jiǎn)檔的所有特征被處理,并且如果可能,被合并到新的簡(jiǎn)檔中個(gè),并且當(dāng)特征合并不可行時(shí),僅添加到新的簡(jiǎn)檔中。可以在新的簡(jiǎn)檔上設(shè)置極限,以便并非所有預(yù)先存在的簡(jiǎn)檔的所有特征均需要被檢查。
[0085]步驟710提出了重要警告。當(dāng)每個(gè)預(yù)先存在的層級(jí)簡(jiǎn)檔被假定為通過上述技術(shù)創(chuàng)建時(shí),在每個(gè)簡(jiǎn)檔中的特征根據(jù)它們是如何統(tǒng)計(jì)信息量大而被布置。該層級(jí)不需要在所有域中相同,然而:一個(gè)特征可能在一個(gè)域中信息量很大,但是在另一個(gè)中信息量很小。因此,新創(chuàng)建的簡(jiǎn)檔可能需要被重新組織,使得其層級(jí)反應(yīng)了其現(xiàn)在包含的所有信息。步驟710可以在所有各個(gè)特征已經(jīng)被合并之后執(zhí)行。在將這些特征合并的同時(shí)執(zhí)行該重新組織也是可能的。在該情況下,考慮選定特征的“信息量”,并且步驟704至708的輸入被立即置于新形成簡(jiǎn)檔的層級(jí)中的適當(dāng)位置。
[0086]在一些情況下,圖7的方法可以由上文給出的用于將新的觀察添加到現(xiàn)有簡(jiǎn)檔的方法來代替。即,如果足夠的原始觀察數(shù)據(jù)是可用的,那么第二簡(jiǎn)檔可以被視為要添加到現(xiàn)有第一簡(jiǎn)檔的一組新的觀察。(參見上文結(jié)合圖5的討論。)
[0087]鑒于本發(fā)明的原理可以應(yīng)用到許多可能實(shí)施例,應(yīng)當(dāng)承認(rèn)的是,此處結(jié)合附圖所描述的這些實(shí)施例僅是說明性的,并且不應(yīng)被視為限定本發(fā)明的范圍。例如,可以歸檔收集的關(guān)于任何類型實(shí)體的任何類型觀察。因此,此處所描述的本發(fā)明涵蓋可能在隨附的權(quán)利要求及其等效范圍內(nèi)的所有這種實(shí)施例。
【權(quán)利要求】
1.一種用于修改用于實(shí)體(102)的層級(jí)簡(jiǎn)檔的方法,所述方法包括: 由第一計(jì)算設(shè)備(104,106)收集(500)與所述實(shí)體(102)相關(guān)聯(lián)的附加行為數(shù)據(jù);以及 至少部分地基于所述附加行為數(shù)據(jù)的一部分來修改(504a,504b,504c)所述層級(jí)簡(jiǎn)檔的組織; 其中,所述簡(jiǎn)檔的所述組織至少部分地基于與所述實(shí)體(102)相關(guān)聯(lián)的先前收集的行為數(shù)據(jù)的統(tǒng)計(jì)上最大信息量特征的層級(jí)。
2.根據(jù)權(quán)利要求1所述的方法,其中,修改所述層級(jí)簡(jiǎn)檔的組織包括:將所述附加行為數(shù)據(jù)和所述先前收集的行為數(shù)據(jù)作為單個(gè)數(shù)據(jù)集合處理,所述處理包括: 由所述第一計(jì)算設(shè)備識(shí)別所述單個(gè)數(shù)據(jù)集合的多個(gè)特征; 至少部分地基于對(duì)于所述單個(gè)數(shù)據(jù)集合的至少一部分的分析,由所述第一計(jì)算設(shè)備選擇所識(shí)別的特征的第一特征,其中,所述第一特征被選擇為所分析的數(shù)據(jù)的所述統(tǒng)計(jì)上最大信息量特征; 至少部分地基于對(duì)于所述單個(gè)數(shù)據(jù)集合的至少一部分的分析,由所述第一計(jì)算設(shè)備選擇用于所選擇的第一特征的多個(gè)值;以及 由所述第一計(jì)算設(shè)備在所述簡(jiǎn)檔中創(chuàng)建第一層級(jí)偏好級(jí)別,所述第一級(jí)別至少部分地基于所選擇的第一特征以及所選擇的第一特征的所選擇的值。
3.根據(jù)權(quán)利要求2所述的方法,進(jìn)一步包括: 定義用于所述簡(jiǎn)檔的覆蓋準(zhǔn)則; 至少部分地基于對(duì)于所收集的單個(gè)數(shù)據(jù)集合的至少一部分的分析,由所述第一計(jì)算設(shè)備選擇所識(shí)別的特征的第二特征,所述第二特征不同于所述第一特征; 至少部分地基于對(duì)于所述單個(gè)數(shù)據(jù)集合的至少一部分的分析,由所述第一計(jì)算設(shè)備選擇所選擇的第二特征的多個(gè)值; 由所述第一計(jì)算設(shè)備創(chuàng)建在所述簡(jiǎn)檔中的第二層級(jí)偏好級(jí)別,所述第二級(jí)別至少部分地基于所選擇的第二特征以及所選擇的第二特征的所選擇的值;以及利用不同特征來重復(fù)所述選擇和創(chuàng)建步驟,直到滿足所述覆蓋準(zhǔn)則。
4.根據(jù)權(quán)利要求1所述的方法,其中,修改所述層級(jí)簡(jiǎn)檔的組織包括: 將所述附加行為數(shù)據(jù)的特征和值與在所述層級(jí)簡(jiǎn)檔中的節(jié)點(diǎn)作比較;以及 至少部分地基于所述比較來修改在所述層級(jí)簡(jiǎn)檔中的節(jié)點(diǎn)的統(tǒng)計(jì)權(quán)重。
5.根據(jù)權(quán)利要求1所述的方法,其中,修改所述層級(jí)簡(jiǎn)檔的組織包括: 將所述附加行為數(shù)據(jù)的特征和值與在所述層級(jí)簡(jiǎn)檔中的節(jié)點(diǎn)作比較;以及 至少部分地基于所述比較來修改所述層級(jí)簡(jiǎn)檔的結(jié)構(gòu)。
6.根據(jù)權(quán)利要求1所述的方法,其中,修改所述層級(jí)簡(jiǎn)檔的組織包括: 從所述先前收集的行為數(shù)據(jù)中選擇第一特征; 從所述附加行為數(shù)據(jù)中選擇第二特征,其中,所選擇的第一特征和第二特征是可比較的,并且其中,所述第一特征和第二特征的覆蓋的重疊程度超過閾值;以及 將所述層級(jí)簡(jiǎn)檔中的所述第一特征和第二特征替換為所述第一特征和第二特征的組合。
7.—種被配置用于修改用于實(shí)體(102)的層級(jí)簡(jiǎn)檔的第一計(jì)算設(shè)備(104,106),所述第一計(jì)算設(shè)備(104,106)包括: 收發(fā)器子系統(tǒng)(200),所述收發(fā)器子系統(tǒng)(200)被配置用于收集(500)與所述實(shí)體(102)相關(guān)聯(lián)的附加行為數(shù)據(jù);以及 處理器(202),所述處理器(202)操作地連接到所述收發(fā)器子系統(tǒng)(200),并且被配置用于: 至少部分地基于所述附加行為數(shù)據(jù)的至少一部分來修改(504a,504b, 504c)層級(jí)簡(jiǎn)檔的組織; 其中,所述簡(jiǎn)檔的 所述組織至少部分地基于與所述實(shí)體(102)相關(guān)聯(lián)的先前收集的行為數(shù)據(jù)的統(tǒng)計(jì)上最大信息量特征的層級(jí)。
8.一種用于對(duì)實(shí)體(102)的層級(jí)簡(jiǎn)檔的修改做出響應(yīng)的方法,所述方法包括: 檢測(cè)(600a,600b,600c,600d,600e)所述層級(jí)簡(jiǎn)檔已經(jīng)被修改;以及 至少部分地基于所述檢測(cè)來執(zhí)行(602)動(dòng)作; 其中,所述簡(jiǎn)檔的組織至少部分地基于與所述實(shí)體(102)相關(guān)聯(lián)的先前收集的行為數(shù)據(jù)的統(tǒng)計(jì)上最大信息量特征的層級(jí)。
9.根據(jù)權(quán)利要求8所述的方法,其中,檢測(cè)所述層級(jí)簡(jiǎn)檔已經(jīng)被修改包括檢測(cè)從由下述組成的組中選擇的元素:所述層級(jí)簡(jiǎn)檔中節(jié)點(diǎn)的統(tǒng)計(jì)權(quán)重的改變、所述層級(jí)簡(jiǎn)檔的結(jié)構(gòu)的改變、所述層級(jí)簡(jiǎn)檔中第一特征和第二特征替換為所述第一特征和第二特征的組合、以及在所述層級(jí)簡(jiǎn)檔中的特征的值的改變。
10.一種被配置用于對(duì)實(shí)體(102)的層級(jí)簡(jiǎn)檔的修改做出響應(yīng)的計(jì)算設(shè)備(104,106),所述計(jì)算設(shè)備(104,106)包括: 處理器(202),所述處理器(202)被配置用于: 檢測(cè)(600a, 600b, 600c, 600d, 600e)所述層級(jí)簡(jiǎn)檔已經(jīng)被修改;以及 至少部分地基于所述檢測(cè)來執(zhí)行(602)動(dòng)作; 其中,所述簡(jiǎn)檔的組織至少部分地基于與所述實(shí)體(102)相關(guān)聯(lián)的先前收集的行為數(shù)據(jù)的統(tǒng)計(jì)上最大信息量特征的層級(jí)。
11.一種用于通過將實(shí)體(102)的第一層級(jí)簡(jiǎn)檔與所述實(shí)體(102)的第二層級(jí)簡(jiǎn)檔合并來創(chuàng)建所述實(shí)體(102)的第三層級(jí)簡(jiǎn)檔的方法,所述第一簡(jiǎn)檔和第二簡(jiǎn)檔是不同的,所述方法包括: 由第一計(jì)算設(shè)備(104,106)選擇(700)所述第一簡(jiǎn)檔的第一特征; 由所述第一計(jì)算設(shè)備(104,106)選擇(702)所述第二簡(jiǎn)檔的第二特征,所選擇的第一特征和第二特征是可比較的; 如果所選擇的第一特征和第二特征連同所述特征的值是相同的,則將所述第一特征添加(704)到所述第三簡(jiǎn)檔; 否則,如果所選擇的第一特征和第二特征包括不沖突的值,則將所選擇的第一特征和第二特征合并(706)成單個(gè)特征,并且將合并的單個(gè)特征添加到所述第三簡(jiǎn)檔; 否則,將兩個(gè)所選擇的特征添加(708)到所述第三層級(jí)簡(jiǎn)檔;以及重新組織(710)所述第三簡(jiǎn)檔,使得所述第三簡(jiǎn)檔的組織至少部分地基于在所述第三簡(jiǎn)檔中統(tǒng)計(jì)上最大信息量特征的層級(jí); 其中,所述第一簡(jiǎn)檔的組織至少部分地基于與所述實(shí)體(102)相關(guān)聯(lián)的先前收集的行為數(shù)據(jù)的統(tǒng)計(jì)上最大信息量特征的層級(jí);并且 其中,所述第二簡(jiǎn)檔的組織至少部分地基于與所述實(shí)體(102)相關(guān)聯(lián)的先前收集的行為數(shù)據(jù)的統(tǒng) 計(jì)上最大信息量特征的層級(jí)。
【文檔編號(hào)】G06F17/30GK104081388SQ201280063664
【公開日】2014年10月1日 申請(qǐng)日期:2012年12月4日 優(yōu)先權(quán)日:2011年12月22日
【發(fā)明者】昊國華, 李建國, 保羅·C·戴維斯, 羅伯特·S·維特 申請(qǐng)人:摩托羅拉移動(dòng)有限責(zé)任公司