用于跨站點數據分析的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種用于配電管理的方法和系統(tǒng)。例如,提供一種跨站點數據分析方法,該方法包括:基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作標識所述第一站點與所述第二站點的至少一個動作關聯特征,該初始用戶集中的用戶是第一站點和第二站點的成員;以及基于至少一個動作關聯特征確定在第一站點中注冊的第一用戶名與在第二站點中注冊的第二用戶名是否屬于同一用戶。根據本發(fā)明的實施例,可以有效地判別不同站點中的相同的用戶,即使他們的用戶名不同。由此,可以通過在站點之間共享信息而向用戶提供定制的信息服務。
【專利說明】用于跨站點數據分析的方法和系統(tǒng)
【技術領域】
[0001]本發(fā)明總體上涉及數據分析領域,并且更具體地,涉及用于跨站點的數據分析的方法和系統(tǒng)。
【背景技術】
[0002]目前網絡已經成為了人們日常訪問、瀏覽、存儲和交換信息的常用媒介。從終端用戶的角度看,可以通過網絡上的站點(或簡稱“網站”)與網絡信息進行交互。隨著網絡技術的發(fā)展,越來越多的站點能夠利用數據分析之類的技術挖掘和學習用戶的特性,例如交互習慣、偏好、興趣等等,并且在此基礎上為用戶提供個性化的和/或定制的信息服務。例如,視頻服務網站能夠根據用戶以往的瀏覽歷史和交互行為推斷用戶潛在地對哪類信息比較感興趣,并且將與此類信息有關的視頻剪輯以醒目的方式推薦或者顯示給用戶。
[0003]然而,不同的站點甚至同一站點的不同欄目可能采用各自不同的算法和機制執(zhí)行關于用戶的數據分析,這不利于改善用戶體驗和操作效率。具體而言,假設一個站點通過對用戶一段時間的分析和學習已經積累了關于該用戶的知識并且可以由此提供定制信息服務。然而,當該用戶訪問另一站點時,在先前站點積累的用戶知識無法被當前站點利用,甚至當這兩個站點由同一供應商運營時也可能如此。因此,該用戶在新站點交互時無法直接獲得定制的個性化服務,而是必須等待該站點從頭開始利用數據分析來學習用戶的特性。
[0004]解決上述問題的一個可行途徑是借助于用戶在不同站點的用戶名。可以理解,很多站點在允許用戶使用該站點的功能之前要求用戶進行注冊成為該站點的成員。用戶在站點的用戶名通常是由用戶選擇的,例如由字母、數字和某些特定符號組成?,F有技術解決方案通?;谌缦录僭O:如果兩個站點存在相同的用戶名,則認為該用戶名對應的是同一個用戶。相應地,與該用戶名相關聯的用戶知識和分析結果可以在這兩個站點之間共享。
[0005]但是,同一用戶在不同的站點可能具有不同的用戶名。首先,由不同供應商運營的站點的用戶命名機制通常是彼此隔離的。不同的站點供應商可能采用不同的用戶名注冊機制。而且,用戶可能出于其他多種原因而在不同的站點采用不同的用戶名,例如用戶名被其他用戶搶先注冊、主觀愿望,等等。因此,僅僅依靠完全相同的用戶名來執(zhí)行跨站點數據分析在可靠性和穩(wěn)定性方面均存在缺陷。
【發(fā)明內容】
[0006]鑒于現有技術中存在的上述問題以及其他潛在問題,本領域中需要一種改進的跨站點數據分析解決方案。為此,本發(fā)明提供一種用于跨站點數據分析的方法和系統(tǒng)。
[0007]在本發(fā)明的一個方面,提供一種跨站點數據分析方法。該方法包括:基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作標識所述第一站點與所述第二站點的至少一個動作關聯特征,所述初始用戶集中的用戶是所述第一站點和所述第二站點的成員;以及基于所述至少一個動作關聯特征確定在所述第一站點中注冊的第一用戶名與在所述第二站點中注冊的第二用戶名是否屬于同一用戶。[0008]在本發(fā)明的另一方面,提供一種跨站點數據分析系統(tǒng)。該系統(tǒng)包括:特征標識單元,被配置為基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作標識所述第一站點與所述第二站點的至少一個動作關聯特征,所述初始用戶集中的用戶是所述第一站點和所述第二站點的成員;以及用戶判別單元,被配置為基于所述至少一個動作關聯特征確定在所述第一站點中注冊的第一用戶名與在所述第二站點中注冊的第二用戶名是否屬于同一用戶。
[0009]通過下文描述將會清楚,根據本發(fā)明的實施例,能夠有效地發(fā)現不同網站之間的潛在相同用戶,從而實現跨網絡的信息共享和互動。。
【專利附圖】
【附圖說明】
[0010]通過結合附圖對本公開示例性實施方式進行更詳細的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標號通常代表相同部件:
[0011]圖1示出了適于用來實現本發(fā)明實施方式的示例性計算機系統(tǒng)/服務器12的框圖;
[0012]圖2示出了根據本發(fā)明一個示例性實施例的跨站點數據分析方法200的流程圖;
[0013]圖3示出了根據本發(fā)明一個示例性實施例的跨站點數據分析方法300的流程圖;以及
[0014]圖4示出了根據本發(fā)明一個示例性實施例的跨站點數據分析系統(tǒng)400的框圖。【具體實施方式】
[0015]下面將參照附圖更詳細地描述本公開的優(yōu)選實施方式。雖然附圖中顯示了本公開的優(yōu)選實施方式,然而應該理解,可以以各種形式實現本公開而不應被這里闡述的實施方式所限制。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠將本公開的范圍完整地傳達給本領域的技術人員。
[0016]所屬【技術領域】的技術人員知道,本發(fā)明可以實現為系統(tǒng)、方法或計算機程序產品。因此,本公開可以具體實現為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實施例中,本發(fā)明還可以實現為在一個或多個計算機可讀介質中的計算機程序產品的形式,該計算機可讀介質中包含計算機可讀的程序代碼。
[0017]可以采用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是-但不限于-電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用。
[0018]計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以采用多種形式,包括-但不限于-電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用的程序。
[0019]計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括-但不限于-無線、電線、光纜、RF等等,或者上述的任意合適的組合。
[0020]可以以一種或多種程序設計語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計算機程序代碼,所述程序設計語言包括面向對象的程序設計語言-諸如Java、Smalltalk、C++,還包括常規(guī)的過程式程序設計語言-諸如“C”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務器上執(zhí)行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網絡-包括局域網(LAN)或廣域網(WAN)-連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網服務提供商來通過因特網連接)。
[0021]下面將參照本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機程序產品的流程圖和/或框圖描述本發(fā)明。應當理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機程序指令實現。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數據處理裝置的處理器,從而生產出一種機器,這些計算機程序指令通過計算機或其它可編程數據處理裝置執(zhí)行,產生了實現流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。
[0022]也可以把這些計算機程序指令存儲在能使得計算機或其它可編程數據處理裝置以特定方式工作的計算機可讀介質中,這樣,存儲在計算機可讀介質中的指令就產生出一個包括實現流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instructionmeans)的制造品(manufacture)。
[0023]也可以把計算機程序指令加載到計算機、其它可編程數據處理裝置、或其它設備上,使得在計算機、其它可編程數據處理裝置或其它設備上執(zhí)行一系列操作步驟,以產生計算機實現的過程,從而使得在計算機或其它可編程裝置上執(zhí)行的指令能夠提供實現流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
[0024]下面參考附圖詳細描述根據本發(fā)明的示例性實施例。圖1示出了適于用來實現本發(fā)明實施方式的示例性計算機系統(tǒng)/服務器12的框圖。圖1顯示的計算機系統(tǒng)/服務器12僅僅是一個示例,不應對本發(fā)明實施例的功能和使用范圍帶來任何限制。
[0025]如圖1所示,計算機系統(tǒng)/服務器12以通用計算設備的形式表現。計算機系統(tǒng)/服務器12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
[0026]總線18表示幾類總線結構中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結構中的任意總線結構的局域總線。舉例來說,這些體系結構包括但不限于工業(yè)標準體系結構(ISA)總線,微通道體系結構(MAC)總線,增強型ISA總線、視頻電子標準協會(VESA)局域總線以及外圍組件互連(PCI)總線。
[0027]計算機系統(tǒng)/服務器12典型地包括多種計算機系統(tǒng)可讀介質。這些介質可以是任何能夠被計算機系統(tǒng)/服務器12訪問的可用介質,包括易失性和非易失性介質,可移動的和不可移動的介質。
[0028]系統(tǒng)存儲器28可以包括易失性存儲器形式的計算機系統(tǒng)可讀介質,例如隨機存取存儲器(RAM) 30和/或高速緩存存儲器32。計算機系統(tǒng)/服務器12可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統(tǒng)存儲介質。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(圖1未顯示,通常稱為“硬盤驅動器”)。盡管圖1中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅動器,以及對可移動非易失性光盤(例如⑶-ROM,DVD-ROM或者其它光介質)讀寫的光盤驅動器。在這些情況下,每個驅動器可以通過一個或者多個數據介質接口與總線18相連。存儲器28可以包括至少一個程序產品,該程序產品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。
[0029]具有一組(至少一個)程序模塊42的程序/實用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括-但不限于-操作系統(tǒng)、一個或者多個應用程序、其它程序模塊以及程序數據,這些示例中的每一個或某種組合中可能包括網絡環(huán)境的實現。程序模塊42通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。
[0030]計算機系統(tǒng)/服務器12也可以與一個或多個外部設備14(例如鍵盤、指向設備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計算機系統(tǒng)/服務器12交互的設備通信,和/或與使得該計算機系統(tǒng)/服務器12能與一個或多個其它計算設備進行通信的任何設備(例如網卡,調制解調器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進行。并且,計算機系統(tǒng)/服務器12還可以通過網絡適配器20與一個或者多個網絡(例如局域網(LAN),廣域網(WAN)和/或公共網絡,例如因特網)通信。如圖所示,網絡適配器20通過總線18與計算機系統(tǒng)/服務器12的其它模塊通信。應當明白,盡管圖中未示出,可以結合計算機系統(tǒng)/服務器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅動器、冗余處理單元、外部磁盤驅動陣列、RAID系統(tǒng)、磁帶驅動器以及數據備份存儲系統(tǒng)等。
[0031]附圖中的流程圖和框圖顯示了根據本發(fā)明的多個實施例的系統(tǒng)、方法和計算機程序產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個連續(xù)的方框實際上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現,或者可以用專用硬件與計算機指令的組合來實現。
[0032]下面參考圖2,其示出了根據本發(fā)明一個示例性實施例的跨站點數據分析方法200的流程圖。請注意,在此使用的術語“跨站點”可以表示跨不同的站點,也可以表示跨同一站點的不同欄目。相應地,下文描述中提及的“第一站點”和“第二站點”可以寬泛地解釋為不同的站點或者相同站點的不同欄目。
[0033]方法200開始之后,在步驟S201,基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作,標識第一站點與所述第二站點的至少一個動作關聯特征。
[0034]根據本發(fā)明的實施例,初始用戶集是由這樣的用戶組成的用戶集組,這些用戶在第一站點和第二站點中均是合法成員。換言之,每個用戶在第一站點和第二站點都具有用戶名。根據本發(fā)明的實施例,存在多種可行的方式來確定初始用戶集。可以理解,這里所說的“成員”可以是已注冊的長期有效成員,也可以是僅在受限的時間內可以執(zhí)行動作和/或具有受限的動作權限的臨時性成員。
[0035]例如,根據本發(fā)明的某些實施例,可以認為第一站點和第二站點中的相同用戶名屬于同一用戶。由此,在第一站點和第二站點據有些相同用戶名的用戶可以被選入初始用戶集。也即,初始用戶集中的至少一個用戶可以在第一站點和第二站點中具有相同的用戶名。具體而言,如果第一站點中存在用戶名“AliceOl”,并且第二站點中也存在用戶名“AliceOl”,則認為分別與不同站點相關聯的這兩個用戶名屬于同一用戶。又如,如果兩個站點中的用戶名足夠相似,則也可以認為屬于同一用戶。
[0036]備選地或附加地,根據本發(fā)明的某些實施例,可以通過人工的方式確定在步驟S201中考慮的至少一個用戶。具體而言,可以例如通過調查問卷等方式請一個或多個用戶指出其是否已向第一站點和第二站點二者注冊,并且指出其在兩個站點中各自的用戶名。以此方式,同樣可以確定初始用戶集。
[0037]上文描述的僅僅是確定初始用戶集的示例性方法,任何其他備選的或附加的方法均是可行的。
[0038]在步驟S201,對于初始用戶集中的至少一個用戶,可以獲取和存儲他/她在第一站點和第二站點上的動作。這些動作包括下列各項中的至少一項:在站點上對各種信息進行發(fā)布、瀏覽、交互、刪除、引用等等。關于這些動作的信息可以被存儲在任何適當的存儲介質中以供后用。所存儲的信息可以包括下列各項中的至少一項:對動作的描述、動作的類型、動作所操縱的內容或其索引、動作發(fā)生的時間,等等。
[0039]根據這些動作,可以標識或者說挖掘出同一用戶在第一站點與第二站點之間的動作關聯特征。在此所使用的術語“動作關聯特征”是一種統(tǒng)計特征,用于指示相同的用戶在第一站點和第二站點執(zhí)行的動作之間的規(guī)律性的內在聯系??梢岳斫?,在此假設相同用戶在不同站點之間的動作往往是具有某種內在關聯性的。實踐已證明了這個假設的合理性。
[0040]例如,如果發(fā)現初始用戶集中超過預定比例或者數目的用戶在第一站點上執(zhí)行一個特定動作(記為第一動作)之后,將在給定的時段T內在第二站點上執(zhí)行另一特定的動作(記為第二動作),則可以認為這種動作關聯是帶有規(guī)律性的,并且創(chuàng)建相應的動作關聯特征??紤]一個更具體的示例,假設第一站點是視頻服務站點并且第二站點是微博服務站點。如果發(fā)現初始用戶集中超過預定比例或者數目的用戶在第一站點上發(fā)布一段視頻剪輯之后,都會在例如15分鐘內在第二站點上發(fā)布引用該視頻剪輯的微博,則認為這是同一用戶在第一站點和第二站點上操作時的規(guī)律性特征。相應地,可以在動作關聯特征中指明這一規(guī)律。這僅僅是一個示例,下文還將結合圖2描述這方面的更多示例。
[0041]接下來,方法200進行到步驟S202,在此基于在步驟S201中標識的至少一個動作關聯特征,確定在第一站點中注冊的第一用戶名與在第二站點中注冊的第二用戶名是否屬于同一用戶。
[0042]如上文所述,動作關聯特征指示同一用戶在第一站點和第二站點上操作時的規(guī)律性特征。由此,通過判斷由第一用戶名所對應的用戶在第一站點中執(zhí)行的動作和由第二用戶名所對應的用戶在第二站點中執(zhí)行的動作是否符合或具有一個或多個這樣的動作關聯特征,可以確定第一站點中注冊的第一用戶名和第二站點中注冊的第二用戶名是否屬于同一用戶。
[0043]仍然考慮上文示例,如果步驟S201得出的動作關聯特征指示同一用戶通常在第一站點執(zhí)行第一動作之后的時間段T內在第二站點執(zhí)行第二動作,則在步驟S202可以確定當第一用戶名所對應的用戶在第一站點執(zhí)行了第一動作(如果有的話)之后,第二用戶名所對應的用戶是否在時間段T內在第二站點中執(zhí)行了第二動作。例如,在上文所述的示例中,可以確定當第一用戶名對應的用戶在第一站點(視頻服務站點)上發(fā)布視頻剪輯后,第二用戶名對應的用戶是否在15分鐘內在第二站點上發(fā)布微博消息引用所發(fā)布的視頻剪輯。如果是,則可以相應地提高第一用戶名和第二用戶名屬于同一用戶的可能性??梢葬槍ζ渌麆幼麝P聯特征類似地操作。當第一用戶名和第二用戶名屬于同一用戶的可能性超過預定閾值時,可以認為第一用戶名和第二用戶名屬于同一用戶。
[0044]方法200在步驟S202之后結束。
[0045]通過執(zhí)行方法200,可以從初始用戶集(例如,在第一站點和第二站點具有相同用戶名的那些用戶)標識同一用戶在兩個站點之間的動作關聯特征。而后,可以利用這種具有一般性的統(tǒng)計特征來確定兩個站點中的相同用戶,即使他/她在第一站點和第二站點中的用戶名是不同的。
[0046]確定不同站點的相同用戶是有益的。例如,可以將在一個站點中已經學習和積累的關于用戶的知識與其他站點共享,從而在其他站點中為用戶提供更為準確、個性化和友好的定制信息服務。應當理解,在確定不同站點的相同用戶之后,可以通過各種方式實現跨的信息共享,本發(fā)明的范圍在此方面不受限制。
[0047]下面參考圖3,其示出了根據本發(fā)明示例性實施例的跨站點數據分析方法300的流程圖。方法300可以視為是上文參考圖2描述的方法200的一種特定實現。
[0048]方法300開始之后,在步驟S301,確定初始用戶集中的至少一個用戶在第一站點中執(zhí)行的第一動作與在第二站點中執(zhí)行的第二動作之間的時間間隔。
[0049]如上所述,初始用戶集中的用戶是第一站點和第二站點二者的用戶。特別地,根據某些實施例,初始用戶集中的至少一個用戶在第一站點和第二站點中注冊的用戶名相同。當然,其他確定初始用戶集的適當方式也是可行的。
[0050]根據某些實施例,第一動作可以是用戶在第一站點中發(fā)布內容,例如在視頻服務站點中發(fā)布視頻剪輯;第二動作可以是在第二站點中引用該用戶在第一站點中發(fā)布的內容,例如在微博服務站點中發(fā)布微博引用在視頻服務站點中發(fā)布的視頻剪輯。如上所述,在記錄第一動作和第二動作的信息時,可以記錄各個動作發(fā)生的時間(例如,時間戳)。由此,可以計算出第一動作在第一站點中的發(fā)生時間與第二動作在第二站點中的發(fā)生時間之間的時間間隔。這僅僅是示例性的,也可以統(tǒng)計其他動作之間的時間間隔。
[0051]接下來,方法300進行到步驟S302,在此基于時間間隔標識時間間隔特征作為一個動作關聯特征。根據本發(fā)明的實施例,如果對于初始用戶集中超過預定數目或者比例的用戶,上述時間間隔小于一個時間閾值,則可以認為同一用戶在第一站點中執(zhí)行第一動作和在第二站點中執(zhí)行第二動作之間存在時間間隔上的規(guī)律。由此,可以創(chuàng)建指示第一動作、第二動作以及時間間隔閾值的動作關聯特征。
[0052]接下來,方法300進行到步驟S303,在此確定至少一個用戶在第二站點中對第一站點中與該用戶相關的內容的引用數目。在本文中,內容與用戶“相關”是指該內容由該用戶發(fā)布、修改、評論、關注、操縱或以其他任何方式與該用戶發(fā)生聯系。另外,這里使用的術語“引用”指用戶在第二站點中以任何目前已知或者將來開發(fā)的方式參考或者提及第一站點中的相關內容。作為一個示例,用戶可以在微博服務站點(第二站點)發(fā)微博引用在視頻服務站點(第一站點)中與該用戶相關的視頻剪輯,例如通過指向該視頻剪輯的統(tǒng)一資源定位符(URL)。
[0053]方法300繼而在步驟S304處基于引用數目標識引用數目特征作為一個動作關聯特征。根據本發(fā)明的實施例,如果對于初始用戶集中超過預定數目或者比例的用戶,在第二站點中對第一站點中與該用戶自己相關的內容的引用數目超過預定閾值,則可以認為同一用戶通常傾向于在第二站點引用第一站點中與他/她本人有關的內容。由此,可以創(chuàng)建指示引用數目閾值的動作關聯特征。
[0054]接下來,方法300進行到步驟S305,在此確定至少一個用戶在第二站點中對第一站點中與該用戶相關的內容的引用數目與第一站點中與該用戶相關的內容總數之間的比率,即,引用比率。作為一個示例,假設一個用戶在第一站點中具有N個相關內容并且在第二站點中引用了其中的M個內容,則該用戶的引用比率是M/N。
[0055]方法300繼而在步驟S306處基于引用比率標識引用比率特征作為一個動作關聯特征。根據本發(fā)明的實施例,如果對于初始用戶集中超過預定數目或者比例的用戶,在第二站點對第一站點中與該用戶自己相關的內容的引用比率超過預定閾值,則可以認為同一用戶通常傾向于在第二站點比較頻繁地引用第一站點中與他/她有關的內容。由此,可以創(chuàng)建指示引用比率閾值的動作關聯特征。
[0056]接下來,方法300進行到步驟S307,在此確定第一站點中與至少一個用戶相關的內容與第二站點中與該用戶相關的內容之間的相似度。根據本發(fā)明的實施例,可以利用目前已知或者將來開發(fā)的任何適當手段來檢測兩個內容之間的相似度。
[0057]例如,對于文本內容而言,多種用于確定兩段文本的內容相似度的方法是已知的。例如,可以提取兩端文本內容的關鍵詞,并且確定這些關鍵詞所述的類別。兩端文本包含的屬于相同類別的關鍵詞越多,可以認為他們越發(fā)相似。備選地或附加地,也可以通過全文比較等方式來確定文本的相似性。人工或者半人工操作也可以被用于確定文本相似性。
[0058]同樣,對于音頻、視頻或者其他多媒體內容,可以通過與其關聯的摘要、索引、描述信息等文本內容來確定內容相似度。備選地或附加地,也可以采用基于內容的多媒體處理來確定兩段多媒體信息之間的相似度。這些方法在本領域中是已知的,對本發(fā)明的范圍不構成限制,并且在此不再贅述。
[0059]方法300繼而在步驟S308處基于內容相似度標識內容相似度特征作為一個動作關聯特征。根據本發(fā)明的實施例,如果對于初始用戶集中超過預定數目或者比例的用戶,第二站點和第一站點中與該用戶相關的內容的相似度超過預定閾值,則可以認為同一用戶在第一站點和第二站點中的相關內容傾向于彼此近似。由此,可以創(chuàng)建指示內容相似度閾值的動作關聯特征。
[0060]接下來,在步驟S309,基于以上一個或多個動作關聯特征來確定第一站點中的第一用戶名和第二站點中的第二用戶名是否屬于同一用戶。具體而言,如果由第一用戶名對應的用戶在第一站點中執(zhí)行的動作與第二用戶名對應的用戶在第二站點中執(zhí)行的動作具有在步驟S302、S304、S306、S308中確定的動作關聯特征中的一個或多個特征,則可以確定第一用戶名和第二用戶名屬于同一用戶。
[0061]例如,如果確定與第一用戶名相關聯的第一動作和與第二用戶名相關聯的第二動作在時間上滿足時間間隔特征,則可以相應地提高第一用戶名和第二用戶名屬于同一用戶的可能性。對于其他動作關聯特征同樣如此。當這種可能性超過預定閾值時,即可認為第一用戶名和第二用戶名屬于同一用戶。
[0062]特別地,根據本發(fā)明的某些實施例,不同的動作關聯特征可以具有不同的權重,這可以根據需要和情況靈活確定。其他計算任何定量的和/或定性的方式也是可能的。
[0063]接下來,方法300進行到可選的步驟S310。在步驟S310處,如果第一用戶名和第二用戶名被確定為屬于同一用戶,則在第一站點與第二站點之間共享與用戶有關的信息。例如,可以將第一站點中已經學習和累積的關于用戶的特性、偏好、交互習慣、興趣等各種個性化信息傳遞給第二站點,以便第二站點利用這些信息為用戶提供各種定制的信息服務。例如,第二站點可以根據這些信息為用戶推薦內容、配置個人設置、調整圖形用戶界面(GUI)的布局、遞送個性化信息(用戶消息、系統(tǒng)消息、廣告消息等),等等。本發(fā)明的范圍在此方面不受限制。
[0064]方法300在步驟S310之后結束。
[0065]應當理解,上文結合圖3描述的動作關聯特征僅僅是示例性的。例如,可以考慮其他備選的和/或附加的動作關聯特征。而且,上述動作關聯特征并非都是必須的,可以在實際中僅考慮他們中的任意一個或多個而非全部。另外還應注意,步驟S301、S303、S305和S307的執(zhí)行順序僅僅是示例性的。本領域技術人員能夠毫無疑義地理解,可以按照任何適當的順序甚至并行地確定多個動作關聯特征。相應地,上述步驟可以按照不同于圖3中所示的順序執(zhí)行,并且在某些實施例中可以并行執(zhí)行。
[0066]下面參考圖4,示出了根據本發(fā)明示例性實施例的跨站點數據分析系統(tǒng)400的框圖。如圖4所示,根據本發(fā)明的實施例,系統(tǒng)400包括特征標識單元401,被配置為基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作標識所述第一站點與所述第二站點的至少一個動作關聯特征。根據本發(fā)明的實施例,初始用戶集中的用戶是第一站點和第二站點的成員。另外,系統(tǒng)400還包括用戶判別單元402,被配置為基于所述至少一個動作關聯特征確定在所述第一站點中注冊的第一用戶名與在所述第二站點中注冊的第二用戶名是否屬于同一用戶。
[0067]根據本發(fā)明的某些實施例,特征標識單元401可以包括:時間間隔確定單元,被配置為確定所述至少一個用戶在所述第一站點中執(zhí)行的第一動作與在所述第二站點中執(zhí)行的第二動作之間的時間間隔;以及時間間隔特征標識單元,被配置為基于所述時間間隔標識時間間隔特征作為所述至少一個動作關聯特征之一。根據本發(fā)明的某些實施例,第一動作是在所述第一站點中發(fā)布內容,并且其中第二動作是在所述第二站點中引用在所述第一站點中發(fā)布的所述內容。
[0068]根據本發(fā)明的某些實施例,特征標識單元401可以包括:引用數目標識單元,被配置為確定所述至少一個用戶在所述第二站點中對所述第一站點中與所述至少一個用戶相關的內容的引用數目;以及引用數目特征標識單元,被配置為基于所述引用數目標識引用數目特征作為所述至少一個動作關聯特征之一。
[0069]根據本發(fā)明的某些實施例,特征標識單元401可以包括:引用比率確定單元,被配置為確定所述至少一個用戶在所述第二站點中對所述第一站點中與所述至少一個用戶相關的內容的引用數目與所述第一站點中與所述至少一個用戶相關的內容總數之間的比率;以及引用比率特征標識單元,被配置為基于所述比率標識引用比率特征作為所述至少一個動作關聯特征之一。
[0070]根據本發(fā)明的某些實施例,特征標識單元401可以包括:相似度確定單元,被配置為確定所述第一站點中與所述至少一個用戶相關的內容與所述第二站點中與所述至少一個用戶相關的內容之間的相似度;以及相似度特征標識單元,被配置為基于所述相似度標識內容相似度特征作為所述至少一個動作關聯特征之一。
[0071]根據本發(fā)明的某些實施例,用戶判別單元402可以包括:第一確定單元,被配置為在由所述第一用戶名對應的用戶在所述第一站點中執(zhí)行的動作與由所述第二用戶名對應的用戶在所述第二站點中執(zhí)行的動作具有所述至少一個動作關聯特征中的一個或多個特征的情況下,確定所述第一用戶名和所述第二用戶名屬于同一用戶。
[0072]根據本發(fā)明的某些實施例,系統(tǒng)400可以進一步包括:信息共享單元,被配置為在確定所述第一用戶名和所述第二用戶名屬于同一用戶的情況下,在所述第一站點與所述第二站點之間共享與所述用戶相關的信息。
[0073]根據本發(fā)明的某些實施例,初始用戶集中的至少一個用戶在所述第一站點和所述第二站點具有相同的用戶名。
[0074]為清晰起見,圖4中沒有示出系統(tǒng)400所包含的可選單元或者子單元。應當理解,系統(tǒng)400包含的各個單元或者子單元分別對應于上文參考圖2和圖3描述的方法200和300的相應步驟。由此,上文針對方法200和300描述的所有特征和操作同樣分別適用于系統(tǒng)400,故在此不再贅述。
[0075]而且,系統(tǒng)400中的單元或子單元的劃分不是限制性的而是示例性的,旨在從邏輯上描述其主要功能或操作。在圖4中所示的單個單元的功能可以由多個單元來實現。反之,在圖4中所示的多個單元亦可由單個單元來實現。本發(fā)明的范圍在此方面不受限制。
[0076]特別地,系統(tǒng)400中包含的單元可以利用各種方式來實現,包括軟件、硬件、固件或其任意組合。例如,根據本發(fā)明的某些實施例,系統(tǒng)400的各單元可以利用軟件和/或固件模塊來實現。此時,如上所述,這些軟件單元可以通過調用其他裝置或器件來實現光電轉換或電光轉換。備選地或附加地,系統(tǒng)400的單元也可以利用硬件來實現。例如,系統(tǒng)400的各單元可以實現為集成電路(IC)芯片、專用集成電路(ASIC)、現場可編程門陣列(FPGA)、片上系統(tǒng)(SOC),等等?,F在已知或者將來開發(fā)的其他方式也是可行的,本發(fā)明的范圍在此方面不受限制。
[0077]通過上文描述可以理解,根據本發(fā)明的實施例,對于網絡中的任意兩個站點,可以首先根據在這兩個站點中均是成員的用戶的動作,挖掘、學習和標識同一用戶在這兩個站點之間的常見動作關聯特征。動作關聯特征在統(tǒng)計上指明同一用戶在這兩個站點之間執(zhí)行動作的規(guī)律性內在聯系。而后,利用這種聯系,可以確定在這兩個站點中具有不同用戶名的相同用戶。確定不同站點中的相同用戶是有益的,例如可以在這些站點之間共享用戶信息,從而促進對用戶的個性化定制信息服務。
[0078]上文已經描述了本發(fā)明的各實施例,上述說明是示例性的,并非窮盡性的,并且也不限于所公開的各實施例。在不偏離所說明的各實施例的范圍和精神的情況下,對于本【技術領域】的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中技術的技術改進,或者使本【技術領域】的其它普通技術人員能理解本文公開的各實施例。
【權利要求】
1.一種跨站點數據分析方法,包括: 基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作標識所述第一站點與所述第二站點的至少一個動作關聯特征,所述初始用戶集中的用戶是所述第一站點和所述第二站點的成員;以及 基于所述至少一個動作關聯特征確定在所述第一站點中注冊的第一用戶名與在所述第二站點中注冊的第二用戶名是否屬于同一用戶。
2.根據權利要求1所述的方法,其中基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作標識所述第一站點與所述第二站點的至少一個動作關聯特征包括: 確定所述至少一個用戶在所述第一站點中執(zhí)行的第一動作與在所述第二站點中執(zhí)行的第二動作之間的時間間隔;以及 基于所述時間間隔標識時間間隔特征作為所述至少一個動作關聯特征之一。
3.根據權利要求2所述的方法,其中所述第一動作是在所述第一站點中發(fā)布內容,并且其中所述第二動作是在所述第二站點中引用在所述第一站點中發(fā)布的所述內容。
4.根據權利要求1所述的方法,其中基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作標識所述第一站點與所述第二站點的至少一個動作關聯特征包括: 確定所述至少一個用戶在所述第二站點中對所述第一站點中與所述至少一個用戶相關的內容的引用數目;以及 基于所述引用數目標識引用數目特征作為所述至少一個動作關聯特征之一。
5.根據權利要求1所述的方法,其中基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作標識所述第一站點與所述第二站點的至少一個動作關聯特征包括: 確定所述至少一個用戶在所述第二站點中對所述第一站點中與所述至少一個用戶相關的內容的引用數目與所述第一站點中與所述至少一個用戶相關的內容總數之間的比率;以及 基于所述比率標識引用比率特征作為所述至少一個動作關聯特征之一。
6.根據權利要求1所述的方法,其中基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作標識所述第一站點與所述第二站點的至少一個動作關聯特征包括: 確定所述第一站點中與所述至少一個用戶相關的內容與所述第二站點中與所述至少一個用戶相關的內容之間的相似度;以及 基于所述相似度標識內容相似度特征作為所述至少一個動作關聯特征之一。
7.根據權利要求1所述的方法,其中所述初始用戶集中的至少一個用戶在所述第一站點和所述第二站點具有相同的用戶名。
8.根據權利要求1所述的方法,進一步包括: 如果確定所述第一用戶名和所述第二用戶名屬于同一用戶,則在所述第一站點與所述第二站點之間共享與所述用戶相關的信息。
9.根據權利要求1-8任一項所述的方法,其中基于所述至少一個動作關聯特征確定在所述第一站點中注冊的第一用戶名與在所述第二站點中注冊的第二用戶名是否屬于同一用戶包括: 如果由所述第一用戶名對應的用戶在所述第一站點中執(zhí)行的動作與由所述第二用戶名對應的用戶在所述第二站點中執(zhí)行的動作具有所述至少一個動作關聯特征中的一個或多個特征,則確定所述第一用戶名和所述第二用戶名屬于同一用戶。
10.一種跨站點數據分析系統(tǒng),包括: 特征標識單元,被配置為基于初始用戶集中的至少一個用戶在第一站點和第二站點中的動作標識所述第一站點與所述第二站點的至少一個動作關聯特征,所述初始用戶集中的用戶是所述第一站點和所述第二站點的成員;以及 用戶判別單元,被配置為基于所述至少一個動作關聯特征確定在所述第一站點中注冊的第一用戶名與在所述第二站點中注冊的第二用戶名是否屬于同一用戶。
11.根據權利要求10所述的系統(tǒng),其中所述特征標識單元包括: 時間間隔確定單元,被配置為確定所述至少一個用戶在所述第一站點中執(zhí)行的第一動作與在所述第二站點中執(zhí)行的第二動作之間的時間間隔;以及 時間間隔特征標識單元,被配置為基于所述時間間隔標識時間間隔特征作為所述至少一個動作關聯特征之一。
12.根據權利要求10所述的系統(tǒng),其中所述第一動作是在所述第一站點中發(fā)布內容,并且其中所述第二動作是在所述第二站點中引用在所述第一站點中發(fā)布的所述內容。
13.根據權利要求10所述的系統(tǒng),其中所述特征標識單元包括: 引用數目標識單元,被配置為確定所述至少一個用戶在所述第二站點中對所述第一站點中與所述至少一個用戶相關的內容的引用數目;以及 引用數目特征標識單元,被配置為基于所述引用數目標識引用數目特征作為所述至少一個動作關聯特征之一。`
14.根據權利要求10所述的系統(tǒng),其中所述特征標識單元包括: 引用比率確定單元,被配置為確定所述至少一個用戶在所述第二站點中對所述第一站點中與所述至少一個用戶相關的內容的引用數目與所述第一站點中與所述至少一個用戶相關的內容總數之間的比率;以及 引用比率特征標識單元,被配置為基于所述比率標識引用比率特征作為所述至少一個動作關聯特征之一。
15.根據權利要求10所述的系統(tǒng),其中所述特征標識單元包括: 相似度確定單元,被配置為確定所述第一站點中與所述至少一個用戶相關的內容與所述第二站點中與所述至少一個用戶相關的內容之間的相似度;以及 相似度特征標識單元,被配置為基于所述相似度標識內容相似度特征作為所述至少一個動作關聯特征之一。
16.根據權利要求10所述的系統(tǒng),其中所述初始用戶集中的至少一個用戶在所述第一站點和所述第二站點具有相同的用戶名。
17.根據權利要求10所述的系統(tǒng),進一步包括: 信息共享單元,被配置為在確定所述第一用戶名和所述第二用戶名屬于同一用戶的情況下,在所述第一站點與所述第二站點之間共享與所述用戶相關的信息。
18.根據權利要求10-17任一項所述的系統(tǒng),其中所述用戶判別單元包括: 第一確定單元,被配置為在由所述第一用戶名對應的用戶在所述第一站點中執(zhí)行的動作與由所述第二用戶名對應的用戶在所述第二站點中執(zhí)行的動作具有所述至少一個動作關聯特征中的一個或多個特征的情況下,確定所述第一用戶名和所述第二用戶名屬于同一用戶。
【文檔編號】H04L29/08GK103793420SQ201210427841
【公開日】2014年5月14日 申請日期:2012年10月31日 優(yōu)先權日:2012年10月31日
【發(fā)明者】包勝華, 郭宏蕾, 郭志立, 蘇中 申請人:國際商業(yè)機器公司