數(shù)據(jù)分析方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明的實施方式總體上涉及數(shù)據(jù)處理,進(jìn)一步本發(fā)明的實施方式涉及數(shù)據(jù)分析及其系統(tǒng)。本發(fā)明用于提供一種個性化的數(shù)據(jù)分析方法從而找到目標(biāo)分析項目中有區(qū)別度的特征。具體而言,本發(fā)明提供一種數(shù)據(jù)分析方法,包括:獲取樣本數(shù)據(jù),選擇所述樣本數(shù)據(jù)的判別性特征;對至少一個目標(biāo)分析項目,確定其是否具有至少一個所述判別性特征;以及響應(yīng)于具有至少一個所述判別性特征,將所述至少一個目標(biāo)分析項目與至少一個所述判別性特征相關(guān)聯(lián)。
【專利說明】數(shù)據(jù)分析方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實施方式總體上涉及數(shù)據(jù)處理,進(jìn)一步本發(fā)明的實施方式涉及數(shù)據(jù)分析及其系統(tǒng)。
【背景技術(shù)】
[0002]數(shù)據(jù)分析已經(jīng)在很多重要領(lǐng)域發(fā)揮重要作用。很多網(wǎng)絡(luò)應(yīng)用都向用戶推薦商品(包括圖書、電影等各種商品)以及推薦好友。比如在在線書店中,當(dāng)用戶購買或瀏覽圖書時,在線書店可能向用戶推薦他/她可能感興趣的圖書。再比如在在線社交網(wǎng)絡(luò)中,用戶可能被推薦好友。在線應(yīng)用往往根據(jù)用戶的個人數(shù)據(jù)和之前的網(wǎng)絡(luò)行為進(jìn)行推薦。借助于所述推薦系統(tǒng),用戶能夠容易的獲得更多的信息。但是很多推薦算法過于復(fù)雜(比如矩陣分解模型Matrix Factorization,某些基于概率的模型,基于圖的模型等)導(dǎo)致推薦應(yīng)用本身都無法解釋為何向用戶推薦某個項目而不是其它項目。此外,有些推薦系統(tǒng)即便給出推薦的理由,但是所述理由也不是個性化的,而是使用通用的理由進(jìn)行推薦,比如當(dāng)用戶瀏覽一個在線書店的書A時,該在線書店將書B推薦給用戶,其理由是購買了書A的其它用戶也購買了書B。
【發(fā)明內(nèi)容】
[0003]為了提供一種個性化的數(shù)據(jù)分析方法從而找到目標(biāo)分析項目中有區(qū)別度的特征,發(fā)明提供一種數(shù)據(jù)分析方案。
[0004]具體而言,本發(fā)明提供一種數(shù)據(jù)分析方法,包括:獲取樣本數(shù)據(jù),其中所述樣本數(shù)據(jù)包含正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù),所述正樣本數(shù)據(jù)包括用戶所偏好的項目,并且所述負(fù)樣本數(shù)據(jù)包含用戶非偏好的項目;選擇所述樣本數(shù)據(jù)的判別性特征,其中所述判別性特征包括對區(qū)分正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)中的項目具有區(qū)分度的特征;對至少一個目標(biāo)分析項目,確定其是否具有至少一個所述判別性特征;以及響應(yīng)于具有至少一個所述判別性特征,將所述至少一個目標(biāo)分析項目與至少一個所述判別性特征相關(guān)聯(lián)。
[0005]本發(fā)明還提供一種數(shù)據(jù)分析系統(tǒng),包括:獲取裝置,被配置為獲取樣本數(shù)據(jù),其中所述樣本數(shù)據(jù)包含正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù),所述正樣本數(shù)據(jù)包括用戶所偏好的項目,并且所述負(fù)樣本數(shù)據(jù)包含用戶非偏好的項目;選擇裝置,被配置為選擇所述樣本數(shù)據(jù)的判別性特征,其中所述判別性特征包括對區(qū)分正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)中的項目具有區(qū)分度的特征;確定裝置,被配置為對至少一個目標(biāo)分析項目,確定其是否具有至少一個所述判別性特征;以及關(guān)聯(lián)裝置,被配置為響應(yīng)于具有至少一個所述判別性特征,將所述至少一個目標(biāo)分析項目與至少一個所述判別性特征相關(guān)聯(lián)。
[0006]通過本發(fā)明的數(shù)據(jù)分析方案可以個性化的識別目標(biāo)分析項目中有區(qū)分度的特征,從而使得數(shù)據(jù)分析結(jié)果更加詳盡、充實。
【專利附圖】
【附圖說明】[0007]通過結(jié)合附圖對本公開示例性實施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標(biāo)號通常代表相同部件。
[0008]圖1示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算系統(tǒng)100的框圖。
[0009]圖2示出了按照本發(fā)明的一個實施例的數(shù)據(jù)分析方法的流程圖。
[0010]圖3示出了按照本發(fā)明的一個實施例的選擇判別性特征的流程圖。
[0011]圖4A示出了按照本發(fā)明的一個實施例的樣本數(shù)據(jù)示意圖。
[0012]圖4B示出了按照本發(fā)明的另一個實施例的樣本數(shù)據(jù)示意圖。
[0013]圖4C示出了按照本發(fā)明的又一個實施例的樣本數(shù)據(jù)示意圖。
[0014]圖5示出了按照本發(fā)明的一個實施例的數(shù)據(jù)分析系統(tǒng)示意圖。
[0015]圖6示出了按照本發(fā)明的一個實施例的選擇裝置的示意圖。
【具體實施方式】
[0016]下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實施方式。雖然附圖中顯示了本公開的優(yōu)選實施方式,然而應(yīng)該理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施方式所限制。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。通過結(jié)合附圖對本公開示例性實施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標(biāo)號通常代表相同部件。
[0017]圖1示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機(jī)系統(tǒng)/服務(wù)器12的框圖。
[0018]下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實施方式。雖然附圖中顯示了本公開的優(yōu)選實施方式,然而應(yīng)該理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施方式所限制。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0019]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明可以實現(xiàn)為系統(tǒng)、方法或計算機(jī)程序產(chǎn)品。因此,本公開可以具體實現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實施例中,本發(fā)明還可以實現(xiàn)為在一個或多個計算機(jī)可讀介質(zhì)中的計算機(jī)程序產(chǎn)品的形式,該計算機(jī)可讀介質(zhì)中包含計算機(jī)可讀的程序代碼。
[0020]可以采用一個或多個計算機(jī)可讀的介質(zhì)的任意組合。計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)。計算機(jī)可讀存儲介質(zhì)例如可以是一但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(DPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0021]計算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括一但不限于一電磁信號、光信號或上述的任意合適的組合。計算機(jī)可讀的信號介質(zhì)還可以是計算機(jī)可讀存儲介質(zhì)以外的任何計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0022]計算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、電線、光纜、RF等等,或者上述的任意合適的組合。
[0023]可以以一種或多種程序設(shè)計語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計算機(jī)程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言-諸如Java、Smalltalk、C++,還包括常規(guī)的過程式程序設(shè)計語言-諸如”C”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機(jī)上執(zhí)行、部分地在用戶計算機(jī)上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機(jī)上部分在遠(yuǎn)程計算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計算機(jī)的情形中,遠(yuǎn)程計算機(jī)可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)-連接到用戶計算機(jī),或者,可以連接到外部計算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
[0024]下面將參照本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機(jī)程序指令實現(xiàn)。這些計算機(jī)程序指令可以提供給通用計算機(jī)、專用計算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,這些計算機(jī)程序指令通過計算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行,產(chǎn)生了實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。
[0025]也可以把這些計算機(jī)程序指令存儲在能使得計算機(jī)或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計算機(jī)可讀介質(zhì)中,這樣,存儲在計算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出一個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instructionmDans)的制造品(manufacturD)。
[0026]也可以把計算機(jī)程序指令加載到計算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計算機(jī)、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計算機(jī)實現(xiàn)的過程,從而使得在計算機(jī)或其它可編程裝置上執(zhí)行的指令能夠提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
[0027]圖1示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖1顯示的計算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。
[0028]如圖1所示,計算機(jī)系統(tǒng)/服務(wù)器12以通用計算設(shè)備的形式表現(xiàn)。計算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
[0029]總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VDSA)局域總線以及外圍組件互連(PCI)總線。
[0030]計算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
[0031]系統(tǒng)存儲器28可以包括易失性存儲器形式的計算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲器(RAM) 30和/或高速緩存存儲器32。計算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖1未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖1中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如⑶-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。
[0032]具有一組(至少一個)程序模塊42的程序/實用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。
[0033]計算機(jī)系統(tǒng)/服務(wù)器12也可以與一個或多個外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計算機(jī)系統(tǒng)/服務(wù)器12能與一個或多個其它計算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進(jìn)行。并且,計算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、RAID系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
[0034]圖2示出了按照本發(fā)明的一個實施例的數(shù)據(jù)分析方法的流程圖。在步驟201,獲取樣本數(shù)據(jù)。在步驟203,選擇所述樣本數(shù)據(jù)的判別性特征(discriminative feature)。在步驟205,對至少一個目標(biāo)分析項目,確定其是否具有至少一個所述判別性特征。在步驟207,響應(yīng)于具有至少一個所述判別性特征,將所述至少一個目標(biāo)分析項目與至少一個所述判別性特征相關(guān)聯(lián)。在一個例子中,使用圖2所示的方法可以向用戶提供向其推薦電影的解釋。下面對圖2所示方法的各個步驟進(jìn)行詳細(xì)描述。
[0035]具體而言,在步驟201,獲取樣本數(shù)據(jù),其中所述樣本數(shù)據(jù)包含正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù),所述正樣本數(shù)據(jù)包括用戶所偏好的項目,并且所述負(fù)樣本數(shù)據(jù)包含用戶非偏好的項目。
[0036]按照本發(fā)明的一個實施例,所述用戶可能是一個用戶,從而使得本實施例可以為單一的用戶挖掘個性化的判別性特征。按照本發(fā)明的另一個實施例,所述用戶也可能是多個用戶的集合(比如一個興趣小組中的多個用戶),這樣使得本實施例可以根據(jù)用戶群的行為為用戶群挖掘個性化的判別性特征。
[0037]按照本發(fā)明的一個實施例,所述項目可以是下列各項中的至少一項:商品、其它用戶。所述商品可以是有形商品,比如在線購物商店中所銷售的商品,也可以是供下載的無形商品,比如電子圖書、電子音樂、電影等。所述其它用戶可以是用戶的好友,所述用戶的被關(guān)注者(followee),所述用戶的關(guān)注者(follower),具有共同興趣的其它用戶,在同一分組內(nèi)的其它用戶等。下文中主要以電影為例進(jìn)行說明,但本發(fā)明并不只限于對電影的數(shù)據(jù)進(jìn)行分析。
[0038]樣本數(shù)據(jù)中包含正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)可以使在后續(xù)步驟中選擇出的判別性特征具有區(qū)別度。如果僅使用正樣本數(shù)據(jù),則只有正樣本數(shù)據(jù)中的特征可能被選擇,而實際上正樣本數(shù)據(jù)中的特征實際上可能并非具有區(qū)別度。比如如果正樣本數(shù)據(jù)中包含10部電影,負(fù)樣本數(shù)據(jù)中也包含10部電影,正樣本數(shù)據(jù)以及負(fù)樣本數(shù)據(jù)中各有7部電影都是由主演Tom主演的,如果僅在樣本數(shù)據(jù)中包含正樣本數(shù)據(jù),那么按照后續(xù)介紹的步驟“主演Tom”這個特征就被選擇為判別性特征,但是實際上“主演Tom”并不具有區(qū)別度,因為“主演Tom”在正樣本中出現(xiàn)的概率與在負(fù)樣本中出現(xiàn)的概率相同。因此本實施例中的樣本數(shù)據(jù)包含正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)從而使得后續(xù)選擇出的判別性特征具有區(qū)別度。
[0039]按照本發(fā)明的一個實施例,所述正樣本數(shù)據(jù)與負(fù)樣本數(shù)據(jù)的數(shù)量相同。按照本發(fā)明的另一個實施例,所述正樣本數(shù)據(jù)與負(fù)樣本數(shù)據(jù)的數(shù)量不同。
[0040]按照本發(fā)明的一個實施例,所述步驟201獲取樣本數(shù)據(jù)進(jìn)一步包括:根據(jù)下列各項中的至少一項獲取樣本數(shù)據(jù):所述用戶的操作歷史、推薦系統(tǒng)為所述用戶產(chǎn)生的推薦結(jié)
果O
[0041]本發(fā)明對推薦系統(tǒng)不做限定,其可以是利用任何推薦算法的任何推薦系統(tǒng)。按照本發(fā)明的一個實施例,如果對推薦系統(tǒng)所推薦的結(jié)果中的項目確定判別性特征,即所述目標(biāo)分析項目來自所述推薦結(jié)果,則在樣本數(shù)據(jù)中包括推薦系統(tǒng)對所述用戶的推薦結(jié)果,對所述目標(biāo)分析項目而言,可以進(jìn)一步提高對目標(biāo)分析項目確定判別性特征的命中率,因為所述判別性特征是基于包含所述目標(biāo)分析項目的樣本數(shù)據(jù)中獲得的。更具體而言,如果在樣本數(shù)據(jù)中包含推薦結(jié)果,則所述推薦結(jié)果中的至少一個目標(biāo)分析項目包含判別性特征的概率就越大。
[0042]按照本發(fā)明的一個實施例所述推薦結(jié)果可能包含正面推薦結(jié)果和負(fù)面推薦結(jié)果。所述正面推薦結(jié)果比如可以是推薦用戶觀看的電影,所述負(fù)面推薦結(jié)果比如可以是不推薦用戶觀看的電影。在一般的網(wǎng)絡(luò)應(yīng)用中,雖然推薦系統(tǒng)只會展示正面推薦結(jié)果而不會展示負(fù)面推薦結(jié)果,但是推薦系統(tǒng)往往存儲有正面推薦結(jié)果和負(fù)面推薦結(jié)果。
[0043]按照本發(fā)明的一個實施例,所述操作歷史包括下列各項中的至少一項:所述用戶對項目的打分、所述用戶對項目的操作、所述用戶對項目的評論。其中,所述用戶對項目的打分可以采用任何度量方式,如是五分制、十分制、百分制等。以五分制為例,可以設(shè)定用戶打分為4分或5分的項目為正樣本數(shù)據(jù),并且用戶打分為I分、2分、3分的項目為負(fù)樣本數(shù)據(jù)。
[0044]所述用戶對項目的操作可以包括下列各項中的至少一項:用戶對項目的點擊、用戶對項目的瀏覽超過預(yù)訂時長、用戶對項目的預(yù)訂操作。如果用戶對項目的操作包括用戶對項目的點擊,可以將用戶點擊的項目作為正樣本數(shù)據(jù),并且將用戶所沒有點擊的項目作為負(fù)樣本數(shù)據(jù)。如果用戶對項目的操作包括用戶對項目瀏覽超過預(yù)訂時長,可以將用戶瀏覽超過預(yù)訂時長的項目作為正樣本數(shù)據(jù),并且將用戶瀏覽短于預(yù)訂時長的項目作為負(fù)樣本數(shù)據(jù)。如果用戶對項目的操作包括用戶對項目的預(yù)訂操作,例如購買操作,則可以將用戶購買的項目作為正樣本數(shù)據(jù),并且將用戶未購買的項目作為負(fù)樣本數(shù)據(jù);在另一個例子中,也可以將用戶購買的項目作為正樣本數(shù)據(jù),并且將用戶瀏覽但未購買的項目作為負(fù)樣本數(shù)據(jù),從而可以減少和精煉負(fù)樣本數(shù)據(jù)中的數(shù)量。在其它例子中,用戶對項目的預(yù)訂操作也可以是跳過操作(skip)、刪除操作等,這樣可以將用戶跳過或刪除的項目作為負(fù)樣本數(shù)據(jù)。
[0045]如果用戶對項目的操作包括所述用戶對項目的評論,則可以進(jìn)一步借助語義分析技術(shù)和情感分析技術(shù)分析用戶對項目的評論是正面評論還是負(fù)面評論,從而劃分正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)。
[0046]可選的,如果負(fù)樣本數(shù)據(jù)中的數(shù)據(jù)量過大,可以對負(fù)樣本數(shù)據(jù)的容量增加一些限制,在一種實施例中,可以隨機(jī)選取預(yù)訂數(shù)量的項目作為負(fù)樣本數(shù)據(jù)。在另一中實施例中,可以根據(jù)所述用戶對項目的打分、所述用戶對項目的操作、所述用戶對項目的評論對負(fù)樣本數(shù)據(jù)進(jìn)行篩選,從而挑選用戶最不偏好的項目作為負(fù)樣本數(shù)據(jù),從而使得負(fù)樣本數(shù)據(jù)的數(shù)據(jù)量控制在預(yù)訂閾值之內(nèi),比如如果用戶打分為I分、2分、3分的項目數(shù)過多,可以僅將用戶打分為I分的項目作為負(fù)樣本數(shù)據(jù)。
[0047]在圖2中的步驟203,選擇所述樣本數(shù)據(jù)的判別性特征,其中所述判別性特征包括對區(qū)分正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)中的項目具有區(qū)分度的特征。所述判別性特征相比于其它特征對于正負(fù)樣本的劃分起到了更加決定性的作用。比如一個用戶非常喜歡由主演Tom主演的電影,并且對沒有由主演Tom主演的電影都不喜歡,那么“主演Tom”就是一個判別性特征。
[0048]圖3示出了按照本發(fā)明的一個實施例的選擇判別性特征的流程圖。按照圖3所示的實施例,選擇所述樣本數(shù)據(jù)的判別性特征進(jìn)一步包括:確定所述樣本數(shù)據(jù)中的待選特征(步驟310),以及從所述待選特征中選擇判別性特征(步驟320)。
[0049]按照本發(fā)明的一個實施例,所述待選特征進(jìn)一步包括下列各項中的至少一項:結(jié)構(gòu)化特征(structu red feature)、非結(jié)構(gòu)化特征(non-structured feature),其中所述結(jié)構(gòu)化特征包括下列各項中的至少一項:屬性以及所述屬性的值、屬性,并且其中所述非結(jié)構(gòu)化特征包括所述樣本數(shù)據(jù)中的關(guān)鍵詞。以電影為例,所述結(jié)構(gòu)化特征例如可以是“主演Tom”(屬性以及所述屬性的值)或“主演”(屬性);所述非結(jié)構(gòu)化特征可以是影評或電影簡介中的關(guān)鍵詞,比如特定的地點等。可選的,如果待選特征包括非結(jié)構(gòu)化特征,則需要對所述項目進(jìn)行分析以確定其中的非結(jié)構(gòu)化特征,比如通過命名實體識別技術(shù)識別電影簡介或電影評論中的實體名稱,比如地點、人名、單位名稱等;再例如,還可以通過語義分析挖掘項目中的所有名詞作為非結(jié)構(gòu)化特征,或者通過語義分析挖掘項目中重復(fù)出現(xiàn)次數(shù)達(dá)到預(yù)訂閾值的名詞作為非結(jié)構(gòu)化特征。
[0050]按照本發(fā)明的一個實施例,其中所述待選特征進(jìn)一步包括下列各項中的至少一項:靜態(tài)特征、動態(tài)特征。其中所述靜態(tài)特征是所述項目所固有的特征,靜態(tài)特征在一段時間內(nèi)不算時間的變化而變化,比如一部電影的“主演”、“類型”等都屬于靜態(tài)特征。而所述動態(tài)特征是根據(jù)時間的不斷變化而動態(tài)變化的特征,比如觀看了同一部電影的其它用戶還觀看了其它電影的名單,購買了同一本圖書的其它用戶還購買了其它圖書的名單,屬于同一個用戶的好友名單等。
[0051]按照本發(fā)明的一個實施例,其中所述待選特征進(jìn)一步包括下列各項中的至少一項:原始特征、組合特征、概括特征。其中所述原始特征包括所述樣本數(shù)據(jù)中項目原有的特征,仍然以電影為例,“主演”是每個電影項目都包含的特征,因此“主演=Tom”就是樣本數(shù)據(jù)中的原有特征。所述組合特征包括多個所述原始特征的組合,比如“主演=Tom、類型=喜劇”是兩個原始特征(“主演=Tom”以及“類型=喜劇”)的組合。所述概括特征包括對多個所述原始特征的進(jìn)行概括所形成的特征,比如“主演”是“主演=Tom”、“主演=Jack’等的概括特征。在這個例子中,概括特征“主演”僅包含屬性而不包含屬性的值。
[0052]按照本發(fā)明的一個實施例,步驟320進(jìn)一步包括:計算所述待選特征的區(qū)分度值(步驟321);以及根據(jù)所述區(qū)分度值從待選特征中篩選出判別性特征(步驟322)??蛇x的、步驟322可以將區(qū)分度值超過預(yù)訂閾值的待選特征選出作為判別性特征。可選的、步驟203可以僅選擇具有正面區(qū)分度的待選特征作為判別性特征,比如所有由主演Tom主演的電影都是用戶所偏好的電影,而所有由主演Bob所主演的電影都是用戶所非偏好的電影,因此特征“主演=Tom”與“主演=Bob”可能具有相同的區(qū)分度。但是特征“主演=Tom”出現(xiàn)在正樣本數(shù)據(jù)中,而“主演=Bob”出現(xiàn)在負(fù)樣本數(shù)據(jù)中,所以“主演=Tom”是具有正面區(qū)分度的判別性特征,而“主演=Bob”是具有負(fù)面區(qū)分度的判別性特征。在一個具體應(yīng)用中,可能不會將用戶所非偏好的項目作為目標(biāo)分析項目(比如僅將推薦系統(tǒng)所做出的正面推薦結(jié)果作為目標(biāo)分析項目),因此不需要將具有負(fù)面區(qū)分度的判別性特征“主演=Bob”作為判別性特征,這樣可以進(jìn)一步減少存儲判別性特征所占用的存儲空間。
[0053]按照本發(fā)明的另一個實施例,步驟320進(jìn)一步包括:計算所述待選特征的區(qū)分度值;按照所述區(qū)分度值對所述待選特征進(jìn)行排序;以及從排序的待選特征中篩選出判別性特征。本實施例可以更有利于控制判別性特征的數(shù)量,比如按照具體應(yīng)用場景的規(guī)定,篩選出的判別性特征不能超過8個,則通過上述排序過程,可以更加清楚的了解有哪8個待選特征應(yīng)當(dāng)被篩選出來作為判別性特征。
[0054]下面按照圖4A-4C對如何計算待選特征的區(qū)分度值以及篩選判別性特征進(jìn)行示例性描述。
[0055]圖4A示出了按照本發(fā)明的一個實施例的樣本數(shù)據(jù)示意圖。在圖4A的例子中假設(shè)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)各包含10部電影,每部電影都具有關(guān)于主演的原始特征,在主演為Tom的4部電影中,有I部電影是正樣本數(shù)據(jù),有3部是負(fù)樣本數(shù)據(jù),在主演為Jack的12部電影中,有9部是正樣本數(shù)據(jù),有3部是負(fù)樣本數(shù)據(jù),在主演為Bob的4部電影中,沒有正樣本數(shù)據(jù),都是負(fù)樣本數(shù)據(jù)。在本例子中,假設(shè)待選特征就是關(guān)于主演的原始特征“主演=Tom”、“主演=Jack” 以及“主演=Bob”。
[0056]按照本發(fā)明的一個實施例,所述計算所述待選特征的區(qū)分度值(圖3步驟321)進(jìn)一步包括:根據(jù)所述待選特征在所述正樣本數(shù)據(jù)中出現(xiàn)的次數(shù)與所述待選特征在所述樣本數(shù)據(jù)中出現(xiàn)的次數(shù)之比計算所述區(qū)分度值。
[0057]圖4A中待選特征的區(qū)分度值可以用下述公式表示:
[0058]Di=N'/ (NVN:)公式 I
[0059]其中Di表示第i個待選特征的區(qū)分度值,K表示第i個待選特征在正樣本數(shù)據(jù)中出現(xiàn)的數(shù)量,&表示第i個待選特征在負(fù)樣本數(shù)據(jù)中出現(xiàn)的數(shù)量。在正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)數(shù)量相同的情況下,最沒有區(qū)分度的待選特征的區(qū)分度值為0.5 ;區(qū)分度越大的待選特征,其區(qū)分度值偏離0.5的距離就越大。按照公式1,圖4A中的各個待選特征的區(qū)分度值如下:
[0060]D ( “主演=Tom,,) =1/ (1+3) =0.25[0061 ] D ( “主演=Jack”) =9/ (9+3) =0.75
[0062]D ( “主演=Bob ”) =0/ (0+4) =0
[0063]按照本發(fā)明的一個實施例,可以根據(jù)所述區(qū)分度值從待選特征中篩選出判別性特征(圖3中的步驟322),其中“主演=Bob”是區(qū)分度最大的判別性特征。如果僅設(shè)定將區(qū)分度值與0.5的距離高于0.3的待選特征篩選出來作為判別性特征,那么只有“主演=Bob”作為判別性特征,如果設(shè)定將區(qū)分度值與0.5的距離高于0.2的待選特征都篩選出來作為判別性特征,那么所有三個待選特征都可以作為判別性特征。
[0064]按照本發(fā)明的另一個實施例,可以區(qū)分具有正面區(qū)分度的判別性特征和具有負(fù)面區(qū)分度的判別性特征,其中具有正面區(qū)分度的判別性特征的區(qū)分度值高于0.5,而具有負(fù)面區(qū)分度的判別性特征的區(qū)分度值低于0.5。因此“主演=Tom”和“主演=Bob”屬于具有負(fù)面區(qū)分度的判別性特征,也就是對于主演是Tom或Bob的電影,該用戶一般都不太喜歡。而“主演=Jack”屬于具有正面區(qū)分度的判別性特征,也就是對于主演是Jack的電影,該用戶一般都比較喜歡。
[0065]按照本發(fā)明的另一個實施例,所述計算所述待選特征的區(qū)分度值(圖3步驟321)進(jìn)一步包括:根據(jù)所述待選特征在所述正樣本數(shù)據(jù)和所述負(fù)樣本數(shù)據(jù)中分布的熵以及所述待選特征在樣本數(shù)據(jù)中出現(xiàn)的次數(shù)占總樣本數(shù)據(jù)的比重計算所述區(qū)分度值。由于熵(Entropy)可以用來度量數(shù)據(jù)的不確定性,因此可以借助熵來計算區(qū)分度值。根據(jù)本實施例計算區(qū)分度值的公式如下所示:
[0066]
【權(quán)利要求】
1.一種數(shù)據(jù)分析方法,包括: 獲取樣本數(shù)據(jù),其中所述樣本數(shù)據(jù)包含正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù),所述正樣本數(shù)據(jù)包括用戶所偏好的項目,并且所述負(fù)樣本數(shù)據(jù)包含用戶非偏好的項目; 選擇所述樣本數(shù)據(jù)的判別性特征,其中所述判別性特征包括對區(qū)分正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)中的項目具有區(qū)分度的特征; 對至少一個目標(biāo)分析項目,確定其是否具有至少一個所述判別性特征;以及響應(yīng)于具有至少一個所述判別性特征,將所述至少一個目標(biāo)分析項目與至少一個所述判別性特征相關(guān)聯(lián)。
2.如權(quán)利要求1所述的方法,其中所述獲取樣本數(shù)據(jù)進(jìn)一步包括: 根據(jù)下列各項中的至少一項獲取樣本數(shù)據(jù):所述用戶的操作歷史、推薦系統(tǒng)為所述用戶產(chǎn)生的推薦結(jié)果。
3.如權(quán)利要求2所述的方法,其中所述操作歷史包括下列各項中的至少一項: 所述用戶對項目的打分、所述用戶對項目的操作、所述用戶對項目的評論。
4.如權(quán)利要求1所述的方法,其中所述選擇所述樣本數(shù)據(jù)的判別性特征進(jìn)一步包括: 確定所述樣本數(shù)據(jù)中的待選特征,以及 從所述待選特征中選擇判別性特征。
5.如權(quán)利要求4所述的方法,其中所述待選特征進(jìn)一步包括下列各項中的至少一項:結(jié)構(gòu)化特征、非結(jié)構(gòu)化特征, 其中所述結(jié)構(gòu)化特征包括下列各項中的至少一項:屬性以及所述屬性的值、屬性,并且 其中所述非結(jié)構(gòu)化特征包括所述樣本數(shù)據(jù)中的關(guān)鍵詞。
6.如權(quán)利要求4所述的方法,其中所述待選特征進(jìn)一步包括下列各項中的至少一項: 原始特征,所述原始特征包括所述樣本數(shù)據(jù)中項目原有的特征; 組合特征,所述組合特征包括多個所述原始特征的組合; 概括特征,所述概括特征包括對多個所述原始特征的進(jìn)行概括所形成的特征。
7.如權(quán)利要求4-6中任意一個所述的方法,其中從所述待選特征中選擇判別性特征進(jìn)一步包括: 計算所述待選特征的區(qū)分度值; 根據(jù)所述區(qū)分度值從所述待選特征中篩選出判別性特征。
8.如權(quán)利要求7所述的方法,其中所述計算所述待選特征的區(qū)分度值進(jìn)一步包括: 根據(jù)所述待選特征在所述正樣本數(shù)據(jù)中出現(xiàn)的次數(shù)與所述待選特征在所述樣本數(shù)據(jù)中出現(xiàn)的次數(shù)之比計算所述區(qū)分度值。
9.如權(quán)利要求7所述的方法,其中所述計算所述待選特征的區(qū)分度值進(jìn)一步包括: 根據(jù)所述待選特征在所述正樣本數(shù)據(jù)和所述負(fù)樣本數(shù)據(jù)中分布的熵以及所述待選特征在樣本數(shù)據(jù)中出現(xiàn)的次數(shù)占總樣本數(shù)據(jù)的比重計算所述區(qū)分度值。
10.如權(quán)利要求1所述的方法,其中所述至少一個目標(biāo)分析項目為至少一個推薦項目,所述選擇所述樣本數(shù)據(jù)的判別性特征進(jìn)一步包括: 選擇具有正面區(qū)分度的待選特征作為判別性特征。
11.一種數(shù)據(jù)分析系統(tǒng),包括: 獲取裝置,被配置為獲取樣本數(shù)據(jù),其中所述樣本數(shù)據(jù)包含正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù),所述正樣本數(shù)據(jù)包括用戶所偏好的項目,并且所述負(fù)樣本數(shù)據(jù)包含用戶非偏好的項目;選擇裝置,被配置為選擇所述樣本數(shù)據(jù)的判別性特征,其中所述判別性特征包括對區(qū)分正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)中的項目具有區(qū)分度的特征; 確定裝置,被配置為對至少一個目標(biāo)分析項目,確定其是否具有至少一個所述判別性特征;以及 關(guān)聯(lián)裝置,被配置為響應(yīng)于具有至少一個所述判別性特征,將所述至少一個目標(biāo)分析項目與至少一個所述判別性特征相關(guān)聯(lián)。
12.如權(quán)利要求11所述的系統(tǒng),其中所述獲取裝置進(jìn)一步被配置為: 根據(jù)下列各項中的至少一項獲取樣本數(shù)據(jù):所述用戶的操作歷史、推薦系統(tǒng)為所述用戶產(chǎn)生的推薦結(jié)果。
13.如權(quán)利要求12所述的系統(tǒng),其中所述操作歷史包括下列各項中的至少一項: 所述用戶對項目的打分、所述用戶對項目的操作、所述用戶對項目的評論。
14.如權(quán)利要求11所述的系統(tǒng),其中所述選擇裝置進(jìn)一步包括: 確定子裝置,被配置為確定所述樣本數(shù)據(jù)中的待選特征,以及 選擇子裝置,被配置為從所述待選特征中選擇判別性特征。
15.如權(quán)利要求14所述的系統(tǒng),其中所述待選特征進(jìn)一步包括下列各項中的至少一項:結(jié)構(gòu)化特征、非結(jié)構(gòu)化特征, 其中所述結(jié)構(gòu)化特征包括下列各項中的至少一項:屬性以及所述屬性的值、屬性,并且 其中所述非結(jié)構(gòu)化特征包括所述樣本數(shù)據(jù)中的關(guān)鍵詞。
16.如權(quán)利要求14所述的系統(tǒng),其中所述待選特征進(jìn)一步包括下列各項中的至少一項: 原始特征,所述原始特征包括所述樣本數(shù)據(jù)中項目原有的特征; 組合特征,所述組合特征包括多個所述原始特征的組合; 概括特征,所述概括特征包括對多個所述原始特征的進(jìn)行概括所形成的特征。
17.如權(quán)利要求14-16中任意一個所述的系統(tǒng),其中所述選擇子裝置進(jìn)一步包括: 計算子裝置,被配置為計算所述待選特征的區(qū)分度值; 篩選子裝置,被配置為根據(jù)所述區(qū)分度值從待選特征中篩選出判別性特征。
18.如權(quán)利要求17所述的系統(tǒng),其中所述計算子裝置進(jìn)一步被配置為: 根據(jù)所述待選特征在所述正樣本數(shù)據(jù)中出現(xiàn)的次數(shù)與所述待選特征在所述樣本數(shù)據(jù)中出現(xiàn)的次數(shù)之比計算所述區(qū)分度值。
19.如權(quán)利要求17所述的系統(tǒng),其中所述計算子裝置進(jìn)一步被配置為: 根據(jù)所述待選特征在所述正樣本數(shù)據(jù)和所述負(fù)樣本數(shù)據(jù)中分布的熵以及所述待選特征在樣本數(shù)據(jù)中出現(xiàn)的次數(shù)占總樣本數(shù)據(jù)的比重計算所述區(qū)分度值
20.如權(quán)利要求17所述的系統(tǒng),其中所述至少一個目標(biāo)分析項目為至少一個推薦項目,所述選擇裝置進(jìn)一步被配置為: 選擇具有正面區(qū)分度的待選特征作為判別性特征。
【文檔編號】G06F17/30GK103714063SQ201210371691
【公開日】2014年4月9日 申請日期:2012年9月28日 優(yōu)先權(quán)日:2012年9月28日
【發(fā)明者】趙石頑, 吳賢, 袁泉 申請人:國際商業(yè)機(jī)器公司