挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法和裝置制造方法
【專利摘要】本發(fā)明提出一種挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法和裝置,其中該方法包括:獲取待關(guān)聯(lián)屬性;根據(jù)待關(guān)聯(lián)屬性從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體;以及獲得至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體,并將待關(guān)聯(lián)屬性與至少一個(gè)種子實(shí)體、至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體相關(guān)聯(lián)。本發(fā)明實(shí)施例的方法,可以挖掘出待關(guān)聯(lián)屬性的多個(gè)關(guān)聯(lián)實(shí)體,同理實(shí)現(xiàn)挖掘?qū)嶓w所對(duì)應(yīng)的用戶指定屬性(即待關(guān)聯(lián)屬性),從而提供更全面、更精細(xì)、更優(yōu)質(zhì)的詳細(xì)服務(wù);還可以挖掘任意領(lǐng)域?qū)嶓w和用戶指定屬性(即待關(guān)聯(lián)屬性)之間的關(guān)聯(lián)關(guān)系,不受應(yīng)用領(lǐng)域的限制,應(yīng)用廣泛。
【專利說明】挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù),特別是無線互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,信息服務(wù)變得越來越普遍。信息服務(wù)提供商提供信息服務(wù)時(shí),例如,搜索引擎提供搜索服務(wù)等,通常會(huì)挖掘?qū)嶓w和屬性之間的關(guān)聯(lián)關(guān)系,并根據(jù)實(shí)體和屬性之間的關(guān)聯(lián)關(guān)系提供信息服務(wù)。具體地,可將現(xiàn)實(shí)世界中的客觀事物稱為實(shí)體,例如概念、事物或事件等。舉例來說,影視劇“我是特種兵”、百度公司以及宇宙大爆炸理論都是實(shí)體的實(shí)例。同時(shí),每個(gè)實(shí)體具有屬性,屬性反映實(shí)體的相關(guān)信息,例如,軍旅題材、公司辦公地點(diǎn)、現(xiàn)代宇宙理論分別是上述實(shí)體對(duì)應(yīng)的屬性。
[0003]目前獲取實(shí)體和屬性之間關(guān)聯(lián)關(guān)系的方法主要是從網(wǎng)站的結(jié)構(gòu)化數(shù)據(jù)中定向抓取實(shí)體屬性對(duì),并根據(jù)實(shí)體屬性對(duì)建立實(shí)體和屬性之間的關(guān)聯(lián)關(guān)系。但是,主要存在以下問題,由于一個(gè)實(shí)體對(duì)應(yīng)的屬性是多種多樣的,對(duì)應(yīng)一個(gè)實(shí)體來說,從網(wǎng)站獲取的屬性只是某一個(gè)方面,該屬性可能無法很好的滿足用戶的需求。因此現(xiàn)有技術(shù)無法挖掘出實(shí)體所對(duì)應(yīng)的用戶指定屬性,例如,無法挖掘出某個(gè)電影屬于“屌絲逆襲”屬性等,同樣地,也無法挖掘出“屌絲逆襲”、“治愈系”、“虐心”等屬性對(duì)應(yīng)的實(shí)體,如“屌絲逆襲”題材的電影、小說等。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0005]為此,本發(fā)明的第一個(gè)目的在于提出一種挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法。該方法可以挖掘出待關(guān)聯(lián)屬性的多個(gè)關(guān)聯(lián)實(shí)體,同理實(shí)現(xiàn)挖掘?qū)嶓w所對(duì)應(yīng)的用戶指定屬性(即待關(guān)聯(lián)屬性),從而提供更全面、更精細(xì)、更優(yōu)質(zhì)的詳細(xì)服務(wù)。
[0006]本發(fā)明的第二個(gè)目的在于提出一種挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的裝置。
[0007]為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法,包括以下步驟:獲取待關(guān)聯(lián)屬性;根據(jù)所述待關(guān)聯(lián)屬性從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體;以及獲得所述至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體,并將所述待關(guān)聯(lián)屬性與所述至少一個(gè)種子實(shí)體、所述至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體相關(guān)聯(lián)。
[0008]本發(fā)明實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法,通過待關(guān)聯(lián)屬性獲取種子實(shí)體,再根據(jù)種子實(shí)體獲取相關(guān)的關(guān)聯(lián)實(shí)體,由此,可以挖掘出待關(guān)聯(lián)屬性的多個(gè)關(guān)聯(lián)實(shí)體,同理實(shí)現(xiàn)挖掘?qū)嶓w所對(duì)應(yīng)的用戶指定屬性(即待關(guān)聯(lián)屬性),從而提供更全面、更精細(xì)、更優(yōu)質(zhì)的詳細(xì)服務(wù),例如,根據(jù)用戶指定屬性向用戶推薦實(shí)體;根據(jù)該方法還可以挖掘任意領(lǐng)域?qū)嶓w和給定屬性(即待關(guān)聯(lián)屬性)之間的關(guān)聯(lián)關(guān)系,不受應(yīng)用領(lǐng)域的限制,應(yīng)用廣泛。
[0009]為了實(shí)現(xiàn)上述目的,本發(fā)明第二方面實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的裝置,包括:待關(guān)聯(lián)屬性獲取模塊,用于獲取待關(guān)聯(lián)屬性;種子實(shí)體獲取模塊,用于根據(jù)所述待關(guān)聯(lián)屬性從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體;關(guān)聯(lián)實(shí)體獲取模塊,用于獲得所述至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體;以及關(guān)聯(lián)模塊,用于將所述待關(guān)聯(lián)屬性與所述至少一個(gè)種子實(shí)體、所述至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體相關(guān)聯(lián)。
[0010]本發(fā)明實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的裝置,通過待關(guān)聯(lián)屬性獲取模塊獲取待關(guān)聯(lián)屬性,然后種子實(shí)體獲取模塊根據(jù)待關(guān)聯(lián)屬性獲取種子實(shí)體,之后關(guān)聯(lián)實(shí)體獲取模塊根據(jù)種子實(shí)體獲取種子實(shí)體的關(guān)聯(lián)實(shí)體,由此,可以挖掘出待關(guān)聯(lián)屬性的多個(gè)關(guān)聯(lián)實(shí)體,同理實(shí)現(xiàn)挖掘?qū)嶓w所對(duì)應(yīng)的用戶指定屬性(即待關(guān)聯(lián)屬性),從而提供更全面、更精細(xì)、更優(yōu)質(zhì)的詳細(xì)服務(wù),例如,根據(jù)用戶指定屬性向用戶推薦實(shí)體;根據(jù)該裝置還可以挖掘任意領(lǐng)域?qū)嶓w和用戶指定屬性(即待關(guān)聯(lián)屬性)之間的關(guān)聯(lián)關(guān)系,不受應(yīng)用領(lǐng)域的限制,應(yīng)用廣泛。
[0011]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【專利附圖】
【附圖說明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中,
[0013]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法的流程圖;
[0014]圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法的流程圖;
[0015]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的獲取分布差異值的流程圖;
[0016]圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的獲得獲取關(guān)聯(lián)實(shí)體的流程圖;
[0017]圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的裝置的結(jié)構(gòu)示意圖;
[0018]圖6是根據(jù)本發(fā)明一個(gè)實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0019]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0020]在本發(fā)明的描述中,需要理解的是,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。此外,在本發(fā)明的描述中,除非另有說明,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。
[0021]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬【技術(shù)領(lǐng)域】的技術(shù)人員所理解。
[0022]為了挖掘出任意領(lǐng)域中實(shí)體和用戶指定屬性(如用戶指定屬性)之間的關(guān)聯(lián)關(guān)系,從而給用戶提供更全面、更精細(xì)的信息服務(wù),本發(fā)明提出一種挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法和裝置。下面參考附圖描述本發(fā)明實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法和裝置。
[0023]一種挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法,包括以下步驟:獲取待關(guān)聯(lián)屬性;根據(jù)待關(guān)聯(lián)屬性從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體;以及獲得至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體,并將待關(guān)聯(lián)屬性與至少一個(gè)種子實(shí)體、至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體相關(guān)聯(lián)。
[0024]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法的流程圖。
[0025]如圖1所示,挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法包括下述步驟。
[0026]步驟S101,獲取待關(guān)聯(lián)屬性。
[0027]在本發(fā)明的一個(gè)實(shí)施例中,待關(guān)聯(lián)屬性為一類描述用戶感受、產(chǎn)品特性等特征的屬性。待關(guān)聯(lián)屬性可以隨網(wǎng)絡(luò)語言實(shí)時(shí)更新,例如,對(duì)多個(gè)網(wǎng)頁進(jìn)行分析可獲取待關(guān)聯(lián)屬性。舉例來說,可以有“屌絲逆襲”、“邪惡戰(zhàn)勝正義”、“治愈系”、“虐心”、“炫富”等描述用戶感受的待關(guān)聯(lián)屬性;對(duì)于產(chǎn)品實(shí)體,可以有“性價(jià)比高”、“結(jié)實(shí)耐用”等描述用戶使用體驗(yàn)的待關(guān)聯(lián)屬性。
[0028]步驟S102,根據(jù)待關(guān)聯(lián)屬性從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體。
[0029]具體地,獲取待關(guān)聯(lián)屬性之后,根據(jù)待關(guān)聯(lián)屬性從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體。其中,將與待關(guān)聯(lián)屬性聯(lián)系緊密、相關(guān)度高的實(shí)體命名作為種子實(shí)體。例如,如果待關(guān)聯(lián)屬性為“治愈系”,則獲取的種子實(shí)體可以是“治愈系”的影視劇實(shí)體、“治愈系”的小說實(shí)體、“治愈系”的漫畫實(shí)體或者“治愈系”的其它實(shí)體等。該過程與用戶與實(shí)體的關(guān)聯(lián)度、服務(wù)應(yīng)用與實(shí)體的關(guān)聯(lián)度有關(guān),后續(xù)實(shí)施例中將詳細(xì)敘述。
[0030]步驟S103,獲得至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體,并將待關(guān)聯(lián)屬性與至少一個(gè)種子實(shí)體、至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體相關(guān)聯(lián)。
[0031]具體地,從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體后,再由至少一個(gè)種子實(shí)體為中心,獲得至少一個(gè)種子實(shí)體相關(guān)度較高的關(guān)聯(lián)實(shí)體。以從多個(gè)實(shí)體中獲得了一個(gè)種子實(shí)體為例,例如,如果從多個(gè)實(shí)體中獲得的一個(gè)種子實(shí)體為“治愈系”的影視劇種子實(shí)體A,然后獲得該“治愈系”的影視劇種子實(shí)體A的關(guān)聯(lián)實(shí)體,例如獲得的關(guān)聯(lián)實(shí)體可以是“治愈系”的小說實(shí)體B、“治愈系”的漫畫實(shí)體C、“治愈系”的其他實(shí)體E、或者其他“治愈系”的影視劇種子F和G等。該過程可以擴(kuò)大實(shí)體的范圍,召回一些關(guān)聯(lián)實(shí)體。
[0032]更具體地,獲得至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體之后,將待關(guān)聯(lián)屬性與至少一個(gè)種子實(shí)體、至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體相關(guān)聯(lián)。例如,獲得關(guān)聯(lián)實(shí)體“治愈系”的小說實(shí)體或其他“治愈系”的影視劇實(shí)體之后,將待關(guān)聯(lián)屬性“治愈系”與“治愈系”的影視劇種子實(shí)體、“治愈系”的影視劇種子實(shí)體的關(guān)聯(lián)實(shí)體(即“治愈系”的小說實(shí)體或其他“治愈系”的影視劇實(shí)體)相關(guān)聯(lián)。
[0033]其中,相關(guān)聯(lián)的操作可以是給待關(guān)聯(lián)屬性、至少一個(gè)種子實(shí)體、至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體貼上標(biāo)簽或者建立它們之間的對(duì)應(yīng)關(guān)系等。例如,可以將待關(guān)聯(lián)屬性“治愈系”與“治愈系”的影視劇種子實(shí)體、“治愈系”的影視劇種子實(shí)體的關(guān)聯(lián)實(shí)體(即“治愈系”的小說實(shí)體或其他“治愈系”的影視劇實(shí)體)貼上“治愈系”的標(biāo)簽或建立它們之間的對(duì)應(yīng)關(guān)系
坐寸ο
[0034]本發(fā)明實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法,通過待關(guān)聯(lián)屬性獲取種子實(shí)體,再根據(jù)種子實(shí)體獲取相關(guān)的關(guān)聯(lián)實(shí)體,由此,可以挖掘出待關(guān)聯(lián)屬性的多個(gè)關(guān)聯(lián)實(shí)體,同理實(shí)現(xiàn)挖掘?qū)嶓w所對(duì)應(yīng)的用戶指定屬性(即待關(guān)聯(lián)屬性),從而提供更全面、更精細(xì)、更優(yōu)質(zhì)的詳細(xì)服務(wù),例如,根據(jù)用戶指定屬性向用戶推薦實(shí)體;根據(jù)該方法還可以挖掘任意領(lǐng)域?qū)嶓w和給定屬性(即待關(guān)聯(lián)屬性)之間的關(guān)聯(lián)關(guān)系,不受應(yīng)用領(lǐng)域的限制,應(yīng)用廣泛。
[0035]圖2是根據(jù)本發(fā)明另一個(gè)實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法的流程圖。在本發(fā)明的實(shí)施例中,采用分布差異的方式從多個(gè)實(shí)體中獲取種子實(shí)體。
[0036]具體地,如圖2所示,挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法包括下述步驟。
[0037]步驟S201,獲取待關(guān)聯(lián)屬性。
[0038]在本發(fā)明的一個(gè)實(shí)施例中,待關(guān)聯(lián)屬性為一類描述用戶感受、產(chǎn)品特性等特征的屬性。待關(guān)聯(lián)屬性可以隨網(wǎng)絡(luò)語言實(shí)時(shí)更新,例如,對(duì)多個(gè)網(wǎng)頁進(jìn)行分析可獲取待關(guān)聯(lián)屬性。舉例來說,可以有“屌絲逆襲”、“邪惡戰(zhàn)勝正義”、“治愈系”、“虐心”、“炫富”等描述用戶感受的待關(guān)聯(lián)屬性;對(duì)于產(chǎn)品實(shí)體,可以有“性價(jià)比高”、“結(jié)實(shí)耐用”等描述用戶使用體驗(yàn)的待關(guān)聯(lián)屬性。
[0039]步驟S202,從預(yù)設(shè)實(shí)體庫中獲取多個(gè)實(shí)體。
[0040]具體地,預(yù)設(shè)實(shí)體庫為預(yù)先從網(wǎng)絡(luò)中獲取的實(shí)體庫,預(yù)設(shè)實(shí)體庫中存儲(chǔ)有多個(gè)實(shí)體,其中,預(yù)設(shè)實(shí)體庫可以存儲(chǔ)在服務(wù)器中或者其它設(shè)備中。還可以對(duì)預(yù)設(shè)實(shí)體庫進(jìn)行分類,不同的應(yīng)用服務(wù)可以具有不同的預(yù)設(shè)實(shí)體庫。
[0041]步驟S203,從總體用戶樣本群中獲取具有待關(guān)聯(lián)屬性的關(guān)聯(lián)用戶樣本群。
[0042]具體地,根據(jù)待關(guān)聯(lián)屬性,從總體用戶樣本群中獲取具有待關(guān)聯(lián)屬性的關(guān)聯(lián)用戶樣本群。例如,如果待關(guān)聯(lián)屬性為“炫富”,總體用戶樣本群為1000萬個(gè)觀看影視劇的用戶,那么獲取總體用戶樣本群中的100萬個(gè)觀看“炫富”影視劇的用戶,即具有待關(guān)聯(lián)屬性的關(guān)聯(lián)用戶樣本群。
[0043]步驟S204,分別獲得多個(gè)實(shí)體在關(guān)聯(lián)用戶樣本群中的多個(gè)分布差異值。
[0044]具體地,同一個(gè)實(shí)體在總體用戶樣本群和在具有待關(guān)聯(lián)屬性的關(guān)聯(lián)用戶樣本群中的分布是不同的。分布差異值的大小可以對(duì)應(yīng)的體現(xiàn)出實(shí)體與待關(guān)聯(lián)屬性的相關(guān)度的高低,便于后續(xù)根據(jù)分布差異值對(duì)實(shí)體進(jìn)行篩選。具體地分布差異值的獲取將在后續(xù)實(shí)施例中詳細(xì)敘述。
[0045]步驟S205,根據(jù)多個(gè)分布差異值對(duì)多個(gè)實(shí)體進(jìn)行篩選以獲得至少一個(gè)種子實(shí)體。
[0046]具體地,獲得多個(gè)實(shí)體在關(guān)聯(lián)用戶樣本群中的多個(gè)分布差異值后,根據(jù)多個(gè)分布差異值對(duì)多個(gè)實(shí)體進(jìn)行篩選以獲得至少一個(gè)種子實(shí)體。其中,種子實(shí)體為根據(jù)分布差異值從多個(gè)實(shí)體中篩選出來的與待關(guān)聯(lián)屬性相關(guān)度較高的實(shí)體。
[0047]步驟S206,獲得至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體,并將待關(guān)聯(lián)屬性與至少一個(gè)種子實(shí)體、至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體相關(guān)聯(lián)。
[0048]具體地,從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體后,再由至少一個(gè)種子實(shí)體為中心,獲得至少一個(gè)種子實(shí)體相關(guān)度較高的關(guān)聯(lián)實(shí)體。以從多個(gè)實(shí)體中獲得了一個(gè)種子實(shí)體為例,例如,如果從多個(gè)實(shí)體中獲得的一個(gè)種子實(shí)體為“治愈系”的影視劇種子實(shí)體A,然后獲得該“治愈系”的影視劇種子實(shí)體A的關(guān)聯(lián)實(shí)體,例如獲得的關(guān)聯(lián)實(shí)體可以是“治愈系”的小說實(shí)體B、“治愈系”的漫畫實(shí)體C、“治愈系”的其他實(shí)體E、或者其他“治愈系”的影視劇種子F和G等。該過程可以擴(kuò)大實(shí)體的范圍,召回一些關(guān)聯(lián)實(shí)體。
[0049]更具體地,獲得至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體之后,將待關(guān)聯(lián)屬性與至少一個(gè)種子實(shí)體、至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體相關(guān)聯(lián)。例如,獲得關(guān)聯(lián)實(shí)體“治愈系”的小說實(shí)體或其他“治愈系”的影視劇實(shí)體之后,將待關(guān)聯(lián)屬性“治愈系”與“治愈系”的影視劇種子實(shí)體、“治愈系”的影視劇種子實(shí)體的關(guān)聯(lián)實(shí)體(即“治愈系”的小說實(shí)體或其他“治愈系”的影視劇實(shí)體)相關(guān)聯(lián)。
[0050]其中,相關(guān)聯(lián)的操作可以是給待關(guān)聯(lián)屬性、至少一個(gè)種子實(shí)體、至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體貼上標(biāo)簽或者建立它們之間的對(duì)應(yīng)關(guān)系等。例如,可以將待關(guān)聯(lián)屬性“治愈系”與“治愈系”的影視劇種子實(shí)體、“治愈系”的影視劇種子實(shí)體的關(guān)聯(lián)實(shí)體(即“治愈系”的小說實(shí)體或其他“治愈系”的影視劇實(shí)體)貼上“治愈系”的標(biāo)簽或建立它們之間的對(duì)應(yīng)關(guān)系
坐寸ο
[0051]本發(fā)明實(shí)施例的挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法,采用分布差異值從多個(gè)實(shí)體中獲取種子實(shí)體,分布差異值真實(shí)地反映種子實(shí)體的分布,獲取的種子實(shí)體與待關(guān)聯(lián)屬性的相關(guān)度更高、更加準(zhǔn)確,從而進(jìn)一步提升信息服務(wù)的質(zhì)量。
[0052]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的獲取分布差異值的流程圖。在本發(fā)明的一個(gè)實(shí)施例中,如圖3所示,步驟S204具體包括:
[0053]S2041,分別獲取與多個(gè)實(shí)體相關(guān)的多個(gè)用戶在總體用戶樣本群中的多個(gè)第一分布比重。
[0054]例如,總體用戶樣本群為1000萬個(gè)觀看影視劇的用戶,其中有50萬的用戶觀看了影視劇實(shí)體M,那么觀看影視劇實(shí)體M的用戶在總體用戶樣本群中的分布比重為50萬除以1000萬,即第一分布比重為5%。類似地,依次獲取與多個(gè)實(shí)體相關(guān)的多個(gè)用戶在總體用戶樣本群中的多個(gè)第一分布比重。
[0055]S2042,分別獲取與多個(gè)實(shí)體相關(guān)的多個(gè)用戶在關(guān)聯(lián)用戶樣本群中的第二分布比重。
[0056]例如,待關(guān)聯(lián)屬性為“炫富”,關(guān)聯(lián)用戶樣本群為100萬個(gè)觀看“炫富”影視劇的用戶,其中,30萬個(gè)用戶觀看了影視劇實(shí)體M,那么觀看影視劇實(shí)體M的用戶在關(guān)聯(lián)用戶樣本群中的分布比重為30萬除以100萬,即第二分布比重為30%。類似地,依次獲取與多個(gè)實(shí)體相關(guān)的多個(gè)用戶在關(guān)聯(lián)用戶樣本群中的多個(gè)第二分布比重。
[0057]S2043,根據(jù)第二分布比重和第一分布比重獲取分布差異值。
[0058]具體地,根據(jù)獲取的第二分布比重和第一分布比重,用第二分布比重除以第一分布比重即得到分布差異值。
[0059]例如,總體用戶樣本群為1000萬個(gè)觀看影視劇的用戶,其中有50萬的用戶觀看了影視劇實(shí)體M,那么第一分布比重為5%;如果待關(guān)聯(lián)屬性為“炫富”,關(guān)聯(lián)用戶樣本群為100萬個(gè)觀看“炫富”影視劇的用戶,其中,30萬個(gè)用戶觀看了影視劇實(shí)體M,那么第二分布比重為30%,則用30%除以5%,即得到分布差異值為6。其中分布差異值越大,說明影視劇實(shí)體M與待關(guān)聯(lián)屬性“炫富”的相關(guān)度越高。
[0060]由此,根據(jù)第一分布比重和第二分布比重獲取的分布差異值更能體現(xiàn)關(guān)聯(lián)度,分布差異值更加準(zhǔn)確。
[0061]在本發(fā)明的一個(gè)實(shí)施例中,在步驟S205中,總體用戶樣本群為多個(gè),分別對(duì)應(yīng)多個(gè)網(wǎng)絡(luò)應(yīng)用服務(wù),則每個(gè)實(shí)體對(duì)應(yīng)的分布差異值為多個(gè),根據(jù)多個(gè)分布差異值對(duì)多個(gè)實(shí)體進(jìn)行篩選以獲得所述至少一個(gè)種子實(shí)體(即步驟S205)還包括:根據(jù)預(yù)設(shè)分布差異值篩選規(guī)則對(duì)所述多個(gè)實(shí)體進(jìn)行篩選;或,創(chuàng)建分布差異值分類器,并根據(jù)分布差異值分類器對(duì)多個(gè)實(shí)體進(jìn)行篩選,另外,還可以使用其它方法。
[0062]具體地,下面以實(shí)體在關(guān)聯(lián)用戶樣本群、百度貼吧、百度知道、百度會(huì)話中的分布差異為例來說明根據(jù)預(yù)設(shè)分布差異值篩選規(guī)則對(duì)多個(gè)實(shí)體進(jìn)行篩選的方法。該方法采用的篩選規(guī)則如下:
[0063](I)輸出實(shí)體在關(guān)聯(lián)用戶樣本群、百度貼吧、百度知道、百度會(huì)話中的分布差異值較大的實(shí)體,用Suser、Stieba、Si know > Ssession分別表示實(shí)體在關(guān)聯(lián)用戶樣本群、百度貼吧、百度知道、百度會(huì)話中的分布差異值,如:輸出Suser>10、Stieba>50、Siknow>50、或Ssession>30 的實(shí)體;
[0064](2)輸出Stieba、Si know > Ssession中至少有一個(gè)大于3并且Suser也大于3的實(shí)體;
[0065](3)輸出 Stieba、Si know > Ssession 全部大于 3 的實(shí)體;
[0066](4)輸出Stieba、Si know > Ssession中至少有一個(gè)大于3、一個(gè)大于8的實(shí)體。
[0067]還可以根據(jù)上述的篩選規(guī)則建立分類器,例如,可以采用現(xiàn)有技術(shù)的建立分類器的方法建立分類,分類器的建立可以提高效率。分類器的建立可以采用現(xiàn)有技術(shù),在此不再贅述。
[0068]上述根據(jù)分布差異值在多個(gè)實(shí)體中篩選至少一個(gè)種子實(shí)體的方法準(zhǔn)確率高,但是在設(shè)定的篩選規(guī)則中閾值以下的實(shí)體并不能被召回,為此后續(xù)還需要獲得種子實(shí)體的關(guān)聯(lián)實(shí)體。
[0069]圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的獲得獲取關(guān)聯(lián)實(shí)體的流程圖。在本發(fā)明的一個(gè)實(shí)施例中,如圖4所示,步驟S206中獲得至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體具體包括:
[0070]S2061,分別獲取至少一個(gè)種子實(shí)體到具有待關(guān)聯(lián)屬性的用戶樣本群之間的第一關(guān)聯(lián)關(guān)系。
[0071]具體地,例如,可以通過矩陣來描述種子實(shí)體到具有待關(guān)聯(lián)屬性的用戶樣本群之間的第一關(guān)聯(lián)關(guān)系,例如矩陣A。
[0072]S2062,獲取具有待關(guān)聯(lián)屬性的用戶樣本群的關(guān)聯(lián)實(shí)體群,并獲取具有待關(guān)聯(lián)屬性的用戶樣本群到關(guān)聯(lián)實(shí)體群之間的第二關(guān)聯(lián)關(guān)系。
[0073]具體地,獲取具有待關(guān)聯(lián)屬性的用戶樣本群的關(guān)聯(lián)實(shí)體群,例如,如果具有待關(guān)聯(lián)屬性的用戶樣本群為觀看“治愈系”的影視劇實(shí)體的用戶,則獲取“治愈系”的影視劇實(shí)體、“治愈系”小說實(shí)體、“治愈系”漫畫實(shí)體或者“治愈系”的其它實(shí)體,即為具有待關(guān)聯(lián)屬性的用戶樣本群的關(guān)聯(lián)實(shí)體群。
[0074]更具體地,可以通過矩陣來描述具有待關(guān)聯(lián)屬性的用戶樣本群到關(guān)聯(lián)實(shí)體群之間的第二關(guān)聯(lián)關(guān)系,例如矩陣B。
[0075]S2063,根據(jù)第一關(guān)聯(lián)關(guān)系和第二關(guān)聯(lián)關(guān)系分別獲取至少一個(gè)種子實(shí)體到關(guān)聯(lián)實(shí)體群的第三關(guān)聯(lián)關(guān)系。
[0076]具體地,例如可以根據(jù)矩陣A和矩陣B來獲取至少一個(gè)種子實(shí)體到關(guān)聯(lián)實(shí)體群的第三關(guān)聯(lián)關(guān)系,可以用矩陣C來描述。例如,可通過簡單的矩陣相乘即可獲取到矩陣C,還可以進(jìn)行加權(quán)處理之后再進(jìn)行相乘。
[0077]S2064,根據(jù)第三關(guān)聯(lián)關(guān)系對(duì)關(guān)聯(lián)實(shí)體群中的每個(gè)關(guān)聯(lián)實(shí)體進(jìn)行篩選以獲得至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體。
[0078]例如,第三關(guān)聯(lián)關(guān)系可以用矩陣C標(biāo)識(shí),矩陣C中的每個(gè)元素是該實(shí)體種子到關(guān)聯(lián)實(shí)體之間的相關(guān)度信息,根據(jù)該矩陣可以獲取種子實(shí)體到每個(gè)關(guān)聯(lián)實(shí)體的路徑上的路徑相似度pathsim特征,根據(jù)該特征獲取種子實(shí)體的關(guān)聯(lián)實(shí)體。此外,pathsim特征還能夠找到等同實(shí)體peer objects,減少熱門實(shí)體的影響。其中,Pathsim特征的計(jì)算公式如下:
【權(quán)利要求】
1.一種挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的方法,其特征在于,包括以下步驟: 獲取待關(guān)聯(lián)屬性; 根據(jù)所述待關(guān)聯(lián)屬性從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體;以及獲得所述至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體,并將所述待關(guān)聯(lián)屬性與所述至少一個(gè)種子實(shí)體、所述至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體相關(guān)聯(lián)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)待關(guān)聯(lián)屬性從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體具體包括: 從預(yù)設(shè)實(shí)體庫中獲取所述多個(gè)實(shí)體; 從總體用戶樣本群中獲取具有所述待關(guān)聯(lián)屬性的關(guān)聯(lián)用戶樣本群; 分別獲得所述多個(gè)實(shí)體在所述關(guān)聯(lián)用戶樣本群中的多個(gè)分布差異值;以及 根據(jù)所述多個(gè)分布差異值對(duì)所述多個(gè)實(shí)體進(jìn)行篩選以獲得所述至少一個(gè)種子實(shí)體。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述分別獲取多個(gè)實(shí)體在所述關(guān)聯(lián)用戶樣本群中的多個(gè)分布差異值具體包括: 分別獲取與所述多個(gè)實(shí)體相關(guān)的多個(gè)用戶在所述總體用戶樣本群中的多個(gè)第一分布比重; 分別獲取與所述多個(gè)實(shí)體相關(guān)的多個(gè)用戶在所述關(guān)聯(lián)用戶樣本群中的第二分布比重;以及 根據(jù)所述第二分布比重和所述第一分布比重獲取所述分布差異值。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述總體用戶樣本群為多個(gè),分別對(duì)應(yīng)多個(gè)網(wǎng)絡(luò)應(yīng)用服務(wù),則每個(gè)所述實(shí)體對(duì)應(yīng)的分布差異值為多個(gè),所述根據(jù)多個(gè)分布差異值對(duì)所述多個(gè)實(shí)體進(jìn)行篩選以獲得所述至少一個(gè)種子實(shí)體還包括: 根據(jù)預(yù)設(shè)分布差異值篩選規(guī)則對(duì)所述多個(gè)實(shí)體進(jìn)行篩選;或, 創(chuàng)建分布差異值分類器,并根據(jù)所述分布差異值分類器對(duì)所述多個(gè)實(shí)體進(jìn)行篩選。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,所述獲得至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體具體包括: 分別獲取所述至少一個(gè)種子實(shí)體到具有所述待關(guān)聯(lián)屬性的用戶樣本群之間的第一關(guān)聯(lián)關(guān)系; 獲取具有所述待關(guān)聯(lián)屬性的用戶樣本群的關(guān)聯(lián)實(shí)體群,并獲取所述具有所述待關(guān)聯(lián)屬性的用戶樣本群到所述關(guān)聯(lián)實(shí)體群之間的第二關(guān)聯(lián)關(guān)系; 根據(jù)所述第一關(guān)聯(lián)關(guān)系和所述第二關(guān)聯(lián)關(guān)系分別獲取所述至少一個(gè)種子實(shí)體到所述關(guān)聯(lián)實(shí)體群的第三關(guān)聯(lián)關(guān)系;以及 根據(jù)所述第三關(guān)聯(lián)關(guān)系對(duì)所述關(guān)聯(lián)實(shí)體群中的每個(gè)所述關(guān)聯(lián)實(shí)體進(jìn)行篩選以獲得所述至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體。
6.一種挖掘?qū)傩院蛯?shí)體關(guān)聯(lián)關(guān)系的裝置,其特征在于,包括: 待關(guān)聯(lián)屬性獲取模塊,用于獲取待關(guān)聯(lián)屬性; 種子實(shí)體獲取模塊,用于根據(jù)所述待關(guān)聯(lián)屬性從多個(gè)實(shí)體中獲得至少一個(gè)種子實(shí)體;關(guān)聯(lián)實(shí)體獲取模塊,用于獲得所述至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體;以及關(guān)聯(lián)模塊,用于將所述待關(guān)聯(lián)屬性與所述至少一個(gè)種子實(shí)體、所述至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體相關(guān)聯(lián)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述種子實(shí)體獲取模塊包括: 實(shí)體獲取單元,用于從預(yù)設(shè)實(shí)體庫中獲取所述多個(gè)實(shí)體; 關(guān)聯(lián)用戶樣本群獲取單元,用于從總體用戶樣本群中獲取具有所述待關(guān)聯(lián)屬性的關(guān)聯(lián)用戶樣本群; 分布差異值獲取單元,用于分別獲得所述多個(gè)實(shí)體在所述關(guān)聯(lián)用戶樣本群中的多個(gè)分布差異值;以及 篩選單元,用于根據(jù)所述多個(gè)分布差異值對(duì)所述多個(gè)實(shí)體進(jìn)行篩選以獲得所述至少一個(gè)種子實(shí)體。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述分布差異值獲取單元還具體用于:分別獲取與所述多個(gè)實(shí)體相關(guān)的多個(gè)用戶在所述總體用戶樣本群中的多個(gè)第一分布比重,并分別獲取與所述多個(gè)實(shí)體相關(guān)的多個(gè)用戶在所述關(guān)聯(lián)用戶樣本群中的第二分布比重,以及根據(jù)所述第二分布比重和所述第一分布比重獲取所述分布差異值。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述總體用戶樣本群為多個(gè),分別對(duì)應(yīng)多個(gè)網(wǎng)絡(luò)應(yīng)用服務(wù),則每個(gè)所述實(shí)體對(duì)應(yīng)的分布差異值為多個(gè),所述根據(jù)多個(gè)分布差異值對(duì)所述多個(gè)實(shí)體進(jìn)行篩選還包括: 根據(jù)預(yù)設(shè)分布差異值篩選規(guī)則對(duì)所述多個(gè)實(shí)體進(jìn)行篩選;或, 創(chuàng)建分布差異值分類器,并根據(jù)所述分布差異值分類器對(duì)所述多個(gè)實(shí)體進(jìn)行篩選。
10.根據(jù)權(quán) 利要求6至9中任一項(xiàng)所述的裝置,其特征在于,所述關(guān)聯(lián)實(shí)體獲取模塊包括: 第一關(guān)聯(lián)關(guān)系獲取單元,用于分別獲取所述至少一個(gè)種子實(shí)體到具有所述待關(guān)聯(lián)屬性的用戶樣本群之間的第一關(guān)聯(lián)關(guān)系; 第二關(guān)聯(lián)關(guān)系獲取單元,用于獲取具有所述待關(guān)聯(lián)屬性的用戶樣本群的關(guān)聯(lián)實(shí)體群,并獲取所述具有所述待關(guān)聯(lián)屬性的用戶樣本群到所述關(guān)聯(lián)實(shí)體群之間的第二關(guān)聯(lián)關(guān)系; 第三關(guān)聯(lián)關(guān)系獲取單元,用于根據(jù)所述第一關(guān)聯(lián)關(guān)系和所述第二關(guān)聯(lián)關(guān)系分別獲取所述至少一個(gè)種子實(shí)體到所述關(guān)聯(lián)實(shí)體群的第三關(guān)聯(lián)關(guān)系;以及 篩選單元,用于根據(jù)所述第三關(guān)聯(lián)關(guān)系對(duì)所述關(guān)聯(lián)實(shí)體群中的每個(gè)所述關(guān)聯(lián)實(shí)體進(jìn)行篩選以獲得所述至少一個(gè)種子實(shí)體的關(guān)聯(lián)實(shí)體。
【文檔編號(hào)】G06F17/30GK103631970SQ201310714291
【公開日】2014年3月12日 申請(qǐng)日期:2013年12月20日 優(yōu)先權(quán)日:2013年12月20日
【發(fā)明者】李超, 李大任 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司