基于標(biāo)簽的推薦數(shù)據(jù)挖掘方法及裝置制造方法
【專利摘要】本發(fā)明提供一種基于標(biāo)簽的推薦數(shù)據(jù)挖掘方法及裝置。本發(fā)明實(shí)施例通過確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽,使得能夠根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù),由于采用與評(píng)論信息相關(guān)的標(biāo)簽所描述的特征維度較多,且數(shù)量很多,因此,能夠避免現(xiàn)有技術(shù)中由于推薦數(shù)據(jù)的標(biāo)簽都是一些只描述推薦數(shù)據(jù)的固定特征的詞語而導(dǎo)致的該標(biāo)簽所描述的特征維度比較單一,且數(shù)量有限的問題,從而提高了推薦數(shù)據(jù)的準(zhǔn)確率、利用率和點(diǎn)擊率。
【專利說明】基于標(biāo)簽的推薦數(shù)據(jù)挖掘方法及裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及推薦技術(shù),尤其涉及一種基于標(biāo)簽的推薦數(shù)據(jù)挖掘方法及裝置。
【【背景技術(shù)】】
[0002]隨著通信技術(shù)的發(fā)展,終端集成了越來越多的功能,從而使得終端的系統(tǒng)功能列表中包含了越來越多相應(yīng)的應(yīng)用程序。有些應(yīng)用程序中會(huì)涉及一些推薦服務(wù),例如,百度地圖中的附近美食推薦等。這些應(yīng)用程序的客戶端可以利用推薦數(shù)據(jù)的標(biāo)簽(tag),還可以稱其為標(biāo)注,進(jìn)行一些基于標(biāo)簽的推薦等?,F(xiàn)有技術(shù)中,具體可以基于預(yù)先設(shè)置的標(biāo)準(zhǔn)詞語,提取推薦數(shù)據(jù)的標(biāo)簽,這些標(biāo)準(zhǔn)詞語都是一些描述推薦數(shù)據(jù)的固定特征的詞語,例如,中餐館、川菜或燒烤等標(biāo)準(zhǔn)詞語。
[0003]然而,由于推薦數(shù)據(jù)的標(biāo)簽都是一些只描述推薦數(shù)據(jù)的固定特征的詞語,例如,中餐館、川菜或燒烤等標(biāo)準(zhǔn)詞語,因此,該標(biāo)簽所描述的特征維度比較單一,且數(shù)量有限,從而導(dǎo)致了基于標(biāo)簽所挖掘的推薦數(shù)據(jù)的準(zhǔn)確率、利用率和點(diǎn)擊率的降低。
【
【發(fā)明內(nèi)容】
】
[0004]本發(fā)明的多個(gè)方面提供一種基于標(biāo)簽的推薦數(shù)據(jù)挖掘方法及裝置,用以提高推薦數(shù)據(jù)的準(zhǔn)確率、利用率和點(diǎn)擊率。
[0005]本發(fā)明的一方面,提供一種基于標(biāo)簽的推薦數(shù)據(jù)挖掘方法,包括:
[0006]確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽;
[0007]根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
[0008]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù),包括:
[0009]根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
[0010]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù),包括:
[0011]根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,在待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的標(biāo)簽中進(jìn)行匹配,以獲得與所述目標(biāo)標(biāo)簽一致或相近似的匹配標(biāo)簽;
[0012]根據(jù)所述匹配標(biāo)簽,獲得與所述匹配標(biāo)簽對(duì)應(yīng)的推薦數(shù)據(jù),以作為所述目標(biāo)推薦數(shù)據(jù)。
[0013]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽之前,還包括:
[0014]通過與至少一個(gè)服務(wù)器進(jìn)行交互,獲得待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的評(píng)論息;
[0015]根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
[0016]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽,包括:
[0017]在每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息中進(jìn)行挖掘,以獲得每個(gè)所述推薦數(shù)據(jù)的評(píng)論索弓I ;
[0018]根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論索引,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
[0019]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述標(biāo)簽包括環(huán)境信息、服務(wù)信息和推薦項(xiàng)目信息中的至少一項(xiàng)。
[0020]本發(fā)明的另一方面,提供一種基于標(biāo)簽的推薦數(shù)據(jù)挖掘裝置,包括:
[0021]確定單元,用于確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽;
[0022]獲得單元,用于根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
[0023]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述獲得單元,具體用于
[0024]根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
[0025]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述獲得單元,具體用于
[0026]根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,在待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的標(biāo)簽中進(jìn)行匹配,以獲得與所述目標(biāo)標(biāo)簽一致或相近似的匹配標(biāo)簽;以及根據(jù)所述匹配標(biāo)簽,獲得標(biāo)簽為所述匹配標(biāo)簽的推薦數(shù)據(jù),以作為所述目標(biāo)推薦數(shù)據(jù)。
[0027]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述裝置還包括提取單元,用于
[0028]通過與至少一個(gè)服務(wù)器進(jìn)行交互,獲得待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的評(píng)論信息;以及根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
[0029]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述提取單元,具體用于
[0030]在每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息中進(jìn)行挖掘,以獲得每個(gè)所述推薦數(shù)據(jù)的評(píng)論索引;以及根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論索引,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
[0031]如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述標(biāo)簽包括環(huán)境信息、服務(wù)信息和推薦項(xiàng)目信息中的至少一項(xiàng)。
[0032]由上述技術(shù)方案可知,本發(fā)明實(shí)施例通過確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽,使得能夠根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù),由于采用與評(píng)論信息相關(guān)的標(biāo)簽所描述的特征維度較多,且數(shù)量很多,因此,能夠避免現(xiàn)有技術(shù)中由于推薦數(shù)據(jù)的標(biāo)簽都是一些只描述推薦數(shù)據(jù)的固定特征的詞語而導(dǎo)致的該標(biāo)簽所描述的特征維度比較單一,且數(shù)量有限的問題,從而提高了推薦數(shù)據(jù)的準(zhǔn)確率、利用率和點(diǎn)擊率。
【【專利附圖】
【附圖說明】】
[0033]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0034]圖1為本發(fā)明一實(shí)施例提供的基于標(biāo)簽的推薦數(shù)據(jù)挖掘方法的流程示意圖;
[0035]圖2為本發(fā)明另一實(shí)施例提供的基于標(biāo)簽的推薦數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖;
[0036]圖3為本發(fā)明另一實(shí)施例提供的基于標(biāo)簽的推薦數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖。
【【具體實(shí)施方式】】
[0037]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0038]需要說明的是,本發(fā)明實(shí)施例中所涉及的終端可以包括但不限于手機(jī)、個(gè)人數(shù)字助理(Personal Digital Assistant, PDA)、無線手持裝置、無線上網(wǎng)本、個(gè)人電腦、便攜電腦、MP3播放器、MP4播放器等。
[0039]另外,本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。
[0040]圖1為本發(fā)明一實(shí)施例提供的基于標(biāo)簽的推薦數(shù)據(jù)挖掘方法的流程示意圖,如圖1所示。
[0041]101、確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽。
[0042]具體地,具體可以根據(jù)目標(biāo)用戶歷史訪問的萬維網(wǎng)(World Wide Web, Web)頁面、歷史點(diǎn)擊的推薦數(shù)據(jù)、當(dāng)前所在的位置數(shù)據(jù)和歷史發(fā)表的用戶評(píng)論等相關(guān)信息,確定該目標(biāo)用戶可能感興趣的興趣點(diǎn)(Point of Interest,Ρ0Ι)。然后,則可以根據(jù)所確定的興趣點(diǎn),確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽,本實(shí)施例對(duì)此不進(jìn)行限定。
[0043]例如,目標(biāo)用戶昨天剛剛點(diǎn)擊過“江邊城外(上地店)”,那么,根據(jù)目標(biāo)用戶對(duì)“江邊城外(上地店)”所發(fā)表的用戶評(píng)論即“環(huán)境優(yōu)雅,適合帶寶寶用餐”,則可以確定該目標(biāo)用戶可能感興趣的興趣點(diǎn)為“環(huán)境優(yōu)雅”;然后,則可以根據(jù)所確定的興趣點(diǎn)“環(huán)境優(yōu)雅”,確定“環(huán)境優(yōu)雅”作為目標(biāo)標(biāo)簽。
[0044]102、根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
[0045]需要說明的是,101?102的執(zhí)行主體可以是推薦引擎,可以位于本地的客戶端中,以進(jìn)行離線推薦,或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,以進(jìn)行在線推薦,本實(shí)施例對(duì)此不進(jìn)行限定。
[0046]可以理解的是,在102之后,推薦引擎則可以進(jìn)一步將目標(biāo)推薦數(shù)據(jù)發(fā)送給客戶端,以供該客戶端將所述目標(biāo)推薦數(shù)據(jù)展現(xiàn)給目標(biāo)用戶。
[0047]可以理解的是,所述客戶端可以是安裝在終端上的應(yīng)用程序,或者還可以是瀏覽器的一個(gè)網(wǎng)頁,只要能夠?qū)崿F(xiàn)推薦,以提供推薦服務(wù)的客觀存在形式都可以,本實(shí)施例對(duì)此不進(jìn)行限定。
[0048]這樣,通過確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽,使得能夠根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù),由于采用與評(píng)論信息相關(guān)的標(biāo)簽所描述的特征維度較多,且數(shù)量很多,因此,能夠避免現(xiàn)有技術(shù)中由于推薦數(shù)據(jù)的標(biāo)簽都是一些只描述推薦數(shù)據(jù)的固定特征的詞語而導(dǎo)致的該標(biāo)簽所描述的特征維度比較單一,且數(shù)量有限的問題,從而提高了推薦數(shù)據(jù)的準(zhǔn)確率、利用率和點(diǎn)擊率。
[0049]另外,采用本發(fā)明提供的技術(shù)方案,能夠挖掘到更多的推薦數(shù)據(jù),從而能夠進(jìn)一步提高推薦數(shù)據(jù)的利用率和點(diǎn)擊率。
[0050]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在102中,推薦引擎具體可以根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目(Item-based)的協(xié)同過濾算法,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
[0051]具體地,在本實(shí)施例中“項(xiàng)目”可以理解為標(biāo)簽,基于項(xiàng)目的協(xié)同過濾算法,也就是說,基于標(biāo)簽的協(xié)同過濾算法,是根據(jù)用戶對(duì)相似項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)預(yù)測目標(biāo)項(xiàng)目的評(píng)分,它是建立在如下假設(shè)基礎(chǔ)上的:如果大部分用戶對(duì)某些項(xiàng)目的打分比較相近,則當(dāng)前用戶對(duì)這些項(xiàng)的打分也會(huì)比較接近?;陧?xiàng)目的協(xié)同過濾算法主要對(duì)目標(biāo)用戶所評(píng)價(jià)的一組項(xiàng)目進(jìn)行研究,并計(jì)算這些項(xiàng)目與目標(biāo)項(xiàng)目之間的相似性,然后從選擇前K個(gè)最相似度最大的項(xiàng)目輸出。
[0052]例如,所述推薦引擎具體可以根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,在待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的標(biāo)簽中進(jìn)行匹配,以獲得與所述目標(biāo)標(biāo)簽一致或相近似的匹配標(biāo)簽;然后,所述推薦引擎則可以根據(jù)所述匹配標(biāo)簽,獲得與所述匹配標(biāo)簽對(duì)應(yīng)的推薦數(shù)據(jù),以作為所述目標(biāo)推薦數(shù)據(jù)。
[0053]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在101之前,推薦引擎還可以進(jìn)一步通過與至少一個(gè)服務(wù)器進(jìn)行交互,獲得待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的評(píng)論信息。例如,大眾點(diǎn)評(píng)、飯統(tǒng)網(wǎng)、百度身邊等應(yīng)用所涉及的服務(wù)器,該服務(wù)器中存儲(chǔ)有用戶關(guān)于待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的點(diǎn)評(píng)。然后,所述推薦引擎則可以根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
[0054]具體地,具體可以利用分詞處理、停用詞過濾等方法,從每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息中,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
[0055]其中,分詞處理是指,對(duì)目標(biāo)文本進(jìn)行切分,例如,字符串匹配分詞、詞義分詞、統(tǒng)計(jì)分詞等方法。
[0056]其中,停用詞過濾是指,對(duì)一些出現(xiàn)頻率太高,且沒有太大搜索含義的詞,例如,的、是、太、非常、of、the和is等,進(jìn)行過濾。
[0057]例如,所述評(píng)論信息可以為如下形式:
[0058]環(huán)境優(yōu)雅,非常適合帶寶寶用餐,贊一個(gè)。
[0059]其中,采用逗號(hào)等分隔符進(jìn)行分隔,不同的輸入法分隔符可以不相同,本實(shí)施例對(duì)此不進(jìn)行限定,只要能夠需要根據(jù)評(píng)論信息具體情況進(jìn)行分隔設(shè)置即可。具體可以先通過分隔符,將評(píng)論信息分割成一個(gè)一個(gè)的部分,然后對(duì)每個(gè)部分進(jìn)行分詞處理?!胺浅_m合帶寶寶用餐”這一位置信息,如果直接成為一個(gè)tag,是不合理的,因?yàn)殚L度過長了,需要對(duì)其進(jìn)行分詞處理。分詞處理技術(shù)當(dāng)前是成熟的,會(huì)將其分隔為“非?!?、“帶”、“寶寶”和“用餐”等 tag。
[0060]但是,明顯“非?!边@個(gè)tag對(duì)于讀者了解這家商戶沒有任何幫助,因此需要進(jìn)一步進(jìn)行停用詞過濾。例如,使用一個(gè)停用詞列表來進(jìn)行過濾,該列表所包含的tag為一些出現(xiàn)頻率太高,且沒有太大搜索含義的詞,例如,的、是、太、非常、Of、the和is等,進(jìn)行過濾,得到標(biāo)簽。
[0061]具體地,所述推薦引擎具體可以在每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息中進(jìn)行挖掘,以獲得每個(gè)所述推薦數(shù)據(jù)的評(píng)論索引。然后,所述推薦引擎則可以根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論索弓I,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
[0062]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,本發(fā)明所涉及的所述標(biāo)簽可以包括但不限于環(huán)境信息、服務(wù)信息和推薦項(xiàng)目信息中的至少一項(xiàng)。例如,環(huán)境嘈雜、環(huán)境優(yōu)雅等環(huán)境信息;或者再例如,服務(wù)員態(tài)度太差、門口等位設(shè)置娛樂設(shè)備等服務(wù)信息;或者再例如,推薦魚香味烤魚、水煮魚味道鮮美等推薦項(xiàng)目信息,本實(shí)施例對(duì)此不進(jìn)行限定。
[0063]本實(shí)施例中,通過確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽,使得能夠根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù),由于采用與評(píng)論信息相關(guān)的標(biāo)簽所描述的特征維度較多,且數(shù)量很多,因此,能夠避免現(xiàn)有技術(shù)中由于推薦數(shù)據(jù)的標(biāo)簽都是一些只描述推薦數(shù)據(jù)的固定特征的詞語而導(dǎo)致的該標(biāo)簽所描述的特征維度比較單一,且數(shù)量有限的問題,從而提高了推薦數(shù)據(jù)的準(zhǔn)確率、利用率和點(diǎn)擊率。
[0064]另外,采用本發(fā)明提供的技術(shù)方案,能夠挖掘到更多的推薦數(shù)據(jù),從而能夠進(jìn)一步提高推薦數(shù)據(jù)的利用率和點(diǎn)擊率。
[0065]需要說明的是,對(duì)于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。
[0066]在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
[0067]圖2為本發(fā)明另一實(shí)施例提供的基于標(biāo)簽的推薦數(shù)據(jù)挖掘裝置的結(jié)構(gòu)示意圖,如圖2所示。本實(shí)施例的基于標(biāo)簽的推薦數(shù)據(jù)挖掘裝置可以包括確定單元21和獲得單元22。其中,確定單元21,用于確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽;獲得單元22,用于根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
[0068]具體地,所述確定單元21具體可以根據(jù)目標(biāo)用戶歷史訪問的萬維網(wǎng)(World WideWeb, Web)頁面、歷史點(diǎn)擊的推薦數(shù)據(jù)、當(dāng)前所在的位置數(shù)據(jù)和歷史發(fā)表的用戶評(píng)論等相關(guān)信息,確定該目標(biāo)用戶可能感興趣的興趣點(diǎn)(Point of Interest, Ρ0Ι)。然后,所述確定單元21則可以根據(jù)所確定的興趣點(diǎn),確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽,本實(shí)施例對(duì)此不進(jìn)行限定。
[0069]例如,目標(biāo)用戶昨天剛剛點(diǎn)擊過“江邊城外(上地店)”,那么,所述確定單元21根據(jù)目標(biāo)用戶對(duì)“江邊城外(上地店)”所發(fā)表的用戶評(píng)論即“環(huán)境優(yōu)雅,適合帶寶寶用餐”,則可以確定該目標(biāo)用戶可能感興趣的興趣點(diǎn)為“環(huán)境優(yōu)雅”;然后,所述確定單元21則可以根據(jù)所確定的興趣點(diǎn)“環(huán)境優(yōu)雅”,確定“環(huán)境優(yōu)雅”作為目標(biāo)標(biāo)簽。
[0070]需要說明的是,本實(shí)施例提供的裝置可以是推薦引擎,可以位于本地的客戶端中,以進(jìn)行離線推薦,或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,以進(jìn)行在線推薦,本實(shí)施例對(duì)此不進(jìn)行限定。
[0071]可以理解的是,在獲得單元22執(zhí)行根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)的操作之后,推薦引擎則可以進(jìn)一步將目標(biāo)推薦數(shù)據(jù)發(fā)送給客戶端,以供該客戶端將所述目標(biāo)推薦數(shù)據(jù)展現(xiàn)給目標(biāo)用戶。
[0072]可以理解的是,所述客戶端可以是安裝在終端上的應(yīng)用程序,或者還可以是瀏覽器的一個(gè)網(wǎng)頁,只要能夠?qū)崿F(xiàn)推薦,以提供推薦服務(wù)的客觀存在形式都可以,本實(shí)施例對(duì)此不進(jìn)行限定。
[0073]這樣,通過確定單元確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽,使得獲得單元能夠根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù),由于采用與評(píng)論信息相關(guān)的標(biāo)簽所描述的特征維度較多,且數(shù)量很多,因此,能夠避免現(xiàn)有技術(shù)中由于推薦數(shù)據(jù)的標(biāo)簽都是一些只描述推薦數(shù)據(jù)的固定特征的詞語而導(dǎo)致的該標(biāo)簽所描述的特征維度比較單一,且數(shù)量有限的問題,從而提高了推薦數(shù)據(jù)的準(zhǔn)確率、利用率和點(diǎn)擊率。
[0074]另外,采用本發(fā)明提供的技術(shù)方案,能夠挖掘到更多的推薦數(shù)據(jù),從而能夠進(jìn)一步提高推薦數(shù)據(jù)的利用率和點(diǎn)擊率。
[0075]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述獲得單元22,具體可以用于根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目(Item-based)的協(xié)同過濾算法,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
[0076]具體地,在本實(shí)施例中“項(xiàng)目”可以理解為標(biāo)簽,基于項(xiàng)目的協(xié)同過濾算法,也就是說,基于標(biāo)簽的協(xié)同過濾算法,是根據(jù)用戶對(duì)相似項(xiàng)目的評(píng)分?jǐn)?shù)據(jù)預(yù)測目標(biāo)項(xiàng)目的評(píng)分,它是建立在如下假設(shè)基礎(chǔ)上的:如果大部分用戶對(duì)某些項(xiàng)目的打分比較相近,則當(dāng)前用戶對(duì)這些項(xiàng)的打分也會(huì)比較接近?;陧?xiàng)目的協(xié)同過濾算法主要對(duì)目標(biāo)用戶所評(píng)價(jià)的一組項(xiàng)目進(jìn)行研究,并計(jì)算這些項(xiàng)目與目標(biāo)項(xiàng)目之間的相似性,然后從選擇前K個(gè)最相似度最大的項(xiàng)目輸出。
[0077]例如,所述獲得單元22,具體可以根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,在待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的標(biāo)簽中進(jìn)行匹配,以獲得與所述目標(biāo)標(biāo)簽一致或相近似的匹配標(biāo)簽;以及根據(jù)所述匹配標(biāo)簽,獲得標(biāo)簽為所述匹配標(biāo)簽的推薦數(shù)據(jù),以作為所述目標(biāo)推薦數(shù)據(jù)。
[0078]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,如圖3所示,本實(shí)施例提供的基于標(biāo)簽的推薦數(shù)據(jù)挖掘裝置還可以進(jìn)一步包括提取單元31,用于通過與至少一個(gè)服務(wù)器進(jìn)行交互,獲得待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的評(píng)論信息,例如,大眾點(diǎn)評(píng)、飯統(tǒng)網(wǎng)、百度身邊等應(yīng)用所涉及的服務(wù)器,該服務(wù)器中存儲(chǔ)有用戶關(guān)于待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的點(diǎn)評(píng);以及根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
[0079]具體地,所述提取單元31具體可以利用分詞處理、停用詞過濾等方法,從每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息中,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
[0080]其中,分詞處理是指,對(duì)目標(biāo)文本進(jìn)行切分,例如,字符串匹配分詞、詞義分詞、統(tǒng)計(jì)分詞等方法。
[0081]其中,停用詞過濾是指,對(duì)一些出現(xiàn)頻率太高,且沒有太大搜索含義的詞,例如,的、是、太、非常、of、the和is等,進(jìn)行過濾。
[0082]例如,所述評(píng)論信息可以為如下形式:
[0083]環(huán)境優(yōu)雅,非常適合帶寶寶用餐,贊一個(gè)。
[0084]其中,采用逗號(hào)等分隔符進(jìn)行分隔,不同的輸入法分隔符可以不相同,本實(shí)施例對(duì)此不進(jìn)行限定,只要能夠需要根據(jù)評(píng)論信息具體情況進(jìn)行分隔設(shè)置即可。所述提取單元31具體可以先通過分隔符,將評(píng)論信息分割成一個(gè)一個(gè)的部分,然后對(duì)每個(gè)部分進(jìn)行分詞處理?!胺浅_m合帶寶寶用餐”這一位置信息,如果直接成為一個(gè)tag,是不合理的,因?yàn)殚L度過長了,需要對(duì)其進(jìn)行分詞處理。分詞處理技術(shù)當(dāng)前是成熟的,會(huì)將其分隔為“非?!薄ⅰ皫А?、“寶寶”和“用餐”等tag。
[0085]但是,明顯“非?!边@個(gè)tag對(duì)于讀者了解這家商戶沒有任何幫助,因此需要進(jìn)一步進(jìn)行停用詞過濾。例如,使用一個(gè)停用詞列表來進(jìn)行過濾,該列表所包含的tag為一些出現(xiàn)頻率太高,且沒有太大搜索含義的詞,例如,的、是、太、非常、of、the和is等,進(jìn)行過濾,得到標(biāo)簽。
[0086]具體地,所述提取單元31,具體可以用于在每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息中進(jìn)行挖掘,以獲得每個(gè)所述推薦數(shù)據(jù)的評(píng)論索引;以及根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論索引,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
[0087]可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,本發(fā)明所涉及的所述標(biāo)簽包括環(huán)境信息、服務(wù)信息和推薦項(xiàng)目信息中的至少一項(xiàng)。例如,環(huán)境嘈雜、環(huán)境優(yōu)雅等環(huán)境信息;或者再例如,服務(wù)員態(tài)度太差、門口等位設(shè)置娛樂設(shè)備等服務(wù)信息;或者再例如,推薦魚香味烤魚、水煮魚味道鮮美等推薦項(xiàng)目信息,本實(shí)施例對(duì)此不進(jìn)行限定。
[0088]本實(shí)施例中,通過確定單元確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽,使得獲得單元能夠根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù),由于采用與評(píng)論信息相關(guān)的標(biāo)簽所描述的特征維度較多,且數(shù)量很多,因此,能夠避免現(xiàn)有技術(shù)中由于推薦數(shù)據(jù)的標(biāo)簽都是一些只描述推薦數(shù)據(jù)的固定特征的詞語而導(dǎo)致的該標(biāo)簽所描述的特征維度比較單一,且數(shù)量有限的問題,從而提高了推薦數(shù)據(jù)的準(zhǔn)確率、利用率和點(diǎn)擊率。
[0089]另外,采用本發(fā)明提供的技術(shù)方案,能夠挖掘到更多的推薦數(shù)據(jù),從而能夠進(jìn)一步提高推薦數(shù)據(jù)的利用率和點(diǎn)擊率。
[0090]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
[0091]在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
[0092]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
[0093]另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
[0094]上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)裝置(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)裝置等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(Read-Only Memory, ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory, RAM)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0095]最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【權(quán)利要求】
1.一種基于標(biāo)簽的推薦數(shù)據(jù)挖掘方法,其特征在于,包括: 確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽; 根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù),包括: 根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù),包括: 根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,在待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的標(biāo)簽中進(jìn)行匹配,以獲得與所述目標(biāo)標(biāo)簽一致或相近似的匹配標(biāo)簽; 根據(jù)所述匹配標(biāo)簽,獲得與所述匹配標(biāo)簽對(duì)應(yīng)的推薦數(shù)據(jù),以作為所述目標(biāo)推薦數(shù)據(jù)。
4.根據(jù)權(quán)利要求1?3任一權(quán)利要求所述的方法,其特征在于,所述確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽之前,還包括: 通過與至少一個(gè)服務(wù)器進(jìn)行交互,獲得待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的評(píng)論信息; 根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽,包括: 在每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息中進(jìn)行挖掘,以獲得每個(gè)所述推薦數(shù)據(jù)的評(píng)論索引; 根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論索引,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
6.根據(jù)權(quán)利要求1?5任一權(quán)利要求所述的方法,其特征在于,所述標(biāo)簽包括環(huán)境信息、服務(wù)信息和推薦項(xiàng)目信息中的至少一項(xiàng)。
7.一種基于標(biāo)簽的推薦數(shù)據(jù)挖掘裝置,其特征在于,包括: 確定單元,用于確定至少一個(gè)與評(píng)論信息相關(guān)的標(biāo)簽,以作為目標(biāo)標(biāo)簽; 獲得單元,用于根據(jù)所述目標(biāo)標(biāo)簽,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述獲得單元,具體用于 根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,獲得與所述目標(biāo)標(biāo)簽相關(guān)的目標(biāo)推薦數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述獲得單元,具體用于 根據(jù)所述目標(biāo)標(biāo)簽,利用基于項(xiàng)目的協(xié)同過濾算法,在待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的標(biāo)簽中進(jìn)行匹配,以獲得與所述目標(biāo)標(biāo)簽一致或相近似的匹配標(biāo)簽;以及根據(jù)所述匹配標(biāo)簽,獲得標(biāo)簽為所述匹配標(biāo)簽的推薦數(shù)據(jù),以作為所述目標(biāo)推薦數(shù)據(jù)。
10.根據(jù)權(quán)利要求7?9任一權(quán)利要求所述的裝置,其特征在于,所述裝置還包括提取單元,用于 通過與至少一個(gè)服務(wù)器進(jìn)行交互,獲得待推薦的全部推薦數(shù)據(jù)或部分推薦數(shù)據(jù)的評(píng)論信息;以及根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述提取單元,具體用于 在每個(gè)所述推薦數(shù)據(jù)的評(píng)論信息中進(jìn)行挖掘,以獲得每個(gè)所述推薦數(shù)據(jù)的評(píng)論索引;以及根據(jù)每個(gè)所述推薦數(shù)據(jù)的評(píng)論索引,提取每個(gè)所述推薦數(shù)據(jù)的標(biāo)簽。
12.根據(jù)權(quán)利要求7?11任一權(quán)利要求所述的裝置,其特征在于,所述標(biāo)簽包括環(huán)境信息、服務(wù)信息和推薦項(xiàng)目信息中的至少一項(xiàng)。
【文檔編號(hào)】G06F17/30GK104166648SQ201310182148
【公開日】2014年11月26日 申請(qǐng)日期:2013年5月16日 優(yōu)先權(quán)日:2013年5月16日
【發(fā)明者】劉凱奎 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司