本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)分析方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,日益膨脹的網(wǎng)絡(luò)數(shù)據(jù)使互聯(lián)網(wǎng)用戶逐漸迷失在了信息的海洋之中。為此,各種個性化服務(wù)技術(shù)被提出來,為不同的用戶提供不同的服務(wù),以滿足不同的需求。協(xié)同過濾推薦(collaborativefilteringrecommendation)是在信息過濾和信息系統(tǒng)中正迅速成為一項很受歡迎的技術(shù)。與傳統(tǒng)的基于內(nèi)容過濾直接分析內(nèi)容進行推薦不同,協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度預(yù)測。
然而,常常會有一些無效數(shù)據(jù)混雜在其中,造成協(xié)同過濾結(jié)果不準確,導(dǎo)致數(shù)據(jù)相關(guān)度的分析結(jié)果與實際存在偏差,參考性較差。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種數(shù)據(jù)分析方法,數(shù)據(jù)篩選濾出有效數(shù)據(jù),然后基于有效數(shù)據(jù)自動進行物品相似度的計算,使得根據(jù)計算得到的相似度數(shù)據(jù)能夠準確進行產(chǎn)品推薦。該數(shù)據(jù)分析方法兼容多種業(yè)務(wù)場景,能夠有效減少數(shù)據(jù)生產(chǎn)、校驗及運營成本。
為實現(xiàn)上述目的,本發(fā)明提供了一種數(shù)據(jù)分析方法,包括:
獲取面向第一用戶的待篩選的目標數(shù)據(jù);所述待篩選的目標數(shù)據(jù)具有評分數(shù)據(jù)和數(shù)據(jù)類別屬性信息;所述待篩選的目標數(shù)據(jù)包括第一類型目標數(shù)據(jù)和第二類型目標數(shù)據(jù);
對所述待篩選的目標數(shù)據(jù)進行預(yù)篩選處理;
基于所述數(shù)據(jù)類別屬性信息,對不同數(shù)據(jù)類別屬性的所述預(yù)篩選處理后的目標數(shù)據(jù)進行分組;
對每一組的所述預(yù)篩選處理后的目標數(shù)據(jù),根據(jù)所述目標數(shù)據(jù)的評分數(shù)據(jù)進行數(shù)據(jù)評分的歸一化處理,生成所述目標數(shù)據(jù)的歸一化評分參數(shù);所述歸一化評分參數(shù)具有目標數(shù)據(jù)的目標對象id、數(shù)據(jù)類別id和所述第一用戶的用戶id的信息;
獲取多個用戶的目標數(shù)據(jù)的歸一化評分參數(shù);
根據(jù)所述數(shù)據(jù)類別id,對不同用戶的多個目標數(shù)據(jù)的統(tǒng)一化評分參數(shù)進行相似度計算,得到相似度度量的值;
根據(jù)所述相似度度量的值,確定所述多個目標數(shù)據(jù)對應(yīng)的目標對象之間的相關(guān)度。
優(yōu)選的,所述方法還包括:對所述目標數(shù)據(jù)添加所述相關(guān)度的信息。
優(yōu)選的,所述相似度計算具體為:
采用向量空間余弦相似度方法進行相似度計算。
優(yōu)選的,所述對所述待篩選的目標數(shù)據(jù)進行預(yù)篩選處理具體包括:
確定每個待篩選的目標數(shù)據(jù)的訪問日志;所述訪問日志包括所述目標數(shù)據(jù)的播放時長、所述第一用戶的用戶id和所述目標數(shù)據(jù)的目標對象id的格式;
驗證第一目標數(shù)據(jù)的訪問日志中所述用戶id和所述目標對象id的格式;
當(dāng)驗證通過時,確定所述第一目標數(shù)據(jù)是否是無效數(shù)據(jù);
如果是無效數(shù)據(jù),則將所述第一目標數(shù)據(jù)從所述待篩選的目標數(shù)據(jù)中刪除。
進一步優(yōu)選的,所述訪問日志還包括:所述第一用戶的用戶id和所述目標數(shù)據(jù)的目標對象id的格式;所述確定所述第一目標數(shù)據(jù)是否是無效數(shù)據(jù)具體包括:
確定所述第一目標數(shù)據(jù)的播放時長是否超過有效播放時間閾值;
當(dāng)所述第一目標數(shù)據(jù)的播放時長不超過所述有效播放時間閾值時,對所述第一目標數(shù)據(jù)添加第一數(shù)據(jù)屬性;所述第一數(shù)據(jù)屬性用以表示所述第一目標數(shù)據(jù)為無效數(shù)據(jù)。
進一步優(yōu)選的,所述訪問日志還包括:訪問所述目標數(shù)據(jù)的終端ip地址和訪問動作的時間戳;所述確定所述第一目標數(shù)據(jù)是否是無效數(shù)據(jù)具體包括:
統(tǒng)計同一終端ip地址對同一目標數(shù)據(jù)的訪問動作的時間戳,并計算得到所述第一目標數(shù)據(jù)的訪問頻率;
確定所述第一目標數(shù)據(jù)的訪問頻率是否超過預(yù)定頻率閾值;
當(dāng)所述第一目標數(shù)據(jù)的訪問頻率超過預(yù)定頻率閾值時,對所述第一目標數(shù)據(jù)添加所述第一數(shù)據(jù)屬性;所述第一數(shù)據(jù)屬性用以表示所述第一目標數(shù)據(jù)為無效數(shù)據(jù)。
進一步優(yōu)選的,所述方法還包括:
當(dāng)所述驗證不通過時,對所述第一目標數(shù)據(jù)添加所述第一數(shù)據(jù)屬性;
根據(jù)所述第一數(shù)據(jù)屬性,將所述第一目標數(shù)據(jù)從所述待篩選的目標數(shù)據(jù)中刪除。
進一步優(yōu)選的,所述驗證第一目標數(shù)據(jù)的訪問日志中所述用戶id和所述目標對象id的格式具體為:
通過正則方式進行所述用戶id和所述目標對象id的格式的數(shù)據(jù)校驗。
優(yōu)選的,所述方法還包括:
當(dāng)所述第一目標數(shù)據(jù)的播放時長超過所述有效播放時間閾值時,將所述第一目標數(shù)據(jù)添加至有效數(shù)據(jù)集合。
優(yōu)選的,當(dāng)所述目標數(shù)據(jù)為所述第二類型目標數(shù)據(jù)時,所述方法還包括:
獲取用戶行為數(shù)據(jù),根據(jù)所述用戶行為數(shù)據(jù)確定所述第二類型目標數(shù)據(jù)的評分數(shù)據(jù)。
本發(fā)明實施例提供的數(shù)據(jù)分析方法,數(shù)據(jù)篩選濾出有效數(shù)據(jù),然后基于有效數(shù)據(jù)自動進行物品相似度的計算,使得根據(jù)計算得到的相似度數(shù)據(jù)能夠準確進行產(chǎn)品推薦。該數(shù)據(jù)分析方法兼容多種業(yè)務(wù)場景,能夠有效減少數(shù)據(jù)生產(chǎn)、校驗及運營成本。
附圖說明
圖1為本發(fā)明實施例提供的數(shù)據(jù)分析方法的流程圖;
圖2為本發(fā)明實施例提供的一種數(shù)據(jù)過濾方法的流程圖;
圖3為本發(fā)明實施例提供的另一種數(shù)據(jù)過濾方法的流程圖;
圖4為本發(fā)明實施例提供的向量空間余弦相似度方法的示意圖之一;
圖5為本發(fā)明實施例提供的向量空間余弦相似度方法的示意圖之二;
圖6為本發(fā)明實施例提供的向量空間余弦相似度方法的示意圖之三;
圖7為本發(fā)明實施例提供的向量空間余弦相似度方法的示意圖之四;
圖8為本發(fā)明實施例提供的向量空間余弦相似度方法的示意圖之五。
具體實施方式
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
下面結(jié)合圖1所示的數(shù)據(jù)分析方法的流程圖,以面向用戶的數(shù)據(jù)分析服務(wù)的應(yīng)用場景為例,對本發(fā)明實施例提供的數(shù)據(jù)分析方法進行說明。
如圖1所示,本發(fā)明的數(shù)據(jù)分析方法包括如下步驟:
步驟110,獲取面向第一用戶的待篩選的目標數(shù)據(jù);
具體的,待篩選的目標數(shù)據(jù)具有評分數(shù)據(jù)和數(shù)據(jù)類別屬性信息;其中,待篩選的目標數(shù)據(jù)包括第一類型目標數(shù)據(jù)和第二類型目標數(shù)據(jù);
在一個具體的例子中,待篩選的目標數(shù)據(jù)可以是用以在線播放或者銷售的物品的數(shù)據(jù),物品具有物品屬性,比如家用電器、辦公用品等不同列別,因此目標數(shù)據(jù)具有數(shù)據(jù)類別屬性信息。本發(fā)明的數(shù)據(jù)分析和篩選優(yōu)選的是基于同類別的目標數(shù)據(jù)進行的。
評分數(shù)據(jù)的產(chǎn)生可以基于兩種不同的方式產(chǎn)生。
第一種是用戶直接在系統(tǒng)里進行對物品進行打分來表現(xiàn)用戶對該物品的喜好度,因此能夠根據(jù)用戶對物品的打分即形成評分數(shù)據(jù)。即對應(yīng)上述所說的第一類型目標數(shù)據(jù)的評分數(shù)據(jù)。
另外一種可以是通過對用戶行為進行分析來生成用戶評分數(shù)據(jù)。比如通過用戶瀏覽物品詳情頁的日志、點擊日志、搜索日志、收藏日志等興趣日志,然后基于對用戶行為的分析進行數(shù)據(jù)轉(zhuǎn)換,得到評分數(shù)據(jù)。即對應(yīng)上述所說的第二類型目標數(shù)據(jù)的評分數(shù)據(jù)。
步驟120,對待篩選的目標數(shù)據(jù)進行預(yù)篩選處理;
具體的,對于目標數(shù)據(jù)的預(yù)篩選處理,可以從數(shù)據(jù)格式、用戶查看數(shù)據(jù)的時間長度和數(shù)據(jù)的訪問頻率等方面進行考慮。
在一個具體的例子中,預(yù)篩選處理過程可以如圖2所示,包括如下步驟:
步驟1210,確定每個待篩選的目標數(shù)據(jù)的訪問日志;
具體的,訪問日志是在目標數(shù)據(jù)被訪問、查看的時候生成的。
訪問日志可以包括目標數(shù)據(jù)的播放時長、第一用戶的用戶id和目標數(shù)據(jù)的目標對象id的格式等。
其中,目標數(shù)據(jù)的播放時長并不限制于其字面意思所顯示的播放的概念。比如,對于目標數(shù)據(jù)是用戶觀看影片的影片信息的情況,播放時長可以是用戶觀看影片的時間;又比如對于目標數(shù)據(jù)是用戶關(guān)注商品的商品信息的情況,播放時長可以是指用戶停留在商品頁面上查看的時間,或者在一定時段內(nèi)的累計查看時間。
用戶的用戶id以及被查看的目標數(shù)據(jù)的目標對象id的格式也相應(yīng)的都記錄在訪問日志中。這里所說的目標數(shù)據(jù)的目標對象id是指目標數(shù)據(jù)的唯一標識信息。比如商品id、影片id等等。
步驟1220,驗證第一目標數(shù)據(jù)的訪問日志中用戶id和目標對象id的格式;
具體的,進行數(shù)據(jù)過濾時,在本例中首先對數(shù)據(jù)格式進行校驗,確定待篩選目標數(shù)據(jù)的數(shù)據(jù)格式是否正確。
在具體實現(xiàn)中,進行數(shù)據(jù)格式驗證可以通過正則方式來實現(xiàn)。
當(dāng)數(shù)據(jù)格式驗證通過時,執(zhí)行步驟1230,當(dāng)數(shù)據(jù)格式驗證不通過時,執(zhí)行步驟1250。
步驟1230,確定第一目標數(shù)據(jù)的播放時長是否超過有效播放時間閾值;
具體的,通過設(shè)定有效播放時間閾值,可以對播放時間過短的數(shù)據(jù)進行篩除。因為如果用戶觀看時間過短,雖然是進行了目標數(shù)據(jù)的訪問,但并不能客觀反映用戶的真實興趣,而往往是因為沒有興趣才會出現(xiàn)觀看時間過短的情況。
比如,以觀看影片為例,觀看時間小于1分鐘,或者小于3分鐘,并不能反映用戶的興趣。
而以查閱商品為例,用戶在商品頁面停留的時間小于5秒鐘,可以認為用戶對該商品沒有興趣,因此可以設(shè)定5秒這個時間為播放時間閾值。
為了更加準確的進行數(shù)據(jù)過濾,對于不同類型的目標數(shù)據(jù),可以設(shè)置不同的有效播放時間閾值。具體的可以根據(jù)目標數(shù)據(jù)的目標對象id確定相應(yīng)的有效播放時間閾值。
當(dāng)?shù)谝荒繕藬?shù)據(jù)的播放時長超過有效播放時間閾值時,執(zhí)行步驟150;
當(dāng)?shù)谝荒繕藬?shù)據(jù)的播放時長不超過有效播放時間閾值時,執(zhí)行步驟160。
步驟1240,確定第一目標數(shù)據(jù)為有效數(shù)據(jù);
具體的,可以對確定為有效數(shù)據(jù)的第一目標數(shù)據(jù)添加數(shù)據(jù)屬性,用以表示其為有效數(shù)據(jù)。或者也可以將第一目標數(shù)據(jù)加入有效數(shù)據(jù)的數(shù)據(jù)列表中,在后續(xù)進行數(shù)據(jù)處理時,直接通過獲取數(shù)據(jù)列表中的數(shù)據(jù)來得到有效數(shù)據(jù)。
步驟1250,對第一目標數(shù)據(jù)添加第一數(shù)據(jù)屬性;
具體的,第一數(shù)據(jù)屬性用以表示第一目標數(shù)據(jù)為無效數(shù)據(jù)。通過為目標數(shù)據(jù)添加數(shù)據(jù)屬性來標識該數(shù)據(jù)為無效數(shù)據(jù)。
步驟1260,根據(jù)第一數(shù)據(jù)屬性,將第一目標數(shù)據(jù)從待篩選的目標數(shù)據(jù)中刪除。
當(dāng)然也可以跳過步驟1250,直接將無效的第一目標數(shù)據(jù)從待篩選的目標數(shù)據(jù)中刪除。
上述過濾方法,主要考慮通過對目標數(shù)據(jù)的數(shù)據(jù)格式、用戶訪問時間的有效性過濾來濾除無效數(shù)據(jù),確定有效數(shù)據(jù),從而保證后續(xù)用于數(shù)據(jù)計算的數(shù)據(jù)有效性。
在另一個具體的例子中,預(yù)篩選處理過程可以如圖3所示,包括如下步驟:
步驟1211,確定每個待篩選的目標數(shù)據(jù)的訪問日志;
具體的,訪問日志是在目標數(shù)據(jù)被訪問、查看的時候生成的。
訪問日志可以包括目標數(shù)據(jù)的播放時長、第一用戶的用戶id和目標數(shù)據(jù)的目標對象id的格式等。
其中,目標數(shù)據(jù)的播放時長并不限制于其字面意思所顯示的播放的概念。比如,對于目標數(shù)據(jù)是用戶觀看影片的影片信息的情況,播放時長可以是用戶觀看影片的時間;又比如對于目標數(shù)據(jù)是用戶關(guān)注商品的商品信息的情況,播放時長可以是指用戶停留在商品頁面上查看的時間,或者在一定時段內(nèi)的累計查看時間。
用戶的用戶id以及被查看的目標數(shù)據(jù)的目標對象id的格式也相應(yīng)的都記錄在訪問日志中。這里所說的目標數(shù)據(jù)的目標對象id是指目標數(shù)據(jù)的唯一標識信息。比如商品id、影片id等等。
步驟1221,驗證第一目標數(shù)據(jù)的訪問日志中用戶id和目標對象id的格式;
具體的,進行數(shù)據(jù)過濾時,在本例中首先對數(shù)據(jù)格式進行校驗,確定待篩選目標數(shù)據(jù)的數(shù)據(jù)格式是否正確。
在具體實現(xiàn)中,進行數(shù)據(jù)格式驗證可以通過正則方式來實現(xiàn)。
當(dāng)數(shù)據(jù)格式驗證通過時,執(zhí)行步驟1231,當(dāng)數(shù)據(jù)格式驗證不通過時,執(zhí)行步驟1261。
步驟1231,統(tǒng)計同一終端ip地址對同一目標數(shù)據(jù)的訪問動作的時間戳,并計算得到所述第一目標數(shù)據(jù)的訪問頻率;
具體的,在待篩選的目標數(shù)據(jù)中可能混入一類無效數(shù)據(jù),比如用戶模擬注入或者頻繁調(diào)用上報的數(shù)據(jù),這些數(shù)據(jù)需要進行過濾的。
具體可以通過目標數(shù)據(jù)相關(guān)聯(lián)的終端ip地址和訪問動作的時間戳來判定。例如可以統(tǒng)計同一終端ip地址對同一目標數(shù)據(jù)的訪問動作的時間戳,確定對該目標數(shù)據(jù)的訪問頻率是否超過預(yù)定頻率閾值。
當(dāng)目標數(shù)據(jù)被訪問時,每次訪問都會添加一個時間戳,因此可以統(tǒng)計一端時間內(nèi)的時間戳的數(shù)量來計算在這段時間內(nèi)的平均訪問頻率。如果訪問頻率過高,則說明很有可能該數(shù)據(jù)是被頻繁調(diào)用上報的數(shù)據(jù),是非正常訪問的數(shù)據(jù)。因此需要剔除。
步驟1241,確定第一目標數(shù)據(jù)的訪問頻率是否超過預(yù)定頻率閾值;
當(dāng)?shù)谝荒繕藬?shù)據(jù)的訪問頻率超過預(yù)定頻率閾值時,執(zhí)行步驟1261。
當(dāng)?shù)谝荒繕藬?shù)據(jù)的訪問頻率不超過預(yù)定頻率閾值時,執(zhí)行步驟1251。
步驟1251,確定第一目標數(shù)據(jù)為有效數(shù)據(jù);
具體的,可以對確定為有效數(shù)據(jù)的第一目標數(shù)據(jù)添加數(shù)據(jù)屬性,用以表示其為有效數(shù)據(jù)。或者也可以將第一目標數(shù)據(jù)加入有效數(shù)據(jù)的數(shù)據(jù)列表中,在后續(xù)進行數(shù)據(jù)處理時,直接通過獲取數(shù)據(jù)列表中的數(shù)據(jù)來得到有效數(shù)據(jù)。
步驟1261,對第一目標數(shù)據(jù)添加第一數(shù)據(jù)屬性;
具體的,第一數(shù)據(jù)屬性用以表示第一目標數(shù)據(jù)為無效數(shù)據(jù)。通過為目標數(shù)據(jù)添加數(shù)據(jù)屬性來標識該數(shù)據(jù)為無效數(shù)據(jù)。
步驟1271,根據(jù)第一數(shù)據(jù)屬性,將第一目標數(shù)據(jù)從待篩選的目標數(shù)據(jù)中刪除。
當(dāng)然也可以跳過步驟1261,直接將無效的第一目標數(shù)據(jù)從待篩選的目標數(shù)據(jù)中刪除。
上述過濾方法,主要考慮通過對目標數(shù)據(jù)的數(shù)據(jù)格式和數(shù)據(jù)訪問頻率的過濾來濾除無效數(shù)據(jù),確定有效數(shù)據(jù),從而保證后續(xù)用于數(shù)據(jù)計算的數(shù)據(jù)有效性。
當(dāng)然,圖2和圖3所示的過濾方法還可以進行結(jié)合,來實現(xiàn)對待篩選的目標數(shù)據(jù)進行預(yù)篩選處理。
步驟130,基于數(shù)據(jù)類別屬性信息,對不同數(shù)據(jù)類別屬性的預(yù)篩選處理后的目標數(shù)據(jù)進行分組;
具體的,通過數(shù)據(jù)分析確定目標對象的相關(guān)度主要是基于同一類別屬性下的物品的相關(guān)度。因此,可以基于數(shù)據(jù)類別屬性信息,對不同類型的數(shù)據(jù)進行分組,然后再針對每一組數(shù)據(jù)執(zhí)行后續(xù)處理。
步驟140,對每一組的所述預(yù)篩選處理后的目標數(shù)據(jù),根據(jù)目標數(shù)據(jù)的評分數(shù)據(jù)進行數(shù)據(jù)評分的歸一化處理,生成目標數(shù)據(jù)的歸一化評分參數(shù);
具體的,考慮到不同行為數(shù)據(jù)的取值相差可能很大,例如用戶的查看數(shù)據(jù)肯定比觀看數(shù)據(jù)多得多。因此通過歸一化,才能使數(shù)據(jù)更加準確。
其中,歸一化評分參數(shù)具有目標數(shù)據(jù)的目標對象id、數(shù)據(jù)類別id和第一用戶的用戶id的信息。
步驟150,獲取多個用戶的目標數(shù)據(jù)的歸一化評分參數(shù);
通過上述步驟110-140可以對每個用戶的目標數(shù)據(jù)進行采集和處理,從而能夠?qū)τ诿總€目標對象來自多個用戶的目標數(shù)據(jù)進行統(tǒng)計,得到多個用戶的目標數(shù)據(jù)的歸一化評分參數(shù)。并可以根據(jù)歸一化評分參數(shù)形成目標對象的打分矩陣。
步驟160,根據(jù)所述數(shù)據(jù)類別id,對不同用戶的多個目標數(shù)據(jù)的統(tǒng)一化評分參數(shù)進行相似度計算,得到相似度度量的值;
具體的,在本例中采用向量空間余弦相似度方法進行相似度計算。
余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"余弦相似性"。
圖4兩個向量a,b的夾角很小,可以說a向量和b向量有很高的相似性,極端情況下,a和b向量完全重合。如圖5。根據(jù)圖5可以認為a和b向量是相等的,也即a,b向量代表的文本是完全相似的,或者說是相等的。
如果a和b向量夾角較大,或者反方向,如圖6。兩個向量a,b的夾角很大可以說a向量和b向量有很底的相似性,或者說a和b向量代表的文本基本不相似。
那么是否可以用兩個向量的夾角大小的函數(shù)值來計算個體的相似度呢?
向量空間余弦相似度理論就是基于上述來計算個體相似度的一種方法。下面做詳細的推理過程分析。
結(jié)合圖7所示,余弦定理的公式是
三角形中邊a和b的夾角的余弦計算公式為:
在向量表示的三角形中,如圖8所示,假設(shè)a向量是(x1,y1),b向量是(x2,y2),那么可以將余弦定理改寫成下面的形式,向量a和向量b的夾角的余弦計算如下:
如果向量a和b不是二維而是n維,上述余弦的計算法仍然正確。假定a和b是兩個n維向量,則a與b的夾角的余弦等于:
基于該算法,對不同用戶的多個目標數(shù)據(jù)的統(tǒng)一化評分參數(shù)進行相似度計算就可以得到相似度度量的值。
步驟170,根據(jù)所述相似度度量的值,確定所述多個目標數(shù)據(jù)對應(yīng)的目標對象之間的相關(guān)度。
具體的,相似度度量的值可以是表征相關(guān)聯(lián)的目標對象之間的相關(guān)度的參數(shù)。
比如,對于不同的影片來說,可以通過相似度度量的值來表現(xiàn)它們的關(guān)聯(lián)程度。a用戶對于電影a、b、c進行了關(guān)注,對a、c打分為9,對b打分為8;b用戶對電影a、c進行了關(guān)注,對a打分為9,對b打分為7;則基于該統(tǒng)計數(shù)據(jù),可以認為電影a、c之間的關(guān)聯(lián)度最高,相應(yīng)的通過相似度度量的值來反映它們之間關(guān)聯(lián)度的關(guān)系。
步驟180,對目標數(shù)據(jù)添加所述相關(guān)度的信息。
由此,相關(guān)度信息可以具體包括與該目標數(shù)據(jù)相關(guān)的一個或多個目標數(shù)據(jù)的信息,以及與每個目標數(shù)據(jù)的相關(guān)程度的參數(shù)值。
本發(fā)明實施例提供的數(shù)據(jù)分析方法,通過數(shù)據(jù)篩選濾出有效數(shù)據(jù),然后基于有效數(shù)據(jù)自動進行物品相似度的計算,使得根據(jù)計算得到的相似度數(shù)據(jù)能夠準確進行產(chǎn)品推薦。該數(shù)據(jù)分析方法兼容多種業(yè)務(wù)場景,能夠有效減少數(shù)據(jù)生產(chǎn)、校驗及運營成本。
專業(yè)人員應(yīng)該還可以進一步意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認為超出本發(fā)明的范圍。
結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(ram)、內(nèi)存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
以上所述的具體實施方式,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。