本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種數(shù)據(jù)處理方法和裝置。
背景技術(shù):
:隨著互聯(lián)網(wǎng)發(fā)展的加速,網(wǎng)絡(luò)行為已經(jīng)成為研究消費(fèi)者的重要途徑。目前用戶網(wǎng)絡(luò)訪問行為數(shù)據(jù)的來源主要有:1)網(wǎng)絡(luò)用戶行為樣本監(jiān)測數(shù)據(jù);2)網(wǎng)絡(luò)服務(wù)商數(shù)據(jù);3)網(wǎng)站服務(wù)器日志數(shù)據(jù);4)第三方服務(wù)商通過頁面標(biāo)簽技術(shù)獲取的數(shù)據(jù);5)其他方式。來源1)和2)是其中非常重要的兩種方式,這些數(shù)據(jù)具有以下特點(diǎn):1)能較為完整的體現(xiàn)網(wǎng)民的互聯(lián)網(wǎng)訪問路徑,對全面了解當(dāng)前網(wǎng)民的特點(diǎn)更加有價值;2)以家庭為單位獲取數(shù)據(jù);3)方便結(jié)合問卷調(diào)查等主觀方式,能與多種數(shù)據(jù)源結(jié)合分析。但這樣的數(shù)據(jù)源想要產(chǎn)生更高的數(shù)據(jù)價值,最重要的就是需要把以家庭為單位的數(shù)據(jù)進(jìn)一步分離到每個人。現(xiàn)有技術(shù)描述了一種實(shí)現(xiàn)互聯(lián)網(wǎng)用戶訪問情況統(tǒng)計分析的方法,該方案通過提取及記錄每一來訪用戶對象所代表的用戶機(jī)的信息,根據(jù)用戶級的信息的相似度合并用戶對象。通過學(xué)習(xí)過程記錄不同的Cookie所代表的用戶機(jī)的信息以及對Cookie所發(fā)生的瀏覽行為,對用戶相似程度進(jìn)行判斷,將有可能是同一個用戶產(chǎn)生的Cookie進(jìn)行合并,并基于合并后Cookie的瀏覽行為記錄統(tǒng)計分析訪問頻次和瀏覽行為習(xí)慣。由此,根據(jù)現(xiàn)有技術(shù)描述的基于用戶機(jī)信息和瀏覽行為的相關(guān)度合并Cookie的方案可以確定,現(xiàn)有技術(shù)至少存在如下幾個缺陷:1)適用數(shù)據(jù)源有限;2)分離精度有限;3)系統(tǒng)性誤差會越來越大,沒有修改的機(jī)會。針對現(xiàn)有技術(shù)中僅能得到同一網(wǎng)絡(luò)的網(wǎng)絡(luò)訪問行為數(shù)據(jù),網(wǎng)絡(luò)訪問行為數(shù)據(jù)識別精度不高的問題,目前尚未提出有效的解決方案。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理方法和裝置,以至少解決現(xiàn)有技術(shù)中僅能得到同一網(wǎng)絡(luò)的網(wǎng)絡(luò)訪問行為數(shù)據(jù),網(wǎng)絡(luò)訪問行為數(shù)據(jù)識別精度不高的技術(shù)問題。根據(jù)本發(fā)明實(shí)施例的一個方面,提供了一種數(shù)據(jù)處理方法,包括:獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型,其中,網(wǎng)絡(luò)訪問識別模型至少包含用戶在預(yù)設(shè)時間段內(nèi)通過同一網(wǎng)絡(luò)進(jìn)行頁面訪問之后,所確定的網(wǎng)絡(luò)訪問識別因素;接收同樣使用同一網(wǎng)絡(luò)的當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù);使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定用戶群中與當(dāng)前用戶的匹配度最高的用戶。根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種數(shù)據(jù)處理裝置,包括:獲取模塊,用于獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型,其中,網(wǎng)絡(luò)訪問識別模型至少包含用戶在預(yù)設(shè)時間段內(nèi)通過同一網(wǎng)絡(luò)進(jìn)行頁面訪問之后,所確定的網(wǎng)絡(luò)訪問識別因素;接收模塊,用于接收同樣使用同一網(wǎng)絡(luò)的當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù);確定模塊,用于使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定用戶群中與當(dāng)前用戶的匹配度最高的用戶。在本發(fā)明實(shí)施例中,通過獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型,并接收同樣使用同一網(wǎng)絡(luò)的當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定用戶群中與當(dāng)前用戶的匹配度最高的用戶。因此,上述方案可以實(shí)現(xiàn)識別不同用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)的目的,由于用戶屬于使用同一網(wǎng)絡(luò)的用戶群,進(jìn)一步還可以實(shí)現(xiàn)將以用戶群為單位的網(wǎng)絡(luò)訪問行為數(shù)據(jù)分離到用戶群中每個用戶的目的,從而解決現(xiàn)有技術(shù)中僅能得到同一網(wǎng)絡(luò)的網(wǎng)絡(luò)訪問行為數(shù)據(jù),網(wǎng)絡(luò)訪問行為數(shù)據(jù)識別精度不高的技術(shù)問題。由此可知,本申請實(shí)施例提供的方案可以把以家庭為單位的數(shù)據(jù)進(jìn)一步分離到個人,提高網(wǎng)絡(luò)訪問行為數(shù)據(jù)的識別精度,具有更高的數(shù)據(jù)價值。附圖說明此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:圖1是根據(jù)本發(fā)明實(shí)施例的一種數(shù)據(jù)處理方法的流程圖;圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理方法的流程圖;圖3是根據(jù)本發(fā)明實(shí)施例的一種數(shù)據(jù)處理裝置的示意圖;圖4是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理裝置的示意圖;圖5是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理裝置的示意圖;圖6是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理裝置的示意圖;圖7是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理裝置的示意圖;圖8是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理示意圖;以及圖9是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理示意圖。具體實(shí)施方式為了使本
技術(shù)領(lǐng)域:
的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。下面對本發(fā)明實(shí)施例進(jìn)行描述的過程中出現(xiàn)的部分名詞或術(shù)語適用于如下解釋:網(wǎng)絡(luò)用戶行為樣本監(jiān)測:主要是指選取一定的樣本,對其網(wǎng)絡(luò)訪問行為進(jìn)行持續(xù)性的數(shù)據(jù)采集,可依托路由器等硬件設(shè)備或上網(wǎng)設(shè)備中的監(jiān)測客戶端完成,基于這樣一定規(guī)模的樣本即可完成對龐大網(wǎng)民群體行為進(jìn)行監(jiān)測和分析。網(wǎng)絡(luò)服務(wù)商:是指ISP(InternetServiceProvider的縮寫),字面意思是網(wǎng)絡(luò)服務(wù)提供者。網(wǎng)絡(luò)服務(wù)商的類型包括物理網(wǎng)絡(luò)運(yùn)營者NP、接入服務(wù)者IAP、Web服務(wù)器等。實(shí)施例1根據(jù)本發(fā)明實(shí)施例,提供了一種數(shù)據(jù)處理方法實(shí)施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機(jī)可執(zhí)行指令的計算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。圖1是根據(jù)本發(fā)明實(shí)施例的一種數(shù)據(jù)處理方法的流程圖,如圖1所示,該方法包括如下步驟:步驟S102,獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型,其中,網(wǎng)絡(luò)訪問識別模型至少包含用戶在預(yù)設(shè)時間段內(nèi)通過同一網(wǎng)絡(luò)進(jìn)行頁面訪問之后,所確定的網(wǎng)絡(luò)訪問識別因素。具體地,上述步驟中的網(wǎng)絡(luò)訪問識別模型表明用戶進(jìn)行頁面訪問的訪問習(xí)慣,例如用戶經(jīng)常訪問的網(wǎng)頁的類型,訪問該類型網(wǎng)頁的時長和頻率等信息。在一種可選的方案中,從一個家庭路由器中提取得到該家庭中所有用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),對該網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定每個用戶的網(wǎng)絡(luò)訪問識別模型。步驟S104,接收同樣使用同一網(wǎng)絡(luò)的當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)。具體地,上述步驟中的網(wǎng)絡(luò)訪問行為數(shù)據(jù)可以是用戶進(jìn)行頁面訪問生成的數(shù)據(jù),上述數(shù)據(jù)可以保存在路由器或者網(wǎng)絡(luò)服務(wù)商服務(wù)器中。當(dāng)前用戶可以是使用同一網(wǎng)絡(luò)的用戶群中任意一個用戶,也可以是非用戶群中的任意一個用戶,例如用戶群是一個家庭中的三個成員A、B和C,當(dāng)前用戶是客人D。此處需要說明的是,本申請上述步驟S102和S104的執(zhí)行順序可以相互交換,即在本發(fā)明可以提供的另外一種場景中,可以在獲取到當(dāng)前用戶使用當(dāng)前網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)訪問之后,再依據(jù)不同網(wǎng)絡(luò)數(shù)據(jù)確定已經(jīng)存儲的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型,其中,用戶群中的每個用戶所使用的網(wǎng)絡(luò)與上述當(dāng)前用戶所使用的網(wǎng)絡(luò)相同。本發(fā)明可選的其他實(shí)施例在此不做贅述。步驟S106,使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定用戶群中與當(dāng)前用戶的匹配度最高的用戶。具體地,使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,得到用戶群中每個用戶和該當(dāng)前用戶的匹配度,該當(dāng)前用戶可以是用戶群中匹配度最高的用戶。在一種可選的方案中,獲取使用同一個路由器的家庭中三個成員A、B和C的網(wǎng)絡(luò)訪問識別模型,接收使用同一個路由器的用戶D的網(wǎng)絡(luò)訪問行為數(shù)據(jù),分別使用A、B和C三個網(wǎng)絡(luò)訪問識別模型對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定A與當(dāng)前用戶匹配度為20%,確定B與當(dāng)前用戶匹配度為75%,確定C與當(dāng)前用戶匹配度為48%,其中,匹配度最高的用戶為B,因此可以確定當(dāng)前用戶為用戶B,即當(dāng)前的網(wǎng)絡(luò)訪問行為數(shù)據(jù)是用戶B訪問頁面產(chǎn)生的數(shù)據(jù)。本申請上述實(shí)施例中,通過獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型,并接收同樣使用同一網(wǎng)絡(luò)的當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定用戶群中與當(dāng)前用戶的匹配度最高的用戶。因此,上述方案可以實(shí)現(xiàn)識別不同用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)的目的,由于用戶屬于使用同一網(wǎng)絡(luò)的用戶群,進(jìn)一步還可以實(shí)現(xiàn)將以用戶群為單位的網(wǎng)絡(luò)訪問行為數(shù)據(jù)分離到用戶群中每個用戶的目的,從而解決現(xiàn)有技術(shù)中僅能得到同一網(wǎng)絡(luò)的網(wǎng)絡(luò)訪問行為數(shù)據(jù),網(wǎng)絡(luò)訪問行為數(shù)據(jù)識別精度不高的技術(shù)問題。由此可知,本申請實(shí)施例提供的方案可以把以家庭為單位的數(shù)據(jù)進(jìn)一步分離到個人,提高網(wǎng)絡(luò)訪問行為數(shù)據(jù)的識別精度,具有更高的數(shù)據(jù)價值??蛇x地,本申請上述實(shí)施例中,用戶訪問頁面所確定的網(wǎng)絡(luò)訪問識別因素包括如下任意一個或多個參數(shù):訪問頁面的訪問次數(shù)、訪問時長、跳出率、訪問頻率和訪問深度。具體地,上述方案中訪問頁面的訪問次數(shù)可以是用戶在特定時間段內(nèi)訪問特定網(wǎng)站的訪問次數(shù),該特定時間可以是一天或者一周。訪問時長可以是用戶每次訪問特定網(wǎng)站的時間,例如每次訪問視頻網(wǎng)站的時間為2個小時。跳出率可以是用戶訪問網(wǎng)站只訪問一個頁面就離開的概率。訪問頻率可是用戶訪問特定頁面之間間隔的時間,例如每隔一天訪問一次視頻網(wǎng)站。訪問深度可以是用戶訪問特定網(wǎng)站連續(xù)的頁面?zhèn)€數(shù),例如用戶訪問視頻網(wǎng)站連續(xù)的頁面?zhèn)€數(shù)為10。通過上述方案,由于不同用戶訪問頁面確定的網(wǎng)絡(luò)訪問識別因素不同,因此可以通過生成包含網(wǎng)絡(luò)訪問識別因素的識別模型,對網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)識別不同用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)的目的??蛇x地,本申請上述實(shí)施例中,步驟S102獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型包括如下步驟:步驟S1022,獲取預(yù)設(shè)時間段內(nèi)使用同一網(wǎng)絡(luò)的每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)。具體地,上述步驟中預(yù)設(shè)時間段可以是接收到當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)之前用戶設(shè)定的時間段,可以將預(yù)設(shè)時間段內(nèi)使用同一網(wǎng)絡(luò)的每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)作為樣本數(shù)據(jù),得到每個用戶的網(wǎng)絡(luò)訪問識別模型。步驟S1024,根據(jù)預(yù)設(shè)時間段內(nèi)的每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),確定用戶群中每個用戶的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重。具體地,上述步驟中的權(quán)重可以根據(jù)每個用戶的訪問習(xí)慣得到,不同用戶相同的網(wǎng)絡(luò)訪問識別因素相應(yīng)的權(quán)重不同,相同用戶不同的網(wǎng)絡(luò)訪問識別因素相應(yīng)的權(quán)重不同。上述步驟中的網(wǎng)絡(luò)訪問識別因素可以是訪問頻率、訪問時長和訪問深度。但不限于此,包括其他參數(shù)的網(wǎng)絡(luò)訪問識別因素也可以實(shí)現(xiàn)本實(shí)施例的目的。在一種可選的方案中,可以根據(jù)每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)之間的相似度,確定每個用戶訪問頁面的頁面類型,例如,用戶A訪問頁面的頁面類型為體育類和新聞類,用戶B訪問頁面的頁面類型為購物類和視頻類,用戶C訪問頁面的頁面類型為網(wǎng)頁游戲類。在對每個用戶訪問頁面的頁面類型進(jìn)行分類之后,確定每個用戶在每種頁面類型中的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,例如,視頻類的網(wǎng)絡(luò)訪問識別因素是訪問時長和訪問頻率,用戶A的網(wǎng)絡(luò)訪問識別因素相應(yīng)的權(quán)重最低,用戶B的網(wǎng)絡(luò)訪問識別因素相應(yīng)的權(quán)重最高。步驟S1026,根據(jù)每個用戶的網(wǎng)絡(luò)訪問識別因素xi和相應(yīng)的權(quán)重ki,按照公式y(tǒng)i=k1x1+k2x2+…+knxn生成每個用戶的網(wǎng)絡(luò)訪問識別模型yi,其中,i為自然數(shù)。具體地,上述步驟中n可以是網(wǎng)路訪問識別因素包含的參數(shù)個數(shù),例如,網(wǎng)絡(luò)訪問識別因素是訪問頻率、訪問時長和訪問深度,那么n為3。通過上述步驟S1022至步驟S1026,通過獲取預(yù)設(shè)時間段內(nèi)的每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),確定用戶群中每個用戶的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,按照公式生成每個用戶的網(wǎng)絡(luò)訪問識別模型,從而實(shí)現(xiàn)獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型的目的??蛇x地,本申請上述實(shí)施例中,步驟S106使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定用戶群中與當(dāng)前用戶的匹配度最高的用戶包括如下步驟:步驟S1062,從當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)中,提取得到當(dāng)前用戶進(jìn)行頁面訪問后的網(wǎng)絡(luò)訪問識別因素。在一種可選的方案中,從當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)中,提取用戶訪問頁面的頁面類型,例如當(dāng)前用戶訪問頁面的頁面類型為視頻類,那么當(dāng)前用戶的網(wǎng)絡(luò)訪問識別因素是訪問時長和訪問頻率。步驟S1064,使用每個用戶的網(wǎng)絡(luò)訪問識別模型yi對當(dāng)前用戶的網(wǎng)絡(luò)訪問識別因素進(jìn)行處理,計算得到當(dāng)前用戶對應(yīng)任意一個用戶的網(wǎng)絡(luò)訪問識別模型yi的預(yù)測結(jié)果值。具體地,上述步驟中預(yù)測結(jié)果值可以是當(dāng)前用戶為該任意一個用戶的預(yù)測概率值。在一種可選的方案中,將當(dāng)前用戶的網(wǎng)絡(luò)訪問識別因素代入每個用戶的網(wǎng)絡(luò)訪問識別模型yi,求出當(dāng)前用戶對應(yīng)任意一個用戶的網(wǎng)絡(luò)訪問識別模型yi的預(yù)測結(jié)果值,例如,當(dāng)前用戶的網(wǎng)絡(luò)訪問識別因素是訪問時長和訪問頻率,代入頁面類型為視頻類的每個用戶的網(wǎng)絡(luò)訪問識別模型,計算得到當(dāng)前用戶對應(yīng)用戶A的預(yù)測結(jié)果值為25%,當(dāng)前用戶對應(yīng)用戶B的預(yù)測結(jié)果值為80%,當(dāng)前用戶對應(yīng)用戶C的預(yù)測結(jié)果值為65%。步驟S1066,將預(yù)測結(jié)果值最高的用戶確定為與當(dāng)前用戶匹配度最高的用戶。在一種可選的方案中,通過比較當(dāng)前用戶對應(yīng)任意一個用戶的網(wǎng)絡(luò)訪問識別模型yi的預(yù)測結(jié)果值,將預(yù)測結(jié)果值最高的用戶確定為與當(dāng)前用戶匹配度最高的用戶,例如,當(dāng)前用戶對應(yīng)用戶B的預(yù)測結(jié)果值為80%最高,因此確定用戶B為與當(dāng)前用戶匹配度最高的用戶。通過上述步驟S1062至步驟S1066,提取當(dāng)前用戶的網(wǎng)絡(luò)訪問識別因素,計算當(dāng)前用戶對應(yīng)任意一個用戶的預(yù)測結(jié)果值,確定預(yù)測結(jié)果值最高的用戶為與當(dāng)前用戶匹配度最高的用戶,從而實(shí)現(xiàn)穩(wěn)定且高效識別用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)的目的??蛇x地,本申請上述實(shí)施例中,使用回歸算法確定每個用戶的網(wǎng)絡(luò)訪問識別因素xi所對應(yīng)的權(quán)重ki。具體地,上述回歸算法可以是邏輯回歸算法,但不限于此,其他的回歸算法也可以實(shí)現(xiàn)本實(shí)施例的目的。也可以使用數(shù)據(jù)分析或數(shù)據(jù)挖掘軟件實(shí)現(xiàn)本實(shí)施例的目的,例如SPSS、Stat、SAS、R、rapidminer以及Python等。在一種可選的方案中,根據(jù)每個用戶網(wǎng)絡(luò)訪問行為數(shù)據(jù),使用邏輯回歸算法得到所有網(wǎng)絡(luò)訪問識別因素的權(quán)重值,進(jìn)一步確定每個用戶及其網(wǎng)絡(luò)訪問行為之間的關(guān)系,從而建立一個相關(guān)性較好的回歸方程(即網(wǎng)絡(luò)訪問識別模型),用于預(yù)測接收到的當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)所對應(yīng)的用戶群中的用戶??蛇x地,邏輯回歸算法通過觀測樣本的極大似然估計值來選擇參數(shù),具體步驟如下:第一步,在rapidminer系統(tǒng)中,導(dǎo)入需要分析的每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)作為樣本數(shù)據(jù)。第二步,根據(jù)導(dǎo)入的樣本數(shù)據(jù),建立邏輯回歸模型,輸出各因素權(quán)重值的結(jié)果示例如表1所示:表1因素Attribute權(quán)重值Weight訪問頁面的訪問次數(shù)x1k1訪問時長x2k2跳出率x3k3訪問頻率x4k4訪問深度x5k5通過上述方案,使用回歸算法可以得到更精確的網(wǎng)絡(luò)訪問識別因素所對應(yīng)的權(quán)重??蛇x地,本申請上述實(shí)施例中,在步驟S1066將預(yù)測結(jié)果值最高的用戶確定為與當(dāng)前用戶匹配度最高的用戶之后,上述方法還包括如下步驟:步驟S110,判斷任意一個用戶的預(yù)測結(jié)果值是否小于預(yù)設(shè)閾值。具體地,上述步驟中任意一個用戶的預(yù)測結(jié)果值可以是與當(dāng)前用戶匹配度最高的用戶的預(yù)測結(jié)果值,預(yù)設(shè)閾值可以是70%,但不僅限于此,其他的預(yù)設(shè)閾值也可以滿足本實(shí)施例的目的。在一種可選的方案中,用戶A的預(yù)測結(jié)果值為25%,用戶B的預(yù)測結(jié)果值為80%,用戶C的預(yù)測結(jié)果值為65%,確定與當(dāng)前用戶匹配度最高的用戶為用戶B,由于80%大于70%,因此判斷用戶B的預(yù)測結(jié)果值大于預(yù)設(shè)閾值。步驟S112,在預(yù)測結(jié)果值小于預(yù)設(shè)閾值的情況下,修正預(yù)測結(jié)果值小于預(yù)設(shè)閾值的用戶的網(wǎng)絡(luò)訪問識別模型,直至預(yù)測結(jié)果值大于等于預(yù)設(shè)閾值。在一種可選的方案中,用戶A的預(yù)測結(jié)果值為25%,用戶B的預(yù)測結(jié)果值為65%,用戶C的預(yù)測結(jié)果值為45%,確定與當(dāng)前用戶匹配度最高的用戶為用戶B,由于65%小于70%,判斷用戶B的預(yù)測結(jié)果值大于預(yù)設(shè)閾值,修正用戶B的網(wǎng)絡(luò)訪問識別模型,直至用戶B的預(yù)測結(jié)果值大于等于預(yù)設(shè)閾值。通過上述步驟S110至步驟S112,通過判斷任意一個用戶的預(yù)測結(jié)果值是否小于預(yù)設(shè)閾值,并在預(yù)測結(jié)果值小于預(yù)設(shè)閾值的情況下,修正預(yù)測結(jié)果值小于預(yù)設(shè)閾值的用戶的網(wǎng)絡(luò)訪問識別模型,直至預(yù)測結(jié)果值大于等于預(yù)設(shè)閾值。因此,上述方案通過持續(xù)修正每個用戶的網(wǎng)絡(luò)訪問識別模型,避免了小概率事件對網(wǎng)絡(luò)訪問識別模型的影響,保證較高的識別精度??蛇x地,本申請上述實(shí)施例中,步驟S112中修正預(yù)測結(jié)果值小于預(yù)設(shè)閾值的用戶的網(wǎng)絡(luò)訪問識別模型包括如下步驟:步驟S1122,根據(jù)當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),修正預(yù)設(shè)時間段內(nèi)所確定的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,得到修正后的每個用戶的網(wǎng)絡(luò)訪問識別模型。在一種可選的方案中,在用戶B的預(yù)測結(jié)果值小于預(yù)設(shè)閾值的情況下,僅僅根據(jù)當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),修正預(yù)設(shè)時間段內(nèi)確定的用戶B的網(wǎng)絡(luò)訪問識別因素所對應(yīng)的權(quán)重,進(jìn)一步得到修正后的用戶B的網(wǎng)絡(luò)訪問識別模型。通過上述步驟S1122,根據(jù)當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),修正預(yù)設(shè)時間段內(nèi)所確定的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,得到修正后的每個用戶的網(wǎng)絡(luò)訪問識別模型,從而實(shí)現(xiàn)修正預(yù)測結(jié)果值小于預(yù)設(shè)閾值的用戶的網(wǎng)絡(luò)訪問識別模型的目的。可選地,本申請上述實(shí)施例中,步驟S112中修正預(yù)測結(jié)果值小于預(yù)設(shè)閾值的用戶的網(wǎng)絡(luò)訪問識別模型包括如下步驟:步驟S1124,以當(dāng)前用戶進(jìn)行頁面訪問的時間為基準(zhǔn),根據(jù)每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)和當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),確定修正后預(yù)設(shè)時間段內(nèi)的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,生成修正后的每個用戶的網(wǎng)絡(luò)訪問識別模型。在一種可選的方案中,在用戶B的預(yù)測結(jié)果值小于預(yù)設(shè)閾值的情況下,將當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)加入到每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)中,得到新的樣本數(shù)據(jù),根據(jù)新的樣本數(shù)據(jù)確定新的預(yù)設(shè)時間段內(nèi)用戶B的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,進(jìn)一步得到修正后的用戶B的網(wǎng)絡(luò)訪問識別模型。通過上述步驟S1124,以當(dāng)前用戶進(jìn)行頁面訪問的時間為基準(zhǔn),根據(jù)每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)和當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),確定修正后預(yù)設(shè)時間段內(nèi)的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,生成修正后的每個用戶的網(wǎng)絡(luò)訪問識別模型,從而實(shí)現(xiàn)修正預(yù)測結(jié)果值小于預(yù)設(shè)閾值的用戶的網(wǎng)絡(luò)訪問識別模型的目的。圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理方法的流程圖,如圖2所示,一種可選的應(yīng)用場景的詳細(xì)步驟為:S21:包含關(guān)鍵字段的數(shù)據(jù)源輸入。具體地,從路由器中獲取特定數(shù)量的家庭用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),上述關(guān)鍵字段包括訪問頁面和如下任意一個或多個參數(shù):訪問頁面的訪問次數(shù)、訪問時長、跳出率、訪問頻率和訪問深度。S22:區(qū)分屬于不同家庭及家庭內(nèi)的多個設(shè)備的數(shù)據(jù)。具體地,可以根據(jù)路由器的IP地址對特定數(shù)量的家庭用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行區(qū)分,得到屬于同一個家庭內(nèi)的多個設(shè)備的網(wǎng)絡(luò)訪問行為數(shù)據(jù)。S23:建立家庭中每個用戶的網(wǎng)絡(luò)訪問識別模型。具體地,提取一段樣本數(shù)據(jù)針對智能手機(jī)數(shù)據(jù),每一部手機(jī)可視為一個獨(dú)立的用戶,據(jù)此可以猜測家庭成員數(shù);針對平板電腦數(shù)據(jù),依據(jù)與智能手機(jī)數(shù)據(jù)的相似度,可合并到手機(jī)用戶上,無法匹配的數(shù)據(jù)可默認(rèn)為一個用戶,通常是家庭中的少年兒童;針對PC數(shù)據(jù),依據(jù)與平板電腦和智能手機(jī)數(shù)據(jù)的相似度,分離歸并到各用戶;根據(jù)樣本數(shù)據(jù)找到區(qū)分用戶的網(wǎng)絡(luò)訪問識別因素及其權(quán)重,建立每個用戶的網(wǎng)絡(luò)訪問識別模型。S24:使用網(wǎng)絡(luò)訪問識別模型對后續(xù)采集數(shù)據(jù)進(jìn)行預(yù)測。具體地,該步驟的實(shí)現(xiàn)方式與上述實(shí)施例中步驟S106的實(shí)現(xiàn)方式相同,使用每個用戶的網(wǎng)絡(luò)訪問識別模型對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,計算當(dāng)前用戶對應(yīng)任意一個用戶的網(wǎng)絡(luò)訪問識別模型的預(yù)測結(jié)果值,將預(yù)測結(jié)果值最高的用戶確定為與當(dāng)前用戶匹配度最高的用戶。S25:判斷預(yù)測概率是否小于一定的閾值。具體地,該步驟的實(shí)現(xiàn)方式與上述實(shí)施例中步驟S110的實(shí)現(xiàn)方式相似。在預(yù)測概率小于一定的閾值的情況下,進(jìn)入步驟S26。在預(yù)測概率大于等于一定的閾值的情況下,進(jìn)入步驟S27。S26:修正模型。具體地,該步驟的實(shí)現(xiàn)方式與上述實(shí)施例中步驟S112的實(shí)現(xiàn)方式相似,在此不作贅述。S27:結(jié)束。具體地,在預(yù)測概率大于等于一定的閾值的情況下,完成識別用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)。實(shí)施例2根據(jù)本發(fā)明實(shí)施例,提供了一種數(shù)據(jù)處理裝置實(shí)施例。圖3是根據(jù)本發(fā)明實(shí)施例的一種數(shù)據(jù)處理裝置的示意圖,如圖3所示,該裝置包括:獲取模塊31、接收模塊33和確定模塊35,其中,獲取模塊31,用于獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型,其中,網(wǎng)絡(luò)訪問識別模型至少包含用戶在預(yù)設(shè)時間段內(nèi)通過同一網(wǎng)絡(luò)進(jìn)行頁面訪問之后,所確定的網(wǎng)絡(luò)訪問識別因素。具體地,上述獲取模塊31中的網(wǎng)絡(luò)訪問識別模型表明用戶進(jìn)行頁面訪問的訪問習(xí)慣,例如用戶經(jīng)常訪問的網(wǎng)頁的類型,訪問該類型網(wǎng)頁的時長和頻率等信息。在一種可選的方案中,獲取模塊31從一個家庭路由器中提取得到該家庭中所有用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),對該網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定每個用戶的網(wǎng)絡(luò)訪問識別模型。接收模塊33,用于接收同樣使用同一網(wǎng)絡(luò)的當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)。具體地,上述接收模塊33中的網(wǎng)絡(luò)訪問行為數(shù)據(jù)可以是用戶進(jìn)行頁面訪問生成的數(shù)據(jù),上述數(shù)據(jù)可以保存在路由器或者網(wǎng)絡(luò)服務(wù)商服務(wù)器中。當(dāng)前用戶可以是使用同一網(wǎng)絡(luò)的用戶群中任意一個用戶,也可以是非用戶群中的任意一個用戶,例如用戶群是一個家庭中的三個成員A、B和C,當(dāng)前用戶是客人D。確定模塊35,用于使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定用戶群中與當(dāng)前用戶的匹配度最高的用戶。具體地,確定模塊35使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,得到用戶群中每個用戶和該當(dāng)前用戶的匹配度,該當(dāng)前用戶可以是用戶群中匹配度最高的用戶。在一種可選的方案中,獲取模塊31獲取使用同一個路由器的家庭中三個成員A、B和C的網(wǎng)絡(luò)訪問識別模型,接收模塊33接收使用同一個路由器的用戶D的網(wǎng)絡(luò)訪問行為數(shù)據(jù),確定模塊35分別使用A、B和C三個網(wǎng)絡(luò)訪問識別模型對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定A與當(dāng)前用戶匹配度為20%,確定B與當(dāng)前用戶匹配度為75%,確定C與當(dāng)前用戶匹配度為48%,其中,匹配度最高的用戶為B,因此可以確定當(dāng)前用戶為用戶B,即當(dāng)前的網(wǎng)絡(luò)訪問行為數(shù)據(jù)是用戶B訪問頁面產(chǎn)生的數(shù)據(jù)。本申請上述實(shí)施例中,通過獲取模塊獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型,并通過接收模塊接收同樣使用同一網(wǎng)絡(luò)的當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),確定模塊使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定用戶群中與當(dāng)前用戶的匹配度最高的用戶。因此,上述方案可以實(shí)現(xiàn)識別不同用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)的目的,由于用戶屬于使用同一網(wǎng)絡(luò)的用戶群,進(jìn)一步還可以實(shí)現(xiàn)將以用戶群為單位的網(wǎng)絡(luò)訪問行為數(shù)據(jù)分離到用戶群中每個用戶的目的,從而解決現(xiàn)有技術(shù)中僅能得到同一網(wǎng)絡(luò)的網(wǎng)絡(luò)訪問行為數(shù)據(jù),網(wǎng)絡(luò)訪問行為數(shù)據(jù)識別精度不高的技術(shù)問題。由此可知,本申請實(shí)施例提供的方案可以把以家庭為單位的數(shù)據(jù)進(jìn)一步分離到個人,提高網(wǎng)絡(luò)訪問行為數(shù)據(jù)的識別精度,具有更高的數(shù)據(jù)價值??蛇x地,本申請上述實(shí)施例中,用戶訪問頁面所確定的網(wǎng)絡(luò)訪問識別因素包括如下任意一個或多個參數(shù):訪問頁面的訪問次數(shù)、訪問時長、跳出率、訪問頻率和訪問深度。具體地,上述方案中訪問頁面的訪問次數(shù)可以是用戶在特定時間段內(nèi)訪問特定網(wǎng)站的訪問次數(shù),該特定時間可以是一天或者一周。訪問時長可以是用戶每次訪問特定網(wǎng)站的時間,例如每次訪問視頻網(wǎng)站的時間為2個小時。跳出率可以是用戶訪問網(wǎng)站只訪問一個頁面就離開的概率。訪問頻率可是用戶訪問特定頁面之間間隔的時間,例如每隔一天訪問一次視頻網(wǎng)站。訪問深度可以是用戶訪問特定網(wǎng)站連續(xù)的頁面?zhèn)€數(shù),例如用戶訪問視頻網(wǎng)站連續(xù)的頁面?zhèn)€數(shù)為10。通過上述方案,由于不同用戶訪問頁面確定的網(wǎng)絡(luò)訪問識別因素不同,因此可以通過生成包含網(wǎng)絡(luò)訪問識別因素的識別模型,對網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)識別不同用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)的目的??蛇x地,如圖4所示,本申請上述實(shí)施例中,上述獲取模塊31包括:獲取子模塊311,用于獲取預(yù)設(shè)時間段內(nèi)使用同一網(wǎng)絡(luò)的每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)。具體地,上述獲取子模塊311中預(yù)設(shè)時間段可以是接收到當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)之前用戶設(shè)定的時間段,可以將預(yù)設(shè)時間段內(nèi)使用同一網(wǎng)絡(luò)的每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)作為樣本數(shù)據(jù),得到每個用戶的網(wǎng)絡(luò)訪問識別模型。第一確定子模塊313,用于根據(jù)預(yù)設(shè)時間段內(nèi)的每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),確定用戶群中每個用戶的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重。具體地,上述第一確定子模塊313中的權(quán)重可以根據(jù)每個用戶的訪問習(xí)慣得到,不同用戶相同的網(wǎng)絡(luò)訪問識別因素相應(yīng)的權(quán)重不同,相同用戶不同的網(wǎng)絡(luò)訪問識別因素相應(yīng)的權(quán)重不同。網(wǎng)絡(luò)訪問識別因素可以是訪問頻率、訪問時長和訪問深度。但不限于此,包括其他參數(shù)的網(wǎng)絡(luò)訪問識別因素也可以實(shí)現(xiàn)本實(shí)施例的目的。在一種可選的方案中,第一確定子模塊可以根據(jù)每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)之間的相似度,確定每個用戶訪問頁面的頁面類型,例如,用戶A訪問頁面的頁面類型為體育類和新聞類,用戶B訪問頁面的頁面類型為購物類和視頻類,用戶C訪問頁面的頁面類型為網(wǎng)頁游戲類。在對每個用戶訪問頁面的頁面類型進(jìn)行分類之后,確定每個用戶在每種頁面類型中的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,例如,視頻類的網(wǎng)絡(luò)訪問識別因素是訪問時長和訪問頻率,用戶A的網(wǎng)絡(luò)訪問識別因素相應(yīng)的權(quán)重最低,用戶B的網(wǎng)絡(luò)訪問識別因素相應(yīng)的權(quán)重最高。生成子模塊315,用于根據(jù)每個用戶的網(wǎng)絡(luò)訪問識別因素xi和相應(yīng)的權(quán)重xi,按照公式y(tǒng)i=k1x1+k2x2+…+knxn生成每個用戶的網(wǎng)絡(luò)訪問識別模型yi,其中,i為自然數(shù)。具體地,上述生成子模塊315中n可以是網(wǎng)路訪問識別因素包含的參數(shù)個數(shù),例如,網(wǎng)絡(luò)訪問識別因素是訪問頻率、訪問時長和訪問深度,那么n為3。通過上述方案,通過獲取子模塊獲取預(yù)設(shè)時間段內(nèi)的每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),獲取子模塊確定用戶群中每個用戶的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,生成子模塊按照公式生成每個用戶的網(wǎng)絡(luò)訪問識別模型,從而實(shí)現(xiàn)獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型的目的。可選地,如圖5所示,本申請上述實(shí)施例中,上述確定模塊35包括:提取子模塊351,用于從當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)中,提取得到當(dāng)前用戶進(jìn)行頁面訪問后的網(wǎng)絡(luò)訪問識別因素。在一種可選的方案中,提取子模塊從當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)中,提取用戶訪問頁面的頁面類型,例如當(dāng)前用戶訪問頁面的頁面類型為視頻類,那么當(dāng)前用戶的網(wǎng)絡(luò)訪問識別因素是訪問時長和訪問頻率。計算子模塊353,用于使用每個用戶的網(wǎng)絡(luò)訪問識別模型yi對當(dāng)前用戶的網(wǎng)絡(luò)訪問識別因素進(jìn)行處理,計算得到當(dāng)前用戶對應(yīng)任意一個用戶的網(wǎng)絡(luò)訪問識別模型yi的預(yù)測結(jié)果值。具體地,上述計算子模塊353中預(yù)測結(jié)果值可以是當(dāng)前用戶為該任意一個用戶的預(yù)測概率值。在一種可選的方案中,計算子模塊將當(dāng)前用戶的網(wǎng)絡(luò)訪問識別因素代入每個用戶的網(wǎng)絡(luò)訪問識別模型yi,求出當(dāng)前用戶對應(yīng)任意一個用戶的網(wǎng)絡(luò)訪問識別模型yi的預(yù)測結(jié)果值,例如,當(dāng)前用戶的網(wǎng)絡(luò)訪問識別因素是訪問時長和訪問頻率,代入頁面類型為視頻類的每個用戶的網(wǎng)絡(luò)訪問識別模型,計算得到當(dāng)前用戶對應(yīng)用戶A的預(yù)測結(jié)果值為25%,當(dāng)前用戶對應(yīng)用戶B的預(yù)測結(jié)果值為80%,當(dāng)前用戶對應(yīng)用戶C的預(yù)測結(jié)果值為65%。第二確定子模塊355,將預(yù)測結(jié)果值最高的用戶確定為與當(dāng)前用戶匹配度最高的用戶。在一種可選的方案中,第二確定子模塊通過比較當(dāng)前用戶對應(yīng)任意一個用戶的網(wǎng)絡(luò)訪問識別模型yi的預(yù)測結(jié)果值,將預(yù)測結(jié)果值最高的用戶確定為與當(dāng)前用戶匹配度最高的用戶,例如,當(dāng)前用戶對應(yīng)用戶B的預(yù)測結(jié)果值為80%最高,因此確定用戶B為與當(dāng)前用戶匹配度最高的用戶。通過上述方案,提取子模塊提取當(dāng)前用戶的網(wǎng)絡(luò)訪問識別因素,計算子模塊計算當(dāng)前用戶對應(yīng)任意一個用戶的預(yù)測結(jié)果值,第二確定子模塊確定預(yù)測結(jié)果值最高的用戶為與當(dāng)前用戶匹配度最高的用戶,從而實(shí)現(xiàn)穩(wěn)定且高效數(shù)據(jù)處理目的。可選地,如圖6所示,本申請上述實(shí)施例中,上述裝置還包括:處理模塊37,用于使用回歸算法確定每個用戶的網(wǎng)絡(luò)訪問識別因素xi所對應(yīng)的權(quán)重ki。具體地,上述回歸算法可以是邏輯回歸算法,但不限于此,其他的回歸算法也可以實(shí)現(xiàn)本實(shí)施例的目的。也可以使用數(shù)據(jù)分析或數(shù)據(jù)挖掘軟件實(shí)現(xiàn)本實(shí)施例的目的,例如SPSS、Stat、SAS、R、rapidminer和Python等。在一種可選的方案中,根據(jù)每個用戶網(wǎng)絡(luò)訪問行為數(shù)據(jù),使用邏輯回歸算法得到所有網(wǎng)絡(luò)訪問識別因素的權(quán)重值,進(jìn)一步確定每個用戶及其網(wǎng)絡(luò)訪問行為之間的關(guān)系,從而建立一個相關(guān)性較好的回歸方程(即網(wǎng)絡(luò)訪問識別模型),用于預(yù)測接收到的當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)所對應(yīng)的用戶群中的用戶??蛇x地,邏輯回歸算法通過觀測樣本的極大似然估計值來選擇參數(shù),具體步驟如下:第一步,在rapidminer系統(tǒng)中,導(dǎo)入需要分析的每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)作為樣本數(shù)據(jù)。第二步,根據(jù)導(dǎo)入的樣本數(shù)據(jù),建立邏輯回歸模型,輸出各因素權(quán)重值的結(jié)果示例如表1所示。通過上述方案,處理模塊使用回歸算法可以得到更精確的網(wǎng)絡(luò)訪問識別因素所對應(yīng)的權(quán)重??蛇x地,如圖7所示,本申請上述實(shí)施例中,上述裝置還包括:判斷模塊32,用于判斷任意一個用戶的預(yù)測結(jié)果值是否小于預(yù)設(shè)閾值。具體地,上述判斷模塊32中任意一個用戶的預(yù)測結(jié)果值可以是與當(dāng)前用戶匹配度最高的用戶的預(yù)測結(jié)果值,預(yù)設(shè)閾值可以是70%,但不僅限于此,其他的預(yù)設(shè)閾值也可以滿足本實(shí)施例的目的。在一種可選的方案中,用戶A的預(yù)測結(jié)果值為25%,用戶B的預(yù)測結(jié)果值為80%,用戶C的預(yù)測結(jié)果值為65%,第二確定子模塊確定與當(dāng)前用戶匹配度最高的用戶為用戶B,由于80%大于70%,因此判斷模塊判斷用戶B的預(yù)測結(jié)果值大于預(yù)設(shè)閾值。修正模塊34,用于在預(yù)測結(jié)果值小于預(yù)設(shè)閾值的情況下,修正預(yù)測結(jié)果值小于預(yù)設(shè)閾值的用戶的網(wǎng)絡(luò)訪問識別模型,直至預(yù)測結(jié)果值大于等于預(yù)設(shè)閾值。在一種可選的方案中,用戶A的預(yù)測結(jié)果值為25%,用戶B的預(yù)測結(jié)果值為65%,用戶C的預(yù)測結(jié)果值為45%,第二確定子模塊確定與當(dāng)前用戶匹配度最高的用戶為用戶B,由于65%小于70%,判斷模塊判斷用戶B的預(yù)測結(jié)果值大于預(yù)設(shè)閾值,修正模塊修正用戶B的網(wǎng)絡(luò)訪問識別模型,直至用戶B的預(yù)測結(jié)果值大于等于預(yù)設(shè)閾值。通過上述方案,通過判斷模塊判斷任意一個用戶的預(yù)測結(jié)果值是否小于預(yù)設(shè)閾值,并在預(yù)測結(jié)果值小于預(yù)設(shè)閾值的情況下,修正模塊修正預(yù)測結(jié)果值小于預(yù)設(shè)閾值的用戶的網(wǎng)絡(luò)訪問識別模型,直至預(yù)測結(jié)果值大于等于預(yù)設(shè)閾值。因此,上述方案通過持續(xù)修正每個用戶的網(wǎng)絡(luò)訪問識別模型,避免了小概率事件對網(wǎng)絡(luò)訪問識別模型的影響,保證較高的識別精度??蛇x地,如圖8所示,在一種可選的實(shí)施例中,上述修正模塊34包括:第一修正子模塊341,用于根據(jù)當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),修正預(yù)設(shè)時間段內(nèi)確定的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,得到修正后的每個用戶的網(wǎng)絡(luò)訪問識別模型。在一種可選的方案中,在用戶B的預(yù)測結(jié)果值小于預(yù)設(shè)閾值的情況下,第一修正子模塊僅僅根據(jù)當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),修正預(yù)設(shè)時間段內(nèi)確定的用戶B的網(wǎng)絡(luò)訪問識別因素所對應(yīng)的權(quán)重,進(jìn)一步得到修正后的用戶B的網(wǎng)絡(luò)訪問識別模型。通過上述方案,第一修正子模塊根據(jù)當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),修正預(yù)設(shè)時間段內(nèi)所確定的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,得到修正后的每個用戶的網(wǎng)絡(luò)訪問識別模型,從而實(shí)現(xiàn)修正預(yù)測結(jié)果值小于預(yù)設(shè)閾值的用戶的網(wǎng)絡(luò)訪問識別模型的目的??蛇x地,如圖9所示,在另一種可選的實(shí)施例中,上述修正模塊34包括:第二修正子模塊343,用于以當(dāng)前用戶進(jìn)行頁面訪問的時間為基準(zhǔn),根據(jù)每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)和當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),確定修正后預(yù)設(shè)時間段內(nèi)的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,生成修正后的每個用戶的網(wǎng)絡(luò)訪問識別模型。在一種可選的方案中,在用戶B的預(yù)測結(jié)果值小于預(yù)設(shè)閾值的情況下,第二修正子模塊將當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)加入到每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)中,得到新的樣本數(shù)據(jù),根據(jù)新的樣本數(shù)據(jù)確定新的預(yù)設(shè)時間段內(nèi)用戶B的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,進(jìn)一步得到修正后的用戶B的網(wǎng)絡(luò)訪問識別模型。通過上述方案,第二修正子模塊以當(dāng)前用戶進(jìn)行頁面訪問的時間為基準(zhǔn),根據(jù)每個用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)和當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù),確定修正后預(yù)設(shè)時間段內(nèi)的網(wǎng)絡(luò)訪問識別因素和相應(yīng)的權(quán)重,生成修正后的每個用戶的網(wǎng)絡(luò)訪問識別模型,從而實(shí)現(xiàn)修正預(yù)測結(jié)果值小于預(yù)設(shè)閾值的用戶的網(wǎng)絡(luò)訪問識別模型的目的。所述法律裁判文書的解析裝置包括處理器和存儲器,上述獲取模塊、接收模塊、確定模塊、處理模塊、判斷模塊、修正模塊等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元。上述第一預(yù)設(shè)規(guī)則、第二預(yù)設(shè)規(guī)則都可以存儲在存儲器中。處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)解析文本內(nèi)容。存儲器可能包括計算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flashRAM),存儲器包括至少一個存儲芯片。本申請還提供了一種計算機(jī)程序產(chǎn)品的實(shí)施例,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取使用同一網(wǎng)絡(luò)的用戶群中每個用戶的網(wǎng)絡(luò)訪問識別模型,其中,網(wǎng)絡(luò)訪問識別模型至少包含用戶在預(yù)設(shè)時間段內(nèi)通過同一網(wǎng)絡(luò)進(jìn)行頁面訪問之后,所確定的網(wǎng)絡(luò)訪問識別因素;接收同樣使用同一網(wǎng)絡(luò)的當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù);使用每個用戶的網(wǎng)絡(luò)訪問識別模型分別對當(dāng)前用戶的網(wǎng)絡(luò)訪問行為數(shù)據(jù)進(jìn)行分析,確定用戶群中與當(dāng)前用戶的匹配度最高的用戶。上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。在本發(fā)明的上述實(shí)施例中,對各個實(shí)施例的描述都各有側(cè)重,某個實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。在本申請所提供的幾個實(shí)施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可為個人計算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲器(RAM,RandomAccessMemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。當(dāng)前第1頁1 2 3