一種網(wǎng)絡(luò)數(shù)據(jù)的處理方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡(luò)數(shù)據(jù)的處理方法和裝置。其中方法包括:獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別;將屬于第一類類別下同一類別的網(wǎng)絡(luò)數(shù)據(jù)樣本組合,得到屬于第一類類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;將屬于第二類類別下同一類別的網(wǎng)絡(luò)數(shù)據(jù)樣本聚類,得到屬于第二類類別下各類別的聚類;針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本中抽取部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;針對(duì)第二類類別下的各類別,從屬于該類別的各個(gè)聚類中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;利用屬于各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。本發(fā)明可以得到更加準(zhǔn)確的網(wǎng)絡(luò)數(shù)據(jù)分類器,過程簡(jiǎn)單。
【專利說明】一種網(wǎng)絡(luò)數(shù)據(jù)的處理方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,具體涉及一種網(wǎng)絡(luò)數(shù)據(jù)的處理方法和裝置。
【背景技術(shù)】
[0002] 數(shù)據(jù)分類是目前非常普遍的一項(xiàng)技術(shù),對(duì)數(shù)據(jù)分類后可以更好地了解數(shù)據(jù)的特 點(diǎn)。隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)上出現(xiàn)了大量的網(wǎng)絡(luò)數(shù)據(jù),對(duì)這些網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類對(duì) 于很多上層應(yīng)用有很重要的作用,比如根據(jù)用戶在互聯(lián)網(wǎng)上訪問時(shí)的網(wǎng)絡(luò)數(shù)據(jù)對(duì)用戶進(jìn)行 個(gè)性化的興趣分類,等等。在目前的分類方法中,首先可以采集大量的網(wǎng)絡(luò)數(shù)據(jù)樣本,然后 基于這些網(wǎng)絡(luò)數(shù)據(jù)樣本訓(xùn)練分類器,最后利用該分類器對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類。
[0003] 但是,在互聯(lián)網(wǎng)平臺(tái)下,各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的分布往往是不平衡的,如果直 接采用分布不平衡的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行分類器的訓(xùn)練,將導(dǎo)致分類器性能降低,無法根據(jù) 該分類器得出準(zhǔn)確的分類結(jié)果。
[0004] 目前對(duì)于不平衡數(shù)據(jù)樣本的處理主要有以下兩種方式:
[0005] -:重構(gòu)數(shù)據(jù)樣本
[0006] 重構(gòu)數(shù)據(jù)樣本是指通過重采樣的方法來實(shí)現(xiàn)樣本均衡,具體分為過采樣和欠 采樣兩種策略。過采樣是指通過某種方式生成新的少數(shù)類的樣本以提高少數(shù)類的分 類性能,目前的過采樣方式通常是隨機(jī)復(fù)制少數(shù)類樣本或SMOTE(Synthetic Minority over-sampling Technique,基于過采樣技術(shù)生成少數(shù)類樣本)算法,其中,SMOTE算法是通 過在少數(shù)類的k近鄰樣本間進(jìn)行線性插值構(gòu)造出新的人工少數(shù)類樣本;欠采樣技術(shù)是減少 多數(shù)類的樣本,目前的欠采樣方式通常是隨機(jī)地抽取部分多數(shù)類的樣本刪除。
[0007] 重構(gòu)數(shù)據(jù)樣本的關(guān)鍵在于如何既能消除大量的噪音數(shù)據(jù),減少冗余信息,又能保 證最小的信息損失。過采樣中簡(jiǎn)單的復(fù)制樣本的方式,易導(dǎo)致出現(xiàn)大量重復(fù)樣本,從而分 類器學(xué)習(xí)出現(xiàn)過擬合現(xiàn)象,而SMOTE這種人工生成樣本對(duì)數(shù)值數(shù)據(jù)有較好的適用范圍,但 是其主要是針對(duì)音頻數(shù)據(jù)進(jìn)行處理,而對(duì)于網(wǎng)絡(luò)數(shù)據(jù)這種文本數(shù)據(jù)不能直接使用。而欠采 樣中隨機(jī)的抽取的方式可能會(huì)丟失具有代表性的多數(shù)類樣本,從而導(dǎo)致訓(xùn)練的分類器不準(zhǔn) 確。
[0008] 二:改進(jìn)分類算法
[0009] 對(duì)分類算法的改進(jìn),主要是通過調(diào)節(jié)各類樣本之間的代價(jià)函數(shù)、對(duì)于不同類別的 樣本設(shè)置不同的權(quán)值、改變概率密度、調(diào)整分類邊界等措施使其更有利于少數(shù)類的分類。常 見的有代價(jià)敏感學(xué)習(xí),改進(jìn)的支持向量機(jī),單類學(xué)習(xí)分類等類型。
[0010] 但是,上述類型的算法均是針對(duì)二分類的問題,而無法針對(duì)多分類的不平衡數(shù)據(jù) 樣本進(jìn)行處理。
[0011] 因此,目前的技術(shù)中基于分布不平衡的多分類網(wǎng)絡(luò)數(shù)據(jù)樣本無法訓(xùn)練得到準(zhǔn)確的 網(wǎng)絡(luò)數(shù)據(jù)分類器,并且處理過程復(fù)雜。
【發(fā)明內(nèi)容】
[0012] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的網(wǎng)絡(luò)數(shù)據(jù)的處理方法和裝置。
[0013] 依據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)絡(luò)數(shù)據(jù)的處理方法,包括:
[0014] 獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別;其中,所述類別預(yù)先被劃 分為第一類類別和第二類類別,屬于所述第一類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量小于屬 于所述第二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量;
[0015] 將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到屬于第一類類別 下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0016] 將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到屬于第二類類別 下各類別的聚類;
[0017] 針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本中抽取部分組合 網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0018] 針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚類中抽取部分網(wǎng)絡(luò)數(shù)據(jù) 樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0019] 利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。
[0020] 優(yōu)選地,所述將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合的步驟包 括:
[0021] 逐次從屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取至少兩個(gè)網(wǎng)絡(luò) 數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0022] 直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0023] 優(yōu)選地,所述網(wǎng)絡(luò)數(shù)據(jù)樣本各自對(duì)應(yīng)有來源;所述將屬于第一類類別下同一個(gè)類 別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合的步驟包括:
[0024] 逐次從屬于第一類類別下同一個(gè)類別且來源不同的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取至 少兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0025] 直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0026] 優(yōu)選地,所述網(wǎng)絡(luò)數(shù)據(jù)樣本包括中文網(wǎng)絡(luò)數(shù)據(jù)樣本,和/或,英文網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0027] 則所述將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類的步驟包括:
[0028] 將屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類;
[0029] 和 / 或,
[0030] 將屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類。
[0031] 優(yōu)選地,所述將屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類的步 驟包括:
[0032] 確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公 共子序列;
[0033] 將屬于該類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一個(gè)最長(zhǎng)公共子序列進(jìn) 行匹配;
[0034] 將包括同一個(gè)最長(zhǎng)公共子序列的中文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè)聚類。
[0035] 優(yōu)選地,所述確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少 一個(gè)最長(zhǎng)公共子序列的步驟包括:
[0036] 確定屬于第二類類別下同一個(gè)類別的每?jī)蓚€(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子序 列;
[0037] 統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子序列出現(xiàn)的次數(shù),并將所述最長(zhǎng)公共子序列按照出現(xiàn)的次數(shù) 降序排序;
[0038] 從排序后的第一個(gè)最長(zhǎng)公共子序列開始順序提取至少一個(gè)最長(zhǎng)公共子序列。
[0039] 優(yōu)選地,在所述確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至 少一個(gè)最長(zhǎng)公共子序列的步驟之前,還包括:
[0040] 對(duì)屬于第二類類別下同一個(gè)類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行分詞;
[0041] 則所述確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè) 最長(zhǎng)公共子序列的步驟包括:
[0042] 確定屬于第二類類別下同一個(gè)類別的、分詞后的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一 個(gè)最長(zhǎng)公共子序列。
[0043] 優(yōu)選地,所述將屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類的步 驟包括:
[0044] 確定屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公 共子串;
[0045] 將屬于該類別的每個(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一個(gè)最長(zhǎng)公共子串進(jìn)行 匹配;
[0046] 將包括同一個(gè)最長(zhǎng)公共子串的英文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè)聚類。
[0047] 優(yōu)選地,所述確定屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少 一個(gè)最長(zhǎng)公共子串的步驟包括:
[0048] 確定屬于第二類類別下同一個(gè)類別的每?jī)蓚€(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子 串;
[0049] 統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子串出現(xiàn)的次數(shù),并將所述最長(zhǎng)公共子串按照出現(xiàn)的次數(shù)降序 排序;
[0050] 從排序后的第一個(gè)最長(zhǎng)公共子串開始順序提取至少一個(gè)最長(zhǎng)公共子串。
[0051] 優(yōu)選地,所述分別從屬于該類別的各個(gè)聚類中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該 類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的步驟包括:
[0052] 針對(duì)屬于該類別的各個(gè)聚類,計(jì)算當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本個(gè)數(shù)在屬于該類別的 網(wǎng)絡(luò)數(shù)據(jù)樣本總個(gè)數(shù)中所占的比例;
[0053] 從當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取所述比例的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0054] 將從各個(gè)聚類中抽取的網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0055] 優(yōu)選地,在所述利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練的 步驟之后,還包括:
[0056] 判斷已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的數(shù)量是否達(dá)到預(yù)設(shè)的目標(biāo)數(shù)量;
[0057] 若否,則返回所述針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣 本中抽取部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的步驟;
[0058] 若是,則在接收到攜帶有待分類網(wǎng)絡(luò)數(shù)據(jù)的分類請(qǐng)求后,利用各個(gè)已訓(xùn)練的網(wǎng)絡(luò) 數(shù)據(jù)分類器分別對(duì)所述待分類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類,得到各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的分 類結(jié)果;
[0059] 將出現(xiàn)次數(shù)最多的分類結(jié)果作為所述待分類網(wǎng)絡(luò)數(shù)據(jù)的分類結(jié)果。
[0060] 根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)絡(luò)數(shù)據(jù)的處理裝置,包括:
[0061] 獲取模塊,適于獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別;其中,所述 類別預(yù)先被劃分為第一類類別和第二類類別,屬于所述第一類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣 本數(shù)量小于屬于所述第二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量;
[0062] 組合模塊,適于將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到 屬于第一類類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0063] 聚類模塊,適于將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到 屬于第二類類別下各類別的聚類;
[0064] 第一抽取模塊,適于針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù) 樣本中抽取部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0065] 第二抽取模塊,適于針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚類 中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0066] 訓(xùn)練模塊,適于利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。
[0067] 優(yōu)選地,所述組合模塊包括:
[0068] 第一組合子模塊,適于逐次從屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨 機(jī)抽取至少兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;直至 屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0069] 優(yōu)選地,所述網(wǎng)絡(luò)數(shù)據(jù)樣本各自對(duì)應(yīng)有來源;所述組合模塊包括:
[0070] 第二組合子模塊,適于逐次從屬于第一類類別下同一個(gè)類別且來源不同的網(wǎng)絡(luò)數(shù) 據(jù)樣本中隨機(jī)抽取至少兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù) 樣本;直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0071] 優(yōu)選地,所述網(wǎng)絡(luò)數(shù)據(jù)樣本包括中文網(wǎng)絡(luò)數(shù)據(jù)樣本,和/或,英文網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0072] 則所述聚類模塊包括:
[0073] 中文聚類子模塊,適于將屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行 聚類;
[0074] 和 / 或,
[0075] 英文聚類子模塊,適于將屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行 聚類。
[0076] 優(yōu)選地,所述中文聚類子模塊包括:
[0077] 中文確定子單元,適于確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì) 應(yīng)的至少一個(gè)最長(zhǎng)公共子序列;
[0078] 中文匹配子單元,適于將屬于該類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一 個(gè)最長(zhǎng)公共子序列進(jìn)行匹配;
[0079] 中文聚類子單元,適于將包括同一個(gè)最長(zhǎng)公共子序列的中文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一 個(gè)聚類。
[0080] 優(yōu)選地,所述中文確定子單元,具體適于確定屬于第二類類別下同一個(gè)類別的每 兩個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子序列;統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子序列出現(xiàn)的次數(shù),并將所 述最長(zhǎng)公共子序列按照出現(xiàn)的次數(shù)降序排序;從排序后的第一個(gè)最長(zhǎng)公共子序列開始順序 提取至少一個(gè)最長(zhǎng)公共子序列。
[0081] 優(yōu)選地,所述中文聚類子模塊還包括:
[0082] 分詞子單元,適于在所述中文確定子單元確定屬于第二類類別下同一個(gè)類別的中 文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列之前,對(duì)屬于第二類類別下同一個(gè)類別的 每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行分詞;
[0083] 則所述中文確定子單元,具體適于確定屬于第二類類別下同一個(gè)類別的、分詞后 的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列。
[0084] 優(yōu)選地,所述英文聚類子模塊包括:
[0085] 英文確定子單元,適于確定屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì) 應(yīng)的至少一個(gè)最長(zhǎng)公共子串;
[0086] 英文匹配子單元,適于將屬于該類別的每個(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一 個(gè)最長(zhǎng)公共子串進(jìn)行匹配;
[0087] 英文聚類子單元,適于將包括同一個(gè)最長(zhǎng)公共子串的英文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè) 聚類。
[0088] 優(yōu)選地,所述英文確定子單元,具體適于確定屬于第二類類別下同一個(gè)類別的每 兩個(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子串;統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子串出現(xiàn)的次數(shù),并將所述最 長(zhǎng)公共子串按照出現(xiàn)的次數(shù)降序排序;從排序后的第一個(gè)最長(zhǎng)公共子串開始順序提取至少 一個(gè)最長(zhǎng)公共子串。
[0089] 優(yōu)選地,所述第二抽取模塊包括:
[0090] 計(jì)算子模塊,適于針對(duì)屬于該類別的各個(gè)聚類,計(jì)算當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本個(gè) 數(shù)在屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本總個(gè)數(shù)中所占的比例;
[0091] 抽取子模塊,適于從當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取所述比例的網(wǎng)絡(luò)數(shù)據(jù)樣 本,以及將從各個(gè)聚類中抽取的網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0092] 優(yōu)選地,所述裝置還包括:
[0093] 判斷模塊,適于在所述訓(xùn)練模塊利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù) 分類器的訓(xùn)練之后,判斷已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的數(shù)量是否達(dá)到預(yù)設(shè)的目標(biāo)數(shù)量;在所 述判斷模塊的判斷結(jié)果為否時(shí),調(diào)用所述第一抽取模塊;
[0094] 分類模塊,適于在所述判斷模塊的判斷結(jié)果為是時(shí),在接收到攜帶有待分類網(wǎng)絡(luò) 數(shù)據(jù)的分類請(qǐng)求后,利用各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器分別對(duì)所述待分類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分 類,得到各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的分類結(jié)果,以及將出現(xiàn)次數(shù)最多的分類結(jié)果作為 所述待分類網(wǎng)絡(luò)數(shù)據(jù)的分類結(jié)果。
[0095] 根據(jù)本發(fā)明的網(wǎng)絡(luò)數(shù)據(jù)的處理方案,首先,對(duì)于第一類類別(即網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù) 量少的類別),將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到屬于第一類 類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本,對(duì)于第二類類別(即網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量多的類別),將 屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到屬于第二類類別下各類別的 聚類;然后,針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本中抽取部分組 合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本,針對(duì)第二類類別下的各類別,分 別從屬于該類別的各個(gè)聚類中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;最 后,利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。通過對(duì)第一類類別中 的樣本組合得到新樣本,減少冗余信息,使得到的樣本更加準(zhǔn)確,通過對(duì)第二類類別中的樣 本進(jìn)行聚類再抽取,避免了丟失具有代表性的樣本,既能消除大量的噪音數(shù)據(jù),又能保證最 小的信息損失。因此,利用上述處理后的網(wǎng)絡(luò)數(shù)據(jù)樣本可以訓(xùn)練得到更加準(zhǔn)確的網(wǎng)絡(luò)數(shù)據(jù) 分類器,并且過程簡(jiǎn)單,易于實(shí)現(xiàn)。
[0096] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0097] 通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0098] 圖1示出了本發(fā)明實(shí)施例一中的一種網(wǎng)絡(luò)數(shù)據(jù)的處理方法的步驟流程圖;
[0099] 圖2示出了本發(fā)明實(shí)施例二中的一種網(wǎng)絡(luò)數(shù)據(jù)的處理方法的步驟流程圖;
[0100] 圖3示出了本發(fā)明實(shí)施例三中的一種網(wǎng)絡(luò)數(shù)據(jù)的處理裝置的結(jié)構(gòu)框圖;
[0101] 圖4示出了本發(fā)明實(shí)施例四中的一種網(wǎng)絡(luò)數(shù)據(jù)的處理裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0102] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0103] 實(shí)施例一:
[0104] 參照?qǐng)D1,示出了本發(fā)明實(shí)施例一中的一種網(wǎng)絡(luò)數(shù)據(jù)的處理方法的步驟流程圖。在 本實(shí)施例中,網(wǎng)絡(luò)數(shù)據(jù)的處理方法可以包括以下步驟:
[0105] 步驟100,獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別。
[0106] 其中,每個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)一個(gè)類別,這些類別預(yù)先被劃分為第一類類別和第 二類類別,屬于第一類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量小于屬于第二類類別下各類別的 網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量,即屬于第一類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本為少數(shù)類樣本,即屬于第 二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本為多數(shù)類樣本。
[0107] 步驟102,將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到屬于第 一類類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0108] 將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合后,即可針對(duì)屬于第一 類類別下的每個(gè)類別,得到該類別對(duì)應(yīng)的組合網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0109] 步驟104,將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到屬于第 二類類別下各類別的聚類。
[0110] 將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類后,即可針對(duì)屬于第二 類類別下的每個(gè)類別,得到該類別對(duì)應(yīng)的聚類。
[0111] 步驟106,針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本中抽取 部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0112] 由于第一類類別下的各類別的網(wǎng)絡(luò)樣本的數(shù)量較少,因此需要增加第一類類別下 各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的數(shù)量。本發(fā)明實(shí)施例中,即可針對(duì)第一類類別下的各類別,從屬于 該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本中抽取部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò) 數(shù)據(jù)樣本,即此時(shí)屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本既包括原有屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本和新 增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0113] 步驟108,針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚類中抽取部分 網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0114] 由于第二類類別下的各類別的網(wǎng)絡(luò)樣本的數(shù)量較多,因此需要減少第二類類別下 各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的數(shù)量。本發(fā)明實(shí)施例中,即可針對(duì)第二類類別下的各類別,分別從 屬于該類別的各個(gè)聚類中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本,即其余 未抽取的樣本從該類別刪除。
[0115] 步驟110,利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。
[0116] 經(jīng)過上述步驟之后,屬于第一類類別下的各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的數(shù)量與屬于第 二類類別下的各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的數(shù)量相差很小,因此得到了分布平衡的多分類網(wǎng)絡(luò) 數(shù)據(jù)樣本。最后再利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練,即可使 得到的分類器的分類結(jié)果更加準(zhǔn)確。
[0117] 本發(fā)明實(shí)施例中,通過對(duì)第一類類別中的樣本組合得到新樣本,減少冗余信息,使 得到的樣本更加準(zhǔn)確,通過對(duì)第二類類別中的樣本進(jìn)行聚類再抽取,避免了丟失具有代表 性的樣本,既能消除大量的噪音數(shù)據(jù),又能保證最小的信息損失。因此,利用上述處理后的 網(wǎng)絡(luò)數(shù)據(jù)樣本可以訓(xùn)練得到更加準(zhǔn)確的網(wǎng)絡(luò)數(shù)據(jù)分類器,并且過程簡(jiǎn)單,易于實(shí)現(xiàn)。
[0118] 實(shí)施例二:
[0119] 參照?qǐng)D2,示出了本發(fā)明實(shí)施例二中的一種網(wǎng)絡(luò)數(shù)據(jù)的處理方法的步驟流程圖。在 本實(shí)施例中,網(wǎng)絡(luò)數(shù)據(jù)的處理方法可以包括以下步驟:
[0120] 步驟200,獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別。
[0121 ] 本發(fā)明實(shí)施例中,獲取的網(wǎng)絡(luò)數(shù)據(jù)樣本可以為網(wǎng)絡(luò)日志,例如搜索日志、黃頁的分 類網(wǎng)址、UGC(User Generated Content,用戶生成內(nèi)容)標(biāo)簽、垂直行業(yè)的實(shí)體詞等,這些網(wǎng) 絡(luò)數(shù)據(jù)的特點(diǎn)即為是文本(中文、英文等)形式的網(wǎng)絡(luò)數(shù)據(jù)。
[0122] 其中,各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別預(yù)先被劃分為第一類類別和第二類類別,屬于 第一類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量小于屬于第二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本 數(shù)量。對(duì)于其中的第一類類別和第二類類別,可以設(shè)置一個(gè)數(shù)量閾值,網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量小 于該數(shù)量閾值的類別為第一類類別,網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量大于或等于該數(shù)量閾值的類別為第 二類類別。因此,為了使網(wǎng)絡(luò)數(shù)據(jù)樣本的分布能夠更加平衡,需要增加屬于第一類類別下各 類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量,減少屬于第二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量。
[0123] 步驟202,將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到屬于第 一類類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0124] 例如,第一類類別下的類別包括"旅游"、"游戲"兩種類別,則分別將屬于"旅游"類 別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到屬于"旅游"類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;將屬于"游戲"類 別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到屬于"游戲"類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0125] 本發(fā)明實(shí)施例中,每個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本還各自對(duì)應(yīng)有來源,例如屬于"旅游"類別的 網(wǎng)絡(luò)數(shù)據(jù)樣本,其來源可以是旅游網(wǎng)址、旅游網(wǎng)站上的行業(yè)詞、SNS(Social Network Site, 社交網(wǎng)站)上用戶的旅游標(biāo)簽(如"驢友"、"騎行")等。
[0126] 在本發(fā)明的一種優(yōu)選實(shí)施例中,該步驟202可以包括以下子步驟:
[0127] 子步驟al,逐次從屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取至少 兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0128] 子步驟a2,直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0129] 本發(fā)明實(shí)施例中,為了降低運(yùn)算量,可以預(yù)先設(shè)置一個(gè)閾值,即設(shè)置最終屬于第一 類類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的數(shù)量為多少。當(dāng)然,還可以不限定組合網(wǎng)絡(luò)數(shù)據(jù)樣 本的總個(gè)數(shù),即直至得到所有組合形式的組合網(wǎng)絡(luò)數(shù)據(jù)樣本為止,本發(fā)明實(shí)施例對(duì)此并不 加以限制。
[0130] 例如,針對(duì)"旅游"類別,逐次從屬于"旅游"類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取至少 兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該"旅游"類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本,直至屬于 該"旅游"類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。即如果預(yù)設(shè)閾值為3000 個(gè),則需要從屬于"旅游"類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取并組合3000次,得到3000個(gè)屬 于該"旅游"類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0131] 例如,從屬于"旅游"類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本為 "http://www. tuniu. com" 和 "http://www. lvmama. com",則將其進(jìn)行組合得到的一個(gè)屬于 該"旅游"類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本即為"http://www. tuniu. com\http://www. Ivmama. com"。
[0132] 上述子步驟al?子步驟a2所示的方法中,并未限定網(wǎng)絡(luò)數(shù)據(jù)樣本的來源,即任意 隨機(jī)抽取,每次抽取過程中,可以隨機(jī)抽取來源相同的至少兩個(gè)的網(wǎng)絡(luò)數(shù)據(jù)樣本,也可以隨 機(jī)抽取來源不同的至少兩個(gè)的網(wǎng)絡(luò)數(shù)據(jù)樣本,還可以隨機(jī)抽取部分來源相同的網(wǎng)絡(luò)數(shù)據(jù)樣 本和部分來源不同的網(wǎng)絡(luò)數(shù)據(jù)樣本,本發(fā)明實(shí)施例對(duì)此并不加以限制。
[0133] 在本發(fā)明的另一種優(yōu)選實(shí)施例中,該步驟202可以包括以下子步驟:
[0134] 子步驟bl,逐次從屬于第一類類別下同一個(gè)類別且來源不同的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨 機(jī)抽取至少兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0135] 子步驟bl,直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0136] 例如,針對(duì)"旅游"類別,逐次從屬于"旅游"類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取至少 兩個(gè)來源不同的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該"旅游"類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣 本,直至屬于該"旅游"類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0137] 例如,從屬于"旅游"類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取來源于旅游網(wǎng)址的網(wǎng)絡(luò)數(shù)據(jù) 樣本"http://www. tuniu. com"和來源于SNS網(wǎng)站的網(wǎng)絡(luò)數(shù)據(jù)樣本"驢友",則將其進(jìn)行組合 得到的一個(gè)屬于該"旅游"類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本即為"http://WWW. lvmama. com\驢友"。
[0138] 上述子步驟bl?子步驟b2所示的方法中,限定了每次從來源不同的網(wǎng)絡(luò)數(shù)據(jù)樣 本中隨機(jī)抽取,對(duì)來源進(jìn)行限定可以使得到的組合網(wǎng)絡(luò)數(shù)據(jù)樣本更能夠反映出該類別的網(wǎng) 絡(luò)數(shù)據(jù)樣本的特點(diǎn),并且還避免了由于某個(gè)來源的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量較少導(dǎo)致的抽取不均 衡的問題。
[0139] 需要說明的是,本發(fā)明實(shí)施例中每次可以隨機(jī)抽取兩個(gè)或兩個(gè)以任意個(gè)數(shù)的網(wǎng)絡(luò) 數(shù)據(jù)樣本進(jìn)行組合,每次隨機(jī)抽取的網(wǎng)絡(luò)數(shù)據(jù)樣本的個(gè)數(shù)可以相同也可以不同,可以按照 任意形式組合抽取的網(wǎng)絡(luò)數(shù)據(jù)樣本,本發(fā)明實(shí)施例對(duì)此并不加以限制。
[0140] 步驟204,將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到屬于第 二類類別下各類別的聚類。
[0141] 例如,第二類類別下的類別包括"購物"、"美食"兩種類別,則分別將屬于"購物"類 別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到屬于"購物"類別的聚類;將屬于"美食"類別的網(wǎng)絡(luò)數(shù)據(jù) 樣本進(jìn)行聚類,得到屬于"美食"類別的聚類。
[0142] 其中,網(wǎng)絡(luò)數(shù)據(jù)樣本可以僅包括中文網(wǎng)絡(luò)數(shù)據(jù)樣本,也可以僅包括英文網(wǎng)絡(luò)數(shù)據(jù) 樣本,還可以既包括中文網(wǎng)絡(luò)數(shù)據(jù)樣本又包括英文網(wǎng)絡(luò)數(shù)據(jù)樣本。在本發(fā)明的一種優(yōu)選實(shí) 施例中,針對(duì)不同類型(中文、英文)的網(wǎng)絡(luò)數(shù)據(jù)樣本可以采用不同的方式進(jìn)行聚類。因此, 該步驟204可以包括以下子步驟:
[0143] 子步驟cl,將屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類;
[0144] 和 / 或,
[0145] 子步驟c2,將屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類。
[0146] 即當(dāng)網(wǎng)絡(luò)數(shù)據(jù)樣本僅包括中文網(wǎng)絡(luò)數(shù)據(jù)樣本時(shí),僅執(zhí)行上述子步驟cl即可;當(dāng)網(wǎng) 絡(luò)數(shù)據(jù)樣本僅包括英文網(wǎng)絡(luò)數(shù)據(jù)樣本時(shí),僅執(zhí)行上述子步驟c2即可;當(dāng)網(wǎng)絡(luò)數(shù)據(jù)樣本既包 括中文網(wǎng)絡(luò)數(shù)據(jù)樣本又包括英文網(wǎng)絡(luò)數(shù)據(jù)樣本時(shí),執(zhí)行上述子步驟cl和子步驟c2,并且可 以先執(zhí)行子步驟cl再執(zhí)行子步驟c2,也可以先執(zhí)行子步驟c2再執(zhí)行子步驟cl,還可以同 時(shí)執(zhí)行子步驟cl和子步驟c2,本發(fā)明實(shí)施例并不限制具體的執(zhí)行順序。
[0147] 在本發(fā)明的一種優(yōu)選實(shí)施例中,上述子步驟c 1可以包括以下子步驟c 11?子步驟 cl3 :
[0148] 子步驟cll,確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少 一個(gè)最長(zhǎng)公共子序列;
[0149] 本發(fā)明實(shí)施例中,該子步驟cll可以包括以下子步驟clll?子步驟cll3 :
[0150] 子步驟clll,確定屬于第二類類別下同一個(gè)類別的每?jī)蓚€(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本的最 長(zhǎng)公共子序列;
[0151] 子步驟cll2,統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子序列出現(xiàn)的次數(shù),并將所述最長(zhǎng)公共子序列按 照出現(xiàn)的次數(shù)降序排序;
[0152] 子步驟cll3,從排序后的第一個(gè)最長(zhǎng)公共子序列開始順序提取至少一個(gè)最長(zhǎng)公共 子序列。
[0153] 其中,最長(zhǎng)公共子序列的定義是:一個(gè)序列S,如果分別是兩個(gè)或多個(gè)已知序列的 子序列,且是所有符合此條件序列中最長(zhǎng)的,則S稱為已知序列的最長(zhǎng)公共子序列。對(duì)于 確定屬于第二類類別下同一個(gè)類別的每?jī)蓚€(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子序列的過程, 本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際經(jīng)驗(yàn)采用任意一種計(jì)算方法,本發(fā)明實(shí)施例對(duì)此并不加以限 制。
[0154] 例如,可以采用如下的動(dòng)態(tài)規(guī)劃方法:
[0155] 假設(shè)兩個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本分別為序列strl和序列str2,序列strl的長(zhǎng)度為m, 序列str2的長(zhǎng)度為η ;
[0156] 創(chuàng)建1個(gè)二維數(shù)組L [m,η],初始化L數(shù)組內(nèi)容為0 ;
[0157] m和η分別從0開始,m++,η++循環(huán):
[0158] 如果 strl [m] = = str2 [η],則 L[m,n] = L[m - 1,η_1]+1 ;
[0159] 如果 strl [m] ! = str2 [η],則 L[m,η] = max {L[m,η_1],L[m - 1,η]};
[0160] 其中,二維數(shù)組L[m,n]中最大的數(shù)便是序列strl和序列str2的最長(zhǎng)公共子序列 的長(zhǎng)度,依據(jù)該數(shù)組回溯,便可找出最長(zhǎng)公共子序列。
[0161] 由于上述子步驟clll中是針對(duì)每?jī)蓚€(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本確定一個(gè)最長(zhǎng)公共子序 列,因此確定出的最長(zhǎng)公共子序列的總個(gè)數(shù)為個(gè),其中η為中文網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè) 數(shù)。每個(gè)最長(zhǎng)公共子序列可能會(huì)出現(xiàn)多次,因此可以按照最長(zhǎng)公共子序列出現(xiàn)的次數(shù)對(duì)其 進(jìn)行降序排序,并從其中提取出現(xiàn)次數(shù)多的最長(zhǎng)公共子序列。對(duì)于提取的最長(zhǎng)公共子序列 的個(gè)數(shù),本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況進(jìn)行相關(guān)設(shè)置即可,本發(fā)明實(shí)施例對(duì)具體的數(shù)值并 不加以限制。
[0162] 子步驟cl2,將屬于該類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一個(gè)最長(zhǎng)公 共子序列進(jìn)行匹配;
[0163] 子步驟cl3,將包括同一個(gè)最長(zhǎng)公共子序列的中文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè)聚類。
[0164] 對(duì)于中文網(wǎng)絡(luò)數(shù)據(jù)樣本,基于最長(zhǎng)公共子序列進(jìn)行聚類后,最終得到的聚類的個(gè) 數(shù)與確定出的最長(zhǎng)公共子序列的個(gè)數(shù)相同。對(duì)于其中沒有匹配上任何一個(gè)最長(zhǎng)公共子序列 的中文網(wǎng)絡(luò)數(shù)據(jù)樣本作為邊界樣本或噪音樣本舍棄。
[0165] 例如,對(duì)于屬于第二類類別下"購物"類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本中,根據(jù)"淘寶網(wǎng) 商城"和"淘寶商城天貓"這兩個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本,使用最長(zhǎng)公共子序列算法得到其最長(zhǎng) 公共子序列為"淘寶商城";根據(jù)"淘寶網(wǎng)連衣裙"和"淘寶連衣裙雪紡"這兩個(gè)中文網(wǎng)絡(luò)數(shù) 據(jù)樣本,使用最長(zhǎng)公共子序列算法得到其最長(zhǎng)公共子序列為"淘寶連衣裙";根據(jù)"淘寶網(wǎng)雪 地靴"和"淘寶雪地靴黑色"這兩個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本,使用最長(zhǎng)公共子序列算法得到其最 長(zhǎng)公共子序列為"淘寶雪地靴"。如果確定出屬于"購物"類別三個(gè)最長(zhǎng)公共子序列分別為 "淘寶商城"、"淘寶連衣裙"、"淘寶雪地靴",則最終將包括"淘寶商城"的中文網(wǎng)絡(luò)數(shù)據(jù)樣本 作為一個(gè)聚類,將包括"淘寶連衣裙"的中文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè)聚類,將包括"淘寶雪地 靴"的中文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè)聚類。
[0166] 在本發(fā)明的一種優(yōu)選實(shí)施例中,還進(jìn)一步考慮到中文特性,例如對(duì)于"北京有很多 成都小吃店"和"成都的小吃特別好吃"這兩個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本來說,如果直接求其最長(zhǎng) 公共子序列,則得到的為"成都小吃",但其實(shí)第一個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本中的"成都小吃店" 是指飯館,而第二個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本中的"成都的小吃"是指小吃,類型不同。因此本發(fā) 明實(shí)施例中還可以在上述子步驟cll之前執(zhí)行以下子步驟:
[0167] 子步驟clO,對(duì)屬于第二類類別下同一個(gè)類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行分詞。 則上述子步驟cl即為確定屬于第二類類別下同一個(gè)類別的、分詞后的中文網(wǎng)絡(luò)數(shù)據(jù)樣本 對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列。
[0168] 分詞指的是將一個(gè)連續(xù)的漢字序列按照一定的規(guī)范重新組合成詞序列的過程。對(duì) 于上述對(duì)屬于第二類類別下同一個(gè)類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行分詞的具體過程,本 領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際經(jīng)驗(yàn)采用任意一種分詞方法,本發(fā)明實(shí)施例對(duì)此并不加以限 制。例如,可以采用基于字符串匹配的分詞方法、基于理解的分詞方法、基于統(tǒng)計(jì)的分詞方 法等方法。其中,基于字符串匹配的分詞方法又叫做機(jī)械分詞方法,它是按照一定的策略將 待分析的漢字序列與一個(gè)"充分大的"機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字 符串,則匹配成功(識(shí)別出一個(gè)詞)?;诶斫獾姆衷~方法是通過讓計(jì)算機(jī)模擬人對(duì)句子的 理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信 息和語義信息來處理歧義現(xiàn)象?;诮y(tǒng)計(jì)的分詞方法可以首先獲取大量已經(jīng)分詞的文本, 利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型學(xué)習(xí)詞語切分的規(guī)律(稱為訓(xùn)練),從而實(shí)現(xiàn)對(duì)未知文本的切分。
[0169] 分詞之后再進(jìn)行聚類,可以使得到的聚類更加準(zhǔn)確,獲得更好的精度。例如,對(duì)于 "北京有很多成都小吃店"和"成都的小吃特別好吃"這兩個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本來說,如果分 詞之后再確定其最長(zhǎng)公共子序列則結(jié)果為0,即不存在最長(zhǎng)公共子序列。
[0170] 在本發(fā)明的一種優(yōu)選實(shí)施例中,上述子步驟c2可以包括以下子步驟c21?子步驟 c23 :
[0171] 子步驟c21,確定屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少 一個(gè)最長(zhǎng)公共子串;
[0172] 本發(fā)明實(shí)施例中,該子步驟c21可以包括以下子步驟c211?子步驟c213 :
[0173] 子步驟c211,確定屬于第二類類別下同一個(gè)類別的每?jī)蓚€(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本的最 長(zhǎng)公共子串;
[0174] 子步驟c212,統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子串出現(xiàn)的次數(shù),并將所述最長(zhǎng)公共子串按照出 現(xiàn)的次數(shù)降序排序;
[0175] 子步驟c213,從排序后的第一個(gè)最長(zhǎng)公共子串開始順序提取至少一個(gè)最長(zhǎng)公共子 串。
[0176] 最長(zhǎng)公共子串和最長(zhǎng)公共子序列的區(qū)別為:子串是串的一個(gè)連續(xù)的部分,子序列 則是不改變序列的順序,而從序列中去掉任意的元素而獲得新的序列,也就是說,子串中字 符的位置是連續(xù)的,子序列則可以不必連續(xù)。對(duì)于確定屬于第二類類別下同一個(gè)類別的每 兩個(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子串的過程,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際經(jīng)驗(yàn)采用任 意一種計(jì)算方法,本發(fā)明實(shí)施例對(duì)此并不加以限制。例如,可以采用如下的動(dòng)態(tài)規(guī)劃方法: 用一個(gè)矩陣來記錄兩個(gè)字符串中所有位置的兩個(gè)字符之間的匹配情況,若是匹配則為1,否 則為0 ;然后求出對(duì)角線最長(zhǎng)的1序列,其對(duì)應(yīng)的位置就是最長(zhǎng)公共子串的位置。
[0177] 由于上述子步驟C211中是針對(duì)每?jī)蓚€(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本確定一個(gè)最長(zhǎng)公共子 串,因此確定出的最長(zhǎng)公共子串的總個(gè)數(shù)為個(gè),其中m為英文網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)。 每個(gè)最長(zhǎng)公共子串可能會(huì)出現(xiàn)多次,因此可以按照最長(zhǎng)公共子串出現(xiàn)的次數(shù)對(duì)其進(jìn)行降序 排序,并從其中提取出現(xiàn)次數(shù)多的最長(zhǎng)公共子串。對(duì)于提取的最長(zhǎng)公共子串的個(gè)數(shù),本領(lǐng)域 技術(shù)人員根據(jù)實(shí)際情況進(jìn)行相關(guān)設(shè)置即可,本發(fā)明實(shí)施例對(duì)具體的數(shù)值并不加以限制。
[0178] 子步驟c22,將屬于該類別的每個(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一個(gè)最長(zhǎng)公 共子串進(jìn)行匹配;
[0179] 子步驟c23,將包括同一個(gè)最長(zhǎng)公共子串的英文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè)聚類。
[0180] 對(duì)于英文網(wǎng)絡(luò)數(shù)據(jù)樣本,基于最長(zhǎng)公共子串進(jìn)行聚類后,最終得到的聚類的個(gè)數(shù) 與確定出的最長(zhǎng)公共子串的個(gè)數(shù)相同。對(duì)于其中沒有匹配上任何一個(gè)最長(zhǎng)公共子串的英文 網(wǎng)絡(luò)數(shù)據(jù)樣本作為邊界樣本或噪音樣本舍棄。
[0181] 需要說明的是,步驟202和步驟204并不限定于上述執(zhí)行順序,可以先執(zhí)行步驟 202再執(zhí)行步驟204,也可以先執(zhí)行步驟204再執(zhí)行步驟202,還可以同時(shí)執(zhí)行步驟202和步 驟 204。
[0182] 步驟206,針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本中抽取 部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0183] 本發(fā)明實(shí)施例中,可以預(yù)先設(shè)置訓(xùn)練網(wǎng)絡(luò)數(shù)據(jù)分類器時(shí)所需的屬于第一類類別下 的各類別的網(wǎng)絡(luò)樣本的數(shù)量閾值,以保證第一類類別下的各類別的網(wǎng)絡(luò)樣本的數(shù)量和第二 類類別下的各類別的網(wǎng)絡(luò)樣本的數(shù)量平衡。因此,該步驟206中針對(duì)第一類類別下的各類 另IJ,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本中抽取部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類 別的網(wǎng)絡(luò)數(shù)據(jù)樣本,以使原有的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本與新增的屬于該類別的網(wǎng)絡(luò)數(shù) 據(jù)樣本的總數(shù)量為該類別對(duì)應(yīng)的數(shù)量閾值。
[0184] 該步驟中的抽取可以為隨機(jī)抽取,也可以為按照預(yù)設(shè)規(guī)則抽取,例如,如果屬于該 類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本為3000個(gè),需要從其中抽取300個(gè)組合網(wǎng)絡(luò)數(shù)據(jù)樣本,則可以從 每10個(gè)組合網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取一個(gè)組合網(wǎng)絡(luò)數(shù)據(jù)樣本。本發(fā)明實(shí)施例對(duì)具體的抽 取方式并不加以限制。
[0185] 步驟208,針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚類中抽取部分 網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0186] 本發(fā)明實(shí)施例中,可以針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚 類中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本,以保證第一類類別下的各類 別的網(wǎng)絡(luò)樣本的數(shù)量和第二類類別下的各類別的網(wǎng)絡(luò)樣本的數(shù)量平衡。
[0187] 在本發(fā)明的一種優(yōu)選實(shí)施例中,該步驟208可以為分別從屬于該類別的各個(gè)聚類 中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本,以使屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的總數(shù)量(即從各個(gè)聚類中抽 取的部分網(wǎng)絡(luò)數(shù)據(jù)樣本的總數(shù)量)與上述步驟206中得出的屬于第一類類別下各類別的網(wǎng) 絡(luò)數(shù)據(jù)樣本的總數(shù)量的差值在預(yù)設(shè)范圍內(nèi)。
[0188] 在本發(fā)明的另一種優(yōu)選實(shí)施例中,該步驟208可以包括以下子步驟dl?子步驟 d3 :
[0189] 子步驟dl,針對(duì)屬于該類別的各個(gè)聚類,計(jì)算當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本個(gè)數(shù)在屬 于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本總個(gè)數(shù)中所占的比例;
[0190] 子步驟d2,從當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取所述比例的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0191] 子步驟d3,將從各個(gè)聚類中抽取的網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣 本。
[0192] 按照上述子步驟dl?子步驟d3抽取之后,還可以進(jìn)一步比較屬于第二類類別下 的該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的總數(shù)量與上述步驟206中得出的屬于第一類類別下各類別的 網(wǎng)絡(luò)數(shù)據(jù)樣本的總數(shù)量的差值是否在預(yù)設(shè)范圍內(nèi)。若在預(yù)設(shè)范圍內(nèi),則結(jié)束;若不在預(yù)設(shè)范 圍內(nèi),則在屬于第二類類別下的該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的總數(shù)量多時(shí),從抽取的網(wǎng)絡(luò)數(shù)據(jù) 樣本中刪除部分網(wǎng)絡(luò)數(shù)據(jù)樣本,在屬于第二類類別下的該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的總數(shù)量少 時(shí),再次從各個(gè)聚類中抽取網(wǎng)絡(luò)數(shù)據(jù)樣本,最終使得屬于第二類類別下的該類別的網(wǎng)絡(luò)數(shù) 據(jù)樣本的總數(shù)量與上述步驟206中得出的屬于第一類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的總 數(shù)量的差值在預(yù)設(shè)范圍內(nèi),或者還可以重新調(diào)整上述步驟204中的得到的聚類的個(gè)數(shù),或 者還可以先執(zhí)行該步驟208再執(zhí)行步驟206,即以步驟208得到的屬于第二類類別下的各類 別的網(wǎng)絡(luò)數(shù)據(jù)樣本的總數(shù)量為基準(zhǔn)執(zhí)行步驟206的抽取過程,等等,本發(fā)明實(shí)施例對(duì)此并 不加以限制。
[0193] 步驟210,利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。
[0194] 經(jīng)過上述各步驟的處理后,第一類類別下的各類別的網(wǎng)絡(luò)樣本的數(shù)量和第二類類 別下的各類別的網(wǎng)絡(luò)樣本的數(shù)量基本平衡,然后再利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行 網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練,因此可以保證在平衡數(shù)據(jù)的基礎(chǔ)上馴良分類器,使訓(xùn)練得到的網(wǎng) 絡(luò)數(shù)據(jù)分類器的分類結(jié)果更加準(zhǔn)確。
[0195] 例如,網(wǎng)絡(luò)數(shù)據(jù)樣本中有游戲、購物、旅游、美食等10個(gè)類別。其中屬于購物類別 的網(wǎng)絡(luò)數(shù)據(jù)樣本占50%、屬于游戲類別的網(wǎng)絡(luò)數(shù)據(jù)樣本占25%,屬于旅游等其他類別的網(wǎng) 絡(luò)數(shù)據(jù)樣本共占25%。因此可以將購物、游戲作為多數(shù)類(即第二類類別),需要做欠抽 樣,將旅游等其他類別作為多數(shù)類(即第一類類別),需要做過抽樣。最終使得每個(gè)類別的 網(wǎng)絡(luò)數(shù)據(jù)樣本的比例幾乎相同,比如都在10%上下。
[0196] 本發(fā)明實(shí)施例中,對(duì)于網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練可以采用任意一種分類器的訓(xùn)練方 式,例如采用樸素貝葉斯、決策樹等方法進(jìn)行訓(xùn)練,對(duì)于訓(xùn)練的具體過程,本領(lǐng)域技術(shù)人員 根據(jù)實(shí)際經(jīng)驗(yàn)進(jìn)行相關(guān)處理即可,本發(fā)明實(shí)施例在此不再詳細(xì)論述。
[0197] 步驟212,判斷已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的數(shù)量是否達(dá)到預(yù)設(shè)的目標(biāo)數(shù)量。若否, 則返回步驟206 ;若是,則執(zhí)行步驟214。
[0198] 在本發(fā)明的一種優(yōu)選實(shí)施例中,可以訓(xùn)練多個(gè)網(wǎng)絡(luò)數(shù)據(jù)分類器,從而在后續(xù)對(duì)網(wǎng) 絡(luò)數(shù)據(jù)進(jìn)行分類時(shí),可以采用多個(gè)網(wǎng)絡(luò)數(shù)據(jù)分類器分類,從而提高分類結(jié)果的準(zhǔn)確性。
[0199] 因此,在執(zhí)行上述步驟210之后,還可以判斷已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的數(shù)量是 否達(dá)到預(yù)設(shè)的目標(biāo)數(shù)量,如果沒有達(dá)到,則返回步驟206,即重新執(zhí)行步驟206?步驟210, 以訓(xùn)練一個(gè)新的網(wǎng)絡(luò)數(shù)據(jù)分類器。
[0200] 步驟214,在接收到攜帶有待分類網(wǎng)絡(luò)數(shù)據(jù)的分類請(qǐng)求后,利用各個(gè)已訓(xùn)練的網(wǎng)絡(luò) 數(shù)據(jù)分類器分別對(duì)所述待分類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類,得到各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的分 類結(jié)果,將出現(xiàn)次數(shù)最多的分類結(jié)果作為所述待分類網(wǎng)絡(luò)數(shù)據(jù)的分類結(jié)果。
[0201] 如果在步驟212中判斷出已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的數(shù)量已達(dá)到預(yù)設(shè)的目標(biāo)數(shù) 量,則可以結(jié)束網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練過程。
[0202] 在接收到攜帶有待分類網(wǎng)絡(luò)數(shù)據(jù)的分類請(qǐng)求后,可以利用各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù) 分類器分別對(duì)所述待分類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類,得到各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的分類結(jié) 果,并且將出現(xiàn)次數(shù)最多的分類結(jié)果作為所述待分類網(wǎng)絡(luò)數(shù)據(jù)的分類結(jié)果。
[0203] 例如,可以使用上述網(wǎng)絡(luò)數(shù)據(jù)分類器對(duì)網(wǎng)絡(luò)用戶進(jìn)行個(gè)性化的興趣分類,當(dāng)接 收到攜帶有待分類網(wǎng)絡(luò)數(shù)據(jù)(比如用戶輸入的關(guān)鍵字、點(diǎn)擊的URL(Uniform Resource Locator,統(tǒng)一資源定位符)等)的分類請(qǐng)求后,如果訓(xùn)練了 5個(gè)網(wǎng)絡(luò)數(shù)據(jù)分類器,則對(duì)該待 分類網(wǎng)絡(luò)數(shù)據(jù)的分類結(jié)果分別為"購物"類、"旅游"類、"游戲"類、"游戲"類、"游戲"類,則 可以確定分類結(jié)果為"游戲"類。
[0204] 本發(fā)明實(shí)施例中,對(duì)于利用網(wǎng)絡(luò)數(shù)據(jù)分類器分別對(duì)待分類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類的過 程可以根據(jù)訓(xùn)練該網(wǎng)絡(luò)數(shù)據(jù)分類器時(shí)所采用的訓(xùn)練方式選擇對(duì)應(yīng)的分類方式,對(duì)于分類的 具體過程,本領(lǐng)域技術(shù)人員根據(jù)實(shí)際經(jīng)驗(yàn)進(jìn)行相關(guān)處理即可,本發(fā)明實(shí)施例在此不再詳細(xì) 論述。
[0205] 本發(fā)明實(shí)施例中,利用處理后的網(wǎng)絡(luò)數(shù)據(jù)樣本可以訓(xùn)練得到更加準(zhǔn)確的網(wǎng)絡(luò)數(shù)據(jù) 分類器,并且過程簡(jiǎn)單,易于實(shí)現(xiàn)。另外,訓(xùn)練多個(gè)網(wǎng)絡(luò)數(shù)據(jù)分類器,通過多個(gè)網(wǎng)絡(luò)數(shù)據(jù)分類 器對(duì)待分類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類,可以獲得更精準(zhǔn)地分類結(jié)果,促進(jìn)了上層應(yīng)用的開發(fā)效率 和準(zhǔn)確性。
[0206] 需要說明的是,對(duì)于前述的方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的 動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐?據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉, 說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明所必需的。
[0207] 實(shí)施例三:
[0208] 參照?qǐng)D3,示出了本發(fā)明實(shí)施例三中的一種網(wǎng)絡(luò)數(shù)據(jù)的處理裝置的結(jié)構(gòu)框圖。在本 實(shí)施例中,網(wǎng)絡(luò)數(shù)據(jù)的處理裝置可以包括以下模塊:
[0209] 獲取模塊300,適于獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別;其中, 所述類別預(yù)先被劃分為第一類類別和第二類類別,屬于所述第一類類別下各類別的網(wǎng)絡(luò)數(shù) 據(jù)樣本數(shù)量小于屬于所述第二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量;
[0210] 組合模塊302,適于將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得 到屬于第一類類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0211] 聚類模塊304,適于將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得 到屬于第二類類別下各類別的聚類;
[0212] 第一抽取模塊306,適于針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù) 據(jù)樣本中抽取部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0213] 第二抽取模塊308,適于針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚 類中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0214] 訓(xùn)練模塊310,適于利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn) 練。
[0215] 本發(fā)明實(shí)施例中,首先,對(duì)于第一類類別,將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò) 數(shù)據(jù)樣本進(jìn)行組合,得到屬于第一類類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本,對(duì)于第二類類別, 將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到屬于第二類類別下各類別 的聚類;然后,針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本中抽取部分 組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本,針對(duì)第二類類別下的各類別, 分別從屬于該類別的各個(gè)聚類中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本; 最后,利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。通過對(duì)第一類類別 中的樣本組合得到新樣本,減少冗余信息,使得到的樣本更加準(zhǔn)確,通過對(duì)第二類類別中的 樣本進(jìn)行聚類再抽取,避免了丟失具有代表性的樣本,既能消除大量的噪音數(shù)據(jù),又能保證 最小的信息損失。因此,利用上述處理后的網(wǎng)絡(luò)數(shù)據(jù)樣本可以訓(xùn)練得到更加準(zhǔn)確的網(wǎng)絡(luò)數(shù) 據(jù)分類器,并且過程簡(jiǎn)單,易于實(shí)現(xiàn)。
[0216] 實(shí)施例四:
[0217] 參照?qǐng)D4,示出了本發(fā)明實(shí)施例四中的一種網(wǎng)絡(luò)數(shù)據(jù)的處理裝置的結(jié)構(gòu)框圖。在本 實(shí)施例中,網(wǎng)絡(luò)數(shù)據(jù)的處理裝置可以包括以下模塊:
[0218] 獲取模塊400,適于獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別;其中, 所述類別預(yù)先被劃分為第一類類別和第二類類別,屬于所述第一類類別下各類別的網(wǎng)絡(luò)數(shù) 據(jù)樣本數(shù)量小于屬于所述第二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量;
[0219] 組合模塊402,適于將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得 到屬于第一類類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0220] 聚類模塊404,適于將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得 到屬于第二類類別下各類別的聚類;
[0221] 第一抽取模塊406,適于針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù) 據(jù)樣本中抽取部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0222] 第二抽取模塊408,適于針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚 類中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0223] 訓(xùn)練模塊410,適于利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn) 練;
[0224] 判斷模塊412,適于在所述訓(xùn)練模塊利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò) 數(shù)據(jù)分類器的訓(xùn)練之后,判斷已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的數(shù)量是否達(dá)到預(yù)設(shè)的目標(biāo)數(shù)量; 在所述判斷模塊的判斷結(jié)果為否時(shí),調(diào)用所述第一抽取模塊;
[0225] 分類模塊414,適于在所述判斷模塊的判斷結(jié)果為是時(shí),在接收到攜帶有待分類網(wǎng) 絡(luò)數(shù)據(jù)的分類請(qǐng)求后,利用各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器分別對(duì)所述待分類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行 分類,得到各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的分類結(jié)果,以及將出現(xiàn)次數(shù)最多的分類結(jié)果作 為所述待分類網(wǎng)絡(luò)數(shù)據(jù)的分類結(jié)果。
[0226] 在本發(fā)明的一種優(yōu)選實(shí)施例中,組合模塊可以包括:
[0227] 第一組合子模塊,適于逐次從屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨 機(jī)抽取至少兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;直至 屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0228] 在本發(fā)明的另一種優(yōu)選實(shí)施例中,每個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本各自對(duì)應(yīng)有來源。組合模塊 包括:
[0229] 第二組合子模塊,適于逐次從屬于第一類類別下同一個(gè)類別且來源不同的網(wǎng)絡(luò)數(shù) 據(jù)樣本中隨機(jī)抽取至少兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù) 樣本;直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0230] 本發(fā)明實(shí)施例中,所述網(wǎng)絡(luò)數(shù)據(jù)樣本可以僅包括中文網(wǎng)絡(luò)數(shù)據(jù)樣本,也可以僅包 括英文網(wǎng)絡(luò)數(shù)據(jù)樣本,還可以包括中文網(wǎng)絡(luò)數(shù)據(jù)樣本和英文網(wǎng)絡(luò)數(shù)據(jù)樣本。相應(yīng)地,所述聚 類模塊可以僅包括中文聚類子模塊,也可以僅包括英文聚類子模塊,還可以包括中文聚類 子模塊和英文聚類子模塊。
[0231] 其中,中文聚類子模塊,適于將屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣 本進(jìn)行聚類。
[0232] 所述中文聚類子模塊可以包括:
[0233] 中文確定子單元,適于確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì) 應(yīng)的至少一個(gè)最長(zhǎng)公共子序列;
[0234] 中文匹配子單元,適于將屬于該類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一 個(gè)最長(zhǎng)公共子序列進(jìn)行匹配;
[0235] 中文聚類子單元,適于將包括同一個(gè)最長(zhǎng)公共子序列的中文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一 個(gè)聚類。
[0236] 其中,所述中文確定子單元,具體適于確定屬于第二類類別下同一個(gè)類別的每?jī)?個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子序列;統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子序列出現(xiàn)的次數(shù),并將所述 最長(zhǎng)公共子序列按照出現(xiàn)的次數(shù)降序排序;從排序后的第一個(gè)最長(zhǎng)公共子序列開始順序提 取至少一個(gè)最長(zhǎng)公共子序列。
[0237] 本發(fā)明實(shí)施例中,中文聚類子模塊還可以包括:
[0238] 分詞子單元,適于在所述中文確定子單元確定屬于第二類類別下同一個(gè)類別的中 文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列之前,對(duì)屬于第二類類別下同一個(gè)類別的 每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行分詞;則所述中文確定子單元,具體適于確定屬于第二類類別 下同一個(gè)類別的、分詞后的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列。
[0239] 其中,英文聚類子模塊,適于將屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣 本進(jìn)行聚類。
[0240] 所述英文聚類子模塊可以包括:
[0241] 英文確定子單元,適于確定屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì) 應(yīng)的至少一個(gè)最長(zhǎng)公共子串;
[0242] 英文匹配子單元,適于將屬于該類別的每個(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一 個(gè)最長(zhǎng)公共子串進(jìn)行匹配;
[0243] 英文聚類子單元,適于將包括同一個(gè)最長(zhǎng)公共子串的英文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè) 聚類。
[0244] 所述英文確定子單元,具體適于確定屬于第二類類別下同一個(gè)類別的每?jī)蓚€(gè)英文 網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子串;統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子串出現(xiàn)的次數(shù),并將所述最長(zhǎng)公共子 串按照出現(xiàn)的次數(shù)降序排序;從排序后的第一個(gè)最長(zhǎng)公共子串開始順序提取至少一個(gè)最長(zhǎng) 公共子串。
[0245] 本發(fā)明實(shí)施例中,第二抽取模塊可以包括:
[0246] 計(jì)算子模塊,適于針對(duì)屬于該類別的各個(gè)聚類,計(jì)算當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本個(gè) 數(shù)在屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本總個(gè)數(shù)中所占的比例;
[0247] 抽取子模塊,適于從當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取所述比例的網(wǎng)絡(luò)數(shù)據(jù)樣 本,以及將從各個(gè)聚類中抽取的網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0248] 本發(fā)明實(shí)施例中,利用處理后的網(wǎng)絡(luò)數(shù)據(jù)樣本可以訓(xùn)練得到更加準(zhǔn)確的網(wǎng)絡(luò)數(shù)據(jù) 分類器,并且過程簡(jiǎn)單,易于實(shí)現(xiàn)。另外,訓(xùn)練多個(gè)網(wǎng)絡(luò)數(shù)據(jù)分類器,通過多個(gè)網(wǎng)絡(luò)數(shù)據(jù)分類 器對(duì)待分類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類,可以獲得更精準(zhǔn)地分類結(jié)果,促進(jìn)了上層應(yīng)用的開發(fā)效率 和準(zhǔn)確性。
[0249] 對(duì)于上述裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單, 相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0250] 在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。 各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求 的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種 編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā) 明的最佳實(shí)施方式。
[0251] 在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施 例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu) 和技術(shù),以便不模糊對(duì)本說明書的理解。
[0252] 類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在 上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施 例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保 護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面 的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此, 遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身 都作為本發(fā)明的單獨(dú)實(shí)施例。
[0253] 本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地 改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單 元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或 子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任 何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開 的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴 隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代 特征來代替。
[0254] 此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例 中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的 范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任 意之一都可以以任意的組合方式來使用。
[0255] 本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行 的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用 微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的網(wǎng)絡(luò)數(shù)據(jù)的處理設(shè)備中 的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方 法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣 的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形 式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形 式提供。
[0256] 應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中, 不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞"包含"不排除存在 未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個(gè)"不排除存在多個(gè)這 樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來 實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件 項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為 名稱。
[0257] 本發(fā)明公開了 AU-種網(wǎng)絡(luò)數(shù)據(jù)的處理方法,其中,包括:
[0258] 獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別;其中,所述類別預(yù)先被劃 分為第一類類別和第二類類別,屬于所述第一類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量小于屬 于所述第二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量;
[0259] 將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到屬于第一類類別 下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0260] 將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到屬于第二類類別 下各類別的聚類;
[0261] 針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本中抽取部分組合 網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0262] 針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚類中抽取部分網(wǎng)絡(luò)數(shù)據(jù) 樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0263] 利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。
[0264] A2、如Al所述的方法,其中,所述將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣 本進(jìn)行組合的步驟包括:
[0265] 逐次從屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取至少兩個(gè)網(wǎng)絡(luò) 數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0266] 直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0267] A3、如Al所述的方法,其中,所述網(wǎng)絡(luò)數(shù)據(jù)樣本各自對(duì)應(yīng)有來源;所述將屬于第一 類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合的步驟包括:
[0268] 逐次從屬于第一類類別下同一個(gè)類別且來源不同的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取至 少兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0269] 直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0270] A4、如Al所述的方法,其中,所述網(wǎng)絡(luò)數(shù)據(jù)樣本包括中文網(wǎng)絡(luò)數(shù)據(jù)樣本,和/或,英 文網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0271] 則所述將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類的步驟包括:
[0272] 將屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類;
[0273] 和 / 或,
[0274] 將屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類。
[0275] A5、如A4所述的方法,其中,所述將屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù) 據(jù)樣本進(jìn)行聚類的步驟包括:
[0276] 確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公 共子序列;
[0277] 將屬于該類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一個(gè)最長(zhǎng)公共子序列進(jìn) 行匹配;
[0278] 將包括同一個(gè)最長(zhǎng)公共子序列的中文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè)聚類。
[0279] A6、如A5所述的方法,其中,所述確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò) 數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列的步驟包括:
[0280] 確定屬于第二類類別下同一個(gè)類別的每?jī)蓚€(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子序 列;
[0281] 統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子序列出現(xiàn)的次數(shù),并將所述最長(zhǎng)公共子序列按照出現(xiàn)的次數(shù) 降序排序;
[0282] 從排序后的第一個(gè)最長(zhǎng)公共子序列開始順序提取至少一個(gè)最長(zhǎng)公共子序列。
[0283] A7、如A5所述的方法,其中,在所述確定屬于第二類類別下同一個(gè)類別的中文網(wǎng) 絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列的步驟之前,還包括:
[0284] 對(duì)屬于第二類類別下同一個(gè)類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行分詞;
[0285] 則所述確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè) 最長(zhǎng)公共子序列的步驟包括:
[0286] 確定屬于第二類類別下同一個(gè)類別的、分詞后的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一 個(gè)最長(zhǎng)公共子序列。
[0287] A8、如A4所述的方法,其中,所述將屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù) 據(jù)樣本進(jìn)行聚類的步驟包括:
[0288] 確定屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公 共子串;
[0289] 將屬于該類別的每個(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一個(gè)最長(zhǎng)公共子串進(jìn)行 匹配;
[0290] 將包括同一個(gè)最長(zhǎng)公共子串的英文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè)聚類。
[0291] A9、如A8所述的方法,其中,所述確定屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò) 數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子串的步驟包括:
[0292] 確定屬于第二類類別下同一個(gè)類別的每?jī)蓚€(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子 串;
[0293] 統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子串出現(xiàn)的次數(shù),并將所述最長(zhǎng)公共子串按照出現(xiàn)的次數(shù)降序 排序;
[0294] 從排序后的第一個(gè)最長(zhǎng)公共子串開始順序提取至少一個(gè)最長(zhǎng)公共子串。
[0295] A10、如Al所述的方法,其中,所述分別從屬于該類別的各個(gè)聚類中抽取部分網(wǎng)絡(luò) 數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的步驟包括:
[0296] 針對(duì)屬于該類別的各個(gè)聚類,計(jì)算當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本個(gè)數(shù)在屬于該類別的 網(wǎng)絡(luò)數(shù)據(jù)樣本總個(gè)數(shù)中所占的比例;
[0297] 從當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取所述比例的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0298] 將從各個(gè)聚類中抽取的網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0299] All、如Al所述的方法,其中,在所述利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò) 數(shù)據(jù)分類器的訓(xùn)練的步驟之后,還包括:
[0300] 判斷已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的數(shù)量是否達(dá)到預(yù)設(shè)的目標(biāo)數(shù)量;
[0301] 若否,則返回所述針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣 本中抽取部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本的步驟;
[0302] 若是,則在接收到攜帶有待分類網(wǎng)絡(luò)數(shù)據(jù)的分類請(qǐng)求后,利用各個(gè)已訓(xùn)練的網(wǎng)絡(luò) 數(shù)據(jù)分類器分別對(duì)所述待分類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類,得到各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的分 類結(jié)果;
[0303] 將出現(xiàn)次數(shù)最多的分類結(jié)果作為所述待分類網(wǎng)絡(luò)數(shù)據(jù)的分類結(jié)果。
[0304] B12、一種網(wǎng)絡(luò)數(shù)據(jù)的處理裝置,其中,包括:
[0305] 獲取模塊,適于獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別;其中,所述 類別預(yù)先被劃分為第一類類別和第二類類別,屬于所述第一類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣 本數(shù)量小于屬于所述第二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量;
[0306] 組合模塊,適于將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到 屬于第一類類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0307] 聚類模塊,適于將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到 屬于第二類類別下各類別的聚類;
[0308] 第一抽取模塊,適于針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù) 樣本中抽取部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0309] 第二抽取模塊,適于針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚類 中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0310] 訓(xùn)練模塊,適于利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。
[0311] B13、如B12所述的裝置,其中,所述組合模塊包括:
[0312] 第一組合子模塊,適于逐次從屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨 機(jī)抽取至少兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本;直至 屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0313] B14、如B12所述的裝置,其中,所述網(wǎng)絡(luò)數(shù)據(jù)樣本各自對(duì)應(yīng)有來源;所述組合模塊 包括:
[0314] 第二組合子模塊,適于逐次從屬于第一類類別下同一個(gè)類別且來源不同的網(wǎng)絡(luò)數(shù) 據(jù)樣本中隨機(jī)抽取至少兩個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù) 樣本;直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)閾值時(shí)停止。
[0315] B15、如B12所述的裝置,其中,所述網(wǎng)絡(luò)數(shù)據(jù)樣本包括中文網(wǎng)絡(luò)數(shù)據(jù)樣本,和/或, 英文網(wǎng)絡(luò)數(shù)據(jù)樣本;
[0316] 則所述聚類模塊包括:
[0317] 中文聚類子模塊,適于將屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行 聚類;
[0318] 和 / 或,
[0319] 英文聚類子模塊,適于將屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行 聚類。
[0320] B16、如B15所述的裝置,其中,所述中文聚類子模塊包括:
[0321] 中文確定子單元,適于確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì) 應(yīng)的至少一個(gè)最長(zhǎng)公共子序列;
[0322] 中文匹配子單元,適于將屬于該類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一 個(gè)最長(zhǎng)公共子序列進(jìn)行匹配;
[0323] 中文聚類子單元,適于將包括同一個(gè)最長(zhǎng)公共子序列的中文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一 個(gè)聚類。
[0324] B17、如B16所述的裝置,其中,所述中文確定子單元,具體適于確定屬于第二類類 別下同一個(gè)類別的每?jī)蓚€(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子序列;統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子序列 出現(xiàn)的次數(shù),并將所述最長(zhǎng)公共子序列按照出現(xiàn)的次數(shù)降序排序;從排序后的第一個(gè)最長(zhǎng) 公共子序列開始順序提取至少一個(gè)最長(zhǎng)公共子序列。
[0325] B18、如B16所述的裝置,其中,所述中文聚類子模塊還包括:
[0326] 分詞子單元,適于在所述中文確定子單元確定屬于第二類類別下同一個(gè)類別的中 文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列之前,對(duì)屬于第二類類別下同一個(gè)類別的 每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行分詞;
[0327] 則所述中文確定子單元,具體適于確定屬于第二類類別下同一個(gè)類別的、分詞后 的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列。
[0328] B19、如B15所述的裝置,其中,所述英文聚類子模塊包括:
[0329] 英文確定子單元,適于確定屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì) 應(yīng)的至少一個(gè)最長(zhǎng)公共子串;
[0330] 英文匹配子單元,適于將屬于該類別的每個(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一 個(gè)最長(zhǎng)公共子串進(jìn)行匹配;
[0331] 英文聚類子單元,適于將包括同一個(gè)最長(zhǎng)公共子串的英文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè) 聚類。
[0332] B20、如B19所述的裝置,其中,所述英文確定子單元,具體適于確定屬于第二類類 別下同一個(gè)類別的每?jī)蓚€(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子串;統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子串出現(xiàn) 的次數(shù),并將所述最長(zhǎng)公共子串按照出現(xiàn)的次數(shù)降序排序;從排序后的第一個(gè)最長(zhǎng)公共子 串開始順序提取至少一個(gè)最長(zhǎng)公共子串。
[0333] B21、如B12所述的裝置,其中,所述第二抽取模塊包括:
[0334] 計(jì)算子模塊,適于針對(duì)屬于該類別的各個(gè)聚類,計(jì)算當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本個(gè) 數(shù)在屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本總個(gè)數(shù)中所占的比例;
[0335] 抽取子模塊,適于從當(dāng)前聚類的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取所述比例的網(wǎng)絡(luò)數(shù)據(jù)樣 本,以及將從各個(gè)聚類中抽取的網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本。
[0336] B22、如B12所述的裝置,其中,所述裝置還包括:
[0337] 判斷模塊,適于在所述訓(xùn)練模塊利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù) 分類器的訓(xùn)練之后,判斷已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的數(shù)量是否達(dá)到預(yù)設(shè)的目標(biāo)數(shù)量;在所 述判斷模塊的判斷結(jié)果為否時(shí),調(diào)用所述第一抽取模塊;
[0338] 分類模塊,適于在所述判斷模塊的判斷結(jié)果為是時(shí),在接收到攜帶有待分類網(wǎng)絡(luò) 數(shù)據(jù)的分類請(qǐng)求后,利用各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器分別對(duì)所述待分類網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分 類,得到各個(gè)已訓(xùn)練的網(wǎng)絡(luò)數(shù)據(jù)分類器的分類結(jié)果,以及將出現(xiàn)次數(shù)最多的分類結(jié)果作為 所述待分類網(wǎng)絡(luò)數(shù)據(jù)的分類結(jié)果。
【權(quán)利要求】
1. 一種網(wǎng)絡(luò)數(shù)據(jù)的處理方法,其特征在于,包括: 獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別;其中,所述類別預(yù)先被劃分為 第一類類別和第二類類別,屬于所述第一類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量小于屬于所 述第二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量; 將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到屬于第一類類別下各 類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本; 將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到屬于第二類類別下各 類別的聚類; 針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本中抽取部分組合網(wǎng)絡(luò) 數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本; 針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚類中抽取部分網(wǎng)絡(luò)數(shù)據(jù)樣本 作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本; 利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。
2. 如權(quán)利要求1所述的方法,其特征在于,所述將屬于第一類類別下同一個(gè)類別的網(wǎng) 絡(luò)數(shù)據(jù)樣本進(jìn)行組合的步驟包括: 逐次從屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取至少兩個(gè)網(wǎng)絡(luò)數(shù)據(jù) 樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本; 直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)闊值時(shí)停止。
3. 如權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)絡(luò)數(shù)據(jù)樣本各自對(duì)應(yīng)有來源;所述將 屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合的步驟包括: 逐次從屬于第一類類別下同一個(gè)類別且來源不同的網(wǎng)絡(luò)數(shù)據(jù)樣本中隨機(jī)抽取至少兩 個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到一個(gè)屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本; 直至屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本的總個(gè)數(shù)達(dá)到預(yù)設(shè)闊值時(shí)停止。
4. 如權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)絡(luò)數(shù)據(jù)樣本包括中文網(wǎng)絡(luò)數(shù)據(jù)樣本, 和/或,英文網(wǎng)絡(luò)數(shù)據(jù)樣本; 則所述將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類的步驟包括: 將屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類; 和/或, 將屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類。
5. 如權(quán)利要求4所述的方法,其特征在于,所述將屬于第二類類別下同一個(gè)類別的中 文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類的步驟包括: 確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子 序列; 將屬于該類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一個(gè)最長(zhǎng)公共子序列進(jìn)行匹 配; 將包括同一個(gè)最長(zhǎng)公共子序列的中文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè)聚類。
6. 如權(quán)利要求5所述的方法,其特征在于,所述確定屬于第二類類別下同一個(gè)類別的 中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列的步驟包括: 確定屬于第二類類別下同一個(gè)類別的每?jī)蓚€(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子序列; 統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子序列出現(xiàn)的次數(shù),并將所述最長(zhǎng)公共子序列按照出現(xiàn)的次數(shù)降序 排序; 從排序后的第一個(gè)最長(zhǎng)公共子序列開始順序提取至少一個(gè)最長(zhǎng)公共子序列。
7. 如權(quán)利要求5所述的方法,其特征在于,在所述確定屬于第二類類別下同一個(gè)類別 的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子序列的步驟之前,還包括: 對(duì)屬于第二類類別下同一個(gè)類別的每個(gè)中文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行分詞; 則所述確定屬于第二類類別下同一個(gè)類別的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng) 公共子序列的步驟包括: 確定屬于第二類類別下同一個(gè)類別的、分詞后的中文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最 長(zhǎng)公共子序列。
8. 如權(quán)利要求4所述的方法,其特征在于,所述將屬于第二類類別下同一個(gè)類別的英 文網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類的步驟包括: 確定屬于第二類類別下同一個(gè)類別的英文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子 串; 將屬于該類別的每個(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本分別與所述至少一個(gè)最長(zhǎng)公共子串進(jìn)行匹 配; 將包括同一個(gè)最長(zhǎng)公共子串的英文網(wǎng)絡(luò)數(shù)據(jù)樣本作為一個(gè)聚類。
9. 如權(quán)利要求8所述的方法,其特征在于,所述確定屬于第二類類別下同一個(gè)類別的 英文網(wǎng)絡(luò)數(shù)據(jù)樣本對(duì)應(yīng)的至少一個(gè)最長(zhǎng)公共子串的步驟包括: 確定屬于第二類類別下同一個(gè)類別的每?jī)蓚€(gè)英文網(wǎng)絡(luò)數(shù)據(jù)樣本的最長(zhǎng)公共子串; 統(tǒng)計(jì)每個(gè)最長(zhǎng)公共子串出現(xiàn)的次數(shù),并將所述最長(zhǎng)公共子串按照出現(xiàn)的次數(shù)降序排 序; 從排序后的第一個(gè)最長(zhǎng)公共子串開始順序提取至少一個(gè)最長(zhǎng)公共子串。
10. -種網(wǎng)絡(luò)數(shù)據(jù)的處理裝置,其特征在于,包括: 獲取模塊,適于獲取多個(gè)網(wǎng)絡(luò)數(shù)據(jù)樣本及各網(wǎng)絡(luò)數(shù)據(jù)樣本所屬的類別;其中,所述類別 預(yù)先被劃分為第一類類別和第二類類別,屬于所述第一類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù) 量小于屬于所述第二類類別下各類別的網(wǎng)絡(luò)數(shù)據(jù)樣本數(shù)量; 組合模塊,適于將屬于第一類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行組合,得到屬于 第一類類別下各類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本; 聚類模塊,適于將屬于第二類類別下同一個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行聚類,得到屬于 第二類類別下各類別的聚類; 第一抽取模塊,適于針對(duì)第一類類別下的各類別,從屬于該類別的組合網(wǎng)絡(luò)數(shù)據(jù)樣本 中抽取部分組合網(wǎng)絡(luò)數(shù)據(jù)樣本作為新增的屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本; 第二抽取模塊,適于針對(duì)第二類類別下的各類別,分別從屬于該類別的各個(gè)聚類中抽 取部分網(wǎng)絡(luò)數(shù)據(jù)樣本作為屬于該類別的網(wǎng)絡(luò)數(shù)據(jù)樣本; 訓(xùn)練模塊,適于利用屬于各個(gè)類別的網(wǎng)絡(luò)數(shù)據(jù)樣本進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分類器的訓(xùn)練。
【文檔編號(hào)】G06F17/30GK104462301SQ201410710566
【公開日】2015年3月25日 申請(qǐng)日期:2014年11月28日 優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】昝艷 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司