1.一種數(shù)據(jù)處理方法,其特征在于,包括:
獲取待聚類網(wǎng)站數(shù)據(jù)對(duì)應(yīng)的欄目?jī)?nèi)容標(biāo)簽;
從預(yù)置欄目體系的欄目標(biāo)簽中,提取與所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于預(yù)置閾值的欄目標(biāo)簽;其中,所述預(yù)置欄目體系中保存有多個(gè)所述欄目標(biāo)簽,和所述欄目標(biāo)簽分別對(duì)應(yīng)的網(wǎng)站數(shù)據(jù);
將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預(yù)置閾值的欄目標(biāo)簽中。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述從預(yù)置欄目體系的欄目標(biāo)簽中,提取與所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于預(yù)置閾值的欄目標(biāo)簽之后,所述方法包括:
從所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于預(yù)置閾值的欄目標(biāo)簽中,獲取與所述待聚類網(wǎng)站數(shù)據(jù)相似度值最高的欄目標(biāo)簽。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理方法,其特征在于,所述將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預(yù)置閾值的欄目標(biāo)簽中包括:
將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述獲取的欄目標(biāo)簽中。
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)處理方法,其特征在于,所述預(yù)置欄目體系中包含多個(gè)層級(jí)的欄目標(biāo)簽,所述提取與所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于預(yù)置閾值的欄目標(biāo)簽包括:
判斷是否能夠從第一預(yù)置層級(jí)的欄目標(biāo)簽中,獲取到與所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于第一預(yù)置閾值的欄目標(biāo)簽;
若是,則判斷所述大于等于預(yù)置閾值的第一預(yù)置層級(jí)的欄目標(biāo)簽,是否存在對(duì)應(yīng)的第二預(yù)置層級(jí)的欄目標(biāo)簽;
若存在,則判斷是否能夠從所述第二預(yù)置層級(jí)的欄目標(biāo)簽中,獲取到與所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于第二預(yù)置閾值的欄目標(biāo)簽。
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)處理方法,其特征在于,所述將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預(yù)置閾值的欄目標(biāo)簽中包括:
將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述相似度值大于等于第二預(yù)置閾值的欄目標(biāo)簽中。
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其特征在于,所述方法還包 括:
當(dāng)不能從所述預(yù)置欄目體系的欄目標(biāo)簽中,提取到與所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于預(yù)置閾值的欄目標(biāo)簽時(shí),則向客戶端發(fā)送數(shù)據(jù)聚類失敗指令,所述指令中攜帶有所述欄目?jī)?nèi)容標(biāo)簽,以使得客戶端根據(jù)所述欄目?jī)?nèi)容標(biāo)簽更新預(yù)置欄目體系中的欄目標(biāo)簽。
7.一種數(shù)據(jù)處理裝置,其特征在于,包括:
獲取單元,用于獲取待聚類網(wǎng)站數(shù)據(jù)對(duì)應(yīng)的欄目?jī)?nèi)容標(biāo)簽;
提取單元,用于從預(yù)置欄目體系的欄目標(biāo)簽中,提取與所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于預(yù)置閾值的欄目標(biāo)簽;其中,所述預(yù)置欄目體系中保存有多個(gè)所述欄目標(biāo)簽,和所述欄目標(biāo)簽分別對(duì)應(yīng)的網(wǎng)站數(shù)據(jù);
聚類單元,用于將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預(yù)置閾值的欄目標(biāo)簽中。
8.根據(jù)權(quán)利要求7所述的數(shù)據(jù)處理裝置,其特征在于,所述裝置還包括:
所述獲取單元,還用于從所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于預(yù)置閾值的欄目標(biāo)簽中,獲取與所述待聚類網(wǎng)站數(shù)據(jù)相似度值最高的欄目標(biāo)簽。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)處理裝置,其特征在于,
所述聚類單元,具體用于將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述獲取單元獲取的欄目標(biāo)簽中。
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)處理裝置,其特征在于,所述預(yù)置欄目體系中包含多個(gè)層級(jí)的欄目標(biāo)簽,所述提取單元包括:
第一判斷模塊,用于判斷是否能夠從第一預(yù)置層級(jí)的欄目標(biāo)簽中,獲取到與所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于第一預(yù)置閾值的欄目標(biāo)簽;
第二判斷模塊,用于若能夠從第一預(yù)置層級(jí)的欄目標(biāo)簽中,獲取到與所述欄目?jī)?nèi)容標(biāo)簽相似度值大于等于第一預(yù)置閾值的欄目標(biāo)簽,則判斷所述大于等于預(yù)置閾值的第一預(yù)置層級(jí)的欄目標(biāo)簽,是否存在對(duì)應(yīng)的第二預(yù)置層級(jí)的欄目標(biāo)簽;
第三判斷模塊,用于若存在對(duì)應(yīng)的第二預(yù)置層級(jí)的欄目標(biāo)簽,則判斷是否能夠從所述第二預(yù)置層級(jí)的欄目標(biāo)簽中,獲取到與所述欄目?jī)?nèi)容標(biāo)簽 相似度值大于等于第二預(yù)置閾值的欄目標(biāo)簽。