本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法及裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)中涌現(xiàn)出大量的數(shù)據(jù),為使這些數(shù)據(jù)能夠結(jié)構(gòu)化的進行存儲,因此需要對這些數(shù)據(jù)進行聚類,數(shù)據(jù)聚類是將數(shù)據(jù)或?qū)傩苑诸惖讲煌娜航M,也就是根據(jù)數(shù)據(jù)的內(nèi)容或?qū)傩孕畔?shù)據(jù)分組到聚類,使得每個聚類中的數(shù)據(jù)共享共同的特性。通過數(shù)據(jù)聚類可以有效地執(zhí)行搜索,這是因為對聚類進行搜索時,搜索到的是這一聚類的數(shù)據(jù)結(jié)果,而不是單獨的數(shù)據(jù)結(jié)果,從而通過數(shù)據(jù)聚類可以減少搜索操作的數(shù)目。
目前,通過網(wǎng)站數(shù)據(jù)中的文本內(nèi)容的相似度,將網(wǎng)站數(shù)據(jù)聚合成不同的類別,然后根據(jù)網(wǎng)站數(shù)據(jù)的欄目內(nèi)容標簽對每一個聚得的類別給出對應(yīng)的欄目標簽。但是,由于網(wǎng)站數(shù)據(jù)中的包含大量的文本內(nèi)容,因此計算文本內(nèi)容的相似度需要消耗很長的系統(tǒng)時間;且網(wǎng)站數(shù)據(jù)的欄目內(nèi)容標簽為不可控的,因此通過網(wǎng)站數(shù)據(jù)的欄目內(nèi)容標簽很難準確的預知欄目標簽的具體內(nèi)容,從而現(xiàn)有的數(shù)據(jù)聚類的效率低。
技術(shù)實現(xiàn)要素:
鑒于上述問題,提出了本發(fā)明,以便提供一種克服上述問題或者至少部分地解決上述問題的數(shù)據(jù)處理方法及裝置。
為達到上述目的,本發(fā)明主要提供如下技術(shù)方案:
一方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理方法,該方法包括:
獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽;
從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大 于等于預置閾值的欄目標簽;其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù);
將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。
另一方面,本發(fā)明實施例還提供一種數(shù)據(jù)處理裝置,該裝置包括:
獲取單元,用于獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽;
提取單元,用于從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽;其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù);
聚類單元,用于將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。
借由上述技術(shù)方案,本發(fā)明實施例提供的技術(shù)方案至少具有下列優(yōu)點:
本發(fā)明實施例提供的一種數(shù)據(jù)處理方法及裝置,首先獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽;其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù),最后將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。與目前通過網(wǎng)站數(shù)據(jù)的文本內(nèi)容對網(wǎng)站進行聚類相比,本發(fā)明實施例首先獲取網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后分別計算欄目內(nèi)容標簽和預置欄目體系中各個欄目標簽的相似度值,最后將網(wǎng)站數(shù)據(jù)聚類到相似度值大于等于預置閾值的欄目標簽中,從而實現(xiàn)了數(shù)據(jù)的聚類,由于本發(fā)明實施例是通過計算欄目內(nèi)容標簽和預置欄目體系中的欄目標簽的相似度值實現(xiàn)聚類的,且欄目內(nèi)容標簽的數(shù)據(jù)量遠遠少于網(wǎng)站數(shù)據(jù),因此通過本發(fā)明可以提高數(shù)據(jù)聚類的效率。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1為本發(fā)明實施例提供的一種數(shù)據(jù)處理方法流程圖;
圖2為本發(fā)明實施例提供的另一種數(shù)據(jù)處理方法流程圖;
圖3為本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置的組成框圖;
圖4為本發(fā)明實施例提供的另一種數(shù)據(jù)處理裝置的組成框圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
為使本發(fā)明技術(shù)方案的優(yōu)點更加清楚,下面結(jié)合附圖和實施例對本發(fā)明作詳細說明。
本發(fā)明實施例提供了一種數(shù)據(jù)處理方法,如圖1所示,所述方法包括:
S101、獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽。
其中,所述欄目內(nèi)容標簽用于表示所述待聚類網(wǎng)站數(shù)據(jù)的欄目內(nèi)容,在本發(fā)明實施例中,可以通過網(wǎng)絡(luò)爬蟲爬取所述待聚類網(wǎng)站數(shù)據(jù)的欄目路徑,然后從爬取的欄目路徑中獲取所述欄目內(nèi)容標簽。需要說明的是,所述欄目內(nèi)容標簽是由網(wǎng)站后臺管理人員設(shè)定的,用于表示待聚類網(wǎng)站數(shù)據(jù)的概括信息及數(shù)據(jù)架構(gòu)信息,因此通過欄目內(nèi)容標簽可以獲知待聚類網(wǎng)站數(shù)據(jù)的主體內(nèi)容。
S102、從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽。
其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù)。對于本發(fā)明實施例,所述預置欄目體系可以根據(jù)實際數(shù)據(jù)聚類的需求進行設(shè)置,也可以根據(jù)網(wǎng)站數(shù)據(jù)的內(nèi)容進行設(shè)置,還可以根據(jù)網(wǎng)站數(shù)據(jù)的來源進行設(shè)置,本發(fā)明實施例不做具體限定。所述欄目標簽用于表示預置欄目體系中的各個欄目對應(yīng)的名稱,即對數(shù)據(jù)聚合成不同的類別后,對欄目體系中每一的類別給出精確的類別主題詞。例如, 根據(jù)網(wǎng)站數(shù)據(jù)的內(nèi)容設(shè)置所述預置欄目體系,所述欄目體系中具體可以包含:財經(jīng)新聞、民生新聞、軍事新聞、政治新聞等欄目標簽。
對于本發(fā)明實施例,所述預置閾值的大小可以根據(jù)實際情況進行設(shè)置,也可以由系統(tǒng)默認配置,例如,所述預置閾值具體可以為30%、50%、60%等,本發(fā)明實施例不做具體限定。需要說明的是,預置閾值設(shè)置的越大,從預置欄目體系的欄目標簽中,提取到的與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽越少;預置閾值設(shè)置的越小,從預置欄目體系的欄目標簽中,提取到的與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽越多。在本發(fā)明實施例中,通過從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽,可以確定所述待聚類網(wǎng)站數(shù)據(jù)在預置欄目體系中對應(yīng)的欄目標簽,從而可在后續(xù)步驟中將待聚類網(wǎng)站數(shù)據(jù)聚類到提取的欄目標簽中,進而實現(xiàn)了待聚類網(wǎng)站數(shù)據(jù)的數(shù)據(jù)聚類。
S103、將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。
在本發(fā)明實施例中,若能夠從預置欄目體系的欄目標簽中,提取到與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽,則將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中,從而可實現(xiàn)待聚類網(wǎng)站數(shù)據(jù)的數(shù)據(jù)聚類。在本發(fā)明實施例中,首先獲取網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后分別計算欄目內(nèi)容標簽和預置欄目體系中各個欄目標簽的相似度值,最后將網(wǎng)站數(shù)據(jù)聚類到相似度值大于等于預置閾值的欄目標簽中,從而實現(xiàn)了網(wǎng)站數(shù)據(jù)的聚類,由于本發(fā)明實施例是通過計算欄目內(nèi)容標簽和預置欄目體系中的欄目標簽的相似度值實現(xiàn)聚類的,且欄目內(nèi)容標簽的數(shù)據(jù)量遠遠少于網(wǎng)站數(shù)據(jù),因此通過本發(fā)明可以提高數(shù)據(jù)聚類的效率。另外,由于本發(fā)明實施例是根據(jù)欄目內(nèi)容標簽和欄目標簽的相似度值確定待聚類網(wǎng)站數(shù)據(jù)在預置欄目體系中的欄目,預置欄目體系當中的欄目標簽是由后臺人員設(shè)置的,因此欄目標簽可以準確的表示出各個欄目類別分別對應(yīng)的關(guān)鍵詞名稱,從而提高了獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目標簽的準確率。
需要說明的是,在預置欄目體系的欄目標簽中,能夠提取到與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的一個或多個欄目標簽,當從預置欄目體系中獲取到多個欄目標簽時,說明待聚類網(wǎng)站數(shù)據(jù)和預置欄目體系中的多個欄目標簽相關(guān)聯(lián),因此需要將待聚類網(wǎng)站數(shù)據(jù)分別聚類到這些獲取的欄目標簽中。例如,獲取到待聚類網(wǎng)站數(shù)據(jù)的欄目內(nèi)容標簽為“經(jīng)濟民生新聞”,而預置欄目體系中的欄目標簽有“經(jīng)濟新聞”和“民生新聞”,經(jīng)過計算“經(jīng)濟民生新聞”和“經(jīng)濟新聞”的相似度值滿足預置閾值,“經(jīng)濟民生新聞”和“民生新聞”的相似度值同樣也滿足預置閾值,因此需要將待聚類網(wǎng)站數(shù)據(jù)分別聚類到“經(jīng)濟新聞”和“民生新聞”中。
本發(fā)明實施例提供的一種數(shù)據(jù)聚類方法,首先獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽;其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù),最后將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。與目前通過網(wǎng)站數(shù)據(jù)的文本內(nèi)容對網(wǎng)站進行聚類相比,本發(fā)明實施例首先獲取網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后分別計算欄目內(nèi)容標簽和預置欄目體系中各個欄目標簽的相似度值,最后將網(wǎng)站數(shù)據(jù)聚類到相似度值大于等于預置閾值的欄目標簽中,從而實現(xiàn)了數(shù)據(jù)的聚類,由于本發(fā)明實施例是通過計算欄目內(nèi)容標簽和預置欄目體系中的欄目標簽的相似度值實現(xiàn)聚類的,且欄目內(nèi)容標簽的數(shù)據(jù)量遠遠少于網(wǎng)站數(shù)據(jù),因此通過本發(fā)明可以提高數(shù)據(jù)聚類的效率。
本發(fā)明實施例提供了另一種數(shù)據(jù)處理方法,如圖2所示,所述方法包括:
S201、獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽。
其中,所述欄目內(nèi)容標簽用于表示所述待聚類網(wǎng)站數(shù)據(jù)的欄目內(nèi)容,在本發(fā)明實施例中,可以通過網(wǎng)絡(luò)爬蟲爬取所述待聚類網(wǎng)站數(shù)據(jù)的欄目路徑,然后從爬取的欄目路徑中獲取所述欄目內(nèi)容標簽。需要說明的是,所述欄目內(nèi)容標簽是由網(wǎng)站后臺管理人員設(shè)定的,用于表示待聚類網(wǎng)站數(shù)據(jù)的概括信息及數(shù)據(jù)架構(gòu)信息,因此通過欄目內(nèi)容標簽可以獲知待聚類網(wǎng)站 數(shù)據(jù)的主體內(nèi)容。
S202、判斷是否能夠從預置欄目體系的欄目標簽中,提取到與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽。
其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù)。對于本發(fā)明實施例,所述預置欄目體系可以根據(jù)實際數(shù)據(jù)聚類的需求進行設(shè)置,也可以根據(jù)網(wǎng)站數(shù)據(jù)的內(nèi)容進行設(shè)置,還可以根據(jù)網(wǎng)站數(shù)據(jù)的來源進行設(shè)置,本發(fā)明實施例不做具體限定。所述欄目標簽用于表示預置欄目體系中的各個欄目對應(yīng)的名稱,即對數(shù)據(jù)聚合成不同的類別后,對欄目體系中每一的類別給出精確的類別主題詞。
對于本發(fā)明實施例,所述預置閾值的大小可以根據(jù)實際情況進行設(shè)置,也可以由系統(tǒng)默認配置,例如,所述預置閾值具體可以為30%、50%、60%等,本發(fā)明實施例不做具體限定。需要說明的是,預置閾值設(shè)置的越大,從預置欄目體系的欄目標簽中,提取到的與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽越少;預置閾值設(shè)置的越小,從預置欄目體系的欄目標簽中,提取到的與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽越多。在本發(fā)明實施例中,通過從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽,可以確定所述待聚類網(wǎng)站數(shù)據(jù)在預置欄目體系中對應(yīng)的欄目標簽,從而可在后續(xù)步驟中將待聚類網(wǎng)站數(shù)據(jù)聚類到提取的欄目標簽中,進而實現(xiàn)了待聚類網(wǎng)站數(shù)據(jù)的數(shù)據(jù)聚類。
在本發(fā)明實施例中,在步驟S202之后還,所述方法還包括:若能夠從預置欄目體系的欄目標簽中,提取到與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽,則從所述大于等于預置閾值的欄目標簽中,獲取與所述待聚類網(wǎng)站數(shù)據(jù)相似度值最高的欄目標簽。對于本發(fā)明實施例,從所述大于等于預置閾值的欄目標簽中,獲取與所述待聚類網(wǎng)站數(shù)據(jù)相似度值最高的欄目標簽,可以唯一確定待聚類網(wǎng)站數(shù)據(jù)在預置欄目體系中對應(yīng)的欄目標簽,從而提高了待聚類網(wǎng)站數(shù)據(jù)在預置欄目體系中聚類的準確性。
對于本發(fā)明實施例,所述預置欄目體系中包含多個層級的欄目標簽,所述提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽包 括:判斷是否能夠從第一預置層級的欄目標簽中,獲取到與所述欄目內(nèi)容標簽相似度值大于等于第一預置閾值的欄目標簽;若是,則判斷所述大于等于預置閾值的第一預置層級的欄目標簽,是否存在對應(yīng)的第二預置層級的欄目標簽;若存在,則判斷是否能夠從所述第二預置層級的欄目標簽中,獲取到與所述欄目內(nèi)容標簽相似度值大于等于第二預置閾值的欄目標簽。其中,預置欄目體系中的層級具有從屬關(guān)系,如第二層級的欄目標簽從屬于第一層級的欄目標簽,第三層級的欄目標簽從屬于第二層級的欄目標簽。預置欄目體系中的層級可以根據(jù)實際數(shù)據(jù)聚類的需求進行劃分,也可以根據(jù)用戶聚類數(shù)據(jù)的需求進行劃分,本發(fā)明實施例不做具體限定。
例如,預置欄目體系中包括兩個層級的欄目標簽,第一層級中的欄目標簽分別為娛樂新聞和體育新聞,第二層級中的欄目標簽包括:明星新聞、電影資訊、賽事時報、體育人物。其中,第二層級中的明星新聞和電影資訊從屬于第一層級中的娛樂新聞,第二層級中的賽事時報和體育人物從屬于第一層級中的體育新聞。若待聚類網(wǎng)頁數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽為足球新聞,則首先計算足球新聞和第一層級中的娛樂新聞和體育新聞分別對應(yīng)的相似度值,然后獲取相似度值大于等于第一預置閾值的欄目標簽,在本例中獲取到的第一層級欄目標簽為體育新聞,然后繼續(xù)分別計算足球新聞和第二層級中的賽事時報和體育人物的相似度值,最后將與足球新聞相似度最高的賽事時報確定為待聚類數(shù)據(jù)所要聚類的欄目標簽。
S203a、若是,則將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。
在本發(fā)明實施例中,從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽之后,將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中,從而可實現(xiàn)待聚類網(wǎng)站數(shù)據(jù)的聚類。在本發(fā)明實施例中,首先獲取網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后分別計算欄目內(nèi)容標簽和預置欄目體系中各個欄目標簽的相似度值,最后將網(wǎng)站數(shù)據(jù)聚類到相似度值大于等于預置閾值的欄目標簽中,從而實現(xiàn)了網(wǎng)站數(shù)據(jù)的聚類,由于本發(fā)明實施例是通過計算欄目內(nèi)容標簽和預置欄目體系中的欄目標簽的相似度值實現(xiàn)聚類的,且欄目內(nèi)容標簽的數(shù)據(jù)量 遠遠少于網(wǎng)站數(shù)據(jù),因此通過本發(fā)明可以提高數(shù)據(jù)聚類的效率。另外,由于本發(fā)明實施例是根據(jù)欄目內(nèi)容標簽和欄目標簽的相似度值確定待聚類網(wǎng)站數(shù)據(jù)在預置欄目體系中的欄目,預置欄目體系當中的欄目標簽是由后臺人員設(shè)置的,因此欄目標簽可以準確的表示出各個欄目類別分別對應(yīng)的關(guān)鍵詞名稱,從而提高了獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目標簽的準確率。
對于本發(fā)明實施例,若在步驟S202中能夠從預置欄目體系的欄目標簽中,提取到與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽,則從所述大于等于預置閾值的欄目標簽中,獲取到與所述待聚類網(wǎng)站數(shù)據(jù)相似度值最高的欄目標簽。則步驟S203a包括:將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述獲取的欄目標簽中。對于本發(fā)明實施例,從所述大于等于預置閾值的欄目標簽中,獲取與所述待聚類網(wǎng)站數(shù)據(jù)相似度值最高的欄目標簽,可以唯一確定所述待聚類網(wǎng)站數(shù)據(jù)在預置欄目體系中對應(yīng)的欄目標簽,從而提高了待聚類網(wǎng)站數(shù)據(jù)在預置欄目體系中聚類的準確性。
對于本發(fā)明實施例,若所述預置欄目體系中包含多個層級的欄目標簽,則步驟S203a包括:若從所述第二預置層級的欄目標簽中,獲取到與所述欄目內(nèi)容標簽相似度值大于等于第二預置閾值的欄目標簽,則將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述相似度值大于等于第二預置閾值的欄目標簽中。
S203b、若否,則向客戶端發(fā)送數(shù)據(jù)聚類失敗指令。
其中,步驟S203b為步驟S203a的并列步驟,所述指令中攜帶有所述欄目內(nèi)容標簽,進一步地,以使得客戶端根據(jù)所述欄目內(nèi)容標簽更新預置欄目體系中的欄目標簽。在本發(fā)明實施例中,若不能夠從預置欄目體系的欄目標簽中,獲取到與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽,則向客戶端發(fā)送數(shù)據(jù)聚類失敗指令,所述指令中攜帶有所述欄目內(nèi)容標簽,以使得客戶端根據(jù)所述欄目內(nèi)容標簽更新預置欄目體系中的欄目標簽。
本發(fā)明實施例提供的另一種數(shù)據(jù)處理方法,首先獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽;其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù), 最后將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。與目前通過網(wǎng)站數(shù)據(jù)的文本內(nèi)容對網(wǎng)站進行聚類相比,本發(fā)明實施例首先獲取網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后分別計算欄目內(nèi)容標簽和預置欄目體系中各個欄目標簽的相似度值,最后將網(wǎng)站數(shù)據(jù)聚類到相似度值大于等于預置閾值的欄目標簽中,從而實現(xiàn)了數(shù)據(jù)的聚類,由于本發(fā)明實施例是通過計算欄目內(nèi)容標簽和預置欄目體系中的欄目標簽的相似度值實現(xiàn)聚類的,且欄目內(nèi)容標簽的數(shù)據(jù)量遠遠少于網(wǎng)站數(shù)據(jù),因此通過本發(fā)明可以提高數(shù)據(jù)聚類的效率。
進一步地,本發(fā)明實施例提供一種數(shù)據(jù)處理裝置,如圖3所示,所述裝置包括:獲取單元31、判斷單元32、聚類單元33。
獲取單元31,用于獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽。
提取單元32,用于從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽;其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù)。
聚類單元33,用于將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。
需要說明的是,本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置所涉及各功能單元的其他相應(yīng)描述,可以參考圖1所示方法的對應(yīng)描述,在此不再贅述,但應(yīng)當明確,本實施例中的裝置能夠?qū)?yīng)實現(xiàn)前述方法實施例中的全部內(nèi)容。
本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置,首先獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽;其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù),最后將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。與目前通過網(wǎng)站數(shù)據(jù)的文本內(nèi)容對網(wǎng)站進行聚類相比,本發(fā)明實施例首先獲取網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后分別計算欄目內(nèi)容標簽和預置欄目體系中各個欄目標簽的相似度值,最后將網(wǎng)站數(shù)據(jù)聚類到相似度值大于等于預置閾值的欄目標簽中,從而實現(xiàn)了數(shù)據(jù)的聚類,由于本發(fā)明實施例是 通過計算欄目內(nèi)容標簽和預置欄目體系中的欄目標簽的相似度值實現(xiàn)聚類的,且欄目內(nèi)容標簽的數(shù)據(jù)量遠遠少于網(wǎng)站數(shù)據(jù),因此通過本發(fā)明可以提高數(shù)據(jù)聚類的效率。
進一步地,本發(fā)明實施例提供另一種數(shù)據(jù)處理裝置,如圖4所示,所述裝置包括:獲取單元41、提取單元42、聚類單元43。
獲取單元41,用于獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽。
提取單元42,用于從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽;其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù)。
聚類單元43,用于將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。
所述獲取單元41,還用于從所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽中,獲取與所述待聚類網(wǎng)站數(shù)據(jù)相似度值最高的欄目標簽。
所述聚類單元43,具體用于將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述獲取單元41獲取的欄目標簽中。
對于本發(fā)明實施例,所述預置欄目體系中包含多個層級的欄目標簽,所述提取單元42包括:
第一判斷模塊421,用于判斷是否能夠從第一預置層級的欄目標簽中,獲取到與所述欄目內(nèi)容標簽相似度值大于等于第一預置閾值的欄目標簽。
第二判斷模塊422,用于若能夠從第一預置層級的欄目標簽中,獲取到與所述欄目內(nèi)容標簽相似度值大于等于第一預置閾值的欄目標簽,則判斷所述大于等于預置閾值的第一預置層級的欄目標簽,是否存在對應(yīng)的第二預置層級的欄目標簽。
第三判斷模塊423,用于若存在對應(yīng)的第二預置層級的欄目標簽,則判斷是否能夠從所述第二預置層級的欄目標簽中,獲取到與所述欄目內(nèi)容標簽相似度值大于等于第二預置閾值的欄目標簽。
所述聚類單元43,具體用于將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述相似度值大于等于第二預置閾值的欄目標簽中。
進一步地,所述裝置還包括:
發(fā)送單元44,用于當不能從所述預置欄目體系的欄目標簽中,提取到與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽時,則向客戶端發(fā)送數(shù)據(jù)聚類失敗指令,所述指令中攜帶有所述欄目內(nèi)容標簽,以使得客戶端根據(jù)所述欄目內(nèi)容標簽更新預置欄目體系中的欄目標簽。
需要說明的是,本發(fā)明實施例提供的另一種數(shù)據(jù)處理裝置所涉及各功能單元的其他相應(yīng)描述,可以參考圖2所示方法的對應(yīng)描述,在此不再贅述,但應(yīng)當明確,本實施例中的裝置能夠?qū)?yīng)實現(xiàn)前述方法實施例中的全部內(nèi)容。
本發(fā)明實施例提供的另一種數(shù)據(jù)處理裝置,首先獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽;其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù),最后將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。與目前通過網(wǎng)站數(shù)據(jù)的文本內(nèi)容對網(wǎng)站進行聚類相比,本發(fā)明實施例首先獲取網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽,然后分別計算欄目內(nèi)容標簽和預置欄目體系中各個欄目標簽的相似度值,最后將網(wǎng)站數(shù)據(jù)聚類到相似度值大于等于預置閾值的欄目標簽中,從而實現(xiàn)了數(shù)據(jù)的聚類,由于本發(fā)明實施例是通過計算欄目內(nèi)容標簽和預置欄目體系中的欄目標簽的相似度值實現(xiàn)聚類的,且欄目內(nèi)容標簽的數(shù)據(jù)量遠遠少于網(wǎng)站數(shù)據(jù),因此通過本發(fā)明可以提高數(shù)據(jù)聚類的效率。
所述數(shù)據(jù)處理裝置包括處理器和存儲器,上述獲取單元、提取單元、聚類單元和發(fā)送單元等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)來提高數(shù)據(jù)聚類的效率。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個存儲芯片。
本申請還提供了一種計算機程序產(chǎn)品,當在數(shù)據(jù)處理設(shè)備上執(zhí)行時, 適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取待聚類網(wǎng)站數(shù)據(jù)對應(yīng)的欄目內(nèi)容標簽;從預置欄目體系的欄目標簽中,提取與所述欄目內(nèi)容標簽相似度值大于等于預置閾值的欄目標簽;其中,所述預置欄目體系中保存有多個所述欄目標簽,和所述欄目標簽分別對應(yīng)的網(wǎng)站數(shù)據(jù);將所述待聚類網(wǎng)站數(shù)據(jù)聚類到所述大于等于預置閾值的欄目標簽中。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
在一個典型的配置中,計算設(shè)備包括一個或多個處理器(CPU)、輸入/ 輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。存儲器是計算機可讀介質(zhì)的示例。
計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機存取存儲器(SRAM)、動態(tài)隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。
以上僅為本申請的實施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進等,均應(yīng)包含在本申請的權(quán)利要求范圍之內(nèi)。