技術特征:
技術總結
本發(fā)明公開了一種爬蟲數據源的處理方法及裝置,涉及互聯網技術領域,解決了現有技術中無法對爬蟲數據源準確標注標簽的問題。本發(fā)明的方法包括:從行業(yè)信息中獲取特征信息集合,所述特征信息集合通過自然語言處理技術對行業(yè)信息進行統(tǒng)計處理后得到;利用所述特征信息集合表示每個爬蟲數據源;統(tǒng)計每個爬蟲數據源的特征信息集合中的各個特征信息;根據統(tǒng)計結果確定每個爬蟲數據源的標簽。本發(fā)明主要使用自然語言處理技術對數據源標注標簽,使數據源能夠進行更準確的分類。
技術研發(fā)人員:楊杰;袁園
受保護的技術使用者:北京國雙科技有限公司
技術研發(fā)日:2016.01.28
技術公布日:2017.08.04