互聯(lián)網(wǎng)信息存儲系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)采集與分析,特別涉及一種互聯(lián)網(wǎng)信息存儲系統(tǒng)。
【背景技術(shù)】
[0002] 與原有傳統(tǒng)互聯(lián)網(wǎng)形態(tài)相比,當(dāng)今的互聯(lián)網(wǎng)形態(tài)已經(jīng)發(fā)生了巨變,隨身移動設(shè)備 的不斷推新,人們已經(jīng)脫離了老式臺式機的傳統(tǒng)有線上網(wǎng)模式,移動設(shè)備的功能層出不窮, 拍照、拍攝視頻已經(jīng)是最基本的功能。人們可以通過移動設(shè)備拍攝周圍發(fā)生的事情,并且可 以直接上傳到互聯(lián)網(wǎng)中,其信息的傳播速度迅速之極,如果沒有合理進行監(jiān)測,可能會出現(xiàn) 非法信息,錯誤引導(dǎo)公眾的判斷,導(dǎo)致輿論走向錯誤的方向。在輿情檢測中,數(shù)據(jù)采集功能 尤為重要,所有數(shù)據(jù)在采集后,因為數(shù)據(jù)量極大,需要借助技術(shù)手段,在有限的時間內(nèi),分析 出有用的數(shù)據(jù)。然而現(xiàn)有的信息監(jiān)測系統(tǒng)僅應(yīng)用單一的采集方式,只能滿足某種特定的信 息分析,不能滿足現(xiàn)在互聯(lián)網(wǎng)中多元化信息分析的需求。
【發(fā)明內(nèi)容】
[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種互聯(lián)網(wǎng)信息存儲系統(tǒng),包 括:
[0004] 數(shù)據(jù)存儲層,用于提供數(shù)據(jù)庫管理,對所采集的數(shù)據(jù)進行存儲規(guī)劃;通過分布式計 算實現(xiàn)各個子系統(tǒng)內(nèi)部和子系統(tǒng)之間的不同節(jié)點上的對象調(diào)用;對各個子系統(tǒng)進行參數(shù)配 置,監(jiān)控系統(tǒng)各個組成部分的運行情況,管理用戶及其權(quán)限;
[0005] 數(shù)據(jù)處理層,用于進行數(shù)據(jù)采集,對網(wǎng)絡(luò)內(nèi)容進行增量式抓?。粚崿F(xiàn)數(shù)據(jù)迀移、備 份和清洗;對監(jiān)測對象的基本信息和進一步分析出的信息進行管理;
[0006] 監(jiān)測分析層,用于對采集到的數(shù)據(jù)進行分析,抽取特征,建立數(shù)據(jù)索引,對采集到 的網(wǎng)絡(luò)內(nèi)容進行統(tǒng)計歸類;
[0007] 用戶接口層,提供管理功能的操作界面,顯示信息采集、信息統(tǒng)計、信息識別和分 析的結(jié)果,進行系統(tǒng)維護操作。
[0008] 優(yōu)選地,所述監(jiān)測分析層進一步包括:
[0009] 視頻采集模塊,用于通過關(guān)鍵詞,對視頻網(wǎng)絡(luò)內(nèi)容進行內(nèi)容采集,返回包含指定關(guān) 鍵詞的視頻文件,以及相應(yīng)文件內(nèi)的時間信息;通過關(guān)鍵幀對視頻網(wǎng)絡(luò)內(nèi)容進行內(nèi)容采集, 返回包含指定關(guān)鍵幀的視頻文件,以及相應(yīng)文件內(nèi)的時間信息;通過特定視頻片段,在本地 視頻數(shù)據(jù)庫中采集包含相同的視頻片段的視頻網(wǎng)絡(luò)內(nèi)容,通過WEB界面顯示采集到的結(jié)果 視頻的摘要及關(guān)鍵幀全景圖;
[0010] 音頻采集模塊,用于對互聯(lián)網(wǎng)語音和音頻文件建立內(nèi)容索引,進行特定內(nèi)容音頻 采集,通過對特定內(nèi)容音頻信息的采集,實現(xiàn)對網(wǎng)絡(luò)音頻信息的監(jiān)測,所述特定內(nèi)容音頻信 息包括特定關(guān)鍵詞、特定說話人,或者特定音頻片段;
[0011] 文本采集模塊,包括話題采集單元,話題趨向分析單元,關(guān)鍵詞過濾匹配單元,其 中:
[0012] 所述話題采集單元用于對指定的網(wǎng)站進行流量訪問量統(tǒng)計、采集排名位置,從第 三方所公布的網(wǎng)絡(luò)內(nèi)容獲取相關(guān)數(shù)據(jù);
[0013] 所述話題趨向分析單元用于對網(wǎng)絡(luò)內(nèi)容中關(guān)鍵詞的所有情感詞匯趨向性的統(tǒng)計 加權(quán),通過對比和分析用戶話題的趨向性矢量來完成話題的趨向性分析。
[0014] 所述關(guān)鍵詞過濾匹配單元用于通過關(guān)鍵字匹配,檢測網(wǎng)絡(luò)內(nèi)容中是否包含非法內(nèi) 容并進行過濾;通過組合條件對關(guān)鍵字進行配置,并根據(jù)關(guān)鍵字時效性配置有效周期。
[0015] 本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點:
[0016] 本發(fā)明提出了一種互聯(lián)網(wǎng)信息存儲系統(tǒng),對互聯(lián)網(wǎng)輿情進行多維監(jiān)測,有效采集 和分析出敏感信息,提高了查準率和查全率。
【附圖說明】
[0017] 圖1是根據(jù)本發(fā)明實施例的互聯(lián)網(wǎng)信息存儲系統(tǒng)的模塊圖。
【具體實施方式】
[0018] 下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細描 述。結(jié)合這樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán) 利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節(jié) 以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細節(jié),并且無這些具體細節(jié)中 的一些或者所有細節(jié)也可以根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
[0019] 本發(fā)明的一方面提供了一種互聯(lián)網(wǎng)信息存儲系統(tǒng)。圖1是根據(jù)本發(fā)明實施例的互 聯(lián)網(wǎng)信息存儲系統(tǒng)模塊圖。
[0020] 本發(fā)明把多種信息采集的方式綜合在一起,將其在信息監(jiān)測中實現(xiàn)??紤]到對內(nèi) 容方面的監(jiān)測,本發(fā)明還需要對內(nèi)容中的敏感信息進行審核,互聯(lián)網(wǎng)中的大型網(wǎng)站提供很 多熱點詞匯的推薦,這些數(shù)據(jù)很有可能就是本發(fā)明關(guān)心的關(guān)鍵詞匯,即關(guān)鍵字,這些數(shù)據(jù)本 發(fā)明也需要及時的采集下來。其次在監(jiān)測工作中,信息監(jiān)測中選擇的對象是互聯(lián)網(wǎng)中門戶 網(wǎng)站,針對某一個地區(qū)的信息進行實時推送。系統(tǒng)按照本發(fā)明配置的規(guī)則,定期抓取關(guān)注的 信息,通過各種分析手段,提示用戶注意匹配上的數(shù)據(jù)信息進行審核。
[0021] 在信息監(jiān)測系統(tǒng)中,系統(tǒng)分為四個層次,自底向上依次為數(shù)據(jù)存儲層、數(shù)據(jù)處理 層、監(jiān)測分析層、用戶接口層。
[0022] 數(shù)據(jù)存儲層提供數(shù)據(jù)庫管理功能,需要對采集的數(shù)據(jù)有合理的存儲規(guī)劃;分布式 計算能力,實現(xiàn)各個子系統(tǒng)內(nèi)部和子系統(tǒng)之間的不同節(jié)點上的對象調(diào)用;系統(tǒng)維護,可以對 各個子系統(tǒng)進行參數(shù)配置,監(jiān)控系統(tǒng)各個組成部分的運行情況,管理用戶及其權(quán)限等。
[0023] 數(shù)據(jù)處理層提供數(shù)據(jù)采集能力,可以對重點網(wǎng)站的網(wǎng)絡(luò)內(nèi)容及音視頻內(nèi)容進行增 量式抓??;數(shù)據(jù)存儲,可以管理外部存儲系統(tǒng),能夠?qū)崿F(xiàn)數(shù)據(jù)迀移、備份和清洗的功能;數(shù) 據(jù)管理功能,可以對網(wǎng)站、網(wǎng)絡(luò)內(nèi)容、視音頻網(wǎng)絡(luò)內(nèi)容等監(jiān)測對象的基本信息和進一步分析 出的信息進行管理,如查詢、修改、刪除、添加。并支持手動導(dǎo)入音視頻網(wǎng)絡(luò)內(nèi)容。
[0024] 監(jiān)測分析層進行內(nèi)容分析,對采集到的文本、音頻、視頻數(shù)據(jù)進行分析,抽取特征, 建立數(shù)據(jù)索引,識別非法信息和跟蹤熱點、敏感詞等;信息采集,是基于關(guān)鍵詞、樣例圖片、 樣例音頻、樣例視頻,來進行內(nèi)容采集;信息統(tǒng)計,根據(jù)監(jiān)測業(yè)務(wù)的需要,對采集到的視音頻 網(wǎng)站、網(wǎng)絡(luò)內(nèi)容、和非法信息進行統(tǒng)計歸類。
[0025] 用戶接口層提供各個管理功能友好的操作界面,顯示信息采集、信息統(tǒng)計、非法信 息識別和分析的結(jié)果,進行系統(tǒng)維護等多項操作;
[0026] 系統(tǒng)接口為相關(guān)系統(tǒng)提供統(tǒng)一的服務(wù),便于整合監(jiān)測業(yè)務(wù)的其他系統(tǒng),提高各業(yè) 務(wù)系統(tǒng)的集成性