本發(fā)明涉及實時監(jiān)控技術領域,具體涉及KTV及酒吧等娛樂影音行業(yè)中業(yè)務故障的實時監(jiān)控方法和系統(tǒng)。
背景技術:
KTV,影院和酒吧這些線下場所往往會有很多的服務器節(jié)點,拿KTV場所舉例子:會存在視頻服務器,中轉(zhuǎn)服務器,數(shù)據(jù)庫服務器以及各個包房的機頂盒。要在這么多的服務器節(jié)點中定位故障就成了一個特別繁瑣的事情。
現(xiàn)有技術對于該問題主要有兩種解決方案,一是為每個場所配備運維人員,專職管理該場所的服務器,出故障時運維人員通過逐個排查各個服務器節(jié)點的操作日志;這個方案僅適合場所不大節(jié)點不多的環(huán)境,但作為KTV、酒吧這種娛樂影音場所,節(jié)點較多,定位故障節(jié)點困難,運維人員逐步排查故障耗時耗力,會給正在營業(yè)的場所帶來較大損失。
另一種方案是把所有的服務器都放到云端,由云端專業(yè)的運維人員對服務器節(jié)點統(tǒng)一進行管理;這個方案在實際實施的時候會有一定的局限性,并不是所有服務器都適合放在云端,例如KTV的中轉(zhuǎn)服務器和數(shù)據(jù)庫服務器等關鍵服務器,由于KTV場所個性化需求多樣,并不適合將服務器放在云端托管。
技術實現(xiàn)要素:
本發(fā)明解決的技術問題在解決于提供一種實時發(fā)現(xiàn)KTV、酒吧等娛樂影音行業(yè)內(nèi)業(yè)務設備故障的實時監(jiān)控系統(tǒng)和方法,實現(xiàn)了一種既不需要將線下場所的服務器放到云端又能實時對線下場所的故障進行實時監(jiān)控,減少因故障排查等時間帶來的損失,并且減少了KTV、酒吧等行業(yè)的系統(tǒng)運維人員的工作時間。
基于本發(fā)明目的而提供的實時發(fā)現(xiàn)線下場所業(yè)務故障的方法,包括以下步驟:
線下場所業(yè)務節(jié)點設備上安裝agent程序,監(jiān)控線下場所的特定日志文件;
Agent程序?qū)⑽募聰?shù)據(jù)上報至云端;
云端的消息隊列收集agent程序上報的數(shù)據(jù);
內(nèi)存數(shù)據(jù)庫將日志文件推送至ES集群,推送的日志文件會在ES集群被格式化;
ES將格式化后的日志文件推送至云端的監(jiān)控后臺,運維人員可在監(jiān)控后臺對信息進行檢索,從而對線下場所的節(jié)點設備動態(tài)進行實時監(jiān)控。
所述業(yè)務節(jié)點設備包括視頻服務器、數(shù)據(jù)庫服務器、中轉(zhuǎn)服務器、機頂盒設備、吧臺機和ERP設備;
所述特定日志文件是指線下場所包括服務器的所有業(yè)務節(jié)點設備的指定日志文件;
所述文件更新數(shù)據(jù)包括視頻服務器、數(shù)據(jù)庫服務器、中轉(zhuǎn)服務器和機頂盒、吧臺機和ERP設備等線下影音娛樂場所的指定日志文件;
所述指定日志文件是通過修改agent程序上的配置文件來選擇監(jiān)控日志文件的類別;
所述配置文件的格式可由客戶自行選擇約定,約定后的配置文件會個性化定制線下場所需要關注的設備日志;
所述日志文件信息主要包括控制中心地址,用戶賬戶信息,操作員操作日志,數(shù)據(jù)庫數(shù)據(jù),與外部服務交互日志等服務器運行數(shù)據(jù)和操作系統(tǒng)自身產(chǎn)生的日志文件。
云端包括消息隊列,ES集群和監(jiān)控后臺;
所述消息隊列組件為redis內(nèi)存數(shù)據(jù)庫所提供;
所述消息隊列還可以為mysql、rabbitMq等數(shù)據(jù)庫提供;
所述redis內(nèi)存數(shù)據(jù)庫可以快速響應agent的數(shù)據(jù)上報;
所述redis內(nèi)存數(shù)據(jù)庫由于以內(nèi)存為存儲介質(zhì),并發(fā)吞吐量高,操作單一,僅僅是存和取兩個操作,不涉及復雜的運算處理,可防止上報并發(fā)量過大時阻塞日志上報。
所述ES集群是ElasticSearch數(shù)據(jù)庫集群;
所述ES集群提供將收集的線下設備日志進行集中化管理;
所述ES集群是一個Jave開發(fā)的搜索服務器,用于對日志的集中化管理和方便運維人員的檢索;
所述ElasticSearch是一個基于Lucene的搜索服務器,它提供了一個分布式多用戶能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java開發(fā)的,并作為Apache許可條款下的開放源碼發(fā)布,是當前流行的企業(yè)級搜索引擎;
所述ES集群由于其將推送至云端的服務器或其他設備的日志進行格式化處理,服務器格式化處理的結果將日志文件進行轉(zhuǎn)化,轉(zhuǎn)化的結果包括兩類,線下場所通用信息和業(yè)務相關信息。
所述線下場所通用信息包括時間戳、場所標示ID、設備標示和服務標示。
所述格式化后的服務器日志文件由于包括場所和設備標示信息,更便于運維人員的檢索和故障快速定位;
所述格式化后的日志文件推送至監(jiān)控后臺端;
所述推送至監(jiān)控后臺的信息還可根據(jù)需要進行參數(shù)指標的表格化匯總成為參數(shù)報表,該報表數(shù)據(jù)數(shù)據(jù)會進行動態(tài)刷新。
在其中一個實施例,所述云端服務器接收到Agent推送的日志數(shù)據(jù)并由ES集群格式化后,監(jiān)控后臺端可以對數(shù)據(jù)進行檢索,方便實時監(jiān)控線下場所的日志數(shù)據(jù);
所述的日志數(shù)據(jù)不僅可以監(jiān)控線下設備的故障信息,也可以收集線下場所的非故障類日志信息。
在其中一個實施例中,所述ES集群收集的日志數(shù)據(jù)信息包括線下場所的非故障類日志信息為線下場所的業(yè)務數(shù)據(jù)信息;
所述業(yè)務數(shù)據(jù)信息包括日常流水和包房預訂等信息日志,該部分信息可以實時記錄線下場所的營業(yè)信息和顧客分類信息;
所述非故障類信息可以作為線下場所的業(yè)務數(shù)據(jù)分析類來源。
所述監(jiān)控后臺的參數(shù)報表可加入短信和郵件告警通知功能,真正達到動態(tài)實時監(jiān)控線下設備故障的目的。
在其中一個實施例中,所述后臺端接受所述故障信息步驟之前,還包括以下步驟:
所述監(jiān)控后臺端增加告警模塊,在告警模塊中設置并開啟故障提醒功能;
所述監(jiān)控后臺端接受到所述故障信息之后,還包括以下步驟:
進行故障提醒。
在其中一個實施例中,所述判斷是否為故障信息,包括以下步驟:
監(jiān)測到的設備運行數(shù)據(jù),判斷是否超出設定閾值,若是則為故障信息,若否則非故障信息。
在其中一個實施例中,所述的線下場所的機頂盒設備故障判斷步驟,包括如下步驟:
監(jiān)測到的機頂盒設備從視頻服務器拉取資源數(shù)據(jù)的時間日志在agent的配置文件中進行選定;
機頂盒的agent程序?qū)⒗r間作為一條日志進行上報;
在ES集群中對上報日志進行格式化處理,格式化的數(shù)據(jù)形成數(shù)據(jù)報表格式;
運維人員在云端對拉取時間的設定故障閾值,5分鐘內(nèi)出現(xiàn)3次從某一視頻服務器拉取的時間超過5秒,即認定為故障信息。
為實現(xiàn)本發(fā)明的目的還提供了一種線下場所的實時故障監(jiān)控系統(tǒng),包括監(jiān)控端,云端服務器和監(jiān)控后臺端。
所述監(jiān)控端,用于實時監(jiān)控線下設備日志信息,并上報至云端服務器;
所述監(jiān)控端由agent程序和通訊模塊組成。
所述云端服務器由消息隊列模塊和ES集群模塊組成;
所述消息隊列用于收集線下數(shù)據(jù)并推送至ES集群,ES集群對線下數(shù)據(jù)進行格式化處理并集中管理數(shù)據(jù),便于檢索。
所述監(jiān)控后臺端用于接收數(shù)據(jù)和分析數(shù)據(jù),并做出故障報警;
所述監(jiān)控后臺端包括數(shù)據(jù)接收模塊、數(shù)據(jù)分析模塊;
所述數(shù)據(jù)接收模塊用于接收ES集群格式化后的日志信息;
所述數(shù)據(jù)分析模塊用于將接收數(shù)據(jù)并形成數(shù)據(jù)報表格式,方便運維人員分析故障;
所述數(shù)據(jù)分析模塊可以設立故障閾值用于自動故障告警。
在一個實施例中,所述的故障報警可以設定發(fā)送短信或郵件進行故障報警;
在監(jiān)控后臺端增加告警模塊,進行告警設置;
所述監(jiān)控后臺端可以是手機、平板或電腦。
所述云端監(jiān)測可同時并聯(lián)多個線下場所,減少運維成本;
所述同時并聯(lián)的多個線下場所,在云端由其場所標示ID的唯一編碼進行分類處理。
本發(fā)明的有益效果:本發(fā)明線下場所的設備故障云端報警方法和系統(tǒng),能夠方便的通過將服務器及其他業(yè)務設備日志推送至云端的方式,對線下設備進行監(jiān)測,對線下設備的故障快速定位,避免因線下設備故障而導致的經(jīng)濟損失,同時云端可以同時監(jiān)測多個線下場所,減少了運維成本。
附圖說明
此處的附圖被并入說明書中并構成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1是一示例性實施例示出的一種實時發(fā)現(xiàn)線下設備故障的流程圖;
圖2是一示例性實施例示出的一種實時發(fā)現(xiàn)線下設備故障裝置的框圖;
圖3是一示例性實施例示出的另一種實時發(fā)現(xiàn)線下設備故障裝置的框圖。
通過上述附圖,已示出本公開明確的實施例,后文中將有更詳細的描述,這些附圖并不是為了通過任何方式限制本公開構思的范圍,而是通過參考特定實施例為本領域技術人員說明本公開的概念。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附權利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)一示例性實施例示出的一種實時發(fā)現(xiàn)線下設備故障的流程圖,該方法應用于設備中。如圖1所示,所述方法可以包括以下步驟:
S100,線下場所業(yè)務節(jié)點設備上安裝agent程序,監(jiān)控線下場所的特定日志文件;
所述Agent程序安裝在線下場所的視頻服務器、數(shù)據(jù)庫服務器、中轉(zhuǎn)服務器、機頂盒設備、吧臺機和ERP設備;
所述Agent程序的配置文件設置為收集某一特定日志信息,并指定具體的日志路徑;
所述某一特定日志信息為用戶指定故障信息日志;
較佳的,作為一種實施例,所述用戶指定收集日志為“在線預訂包房業(yè)務”日志信息;
所述的日志路徑為用戶指定,一般放在D盤的Log目錄下;
所述收集“在線預訂包房業(yè)務”數(shù)據(jù),配置文件指定收集日志數(shù)據(jù)包括當前包房信息的時間,用戶鎖房的時間,用戶下單的操作時間三個指標的日志數(shù)據(jù)文件。
S200,云端的消息隊列收集agent程序上報的數(shù)據(jù)。
S300,內(nèi)存數(shù)據(jù)庫將當前包房信息的時間,用戶鎖房的時間,用戶下單的操作時間三個日志文件推送至ES集群,推送的日志文件會在ES集群被格式化。
S400,ES集群將推送至云端“在線預訂包房業(yè)務”的日志進行格式化處理,服務器格式化處理的結果將日志文件進行轉(zhuǎn)化,轉(zhuǎn)化的結果將顯示用戶ID,包房信息時間,用戶下單時間信息。
所述的日志信息包括用戶ID、設備ID和時間信息;
所述用戶ID為一個4位數(shù)的數(shù)字編碼,為線下場所的唯一身份編碼,用于云端識別用戶信息;
結合上述信息,提出一個線下場所的編碼為1003,此編碼對應一個唯一的線下場所;
所述設備信息為設備中文拼音首字母+四位數(shù)的數(shù)字編碼、數(shù)字編碼是特定設備的唯一編碼,用于云端識別1003號線下場所的某一特定設備信息;
結合上述信息,提出1003號線下場所的機頂盒日志信息,包括當前包房信息的時間,用戶鎖房的時間,用戶下單的操作時間三個時間單位,其中用戶鎖房的時間是指用戶在線預訂房間后房間被該用戶鎖定的時間;
所述時間日志文件精確到秒,格式為:年-月-日-小時-分-秒;
所述時間格式用戶可自定義;
結合上述信息,進行故障閾值的設定,當用戶鎖房時間和用戶下單操作時間的差值大于等于60秒,即認定為故障信息。
S500故障信息在監(jiān)控后臺端進行提示,運維人員可以通過用戶ID和設備ID迅速定位故障所在線下場所的位置,進行快速故障排除處理。
較佳的,作為一種實施例,所述監(jiān)控后臺端可以對線下場所的數(shù)據(jù)進行實時檢索,以便實時掌握線下場所設備運行情況。
較佳地,作為一種實施例,可以在監(jiān)控后臺端增加告警模塊,所述故障告警包括以下步驟:
在監(jiān)控后臺端設置并開啟故障提醒功能;
告警模塊根據(jù)設置進行短信或郵件提醒。
較佳的,作為一種實施例,所述線下娛樂場所的主要故障包括:
數(shù)據(jù)格式錯誤、系統(tǒng)資源不足、宕機故障、接口訪問頻率過高;
以及是否存在通訊故障,是否存在設備響應時間過長,是否存在視頻數(shù)據(jù)無法拉取等其中一種或者一種以上的故障信息組合。
具體的,作為一種實施例,所述數(shù)據(jù)格式錯誤的故障判斷步驟如下:
監(jiān)測到的會員編號信息推送至云端服務器,云端的ES集群將會員日志格式化后與原有格式不匹配;
所述不匹配來源為會員編號為32位,日志信息中會員編號為64位,則判斷為故障類信息,監(jiān)控后臺端對該數(shù)據(jù)格式故障告警。
具體的,作為一種實施例,所述系統(tǒng)資源不足的故障判斷步驟如下:
系統(tǒng)資源不足類故障包括線下各個設備的cpu,內(nèi)存,磁盤存儲類數(shù)據(jù);
所述cpu資源不足,服務器和機頂盒等設備的cpu占用率日志數(shù)據(jù)超出70%,則判斷為故障類信息,監(jiān)控后臺端對cpu系統(tǒng)資源不足故障告警;
所述內(nèi)存資源不足,服務器和機頂盒等設備的內(nèi)存占用率日志數(shù)據(jù)超出70%,則判斷為故障類信息,監(jiān)控后臺端對內(nèi)存系統(tǒng)資源不足故障告警;
所述磁盤存儲資源不足,服務器設備的磁盤空間占用率數(shù)據(jù)超出80%,則判斷為故障類信息,監(jiān)控后臺端對磁盤存儲資源不足故障告警。
具體的,作為一種實施例,所述宕機故障的判斷步驟如下:
所述宕機故障,服務器和機頂盒等設備在重啟后發(fā)出的系統(tǒng)異常退出的日志文件,則判斷為故障類信息,監(jiān)控后臺端對宕機故障告警;
更進一步的宕機故障判斷,服務器和機頂盒等設備在24小時及以上內(nèi)未收到系統(tǒng)資源日志文件,則判斷為故障類信息,監(jiān)控后臺端對宕機故障告警。
具體的,作為一種實施例,所述接口訪問頻率過高故障判斷步驟如下:
所述接口訪問頻率過高故障,服務器端口在1分鐘內(nèi)收到5次及以上訪問日志,則判斷為故障類信息,監(jiān)控后臺端對接口訪問頻率過高進行故障告警。
本發(fā)明的實時發(fā)現(xiàn)線下場所業(yè)務故障的方法,可方便用戶實時監(jiān)控業(yè)務設備的運行情況,無需值守在線下場所,即可及時獲悉線下設備的故障報警。也可根據(jù)告警信息及時對設備進行維護檢修,及時調(diào)整線下設備的運行模式;同時避免由于線下設備故障而導致的不能正常營業(yè)造成的損失。
同時本發(fā)明的實時監(jiān)控線下設備的方法,還可以收集多個線下營業(yè)場所的業(yè)務數(shù)據(jù),方便管理人員及時調(diào)整業(yè)務方案,提高營業(yè)收入。
本發(fā)明一種實時發(fā)現(xiàn)線下場所業(yè)務故障的方法,包括監(jiān)控端1,云端服務器2和監(jiān)控后臺端3;監(jiān)控端包括agent模塊4和通訊模塊5;云端服務器包括消息隊列模塊6和ES集群模塊7;監(jiān)控后臺端包括數(shù)據(jù)接收模塊8和數(shù)據(jù)分析模塊9。如圖2所示。
所述監(jiān)控端,用于實時監(jiān)控并發(fā)送線下設備日志數(shù)據(jù)至所述云端服務器;
所述云端服務器,用于接收線下日志數(shù)據(jù),格式化日志數(shù)據(jù),并將格式化日志數(shù)據(jù)發(fā)送至監(jiān)控后臺端;
所述監(jiān)控后臺端,用于接收格式化后的日志數(shù)據(jù)并對日志數(shù)據(jù)進行故障分析,形成數(shù)據(jù)動態(tài)表,若判斷為故障信息;則對故障信息在分析數(shù)據(jù)動態(tài)表進行顯示;
較佳地,作為一種實施例,所述監(jiān)控后臺端還包括告警模塊10,如圖3所;
所述數(shù)據(jù)分析模塊將故障信息發(fā)送至所述告警模塊,告警模塊根據(jù)用戶設定告警模式,對用戶發(fā)送告警信息;
所述用戶設定的告警模式可以為短信或郵件。
較佳的,作為一種實施例,所述監(jiān)控端包括agent模塊和通訊模塊,通訊模塊依賴TCP/IP協(xié)議棧進行傳輸,我們這里可以采用基于TCP/IP協(xié)議棧中位于應用層的http協(xié)議或者ftp協(xié)議推送日志。
本發(fā)明所述的線下場所的實時故障報警系統(tǒng)的工作流程,如圖1所示。
較佳地,作為一種實施例,所述監(jiān)控后臺端包括一個用戶端,用戶端可以為手機或平板電腦;
用戶的智能手機或平板電腦可以安裝監(jiān)控線下設備的App軟件,當手機或平板電腦連接了3G/4G/Wi-Fi等無線網(wǎng)絡后,該軟件便可通過互聯(lián)網(wǎng)連接云端的監(jiān)控后臺端,獲取用戶設定的推送信息;
所述推送信息可以是故障告警信息和業(yè)務數(shù)據(jù)信息。
較佳地,作為一種實施例,所述監(jiān)控后臺端與所述用戶端之間通過3G網(wǎng)絡、4G網(wǎng)絡、Wi-Fi網(wǎng)絡進行互聯(lián)網(wǎng)絡通信連接。
較佳地,作為一種實施例,所述告警模塊對用戶端發(fā)送故障報警信息;
所述故障報警信息包括故障定位信息、故障描述、客服聯(lián)系方式等,以及提示是否需要授權人員進行操作。
云端服務器對收到的日志數(shù)據(jù)進行格式化處理,將日志數(shù)據(jù)中包含的設備狀態(tài)數(shù)據(jù)推送到監(jiān)控后臺端進行數(shù)據(jù)分析及故障報警處理;同時,云端服務器對應的將推送數(shù)據(jù)與用戶ID信息對應存儲起來,運維人員可在云端進行日志檢索處理,對線下場所的設備情況和業(yè)務數(shù)據(jù)進行實時監(jiān)控。
云端的監(jiān)控后臺端打開數(shù)據(jù)提醒服務,向用戶端發(fā)送報警數(shù)據(jù)信息;
較佳地,作為一種實施例,用戶端的報警信息的獲取和提醒的具體實施方式如下:
1. 用戶在手機或平板電腦上安裝App軟件;
2. 用戶運行并登陸App軟件;
3. 用戶第一次運行App軟件時,在云端的監(jiān)控后臺端設置與用戶端的APP賬號綁定;
4. 根據(jù)上述第二點,當線下場所設備發(fā)生故障是,云端的監(jiān)控后臺端將故障信息通知給App軟件。
5. App軟件獲取到云端發(fā)送的故障信息時,則在以下位置顯示報警信息:
(1)系統(tǒng)通知欄顯示有報警信息;
(2)App軟件導航欄,顯示故障報警數(shù)量;
(3)App軟件的線下場所ID選項卡上顯示故障報警紅色圖標;
(4)App軟件的線下場所ID的選項卡下級列表中顯示報警設備ID;
(5)App軟件報警設備ID下級列表中顯示故障類別信息;
(6)點擊上述第5點的故障類別信息后,跳轉(zhuǎn)至故障信息頁面,顯示詳細故障內(nèi)容。
較佳地,作為一種實施例,故障的排除的具體實施方式如下:
1.運維人員通過用戶端的App軟件上點擊故障名稱后顯示出簡要的排除故障的方法;
2.如果故障的排除需要廠家工程師操作,則在App上顯示客服的聯(lián)系方式。
本發(fā)明的有益效果:本發(fā)明線下場所的設備故障云端報警方法和系統(tǒng),能夠方便的通過將服務器及其他業(yè)務設備日志推送至云端的方式,對線下設備進行監(jiān)測,對線下設備的故障快速定位,避免因線下設備故障而導致的經(jīng)濟損失,同時云端可以同時監(jiān)測多個線下場所,減少了運維成本。
本領域技術人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實施方案。本申請旨在涵蓋本發(fā)明的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本發(fā)明的一般性原理并包括本公開未公開的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的,本發(fā)明的真正范圍和精神由權利要求指出。
應當理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結構,并且可以在不脫離其范圍進行各種修改和改變。本發(fā)明的范圍僅由所附的權利要求來限制。