云運維是什么
ODS View IT大數據運維平臺,基于大數據技術、智能分析和可視化展示為基礎開發的一套解決海量運維數據分析難題的系統平臺。
通過采取主動的運維分析和實時態勢感知,有效整合網絡、服務器、業務應用、機房基礎環境、日志、資產等方方面面的管理。
一個管理平臺監測整體IT系統,用于解決企業IT運維工作所面臨的全方面需求。
云運維平臺架構圖

云運維平臺的應用場景
云運維采集能力及機房實景


ODS View IT大數據運維平臺,基于大數據技術、智能分析和可視化展示為基礎開發的一套解決海量運維數據分析難題的系統平臺。
通過采取主動的運維分析和實時態勢感知,有效整合網絡、服務器、業務應用、機房基礎環境、日志、資產等方方面面的管理。
一個管理平臺監測整體IT系統,用于解決企業IT運維工作所面臨的全方面需求。
能夠提供對使用中的設備和服務質量進行實時監測,并且提供動態閾值的告警,實時的準確的告警,減少延遲和誤報。
需要有統一的監控平臺,可以把各類業務相應資源視圖抓取出來,便于我們對整體資源有一個合理的預估和分配,并從整體角度評估各個業務部門對資源的使用情況。
把很多不同的監控子系統集成起來,借助于各種工具,采集數據之后自動合成一個報表統一展現出來,方便管理
第一個是生命周期管理,以前在一個部署過程中,通常是開發人員寫一個是需求文檔給運維接口人,他會協調各資源管理員分配資源形成部署方案,最后將這個部署方案通過人工構建變更的方式實施。這里面有兩個問題,一是傳遞過程中可能偏差,二是周期比較長,我們希望借助我們的云運維平臺實現參數級別的電子化傳遞,以及由平臺進行一個自動化的部署,并在部署過程中自動進行各項規范標準的實施。
第二個場景是持續部署管理,傳統部署方式我們會遇到一些問題,包括:應用版本通過版本服務器多次人工傳遞,各應用的配置、維護腳本沒有統一標準;通過表格人工維護各環境的參數差異,不同環境人工修改參數;應用的安裝過程視變更人員經驗,異常告警沒有統一標準,回退方式不統一等。為此,我們做了一個持續發布的標準,而且將這些標準借助這個平臺可以實施,包括:統一版本傳遞路線,版本標準化;構建生產、測試、研發環境配置差異庫,平臺根據所在環境自動生存對應參數;標準化應用部署過程,多節點安裝順序自由編排,按照編排順序進行安裝;標準異常告警;故障時按照編排順序逆向回退。
第三個場景是我們的運行環境管理,包括資源類的CPU、內存、IP、端口、訪問關系等,以及我們運維人員關注的,定時任務、備份策略、自啟動項目等。我們通過云運維平臺對運行環境進行管理,替代原有excel表格,并進行自動化設置。
第四個場景是是常用運維工具集成,包括我們常用的應用重啟、健康檢查、隔離、恢復工具,服務器的一些物理測試和自動裝機后自動接入OpenStack或者其它資源管理平臺的自動對接,網絡設備的健康檢查,還有一些定期的安全檢查,我們把這些工具集成在我們的云運維平臺上。
我們在云運維平臺里面,借助我們之前提到的各種產品管理工具,容量管理和高可用管理,我們放在一個視圖的畫像里面,根據變遷維護歷史以及應用的容量、高可用信息,還可以計算出這個應用他的運維方面的成熟度。