一、服務器怎么運營?
檢查磁盤(pan)使(shi)用(yong)(yong)率,當磁盤(pan)使(shi)用(yong)(yong)率超(chao)過(guo)80%,可(ke)以清除一些日志文(wen)件;
檢查內存使用情況,當內存使用過多(duo)時(shi),需(xu)要檢查是哪(na)個進程占(zhan)用,是否合(he)理;
檢查(cha)CPU使用(yong)情況,負(fu)載大小;當CPU使用(yong)過多,負(fu)載過大時,需要(yao)檢查(cha)是哪個進程占(zhan)用(yong),是否合理。
檢(jian)查服(fu)務器網卡接(jie)口的數據(ju)統計和(he)每秒收(shou)發包的個數和(he)流(liu)量(liang)。
還需要(yao)結合服(fu)務器的(de)業(ye)務,當然(ran),這(zhe)些(xie)可(ke)用使用監控(kong)軟件自動(dong)檢查,故障報警等,實時掌(zhang)握服(fu)務器的(de)運行情況(kuang)。
二、服務器運營注意事項
1、提前檢查
服務器(qi)和網站漏(lou)洞(dong)檢測,對(dui)Web漏(lou)洞(dong)、弱口令、潛在的(de)惡(e)意行為、違法信息(xi)等(deng)進行定期掃描。
代碼的定期檢(jian)查,安全檢(jian)查,漏洞檢(jian)查。
服務器安全加固,安全基線設置(zhi),安全基線檢查。
數據庫執行(xing)的(de)命(ming)令,添加字段、加索引等(deng),必須(xu)是經過測試檢查的(de)命(ming)令,才能(neng)在(zai)正式環境運行(xing)。
2、數據備份
服務器(qi)數據備(bei)(bei)份(fen),包括網站程序文(wen)件備(bei)(bei)份(fen),數據庫文(wen)件備(bei)(bei)份(fen)、配置文(wen)件備(bei)(bei)份(fen),如(ru)有(you)資源最好每小(xiao)時備(bei)(bei)份(fen)和異(yi)地備(bei)(bei)份(fen)。
建立五重備份(fen)機制:常規備份(fen)、自動同步(bu)、LVM快照(zhao)、Azure備份(fen)、S3備份(fen)。
定期檢查備(bei)份文件是否(fou)可用,避免出(chu)故障后,備(bei)份數據(ju)不可用。
重要數據(ju)多重加密(mi)算法加密(mi)處理。
程序(xu)文件版本控(kong)制,測試(shi),發布(bu),故障回(hui)滾。
3、安全監控
nagios監控服務器常規狀態CPU負(fu)載(zai)、內存、磁盤、流量,超過閾(yu)值(zhi)告警。
zabbix或cacti監控服務器(qi)常規狀(zhuang)態CPU負載(zai)、內存、磁盤(pan)、流量等狀(zhuang)態,可以顯示歷(li)史曲線,方便排查問題。
監(jian)控服(fu)務器SSH登(deng)錄(lu)(lu)記(ji)錄(lu)(lu)、iptables狀態、進程狀態,有(you)異常記(ji)錄(lu)(lu)告警。
監控網站WEB日志(包(bao)括nginx日志php日志等),可以采(cai)用EKL來收(shou)集管理,有異常日志告警。
運維人員都要接收(shou)告(gao)(gao)警郵(you)件和短信,至少(shao)所負(fu)責的業務(wu)告(gao)(gao)警郵(you)件和短信必須接收(shou),運維經理接收(shou)重要業務(wu)告(gao)(gao)警郵(you)件和短信。(除(chu)非(fei)是專職運維開發)
除服務器(qi)內部(bu)監(jian)控(kong)(kong)外,最(zui)好(hao)使用第(di)三方(fang)監(jian)控(kong)(kong),從外部(bu)監(jian)控(kong)(kong)業(ye)務是否正常(監(jian)控(kong)(kong)URL、端口等),比如:監(jian)控(kong)(kong)寶。
4、故障避免預防
網(wang)站(zhan)WEB增(zeng)加WAF,避免XSS跨站(zhan)腳本(ben)、SQL注入、網(wang)頁(ye)掛馬等漏洞威脅(xie)。
程序代碼連接數據庫、memcache、redis等,可以(yi)(yi)使用(yong)域(yu)名(ming)(域(yu)名(ming)HOSTS指定IP),當出問題,有備(bei)用(yong)的服務(wu)器,就可以(yi)(yi)通過修改DNS或者HOSTS,恢復服務(wu)。
建(jian)立應(ying)急預案機(ji)制,定期(qi)演練事故場景,估算(suan)修復時間。
部署蜜罐系(xi)統,防范企業和(he)服務器內(nei)網APT攻(gong)擊。
建立雙活集群(qun),包括業務(wu)服(fu)務(wu)的高可用(yong),避免業務(wu)服(fu)務(wu)單點。
服(fu)(fu)務器集群(qun)采用跳板(ban)機或堡壘機登錄(lu),避免服(fu)(fu)務器集群(qun)每臺服(fu)(fu)務器可以遠程連(lian)接管理。
操(cao)作(zuo)(zuo)重要業務升級、遷移、擴容……之(zhi)前,列一下操(cao)作(zuo)(zuo)步驟(zou),越(yue)詳細越(yue)好,實際操(cao)作(zuo)(zuo)按步驟(zou)操(cao)作(zuo)(zuo),操(cao)作(zuo)(zuo)完做好記錄。
5、事中操作
網站WEB增加WAF,發現XSS、SQL注入、網頁掛馬等攻擊,會自動攔截,并記(ji)錄日志。
檢查服務(wu)器數據(ju)備份是否可用(yong)。
在處理(li)需求和故(gu)障時,執行(xing)風險命(ming)令(比如rm、restart、reboot等)需再(zai)三確認,執行(xing)命(ming)令前,檢查所(suo)在服(fu)(fu)務器(qi),所(suo)在服(fu)(fu)務器(qi)路徑,再(zai)執行(xing)!
不要疲勞(lao)駕(jia)駛(shi),喝酒不上機,上機不喝酒,尤其(qi)別動數(shu)據庫,避免在不清醒的(de)狀態(tai)下,在服務器上執行了錯誤(wu)命令(ling),導致數(shu)據丟失或(huo)業務故障。
在(zai)處(chu)(chu)理事(shi)故(gu)時(shi),一(yi)定要考慮處(chu)(chu)理措施(shi)是否會引(yin)發連鎖(suo)故(gu)障,重(zhong)要操作(zuo)三思而行(xing)。
6、事后檢查分析
實現網絡安全可視化管理,可以看到每天有那些異常IP和異常URL請求,服務器集群開放端口列表等。能對全(quan)網進行安(an)全(quan)策略(lve)集中管理。統一(yi)日志收集和(he)分(fen)析(xi)。
備(bei)份(fen)及篡改恢復功能,程序文件、圖片、數據文件、配置文件的備(bei)份(fen),故障(zhang)回滾機制。
對攻擊日志進行深度分析,展現攻擊路徑、攻擊源(yuan),協助管理員溯源(yuan)。
踐行DevOps的無(wu)指責(ze)文化,尤其是在做事(shi)故(gu)(gu)分析時。事(shi)故(gu)(gu)分析重在定位(wei)原因(yin),制定改(gai)進措(cuo)施。