一、服務器怎么運營?
檢查磁(ci)盤(pan)使(shi)用率,當磁(ci)盤(pan)使(shi)用率超(chao)過80%,可以清除(chu)一(yi)些(xie)日志(zhi)文(wen)件;
檢(jian)(jian)查(cha)內存使用情況,當內存使用過多時,需要檢(jian)(jian)查(cha)是哪個進程占用,是否(fou)合理;
檢查CPU使用情況,負載大小;當(dang)CPU使用過多(duo),負載過大時,需要檢查是哪個進程(cheng)占用,是否合理(li)。
檢(jian)查服務器網(wang)卡接(jie)口的數(shu)據統計和每秒收發包的個數(shu)和流(liu)量。
還需要結合服務(wu)器的業務(wu),當(dang)然,這些可用使用監控(kong)軟件自動(dong)檢查,故障報警等,實時(shi)掌握(wo)服務(wu)器的運行情(qing)況。
二、服務器運營注意事項
1、提前檢查
服(fu)務器和網站漏洞檢(jian)測,對Web漏洞、弱口(kou)令、潛在的惡意(yi)行為、違法信息等進行定期掃描(miao)。
代碼的定期(qi)檢查,安(an)全檢查,漏洞檢查。
服務器(qi)安全加固(gu),安全基(ji)線(xian)(xian)設置,安全基(ji)線(xian)(xian)檢查。
數據庫(ku)執(zhi)行(xing)的命令,添加(jia)字(zi)段、加(jia)索引等(deng),必須是(shi)經過測試檢查的命令,才能在(zai)正式環境運行(xing)。
2、數據備份
服務器數(shu)(shu)據備(bei)(bei)份(fen)(fen),包括網(wang)站程序文件備(bei)(bei)份(fen)(fen),數(shu)(shu)據庫文件備(bei)(bei)份(fen)(fen)、配置文件備(bei)(bei)份(fen)(fen),如有(you)資源(yuan)最(zui)好每(mei)小時備(bei)(bei)份(fen)(fen)和異地備(bei)(bei)份(fen)(fen)。
建立(li)五(wu)重備份機制:常規備份、自動同步、LVM快照、Azure備份、S3備份。
定期檢查備份(fen)文件是否可用,避(bi)免出(chu)故障(zhang)后,備份(fen)數據(ju)不可用。
重(zhong)(zhong)要數據多重(zhong)(zhong)加(jia)密算法加(jia)密處理。
程序文件版(ban)本控制,測試,發(fa)布,故障(zhang)回滾。
3、安全監控
nagios監控服(fu)務器(qi)常規狀態CPU負載、內存、磁(ci)盤、流量,超過閾值告警(jing)。
zabbix或cacti監(jian)控服務器常規狀(zhuang)態CPU負載、內存、磁盤(pan)、流量等狀(zhuang)態,可以顯示歷史曲線(xian),方(fang)便(bian)排查問(wen)題(ti)。
監控服務器SSH登錄記(ji)錄、iptables狀態、進(jin)程狀態,有(you)異(yi)常(chang)記(ji)錄告警。
監控(kong)網站WEB日(ri)(ri)志(zhi)(包括nginx日(ri)(ri)志(zhi)php日(ri)(ri)志(zhi)等(deng)),可以(yi)采用EKL來收集管(guan)理,有異常日(ri)(ri)志(zhi)告(gao)警。
運維人員都要(yao)(yao)接收(shou)告(gao)警(jing)郵件(jian)和短信(xin),至少所負責(ze)的業務告(gao)警(jing)郵件(jian)和短信(xin)必須接收(shou),運維經理(li)接收(shou)重要(yao)(yao)業務告(gao)警(jing)郵件(jian)和短信(xin)。(除非是(shi)專職運維開發)
除服務(wu)器內部(bu)監(jian)(jian)控外(wai),最好使用第三方監(jian)(jian)控,從(cong)外(wai)部(bu)監(jian)(jian)控業務(wu)是(shi)否(fou)正常(監(jian)(jian)控URL、端口等),比(bi)如:監(jian)(jian)控寶。
4、故障避免預防
網(wang)站WEB增加WAF,避免XSS跨站腳(jiao)本、SQL注入、網(wang)頁掛(gua)馬等漏(lou)洞威脅(xie)。
程(cheng)序代(dai)碼(ma)連接數據庫(ku)、memcache、redis等,可以使用域名(ming)(域名(ming)HOSTS指定IP),當出問(wen)題,有備用的(de)服(fu)(fu)務(wu)器,就可以通過修(xiu)改DNS或者HOSTS,恢復(fu)服(fu)(fu)務(wu)。
建(jian)立應急(ji)預案(an)機制,定期演練(lian)事故場景(jing),估算修(xiu)復時間。
部(bu)署(shu)蜜罐系統,防范(fan)企(qi)業和服(fu)務器內(nei)網APT攻擊。
建立雙活集群,包(bao)括業(ye)務(wu)服務(wu)的(de)高可用,避免業(ye)務(wu)服務(wu)單點。
服(fu)務器集群采用(yong)跳(tiao)板(ban)機(ji)或堡壘(lei)機(ji)登錄,避免(mian)服(fu)務器集群每臺服(fu)務器可以遠(yuan)程連(lian)接管理。
操(cao)(cao)作重要(yao)業務升級、遷移、擴容……之前,列一下操(cao)(cao)作步(bu)驟,越(yue)詳細越(yue)好,實際操(cao)(cao)作按步(bu)驟操(cao)(cao)作,操(cao)(cao)作完做好記錄。
5、事中操作
網站WEB增(zeng)加WAF,發現XSS、SQL注入(ru)、網頁掛馬(ma)等攻擊,會自動攔截,并(bing)記錄日志。
檢(jian)查服務器數據備份是(shi)否(fou)可用。
在(zai)處理(li)需求(qiu)和故障時,執行(xing)風險命令(比如rm、restart、reboot等)需再三確認,執行(xing)命令前,檢查所在(zai)服務(wu)器,所在(zai)服務(wu)器路徑,再執行(xing)!
不(bu)(bu)要疲勞駕駛(shi),喝酒(jiu)不(bu)(bu)上機,上機不(bu)(bu)喝酒(jiu),尤其(qi)別動(dong)數(shu)據庫,避免在(zai)不(bu)(bu)清醒的狀態下(xia),在(zai)服(fu)務器上執行了(le)錯誤命令,導致(zhi)數(shu)據丟(diu)失或業(ye)務故(gu)障(zhang)。
在處(chu)理(li)(li)事故(gu)時,一定要考慮處(chu)理(li)(li)措施是否會引發連鎖故(gu)障,重(zhong)要操作三思而行。
6、事后檢查分析
實現網絡安全可視化管理,可以看到每天有那些異常IP和異常URL請求,服務器集群開放端口列表等。能對全網進行(xing)安全策略(lve)集中管理。統一日(ri)志收集和(he)分析。
備(bei)份(fen)及(ji)篡改恢(hui)復功能(neng),程(cheng)序文件(jian)(jian)、圖片、數據文件(jian)(jian)、配置文件(jian)(jian)的備(bei)份(fen),故障回滾機制(zhi)。
對攻擊(ji)日(ri)志進行深(shen)度分析,展現攻擊(ji)路(lu)徑、攻擊(ji)源,協助管理員(yuan)溯源。
踐(jian)行DevOps的無指(zhi)責文化,尤其是在做事故(gu)分(fen)析時。事故(gu)分(fen)析重在定位原因,制定改進措施。