一、分布式系統面臨的挑戰有哪些
分布式系統需要大量(liang)機器協作,面臨諸多(duo)的挑(tiao)戰,其中(zhong)主要的挑(tiao)戰有:
1、異構的機器與網絡
分(fen)布式(shi)系統(tong)中的(de)(de)機器,配置不(bu)(bu)一樣,其上運(yun)(yun)行的(de)(de)服務也可能由(you)不(bu)(bu)同的(de)(de)語言、架構實現,因此處理(li)能力也不(bu)(bu)一樣;節(jie)點間通過網絡(luo)連接(jie),而不(bu)(bu)同網絡(luo)運(yun)(yun)營商提供的(de)(de)網絡(luo)的(de)(de)帶(dai)寬、延(yan)時、丟包率又不(bu)(bu)一樣。怎么保證(zheng)大家齊(qi)頭并進,共同完成目標,這是個不(bu)(bu)小的(de)(de)挑戰。
2、普遍的節點故障
雖然單(dan)個節(jie)點的(de)(de)(de)故(gu)(gu)障概率(lv)(lv)較低(di),但節(jie)點數(shu)目(mu)達到(dao)(dao)一定規模,出故(gu)(gu)障的(de)(de)(de)概率(lv)(lv)就(jiu)(jiu)變高了(le)。分(fen)布(bu)式系統(tong)需要(yao)保證故(gu)(gu)障發(fa)生的(de)(de)(de)時候,系統(tong)仍(reng)然是可用的(de)(de)(de),這(zhe)就(jiu)(jiu)需要(yao)監(jian)控節(jie)點的(de)(de)(de)狀(zhuang)態,在節(jie)點故(gu)(gu)障的(de)(de)(de)情(qing)況下(xia)將該節(jie)點負責(ze)的(de)(de)(de)計算、存(cun)儲(chu)任務轉移到(dao)(dao)其(qi)他節(jie)點。
3、不可靠的網絡
節點(dian)(dian)間(jian)通過網絡(luo)(luo)通信,而(er)網絡(luo)(luo)是(shi)不(bu)可靠的(de)(de)。可能的(de)(de)網絡(luo)(luo)問題(ti)(ti)包(bao)括:網絡(luo)(luo)分割、延時、丟包(bao)、亂序。相比單機過程調用,網絡(luo)(luo)通信最讓人頭疼的(de)(de)是(shi)超時:節點(dian)(dian)A向節點(dian)(dian)B發出請(qing)求,在約定(ding)(ding)的(de)(de)時間(jian)內沒有收到節點(dian)(dian)B的(de)(de)響(xiang)應,那么B是(shi)否(fou)處理了請(qing)求,這(zhe)個(ge)是(shi)不(bu)確定(ding)(ding)的(de)(de),這(zhe)個(ge)不(bu)確定(ding)(ding)會帶來諸多問題(ti)(ti),最簡單的(de)(de),是(shi)否(fou)要重試請(qing)求,節點(dian)(dian)B會不(bu)會多次處理同一個(ge)請(qing)求。
總而言之,分布(bu)式的挑戰來自不(bu)(bu)確定(ding)(ding)性,不(bu)(bu)確定(ding)(ding)計算機什么(me)時候crash、斷(duan)電,不(bu)(bu)確定(ding)(ding)磁盤什么(me)時候損壞,不(bu)(bu)確定(ding)(ding)每次網絡通信(xin)要延遲多(duo)久,也不(bu)(bu)確定(ding)(ding)通信(xin)對端是否處理(li)了發(fa)送(song)的消息。而分布(bu)式的規模放大了這個不(bu)(bu)確定(ding)(ding)性,不(bu)(bu)確定(ding)(ding)性是令人討(tao)厭的,所以有(you)諸多(duo)的分布(bu)式理(li)論、協(xie)議(yi)來保證(zheng)在(zai)這種不(bu)(bu)確定(ding)(ding)性的情況下(xia),系統還能繼(ji)續正常工作。
二、分布式系統帶來的問題及解答
1、如何找到所需的服務?——服務發現組件
問題描(miao)述:線上生產(chan)環境中,尤其(qi)容器(qi)部署情況下(xia)服(fu)務(wu)(wu)實(shi)例地址(服(fu)務(wu)(wu)器(qi)端口(kou))是(shi)動態分配的,服(fu)務(wu)(wu)調用者(zhe)無(wu)法提前獲取服(fu)務(wu)(wu)實(shi)例地址和端口(kou)。
解決方案:在服務(wu)運行時,通過服務(wu)發現組件解析服務(wu)名來獲取(qu)服務(wu)實(shi)例地址和端(duan)口。
2、如何找到實例?——請求分發的策略
問題描述:找(zhao)到服(fu)務(wu)器后,還應該確定將當前請求發往服(fu)務(wu)器的哪一個實例。
解決方案:
(1)如(ru)果同一個服(fu)務的實例都是完全對等(deng)的(無狀態),那么按負載(zai)均(jun)衡策(ce)略(lve)來處理就(jiu)足夠(隨(sui)機、輪詢、權重、hash、一致(zhi)性hash、fair等(deng)各種策(ce)略(lve))。
(2)如果同一個(ge)服(fu)(fu)務的實例不是對等的(有狀態),那(nei)么需要(yao)通過路由服(fu)(fu)務(元數(shu)據服(fu)(fu)務等)先確定當前(qian)要(yao)訪(fang)問的請求數(shu)據在哪一個(ge)實例上,然后再進(jin)行訪(fang)問。
3、如何避免雪崩?
問題(ti)描(miao)述:一個(ge)故障(zhang)由于(yu)正反饋不(bu)斷被擴大,從而導致(zhi)整個(ge)系統故障(zhang)
解決方案:
(1)【快(kuai)速失敗】和【降(jiang)級機制】:熔斷(duan)、降(jiang)級、限流等,通過(guo)快(kuai)速減少(shao)系統負載來避免雪崩的發(fa)生。
(2)【彈性擴容機制】,通過快速增加系統(tong)的服(fu)務能(neng)力來避免雪崩的發生(sheng)。
4、如何對系統進行監控?
問題描述:對于一個分布式系統,如果我們(men)不能很清楚地了解內部的狀態(tai),那么高(gao)可用是沒(mei)有(you)辦法完全保(bao)障的。
解決方案:監控系(xi)統的各層
(1)【硬件層面(mian)】:服(fu)務器溫度(du)、磁盤RAID陣列等。
(2)【系統(tong)層面】:存活(huo)狀態、CPU、RAM、load負(fu)載(zai)。
(3)【應用層(ceng)】:mysql、Nginx、Django、LVS、HAProxy。
(4)【業務層面】:PV、UV、訂單。
5、分布式存儲如何做數據切片?
問題描述(shu):既然要實(shi)現分布(bu)式數據庫,那么應該(gai)如何(he)將數據進行切片?
解決方案(an):Hash、Consistent Hash和Range Based分片策(ce)略。
6、如何設置冗余?如何復制數據?
問題描述:分(fen)布式存(cun)儲的(de)高(gao)可用性需要冗余來保(bao)證,那么如(ru)何做冗余?如(ru)何對數據進(jin)行復制、更新(xin)時保(bao)證兩份數據的(de)一致(zhi)性?
解決方案:
(1)【中心化方案】:主從復制(zhi)、一(yi)致性(xing)協(xie)議(Raft和Paxos)。
(2)【去(qu)中心化的方案】:Quorum、Vector Clock。