雷火电竞官网,雷火竞技官网电子,雷火电竞lh登录入口

自 2008 年雙 11 以來，在每年雙 11 超大規(guī)模流量的沖擊上，螞蟻金服都會(huì)不斷突破現(xiàn)有技術(shù)的極限。2010 年雙 11 的支付峰值為 2 萬筆/分鐘，到 2017 年雙 11 時(shí)這個(gè)數(shù)字變?yōu)榱?25.6 萬筆/秒。

2018 年雙 11 的支付峰值為 48 萬筆/秒，2019 年雙 11 支付峰值為 54.4 萬筆/秒，創(chuàng)下新紀(jì)錄，是 2009 年第一次雙 11 的 1360 倍。

在如此之大的支付 TPS 背后除了削峰等錦上添花的應(yīng)用級(jí)優(yōu)化，最解渴最實(shí)質(zhì)的招數(shù)當(dāng)數(shù)基于分庫分表的單元化了，螞蟻技術(shù)稱之為 LDC（邏輯數(shù)據(jù)中心）。

本文不打算討論具體到代碼級(jí)的分析，而是嘗試用最簡(jiǎn)單的描述來說明其中最大快人心的原理。

我想關(guān)心分布式系統(tǒng)設(shè)計(jì)的人都曾被下面這些問題所困擾過：

最早一般為了業(yè)務(wù)快速上線，所有功能都會(huì)放到一個(gè)應(yīng)用里，系統(tǒng)架構(gòu)如下圖所示：

隨著業(yè)務(wù)發(fā)展，這個(gè)矛盾逐漸轉(zhuǎn)變?yōu)橹饕?，因此工程師們采用了以下架?gòu)：

于是程序員們決定使用主從結(jié)構(gòu)的數(shù)據(jù)庫集群，如下圖所示：

而一般的數(shù)據(jù)庫如 MySQL 則不行，所以 MySQL 才需要數(shù)據(jù)庫鏈接池。

用戶流水型數(shù)據(jù)：典型的有用戶的訂單、用戶發(fā)的評(píng)論、用戶的行為記錄等。

這些數(shù)據(jù)都是用戶行為產(chǎn)生的流水型數(shù)據(jù)，具備天然的用戶隔離性，比如 A 用戶的 App 上絕對(duì)看不到 B 用戶的訂單列表。所以此類數(shù)據(jù)非常適合分庫分表后獨(dú)立部署服務(wù)。

用戶間共享型數(shù)據(jù)：這種類型的數(shù)據(jù)又分兩類。一類共享型數(shù)據(jù)是像賬號(hào)、個(gè)人博客等可能會(huì)被所有用戶請(qǐng)求訪問的用戶數(shù)據(jù)。

比如 A 向 B 轉(zhuǎn)賬，A 給 B 發(fā)消息，這時(shí)候需要確認(rèn) B 賬號(hào)是否存在；又比如 A 想看 B 的個(gè)人博客之類的。

另外一類是用戶無關(guān)型數(shù)據(jù)，像商品、系統(tǒng)配置（匯率、優(yōu)惠政策）、財(cái)務(wù)統(tǒng)計(jì)等這些非用戶緯度的數(shù)據(jù)，很難說跟具體的某一類用戶掛鉤，可能涉及到所有用戶。

比如商品，假設(shè)按商品所在地來存放商品數(shù)據(jù)（這需要雙維度分庫分表），那么上海的用戶仍然需要訪問杭州的商品。

這就又構(gòu)成跨地跨 Zone 訪問了，還是達(dá)不到單元化的理想狀態(tài)，而且雙維度分庫分表會(huì)給整個(gè) LDC 運(yùn)維帶來復(fù)雜度提升。

RZone 到 DB 數(shù)據(jù)分區(qū)的訪問這是事先配置好的，上圖中 RZ 和 DB 數(shù)據(jù)分區(qū)的關(guān)系為：

①目前支付寶默認(rèn)會(huì)按照地域來路由流量，具體的實(shí)現(xiàn)承載者是自研的 GLSB（Global Server Load Balancing）：

在這種情況下，就需要人工的制定流量挑撥（切流）方案了。下面我們舉例說明這個(gè)過程，如下圖所示為上海的兩個(gè) IDC 機(jī)房。

然后再修改用戶 ID 和 RZ 之間的映射配置。假設(shè)之前為：

那么按照災(zāi)備方案的要求，這個(gè)映射配置將變?yōu)椋?/span>

①CAP 的定義

CAP 原則是指任意一個(gè)分布式系統(tǒng)，同時(shí)最多只能滿足其中的兩項(xiàng)，而無法同時(shí)滿足三項(xiàng)。

Consistency（一致性），這個(gè)理解起來很簡(jiǎn)單，就是每時(shí)每刻每個(gè)節(jié)點(diǎn)上的同一份數(shù)據(jù)都是一致的。

這就要求任何更新都是原子的，即要么全部成功，要么全部失敗。想象一下使用分布式事務(wù)來保證所有系統(tǒng)的原子性是多么低效的一個(gè)操作。

Availability（可用性），這個(gè)可用性看起來很容易理解，但真正說清楚的不多。我更愿意把可用性解釋為：任意時(shí)刻系統(tǒng)都可以提供讀寫服務(wù)。

舉個(gè)例子，當(dāng)我們用事務(wù)將所有節(jié)點(diǎn)鎖住來進(jìn)行某種寫操作時(shí)，如果某個(gè)節(jié)點(diǎn)發(fā)生不可用的情況，會(huì)讓整個(gè)系統(tǒng)不可用。

對(duì)于分片式的 NoSQL 中間件集群（Redis，Memcached）來說，一旦一個(gè)分片歇菜了，整個(gè)系統(tǒng)的數(shù)據(jù)也就不完整了，讀取宕機(jī)分片的數(shù)據(jù)就會(huì)沒響應(yīng)，也就是不可用了。

需要說明一點(diǎn)，哪些選擇 CP 的分布式系統(tǒng)，并不是代表可用性就完全沒有了，只是可用性沒有保障了。

為了增加可用性保障，這類中間件往往都提供了”分片集群+復(fù)制集”的方案。

Partition tolerance（分區(qū)容忍性），這個(gè)可能也是很多文章都沒說清楚的。P 并不是像 CA 一樣是一個(gè)獨(dú)立的性質(zhì)，它依托于 CA 來進(jìn)行討論。

參考文獻(xiàn)中的解釋：”除非整個(gè)網(wǎng)絡(luò)癱瘓，否則任何時(shí)刻系統(tǒng)都能正常工作”，言下之意是小范圍的網(wǎng)絡(luò)癱瘓，節(jié)點(diǎn)宕機(jī)，都不會(huì)影響整個(gè)系統(tǒng)的 CA。

我感覺這個(gè)解釋聽著還是有點(diǎn)懵逼，所以個(gè)人更愿意解釋為當(dāng)節(jié)點(diǎn)之間網(wǎng)絡(luò)不通時(shí)（出現(xiàn)網(wǎng)絡(luò)分區(qū)），可用性和一致性仍然能得到保障。

從個(gè)人角度理解，分區(qū)容忍性又分為“可用性分區(qū)容忍性”和“一致性分區(qū)容忍性”。

出現(xiàn)分區(qū)時(shí)會(huì)不會(huì)影響可用性的關(guān)鍵在于需不需要所有節(jié)點(diǎn)互相溝通協(xié)作來完成一次事務(wù)，不需要的話是鐵定不影響可用性的。

慶幸的是應(yīng)該不太會(huì)有分布式系統(tǒng)會(huì)被設(shè)計(jì)成完成一次事務(wù)需要所有節(jié)點(diǎn)聯(lián)動(dòng)，一定要舉個(gè)例子的話，全同步復(fù)制技術(shù)下的 MySQL 是一個(gè)典型案例。

出現(xiàn)分區(qū)時(shí)會(huì)不會(huì)影響一致性的關(guān)鍵則在于出現(xiàn)腦裂時(shí)有沒有保證一致性的方案，這對(duì)主從同步型數(shù)據(jù)庫（MySQL、SQL Server）是致命的。

一旦網(wǎng)絡(luò)出現(xiàn)分區(qū)，產(chǎn)生腦裂，系統(tǒng)會(huì)出現(xiàn)一份數(shù)據(jù)兩個(gè)值的狀態(tài)，誰都不覺得自己是錯(cuò)的。

需要說明的是，正常來說同一局域網(wǎng)內(nèi)，網(wǎng)絡(luò)分區(qū)的概率非常低，這也是為啥我們最熟悉的數(shù)據(jù)庫（MySQL、SQL Server 等）也是不考慮 P 的原因。

②CAP 分析方法

先說下 CA 和 P 的關(guān)系，如果不考慮 P 的話，系統(tǒng)是可以輕松實(shí)現(xiàn) CA 的。

而 P 并不是一個(gè)單獨(dú)的性質(zhì)，它代表的是目標(biāo)分布式系統(tǒng)有沒有對(duì)網(wǎng)絡(luò)分區(qū)的情況做容錯(cuò)處理。

以下是個(gè)人總結(jié)的分析一個(gè)分布式系統(tǒng) CAP 滿足情況的一般方法：

也就是同一個(gè)應(yīng)用啟動(dòng)了多個(gè)實(shí)例，連接著相同的數(shù)據(jù)庫（為了簡(jiǎn)化問題，先不考慮數(shù)據(jù)庫是否單點(diǎn)），如下圖所示：

于是如下圖所示的模式成為了當(dāng)下大部分中小公司所使用的架構(gòu)：

從上圖我可以看到三個(gè)數(shù)據(jù)庫實(shí)例中只有一個(gè)是主庫，其他是從庫。

一定程度上，這種架構(gòu)極大的緩解了”讀可用性”問題，而這樣的架構(gòu)一般會(huì)做讀寫分離來達(dá)到更高的”讀可用性”，幸運(yùn)的是大部分互聯(lián)網(wǎng)場(chǎng)景中讀都占了 80% 以上，所以這樣的架構(gòu)能得到較長(zhǎng)時(shí)間的廣泛應(yīng)用。

寫可用性可以通過 Keepalived 這種 HA（高可用）框架來保證主庫是活著的，但仔細(xì)一想就可以明白，這種方式并沒有帶來性能上的可用性提升。還好，至少系統(tǒng)不會(huì)因?yàn)槟硞€(gè)實(shí)例掛了就都不可用了。

可用性勉強(qiáng)達(dá)標(biāo)了，這時(shí)候的 CAP 分析如下：

分區(qū)容忍性：依舊先看分區(qū)容忍性，主從結(jié)構(gòu)的數(shù)據(jù)庫存在節(jié)點(diǎn)之間的通信，他們之間需要通過心跳來保證只有一個(gè) Master。
然而一旦發(fā)生分區(qū)，每個(gè)分區(qū)會(huì)自己選取一個(gè)新的 Master，這樣就出現(xiàn)了腦裂，常見的主從數(shù)據(jù)庫（MySQL，Oracle 等）并沒有自帶解決腦裂的方案。所以分區(qū)容忍性是沒考慮的。
一致性：不考慮分區(qū)，由于任意時(shí)刻只有一個(gè)主庫，所以一致性是滿足的。
可用性：不考慮分區(qū)，HA 機(jī)制的存在可以保證可用性，所以可用性顯然也是滿足的。

所以這樣的一個(gè)系統(tǒng)，我們認(rèn)為它是 AC 的。我們?cè)偕钊胙芯肯?，如果發(fā)生腦裂產(chǎn)生數(shù)據(jù)不一致后有一種方式可以仲裁一致性問題，是不是就可以滿足 P 了呢。

還真有嘗試通過預(yù)先設(shè)置規(guī)則來解決這種多主庫帶來的一致性問題的系統(tǒng)，比如 CouchDB，它通過版本管理來支持多庫寫入，在其仲裁階段會(huì)通過 DBA 配置的仲裁規(guī)則（也就是合并規(guī)則，比如誰的時(shí)間戳最晚誰的生效）進(jìn)行自動(dòng)仲裁（自動(dòng)合并），從而保障最終一致性（BASE），自動(dòng)規(guī)則無法合并的情況則只能依賴人工決策了。

螞蟻單元化 LDC 架構(gòu) CAP 分析

①戰(zhàn)勝分區(qū)容忍性

在討論螞蟻 LDC 架構(gòu)的 CAP 之前，我們?cè)賮硐胂敕謪^(qū)容忍性有啥值得一提的，為啥很多大名鼎鼎的 BASE（最終一致性）體系系統(tǒng)都選擇損失實(shí)時(shí)一致性，而不是丟棄分區(qū)容忍性呢？

分區(qū)的產(chǎn)生一般有兩種情況：

某臺(tái)機(jī)器宕機(jī)了，過一會(huì)兒又重啟了，看起來就像失聯(lián)了一段時(shí)間，像是網(wǎng)絡(luò)不可達(dá)一樣。

異地部署情況下，異地多活意味著每一地都可能會(huì)產(chǎn)生數(shù)據(jù)寫入，而異地之間偶爾的網(wǎng)絡(luò)延時(shí)尖刺（網(wǎng)絡(luò)延時(shí)曲線圖陡增）、網(wǎng)絡(luò)故障都會(huì)導(dǎo)致小范圍的網(wǎng)絡(luò)分區(qū)產(chǎn)生。

前文也提到過，如果一個(gè)分布式系統(tǒng)是部署在一個(gè)局域網(wǎng)內(nèi)的（一個(gè)物理機(jī)房?jī)?nèi)），那么個(gè)人認(rèn)為分區(qū)的概率極低，即便有復(fù)雜的拓?fù)?，也很少?huì)有在同一個(gè)機(jī)房里出現(xiàn)網(wǎng)絡(luò)分區(qū)的情況。

而異地這個(gè)概率會(huì)大大增高，所以螞蟻的三地五中心必須需要思考這樣的問題，分區(qū)容忍不能丟！

同樣的情況還會(huì)發(fā)生在不同 ISP 的機(jī)房之間（想象一下你和朋友組隊(duì)玩 DOTA，他在電信，你在聯(lián)通）。

為了應(yīng)對(duì)某一時(shí)刻某個(gè)機(jī)房突發(fā)的網(wǎng)絡(luò)延時(shí)尖刺活著間歇性失聯(lián)，一個(gè)好的分布式系統(tǒng)一定能處理好這種情況下的一致性問題。

那么螞蟻是怎么解決這個(gè)問題的呢？我們?cè)谏衔挠懻撨^，其實(shí) LDC 機(jī)房的各個(gè)單元都由兩部分組成：負(fù)責(zé)業(yè)務(wù)邏輯計(jì)算的應(yīng)用服務(wù)器和負(fù)責(zé)數(shù)據(jù)持久化的數(shù)據(jù)庫。

大部分應(yīng)用服務(wù)器就像一個(gè)個(gè)計(jì)算器，自身是不對(duì)寫一致性負(fù)責(zé)的，這個(gè)任務(wù)被下沉到了數(shù)據(jù)庫。所以螞蟻解決分布式一致性問題的關(guān)鍵就在于數(shù)據(jù)庫！

想必螞蟻的讀者大概猜到下面的討論重點(diǎn)了——OceanBase（下文簡(jiǎn)稱OB），中國(guó)第一款自主研發(fā)的分布式數(shù)據(jù)庫，一時(shí)間也確實(shí)獲得了很多光環(huán)。

在討論 OB 前，我們先來想想 Why not MySQL？

首先，就像 CAP 三角圖中指出的，MySQL 是一款滿足 AC 但不滿足 P 的分布式系統(tǒng)。

試想一下，一個(gè) MySQL 主從結(jié)構(gòu)的數(shù)據(jù)庫集群，當(dāng)出現(xiàn)分區(qū)時(shí)，問題分區(qū)內(nèi)的 Slave 會(huì)認(rèn)為主已經(jīng)掛了，所以自己成為本分區(qū)的 Master（腦裂）。

等分區(qū)問題恢復(fù)后，會(huì)產(chǎn)生 2 個(gè)主庫的數(shù)據(jù)，而無法確定誰是正確的，也就是分區(qū)導(dǎo)致了一致性被破壞。這樣的結(jié)果是嚴(yán)重的，這也是螞蟻寧愿自研 OceanBase 的原動(dòng)力之一。

那么如何才能讓分布式系統(tǒng)具備分區(qū)容忍性呢？按照老慣例，我們從”可用性分區(qū)容忍”和”一致性分區(qū)容忍”兩個(gè)方面來討論：

可用性分區(qū)容忍性保障機(jī)制：可用性分區(qū)容忍的關(guān)鍵在于別讓一個(gè)事務(wù)一來所有節(jié)點(diǎn)來完成，這個(gè)很簡(jiǎn)單，別要求所有節(jié)點(diǎn)共同同時(shí)參與某個(gè)事務(wù)即可。

一致性分區(qū)容忍性保障機(jī)制：老實(shí)說，都產(chǎn)生分區(qū)了，哪還可能獲得實(shí)時(shí)一致性。

但要保證最終一致性也不簡(jiǎn)單，一旦產(chǎn)生分區(qū)，如何保證同一時(shí)刻只會(huì)產(chǎn)生一份提議呢？

換句話說，如何保障仍然只有一個(gè)腦呢？下面我們來看下 PAXOS 算法是如何解決腦裂問題的。

這里可以發(fā)散下，所謂的“腦”其實(shí)就是具備寫能力的系統(tǒng)，“非腦”就是只具備讀能力的系統(tǒng)，對(duì)應(yīng)了 MySQL 集群中的從庫。

下面是一段摘自維基百科的 PAXOS 定義：

Paxos is a family of protocols for solving consensus in a network of unreliable processors (that is, processors that may fail).

大致意思就是說，PAXOS 是在一群不是特別可靠的節(jié)點(diǎn)組成的集群中的一種共識(shí)機(jī)制。

Paxos 要求任何一個(gè)提議，至少有 (N/2)+1 的系統(tǒng)節(jié)點(diǎn)認(rèn)可，才被認(rèn)為是可信的，這背后的一個(gè)基礎(chǔ)理論是少數(shù)服從多數(shù)。

想象一下，如果多數(shù)節(jié)點(diǎn)認(rèn)可后，整個(gè)系統(tǒng)宕機(jī)了，重啟后，仍然可以通過一次投票知道哪個(gè)值是合法的（多數(shù)節(jié)點(diǎn)保留的那個(gè)值）。

這樣的設(shè)定也巧妙的解決了分區(qū)情況下的共識(shí)問題，因?yàn)橐坏┊a(chǎn)生分區(qū)，勢(shì)必最多只有一個(gè)分區(qū)內(nèi)的節(jié)點(diǎn)數(shù)量會(huì)大于等于 (N/2)+1。

通過這樣的設(shè)計(jì)就可以巧妙的避開腦裂，當(dāng)然 MySQL 集群的腦裂問題也是可以通過其他方法來解決的，比如同時(shí) Ping 一個(gè)公共的 IP，成功者繼續(xù)為腦，顯然這就又制造了另外一個(gè)單點(diǎn)。

如果你了解過比特幣或者區(qū)塊鏈，你就知道區(qū)塊鏈的基礎(chǔ)理論也是 PAXOS。區(qū)塊鏈借助 PAXOS 對(duì)最終一致性的貢獻(xiàn)來抵御惡意篡改。

而本文涉及的分布式應(yīng)用系統(tǒng)則是通過 PAXOS 來解決分區(qū)容忍性。再說本質(zhì)一點(diǎn)，一個(gè)是抵御部分節(jié)點(diǎn)變壞，一個(gè)是防范部分節(jié)點(diǎn)失聯(lián)。

大家一定聽說過這樣的描述：PAXOS 是唯一能解決分布式一致性問題的解法。

這句話越是理解越發(fā)覺得詭異，這會(huì)讓人以為 PAXOS 逃離于 CAP 約束了，所以個(gè)人更愿意理解為：PAXOS 是唯一一種保障分布式系統(tǒng)最終一致性的共識(shí)算法（所謂共識(shí)算法，就是大家都按照這個(gè)算法來操作，大家最后的結(jié)果一定相同）。

PAXOS 并沒有逃離 CAP 魔咒，畢竟達(dá)成共識(shí)是 (N/2)+1 的節(jié)點(diǎn)之間的事，剩下的 (N/2)-1 的節(jié)點(diǎn)上的數(shù)據(jù)還是舊的，這時(shí)候仍然是不一致的。

所以 PAXOS 對(duì)一致性的貢獻(xiàn)在于經(jīng)過一次事務(wù)后，這個(gè)集群里已經(jīng)有部分節(jié)點(diǎn)保有了本次事務(wù)正確的結(jié)果（共識(shí)的結(jié)果），這個(gè)結(jié)果隨后會(huì)被異步的同步到其他節(jié)點(diǎn)上，從而保證最終一致性。

以下摘自維基百科：

Paxos is a family of protocols for solving consensus in a network of unreliable processors (that is, processors that may fail).Quorums express the safety (or consistency) properties of Paxos by ensuring at least some surviving processor retains knowledge of the results.

另外 PAXOS 不要求對(duì)所有節(jié)點(diǎn)做實(shí)時(shí)同步，實(shí)質(zhì)上是考慮到了分區(qū)情況下的可用性，通過減少完成一次事務(wù)需要的參與者個(gè)數(shù)，來保障系統(tǒng)的可用性。

②OceanBase 的 CAP 分析

上文提到過，單元化架構(gòu)中的成千山萬的應(yīng)用就像是計(jì)算器，本身無 CAP 限制，其 CAP 限制下沉到了其數(shù)據(jù)庫層，也就是螞蟻?zhàn)匝械姆植际綌?shù)據(jù)庫 OceanBase（本節(jié)簡(jiǎn)稱 OB）。

在 OB 體系中，每個(gè)數(shù)據(jù)庫實(shí)例都具備讀寫能力，具體是讀是寫可以動(dòng)態(tài)配置（參考第二部分）。

實(shí)際情況下大部分時(shí)候，對(duì)于某一類數(shù)據(jù)（固定用戶號(hào)段的數(shù)據(jù)）任意時(shí)刻只有一個(gè)單元會(huì)負(fù)責(zé)寫入某個(gè)節(jié)點(diǎn)，其他節(jié)點(diǎn)要么是實(shí)時(shí)庫間同步，要么是異步數(shù)據(jù)同步。

OB 也采用了 PAXOS 共識(shí)協(xié)議。實(shí)時(shí)庫間同步的節(jié)點(diǎn)（包含自己）個(gè)數(shù)至少需要 (N/2)+1 個(gè)，這樣就可以解決分區(qū)容忍性問題。

下面我們舉個(gè)馬老師改英文名的例子來說明 OB 設(shè)計(jì)的精妙之處：

假設(shè)數(shù)據(jù)庫按照用戶 ID 分庫分表，馬老師的用戶 ID 對(duì)應(yīng)的數(shù)據(jù)段在 [0-9]，開始由單元 A 負(fù)責(zé)數(shù)據(jù)寫入。

假如馬老師（用戶 ID 假設(shè)為 000）正在用支付寶 App 修改自己的英文名，馬老師一開始打錯(cuò)了，打成了 Jason Ma，A 單元收到了這個(gè)請(qǐng)求。

這時(shí)候發(fā)生了分區(qū)（比如 A 網(wǎng)絡(luò)斷開了），我們將單元 A 對(duì)數(shù)據(jù)段 [0,9] 的寫入權(quán)限轉(zhuǎn)交給單元 B（更改映射），馬老師這次寫對(duì)了，為 Jack Ma。

而在網(wǎng)絡(luò)斷開前請(qǐng)求已經(jīng)進(jìn)入了 A，寫權(quán)限轉(zhuǎn)交給單元 B 生效后，A 和 B 同時(shí)對(duì) [0,9] 數(shù)據(jù)段進(jìn)行寫入馬老師的英文名。

假如這時(shí)候都允許寫入的話就會(huì)出現(xiàn)不一致，A 單元說我看到馬老師設(shè)置了 Jason Ma，B 單元說我看到馬老師設(shè)置了 Jack Ma。

然而這種情況不會(huì)發(fā)生的，A 提議說我建議把馬老師的英文名設(shè)置為 Jason Ma 時(shí)，發(fā)現(xiàn)沒人回應(yīng)它。

因?yàn)槌霈F(xiàn)了分區(qū)，其他節(jié)點(diǎn)對(duì)它來說都是不可達(dá)的，所以這個(gè)提議被自動(dòng)丟棄，A 心里也明白是自己分區(qū)了，會(huì)有主分區(qū)替自己完成寫入任務(wù)的。

同樣的，B 提出了將馬老師的英文名改成 Jack Ma 后，大部分節(jié)點(diǎn)都響應(yīng)了，所以 B 成功將 Jack Ma 寫入了馬老師的賬號(hào)記錄。

假如在寫權(quán)限轉(zhuǎn)交給單元 B 后 A 突然恢復(fù)了，也沒關(guān)系，兩筆寫請(qǐng)求同時(shí)要求獲得 (N/2)+1 個(gè)節(jié)點(diǎn)的事務(wù)鎖，通過 no-wait 設(shè)計(jì)，在 B 獲得了鎖之后，其他爭(zhēng)搶該鎖的事務(wù)都會(huì)因?yàn)槭《貪L。

下面我們分析下 OB 的 CAP：

分區(qū)容忍性：OB 節(jié)點(diǎn)之間是有互相通信的（需要相互同步數(shù)據(jù)），所以存在分區(qū)問題，OB 通過僅同步到部分節(jié)點(diǎn)來保證可用性。這一點(diǎn)就說明 OB 做了分區(qū)容錯(cuò)。
可用性分區(qū)容忍性：OB 事務(wù)只需要同步到（N/2)+1 個(gè)節(jié)點(diǎn)，允許其余的一小半節(jié)點(diǎn)分區(qū)（宕機(jī)、斷網(wǎng)等），只要 (N/2)+1 個(gè)節(jié)點(diǎn)活著就是可用的。
極端情況下，比如 5 個(gè)節(jié)點(diǎn)分成 3 份（2:2:1），那就確實(shí)不可用了，只是這種情況概率比較低。
一致性分區(qū)容忍性：分區(qū)情況下意味著部分節(jié)點(diǎn)失聯(lián)了，一致性顯然是不滿足的。但通過共識(shí)算法可以保證當(dāng)下只有一個(gè)值是合法的，并且最終會(huì)通過節(jié)點(diǎn)間的同步達(dá)到最終一致性。

所以 OB 仍然沒有逃脫 CAP 魔咒，產(chǎn)生分區(qū)的時(shí)候它變成 AP+最終一致性（C）。整體來說，它是 AP 的，即高可用和分區(qū)容忍。

結(jié)語

個(gè)人感覺本文涉及到的知識(shí)面確實(shí)不少，每個(gè)點(diǎn)單獨(dú)展開都可以討論半天。回到我們緊扣的主旨來看，雙十一海量支付背后技術(shù)上大快人心的設(shè)計(jì)到底是啥？

我想無非是以下幾點(diǎn)：

基于用戶分庫分表的 RZone 設(shè)計(jì)。每個(gè)用戶群獨(dú)占一個(gè)單元給整個(gè)系統(tǒng)的容量帶來了爆發(fā)式增長(zhǎng)。
RZone 在網(wǎng)絡(luò)分區(qū)或?yàn)?zāi)備切換時(shí) OB 的防腦裂設(shè)計(jì)（PAXOS）。我們知道 RZone 是單腦的（讀寫都在一個(gè)單元對(duì)應(yīng)的庫），而網(wǎng)絡(luò)分區(qū)或者災(zāi)備時(shí)熱切換過程中可能會(huì)產(chǎn)生多個(gè)腦，OB 解決了腦裂情況下的共識(shí)問題（PAXOS 算法）。
基于 CZone 的本地讀設(shè)計(jì)。這一點(diǎn)保證了很大一部分有著“寫讀時(shí)間差”現(xiàn)象的公共數(shù)據(jù)能被高速本地訪問。
剩下的那一丟丟不能本地訪問只能實(shí)時(shí)訪問 GZone 的公共配置數(shù)據(jù)，也興不起什么風(fēng)，作不了什么浪。
比如用戶創(chuàng)建這種 TPS，不會(huì)高到哪里去。再比如對(duì)于實(shí)時(shí)庫存數(shù)據(jù)，可以通過“頁面展示查詢走應(yīng)用層緩存”+“實(shí)際下單時(shí)再校驗(yàn)”的方式減少其 GZone 調(diào)用量。

而這就是螞蟻 LDC 的 CRG 架構(gòu)，相信 54.4 萬筆/秒還遠(yuǎn)沒到 LDC 的上限，這個(gè)數(shù)字可以做到更高。

當(dāng)然雙 11 海量支付的成功不單單是這么一套設(shè)計(jì)所決定的，還有預(yù)熱削峰等運(yùn)營(yíng)+技術(shù)的手段，以及成百上千的兄弟姐妹共同奮戰(zhàn)，特此在這向各位雙 11 留守同學(xué)致敬。

感謝大家的閱讀，文中可能存在不足或遺漏之處，歡迎批評(píng)指正。

參考文獻(xiàn)：

Practice of Cloud System Administration, The: DevOps and SRE Practices for Web Services, Volume 2. Thomas A. Limoncelli, Strata R. Chalup, Christina J. Hogan.
MySQL 5.7 半同步復(fù)制技術(shù)
https://www.cnblogs.com/zero-gg/p/9057092.html
BASE 理論分析
https://www.jianshu.com/p/f6157118e54b
Keepalived
https://baike.baidu.com/item/Keepalived/10346758?fr=aladdin
PAXOS
https://en./wiki/Paxos_(computer_science)
OceanBase 支撐 2135 億成交額背后的技術(shù)原理
https://www.cnblogs.com/antfin/articles/10299396.html
Backup
https://en./wiki/Backup

-------- END ---------

电竞比分网-中国电竞赛事及体育赛事平台

支付寶的架構(gòu)到底有多牛逼！還沒看完我就跪了！

①CAP 的定義

CAP 原則是指任意一個(gè)分布式系統(tǒng)，同時(shí)最多只能滿足其中的兩項(xiàng)，而無法同時(shí)滿足三項(xiàng)。

②CAP 分析方法

先說下 CA 和 P 的關(guān)系，如果不考慮 P 的話，系統(tǒng)是可以輕松實(shí)現(xiàn) CA 的。

而 P 并不是一個(gè)單獨(dú)的性質(zhì)，它代表的是目標(biāo)分布式系統(tǒng)有沒有對(duì)網(wǎng)絡(luò)分區(qū)的情況做容錯(cuò)處理。

①戰(zhàn)勝分區(qū)容忍性

在討論螞蟻 LDC 架構(gòu)的 CAP 之前，我們?cè)賮硐胂敕謪^(qū)容忍性有啥值得一提的，為啥很多大名鼎鼎的 BASE（最終一致性）體系系統(tǒng)都選擇損失實(shí)時(shí)一致性，而不是丟棄分區(qū)容忍性呢？

②OceanBase 的 CAP 分析

上文提到過，單元化架構(gòu)中的成千山萬的應(yīng)用就像是計(jì)算器，本身無 CAP 限制，其 CAP 限制下沉到了其數(shù)據(jù)庫層，也就是螞蟻?zhàn)匝械姆植际綌?shù)據(jù)庫 OceanBase（本節(jié)簡(jiǎn)稱 OB）。

參考文獻(xiàn)：

电竞比分网-中国电竞赛事及体育赛事平台

支付寶的架構(gòu)到底有多牛逼！還沒看完我就跪了！

①CAP 的定義

CAP 原則是指任意一個(gè)分布式系統(tǒng)，同時(shí)最多只能滿足其中的兩項(xiàng)，而無法同時(shí)滿足三項(xiàng)。

②CAP 分析方法

先說下 CA 和 P 的關(guān)系，如果不考慮 P 的話，系統(tǒng)是可以輕松實(shí)現(xiàn) CA 的。

而 P 并不是一個(gè)單獨(dú)的性質(zhì)，它代表的是目標(biāo)分布式系統(tǒng)有沒有對(duì)網(wǎng)絡(luò)分區(qū)的情況做容錯(cuò)處理。

①戰(zhàn)勝分區(qū)容忍性

在討論螞蟻 LDC 架構(gòu)的 CAP 之前，我們?cè)賮硐胂敕謪^(qū)容忍性有啥值得一提的，為啥很多大名鼎鼎的 BASE（最終一致性）體系系統(tǒng)都選擇損失實(shí)時(shí)一致性，而不是丟棄分區(qū)容忍性呢？

②OceanBase 的 CAP 分析

上文提到過，單元化架構(gòu)中的成千山萬的應(yīng)用就像是計(jì)算器，本身無 CAP 限制，其 CAP 限制下沉到了其數(shù)據(jù)庫層，也就是螞蟻?zhàn)匝械姆植际綌?shù)據(jù)庫 OceanBase（本節(jié)簡(jiǎn)稱 OB）。

參考文獻(xiàn)：

支付寶的架構(gòu)到底有多牛逼！還沒看完我就跪了！

CAP 原則是指任意一個(gè)分布式系統(tǒng)，同時(shí)最多只能滿足其中的兩項(xiàng)，而無法同時(shí)滿足三項(xiàng)。

先說下 CA 和 P 的關(guān)系，如果不考慮 P 的話，系統(tǒng)是可以輕松實(shí)現(xiàn) CA 的。

而 P 并不是一個(gè)單獨(dú)的性質(zhì)，它代表的是目標(biāo)分布式系統(tǒng)有沒有對(duì)網(wǎng)絡(luò)分區(qū)的情況做容錯(cuò)處理。

在討論螞蟻 LDC 架構(gòu)的 CAP 之前，我們?cè)賮硐胂敕謪^(qū)容忍性有啥值得一提的，為啥很多大名鼎鼎的 BASE（最終一致性）體系系統(tǒng)都選擇損失實(shí)時(shí)一致性，而不是丟棄分區(qū)容忍性呢？

上文提到過，單元化架構(gòu)中的成千山萬的應(yīng)用就像是計(jì)算器，本身無 CAP 限制，其 CAP 限制下沉到了其數(shù)據(jù)庫層，也就是螞蟻?zhàn)匝械姆植际綌?shù)據(jù)庫 OceanBase（本節(jié)簡(jiǎn)稱 OB）。