往事:開創者揭秘位元大陸S9如何成為“一代機皇”

買賣虛擬貨幣

前言:隨著大算力礦機集體入場,一代機皇螞蟻礦機S9將要退出歷史舞臺。回顧歷史,作者認為,成都團隊透過動態觸發器,實現了對競爭對手的跨代優勢,也是S9成功的主要原因。S9的設計是比特幣礦機的奇蹟,成為了比特幣礦機中生產最多的礦機,生命週期三年多,被稱為機皇。

(本文作者為位元大陸前技術總監謝丹,吳說區塊鏈授權釋出。文章觀點為作者個人意見,不代表吳說區塊鏈立場)

2014年8月,我在成都開了一家後端設計服務公司,我想做有增值價值的後端設計服務。在找客戶的時候,我上網搜尋了一下,覺得做比特幣礦機的公司應該有著這方面的需求,於是給當時位元大陸的網站上的郵箱寫了封電郵:

當時,我給很多家積體電路設計公司都寫過郵件,而位元大陸是最快回復的一家。後來聊天的時候瞭解到,這個郵箱當時是吳忌寒吳總在使用,位元大陸那時正好也在尋找提高晶片競爭力的方案。於是吳忌寒把這個郵件轉給詹克團詹總,詹總九月路過成都和我見面了。詹總和我面談了兩次,大家聊得不錯。詹總覺得這個專案時間很長,風險較大,且存在智慧財產權的顧慮,建議我解散公司,帶領團隊加入位元大陸。

2014年10月,我帶著兩個人的小團隊正式加入位元大陸,成為位元大陸的全定製部門。最初的方向就是郵件中講的多米諾邏輯。

多米諾邏輯是一種比較成熟的動態邏輯結構,其主要形態是這樣的:

多米諾邏輯電路相對於對應的靜態電路,有著以下優點和缺點:

因為訊號只需要驅動N管,所以電容較小,速度較快。

因為A點是動態點,所以最後的反向器M3/M4是必須的。

A點存在charge-sharing的問題。

M1,M2,M3,M4為新增器件,PMOS為減少器件

因為M1、M2為時鐘訊號驅動,所以它的功耗至少是其它普通訊號的2倍以上。

所以,從功耗上考慮,M1與M2因為是時鐘訊號,它的功耗至少按照兩倍訊號的功耗算,則 M1+M2+M3+M4的功耗是增加了 6個MOS管的功耗,對於一般邏輯來說,超過12個MOS管的標準單元庫並不多。從面積上講,M2+M4增加了2個NMOS管的面積,而PMOS雖然少了,但在版圖上很難把這節省的面積體現出來。也就是說:多米諾邏輯雖然會加快晶片速度,但是面積與功耗都稍有增加。

當我們2015年1月把結論提交的時候,基本確認了多米諾邏輯是不適應礦機晶片的。比特幣礦機晶片因為純並行運算,速度並不那麼重要。礦機最大的成本在於電費,所以,功耗是最重要的。我們在進行面積與功耗的大拇指規則 (rule of thumb) 評估時,功耗的權重是面積和速度的3倍以上。

我們多米諾邏輯嘗試的失敗,並沒有打擊我們的探索,因為我們發現了一種適合動態邏輯其積大管子多的標準單元,而這種標準單元有一個很明顯的例子,就是觸發器Flip-flop。於是我們重回開始,以動態的觸發器做為攻堅目標。

在積體電路的開始,上個世紀的七十年代,因為每個電晶體的成本高,所以,那個時候的觸發器都是動態的,無論是domino flip-flop,C2MOS edge-triggered flip-flop,還是TSPC positive-edge Flip-flop 等,都是當時的產物。我們從中發現了寶庫。

比如一個TSPC positive-edge Flip-flop ,它的邏輯如下:

仍然按照我們clock gate算作兩個gate的話,這個flip-flop總共就是 4*2+7=15 個gate 等價。

而我們之前最常用的靜態觸發器的結構是這樣的:

再加上clk的反向器,這個我們加一起就是 8*2+12 +4 =32個 gate等價。靜態邏輯的觸發器等價管子數功耗比動態邏輯多1倍以上。

同樣的,從面積上看,動態邏輯是11個器件,而靜態邏輯是22個器件,正好是一倍的面積。

我們在確認了採用動態邏輯的觸發器之後,接下來就是如果融入我們的設計流程。我們最後在靜態邏輯的觸發器的功能描述上,增加了部分時間的約束,以防止動態邏輯中漏電流導致動態電容點漏電。並且在時序和功耗提庫時,用靜態觸發器的一些引數進行套用。簡單說,我們在動態邏輯上加了一個外框,讓它在前端設計人員看來,就是一個正常的靜態觸發器,對於前端設計與綜合,沒有任何的不同。

完成了對動態觸發器的提庫,我們相當於有一個面積為原來一半,且功耗為原來一半,時序幾乎類似的新的觸發器了。因為比特幣需要不停地計算,所以靜態觸發器需要儲存較長時間的資料就沒有必要。當我們在完成動態觸發器之後,比特幣這種分佈運算以及完全流水線的邏輯就特別適合動態觸發器了。對於pipeline流水線來說,它的結構是這樣的:

我們可以直接改為:

考慮到現在新的動態觸發器的面積和功耗只有原來的一半,新的流水線在相同面積和相同功耗下,增加了一倍的速度。在我們比特幣的礦機晶片,就是自己從32級流水線改為了64級流水線,增加一倍算力。

我們在2015年中完成對28nm的BM1385晶片設計(螞蟻礦機S7),並且在2015年年底完成對16nm的BM1387晶片設計(螞蟻礦機S9)。在效能體現上,我們的28nm幾乎和對手的16nm相同的效能,而我們的16nm晶片則是對手的一半成本。透過動態觸發器,我們實現了對競爭對手的跨代優勢。特別是S9的設計,是比特幣礦機的奇蹟,成為了比特幣礦機中生產最多的礦機,生命週期三年多,被稱為機皇。

在幾乎不需要軟體環境的數字貨幣挖礦行業,一件產品只有競爭對手一半的成本,這是非常大的競爭優勢,這意味你可以進行隨心所欲的價格戰優勢。因為你賣到對手不掙錢了,而位元大陸還有50%以上的毛利率。正是憑藉著動態邏輯這個秘密武器,依靠S7與S9的銷量成功,讓位元大陸從不到20%市場份額的群雄紛爭局面一舉變成一家獨大(70%以上份額)。

位元大陸崛起的一個直接現象,就是國外比特幣晶片公司的退出市場,2014年和2015年高調的KNC、bitfury、Spondoolies-Tech、21 Inc.都很快宣佈破產或者退出礦機晶片市場。

隨著位元大陸一些員工的離開,動態觸發器這個技術逐漸地傳播到國內其它的晶片開發商那裡,但是這個技術基本還是約束在國內了。2017年日本GMO還在12nm以及7nm試圖進入這個領域,從這家公司的宣傳上看,他們還是採用的靜態觸發器的結構,再加上遇上了2018年的熊市週期,一年後就虧損退出這個市場,是可以預期的。

在16nm之前,新一代工藝mask在數百萬美元以內,而重新設計動態邏輯的技術、人力與風險顯然是高於數百萬美元的,所以動態邏輯的優勢無法體現。然而16nm之後,新的10/7nm,以及將來的5nm的成本都數千萬美元了。動態邏輯能夠超越一個製程節點的效能就會讓它顯得更加優勢,煥發出新的生命力。我期待著更多的應用動態邏輯的公司出現,讓這個古老的設計藝術重現在我們時代。影響政策,同名賬號已入駐微博百家企鵝頭條知乎幣乎幣看鏈聞火星金色星球等。

免責聲明:

  1. 本文版權歸原作者所有,僅代表作者本人觀點,不代表鏈報觀點或立場。
  2. 如發現文章、圖片等侵權行爲,侵權責任將由作者本人承擔。
  3. 鏈報僅提供相關項目信息,不構成任何投資建議

推荐阅读

;