為何我理解不了零知識證明：ZKP常見誤區分析

我在零知識證明這個領域裡兜兜轉轉了無數圈，之所以走了很多彎路，原因在於從一開始就對零知識證明有先入為主的錯誤認識，這些認識是後續建造零知識證明這個房子時的框架，由於框架是錯誤的，那在它基礎之上是無論如何也建立不起一個不會倒塌的房子的。在這篇文章中，我將試著糾正這些錯誤認識，如果你正在學習零知識證明並覺得一頭霧水，希望我犯過的錯誤能對你有所啟發；如果你才剛開始去了解零知識證明，希望本文有助你搭建一個基礎的框架。在我眼中，文中討論的這些點恰是零知識證明這件事的奧妙所在，它們揭示了為何零知識證明是行得通的。需要注意的是，下述的這些所謂糾正後的認識依然可能是不準確的認識，你只能用它做參考，並對它保持質疑。一、零知識證明是一種證明的方法假如我們知道宇宙演化的演算法，但不知道宇宙的初始值，這時候Alice說她知道這個初始值，我們不信，於是她把一組資料作為演算法的輸入，一通計算，得到一個和我們所處的宇宙一模一樣的宇宙，這時候我們是不是會相信Alice的那組資料就是宇宙的初始值？我們會相信。這就是一個零知識證明，確切來講它應該叫零知識的證明。Alice透過這種證明方法可以證明自己擁有知識（宇宙的初始值），同時又不洩漏知識。

如果觀察Alice的證明過程，就會發現它只涉及三個物件：初始值，演化演算法，演化結果（現狀），我們可以把其抽象為：演算法的輸入、演算法、演算法的輸出，而零知識證明要做到能夠證明輸出確實是輸入透過確定的演算法計算出來的。這樣一來，如果驗證者看到輸出是對的，同時證明顯示輸出是用輸入計算而來的，那麼驗證者就可以在不知道輸入的情況下相信輸入。隨之而來的問題就是：如何證明輸出是由輸入透過某個確定的演算法計算出來的？而不是其他的輸入、其他的輸出、或者其他的演算法？這便是零知識證明協議要解決的問題。在zk-SNARK系列的協議中，採用的方法是把輸入、演算法、輸出轉換為一個多項式，透過多項式把這三者繫結到一起。如果能夠證明Alice知道這個多項式，就可以認為Alice的輸出是輸入透過演算法計算出來的。總而言之，因為零知識證明被廣泛地用於實現隱私保護，隱私保護又意味著不洩露資料，所以我們會比較容易在一開始就圍繞它是怎樣隱藏資料的為方向去思考。但如果以「它是如何實現零知識的」為線索去認識它，就會一團亂麻，而如果以「它是如何實現證明的」為線索，就會一條線清晰地貫穿始終。二、零知識證明只能實現特定知識的「零知識」

對於雜湊函式、基於橢圓曲線的加密演算法等密碼學工具而言，幾乎在任何情況下給出任何資料，它們都能夠把這個資料隱藏起來（實踐角度如果輸入空間過小是無法隱藏的）；當我們知道零知識證明可以不洩露知識時，往往也會認為能夠把任意的知識交給它來處理，但實際上，零知識證明只能在特定的場景下實現特定知識的「零知識」。回到Alice的例子，在她的零知識證明過程中，至少涉及到三種可以被稱為知識的東西：1.宇宙的初始值；2.宇宙的演化演算法；3.宇宙的演化結果。可以透過零知識證明不洩露這些不同型別的知識嗎？不能，我們甚至必須知道宇宙的演化演算法和演化結果，才能證明Alice是否知道宇宙的初始值。換言之，零知識證明只能證明但不洩漏「輸入」這個位置上的知識。當在思考或使用零知識證明協議解決問題時，需要看不想洩漏的知識是否可以被放在輸入的位置上，並能透過確定的演算法產生一個可判斷真偽的輸出（更準確而言在於能否構造一個 NP-relation）。舉例來說，如果Alice在不附帶任何條件的情況下聲稱自己知道一個數x，我們是難以用零知識證明證明她知道數x但又不洩漏x的；但如果Alice聲稱自己知道一個數x滿足某個條件a，那就可以先有一個演算法，該演算法的輸出一定滿足條件a（可以轉換為輸出一定為真），然後，如果輸入x能夠滿足這個演算法，就可以相信數x滿足條件a，這也意味著Alice能夠在不洩漏資料的情況下使用資料。不過這裡有另一個容易混淆的地方，就是零知識證明並不能直接證明某人有解某個問題的能力，比如有解地圖三染色問題的能力，它證明的是某人知道該問題的一組解。（注：可以透過讓證明者解多次不同的三染色問題例項，證明證明者有計算能力可以解三染色問題。）這與零知識證明協議的構造有關，如前所述，它證明的是一個把輸入、演算法、輸出繫結到一起形成的多項式，而不是某個求解演算法的多項式，證明這個多項式成立，實際上是在證明輸入、演算法、輸出之間具有確定的關係，而不是在證明其他事情。

一方面，這種構造限定了零知識證明的應用，它只能在輸入、演算法、輸出齊備的情況下實現輸入的零知識證明，如果輸出為真，就可以相信輸入為真；但另一方面，這種構造擴充套件了零知識證明的其他應用，即如果輸入為真，我們也可以相信輸出為真。三、零知識證明為何與區塊鏈如此契合 區塊鏈啟用了零知識證明的應用，零知識證明則提供給區塊鏈一種卓越的解決方案，兩者能夠彼此促進更主要的原因在於區塊鏈的系統特點和零知識證明的證明方法特點，而不僅僅因為零知識證明能保護隱私。回憶我們做數學的證明大題，那是一種推理式證明，有著嚴格的可被驗證的推導過程；但還有另一種證明叫互動式證明，它不透過推導，而是藉助於證明者和驗證者的互動，驗證者向證明者提出問題，如果證明者能給出正確的回答，就認為證明者聲稱的命題是對的。舉一個不算特別準確的例子：Alice聲稱當宇宙的輸入為x時，輸出為42，推理式證明是指她要代入x一步步計算，算出42，並把計算過程展示出來以供驗證；互動式證明看起來則是：給驗證者一臺平行宇宙穿梭機，驗證者隨機穿梭到有輸出的宇宙（輸入都為x），然後根據宇宙的輸出是否為42來判斷Alice聲稱的是否可相信。相較於推理式證明，互動式證明的驗證者只需驗證一個點或幾個點，這是零知識證明與區塊鏈契合的一個重要原因：區塊鏈是一種分散式系統，每個節點都要重複完成驗證的工作，受益於只需驗證挑戰點，簡潔（Succinct）零知識證明系統可以減少驗證的工作，它提供給驗證者的是一個比原命題小得多的證明。

形象化而言就是：在非區塊鏈的系統中，零知識證明減少一份驗證者的工作，同時可能增加一份證明者的工作（不一定是1：1的關係），這或許就算不上好處；可在區塊鏈系統中，零知識證明每減少一份驗證者的工作，如果有100個節點，就能減少100份的總工作量，而此時增加的仍然只是一份證明者的工作，那麼這種好處就很明顯了。此外，單從用零知識證明來解決問題的角度，區塊鏈上的空間資源和時間資源都是極為稀缺的，而簡潔零知識證明產生的證明小、驗證時間短，適合作為區塊鏈上的解決方案。但需要注意，互動式證明只需驗證挑戰點，與之相伴的推理式證明和互動式證明的另一個區別就是：推理式證明能夠證明一個命題是否成立，互動式證明卻只能證明一個命題在概率上是否成立。也就是說，假如證明者聲稱的命題是錯的，但當驗證者提出問題時證明者蒙對了答案，驗證者會認為命題是對的。因此在零知識證明協議的設計中，非常重要的一部分工作就是用數學的方法讓證明者幾無可能蒙對答案（基於對證明者計算能力的某種假設，證明者使用虛假證明使驗證者信以為真的概率是一個可忽略的函式）。回到zk-SNARK。zk-SNARK把證明輸入、演算法、輸出的關係轉換為證明一個繫結三者關係的多項式，就能夠給驗證者提供一臺平行宇宙穿梭機。在皮諾曹協議中（zk-SNARK的一種），互動式證明是這樣的：證明者聲稱自己知道一個多項式p(x)，該多項式是可以被分解成t(x)和h(x)的，即p(x)=t(x)·h(x) ；驗證者隨機選擇一個挑戰點s，透過對s加密讓證明者只能算出p(s)和h(s)，而無法計算t(s)；證明者把p(s)和h(s)給驗證者，驗證者手中有t(s)，就可以計算t(s) ·h(s) 是否等於p(s)，如果相等，就相信證明者確實知道一個多項式。

而知道一個多項式，就意味著輸入、演算法、輸出之間存在確定的關係，如果輸出為真，我們就可以在並不知道輸入的情況下相信輸入為真，即實現零知識證明。那麼到現在，我們就不僅知道了零知識證明是一種證明的方法，而且知道了它是如何來做證明的。四、不要被「無需互動」欺騙零知識證明是一種互動式的證明系統，它依賴於兩個重要元素：互動、隨機。互動是指一方提出挑戰，一方給出證明，如果沒有這種互動，零知識證明就無法開展；隨機是指挑戰點必須是隨機的，也就是不能被證明者預測到的，不然證明者就可以在挑戰點上構建一個假證明。如果Alice事先知道驗證者會去73號平行宇宙，她就可以提前把73號的答案改為42。那為什麼zk-SNARK稱自己為非互動（Non-interactive）？在所謂的互動式證明中，需要先由驗證者給出隨機點，再由證明者構建證明；在所謂的非互動證明中，比如皮諾曹協議，它不再需要驗證者給出隨機點，轉而由一個可信的第三方在初始化階段給出隨機點，這樣一來，證明者就可以直接給出證明，驗證者只需要驗證證明即可，驗證者和證明者之間不再需要互動。可信第三方給出隨機點就是皮諾曹協議的可信設定（Trusted-setup），相較於直接互動，可信設定在給出隨機點s之外，還需多給出一個t(s)，因為驗證者需要用t(s)進行驗證。但問題在於t(s)不能被證明者得知，否則他可以輕易構造出一個假證明，所以需要用一個方法對t(s)做變換，使得變換後的t(s)可用於驗證，但不可用於證明者的計算。皮諾曹協議選擇雙線性配對操作來完成這一工作。

所以無需互動更多的是一種技術上的處理，對於零知識證明而言，驗證總是在隨機挑戰點上完成的，所不同的是這個挑戰點從何而來。不同的具體協議，在用非互動取代互動時選擇的方法會有比較大的區別，即便它們都叫zk-SNARK協議，這是額外需要注意的。五、模組化和年輕學科希望上述四點能對你理解零知識證明有所幫助，在文章的最後，是兩個小的可能會出錯的認識。第一，零知識證明協議，比如zk-SNARK，並不是圍繞某個確定的核心公式展開的，它是模組式的，每個模組負責完成自己的工作，然後大家組合到一起。所以如果你想透過抓住一個核心點來理解零知識證明就會比較困難，更好的方法是透過一條線索來理解它。同時，zk-SNARK不是指某個具體的協議，它是一類方法的統稱，組成它的那些模組大體不會變，但這些模組選擇的具體方法是可變的。所以當你看到不同的zk-SNARK時，不用迷惑，跳出來站在模組的高度去看它，而不是陷入具體的方法。第二，或許因為零知識證明是在與數學打交道，它常常帶給人一種古老學科的感覺，但實際上零知識證明的研究還很早期，零知識證明的應用更是剛剛開始。當選擇使用零知識證明時，開發者們並不是只需工程化實現一套成熟的理論，而是要一邊找到/發明方法一邊應用方法。

所以也許我們可以給零知識證明多一些的耐心，它可能是未來數字世界重要的組成部分，它不僅是使用構成數字世界的資料的工具，也是節省數字世界中最稀缺資源的工具。

為何我理解不了零知識證明：ZKP常見誤區分析

推荐阅读

近期文章

新手教程

1什麼是區塊鏈？區塊鏈能做什麼？

2區塊鏈是如何運作的？

3區塊鏈和比特幣的關係？

4比特幣有什麼價值？

5如何購買比特幣？