3分鐘讓你瞭解隱私計算+區塊鏈帶來的革命

在大資料時代背景下，資料的價值進一步得到了體現，因此科技公司往往比較關注資料的採集，由於資料的價值與資料維度有密切的關係，所以資料採集的維度也通常比較高，這也有可能會觸及到部分使用者的隱私，因此在大資料時代，人們對於個人隱私資料也越來越關注。根據IDC釋出的資料，截止到2018年底，中國大資料解決方案市場軟硬服總額達到388.8億元人民幣，並有望在2023年超過800億元人民幣，全球市場則將超過3000億美元。在這種背景下，兼顧隱私保護和資料利用的計算方式就成為了企業和學界研究的重點，各國對於隱私資料的監管越嚴厲，隱私計算行業的發展前景就越大。

一、隱私計算的概念

隱私計算的概念最早是在2016年提出的，隱私計算是面向隱私資訊全生命週期保護的計算理論和方法，是隱私資訊的所有權、管理權和使用權分離時隱私度量、隱私洩漏代價、隱私保護與隱私分析複雜性的可計算模型與公理化系統。隱私計算涵蓋了資訊蒐集者、釋出者和使用者在資訊產生、感知、釋出、傳播、儲存、處理、使用、銷燬等全生命週期過程的所有計算操作，幷包含支援海量使用者、高併發、高效能隱私保護的系統設計理論與架構。簡單來說，隱私計算是從資料的產生、收集、儲存、分析、利用、銷燬等環節中對隱私進行保護的方法。

二、隱私計算的三大矛盾

隱私資料的處理過程當中還面臨著三個內部矛盾：安全、效率、資料孤島。

安全方面，目前的大資料行業主要依託於可信第三方的計算服務。這些第三方包括主要應用於科研領域的超算中心和主要應用於商業領域的資料中心。大資料行業的高效能、高投入需求讓規模化、集中化的運算成為了市場主流，2011年起，我國規劃建設了255個資料中心，總設計伺服器規模728萬臺，承擔了我國大部分民用資料的計算服務。但這些集中化、規模化的資料中心可能出現問題也並非危言聳聽：就在今年2月，由於阿里雲程式碼託管平臺的專案許可權設定存在歧義，導致開發者操作失誤，造成至少40家以上企業的200多個專案程式碼洩露，其中涉及到萬科集團、咪咕音樂、51信用卡旗下51足跡、百度無人車合作伙伴ecarx等知名企業。

效率方面，在隱私資訊的生命週期中，受益於密碼學發展，隱私的加密化、匿名化和脫敏技術都已經非常成熟，可以大規模應用在隱私獲取、儲存、流轉等環節中。但大資料時代的到來，讓隱私資料的處理成為了一個難題：大規模的加密資料處理一定會導致計算效能下降，而非加密資料處理又極大概率會導致隱私資訊的洩露。

資料孤島是指的是資料被儲存在無法自由流動的環境之下，互相獨立儲存、獨立維護。資料被視為數字時代的石油，每家企業都想守著自己的資料探勘出巨大的商業價值。甚至資料隱私本身的保護服務，就蘊藏著商業利潤。Gartner就預測2019年全球消費者安全軟體支出將達到66億美元。至於各地的政府部門本身，由於責任邊界、資料共享的技術條件等問題，也缺乏足夠的動力來推動。

以醫院的病歷資料舉例，隨著資訊化的推進醫院已經積累了許多臨床醫療的資料。如果這些資料可以開放出來，被製藥公司、學術機構進行研究，可以幫助我們更好地探索疾病和治療手段。然而，由於隱私保護的原因，醫院並不會這樣做。一方面，它不具備足夠的技術手段，將大量的患者資訊以一種較為安全的途徑傳遞出去。其次，它也無法保證外部機構在拿到這些資料後，會對它們做些什麼。畢竟，病歷資訊屬於個人隱私，誰都不想別人知道自己得了什麼病。這聽上去很合理，卻是一種巨大的浪費。

三、當隱私計算遇上區塊鏈技術

隱私計算雖然是近幾年隨著大資料技術的高速發展而出現的新概念，但其核心理念卻是隨著網際網路誕生就出現的：可信計算（Trusted Computing）由TCPA（可信賴運算平臺聯盟，Trusted Computing Platform Alliance）提出，這個術語來源於可信系統，並且有其特定含義：如果一個實體的行為總是按照預期的方式和目標進行，那它就是可信的。其主要思路是在計算機硬體平臺上引入安全晶片架構，透過提供的安全特性來提高終端系統的安全性。

可信計算的反對者們認為這項技術“太中心化”了。區塊鏈技術適用於解決信任問題，這也是區塊鏈技術天生適合隱私計算的主要原因。雖然區塊鏈能夠解決信任的問題，但其他問題依然存在：區塊鏈的公開透明和全節點驗證，資料將流經區塊鏈上的每個全節點，使其無法很好的處理隱私資料，大資料應用的迅猛發展對隱私保護服務請求的使用者容量、併發程度和能效最佳化提出了極高的要求。在這個過程當中，明文大資料分析會導致隱私洩露，而將資料加密之後，大規模資料密態化又會極大的影響分析效率。

四、Layer-2 隱私計算的破局法則

區塊鏈行業中 Layer-2 的關鍵特徵是計算被移除至鏈下，以實現隱私或節省計算資源的目的。大資料行業中的計算一直有巨規模、多樣化、高增速的特徵，將所有資料上鍊進行計算，一方面讓儲存、通訊成本急劇上升，另一方面也使隱私銷燬無法實現。因此，Layer-2 隱私計算的特徵是，鏈上僅僅作為賬本，對資料資產實現確權和記錄，實際上的計算全部發生在鏈下。鏈下計算的過程中，為避免資料洩露，計算過程往往會發生在 TEE（可信硬體）中，或採用 MPC 的方式進行計算。

基於 TEE（可信硬體）的可信計算協議（Trusted Computing Protocol，簡稱 TCP）。可信執行環境 (TEE) 是 Global Platform (GP) 提出的概念。是移動裝置主處理器上的一個安全區域，其可以保證載入到該環境內部的程式碼和資料的安全性、機密性以及完整性。TEE 提供一個隔離的執行環境，提供的安全特徵包含：隔離執行、可信應用的完整性、可信資料的機密性、安全儲存等。該技術的核心是企業和個人可以把資料處理模型部署在區塊鏈上，在鏈下，例如 Intel SGX 可信執行環境中處理隱私資料，最終把可驗證結果儲存到鏈上並更新狀態。

基於 MPC（安全多方計算，Secure Multi-Party Computation）的方式。MPC是一種在無可信第三方的情況下，安全地計算一個約定函式的方式，計算參與方只需參與計算協議，無需依賴第三方就能完成資料計算，並且各參與方拿到計算結果後也無法推斷出原始資料。MPC當前問題主要在於效能和效率，大部分現有的Demo實現都是基於semi-honest模型，更強的malicious-security模型效能極差；另外MPC是互動式的，即多輪迭代，導致大量網路頻寬的需求，同時需要OT，會對效能造成很大影響。

就基於 TEE 方案的專案而言，由於所有計算過程都在鏈下的可信任環境中，所以不存在密態資料的計算效率問題：加密資料進入可信硬體中進行解密、計算、加密，最終得到加密資料，形成一個黑箱，在保證安全的同時保證了效率。

五、區塊鏈+隱私計算帶來的資料革命

過去人們的隱私資訊被嚴重洩露，主要原因還是資訊保管方式不當，比如學校，公司，賓館，招聘網站，旅遊景點等，這些地方不斷地要你填寫你的各種資訊，但是又不好好保管。

有了隱私計算+區塊鏈技術就不一樣了。你可以選擇把你的資訊以加密方式都存在區塊鏈上，當你需要用你的資訊去填各種表格的時候，可以直接用加密方式提供。對方拿到了加密後的個人資訊，可以直接拿到區塊鏈上去驗證。這樣對方既可以確保你資訊的真實性又免於了直接拿到你的資訊。

舉個例子：你叫李紅，身份證號是 310101199708311528，人長得溫婉可人。你存在區塊鏈上的資訊可能成為了 il99dskkdsf3234dsfs9893jdsjjadsf 等一串長長的密文，人臉像也被雜湊加密。當你入住酒店的時候，你無需出示你的身份證，只需要把密文 il99dskkdsf3234dsfs9893jdsjjadsf 發給需要你資訊的酒店，秘鑰只有你自己知道。酒店可以透過智慧AI對你進行人臉識別，然後你的資料會在一個可信的計算環境中和你鏈上的加密人臉資料進行比對，確定你的入住身份。同時也會比較你的身份密文資料和公安系統通緝要犯庫中的資料密文，如果匹配不成功，那麼你就 OK 了，可以入住。整個過程中，酒店方不會知道你的姓名和住址，但是又能夠確認是你本人，而且不是通緝要犯，沒用假身份證，讓你可以辦理入住。

除此之外，現在進入到了大資料和人工智那能時代。很多大資料需要用使用者的各種資訊來統計，人工智慧也要用使用者資訊來訓練。你也可以有選擇地賣出你的部分個人資訊，作為回報。大資料公司和人工智慧訓練實驗室會付給你相應的價格作為回報。

再舉個例子，某家電商想用使用者資料做一個推薦演算法，又沒辦法拿到淘寶或者京東的使用者資料。直接買，又擔心有人刷單薅羊毛。但是如果接入了區塊鏈。那我可以只賣出我的淘寶購物資料和京東購物資料，而不提供出我的快遞地址，姓名，支付寶號等。因為都記在區塊鏈上，我既沒法辦法把相同資料賣給這家電商兩次，又沒法賣給電商假資料。作為回報，店家給我支付酬勞，並且獲了真正的資料來幫助他自己完善演算法，一舉兩得。

每個人的隱私資訊被保護地更好了，而且獲得了收益。但是同時，公司和機構又得到了更精準，更有效的訊息。這就是隱私計算+區塊鏈的魅力。

3分鐘讓你瞭解隱私計算+區塊鏈帶來的革命

推荐阅读

近期文章

新手教程

1什麼是區塊鏈？區塊鏈能做什麼？

2區塊鏈是如何運作的？

3區塊鏈和比特幣的關係？

4比特幣有什麼價值？

5如何購買比特幣？