區塊鏈與資料治理

買賣虛擬貨幣
大資料時代,資料來源源不斷產生並自主匯聚至多方資料收集者,資料已經成為企業間競爭的關鍵和影響國家競爭力的重要因素,由此資料治理成為企業治理和國家治理的重點領域和重要方式[1,2] 。然而,大規模資料收集也帶來嚴峻的隱私洩露、資料濫用和資料決策不可信等問題,對傳統的資料治理提出了新的挑戰。例如,“Facebook-劍橋分析”事件[3]就是大規模資料收集導致的隱私洩露、資料濫用和決策不可信的典型案例。進一步,大規模資料自主匯聚還導致資料壟斷困境的出現,使資料被不合理的分配與享用[4]。大資料的“堰塞湖”已經產生,如何使這些問題得到有效解決,並使資料得到正確和規範的使用是決定大資料繼續發揮價值的關鍵,也是目前資料治理亟待解決的問題。上述問題產生的主要原因是大資料價值實現過程的不透明。大資料收集和共享流透過程不透明導致隱私洩露和資料濫用等問題追蹤問責困難,並且致使資料壟斷問題悄然形成卻缺乏評估和解決依據;大資料儲存、處理和共享流通等過程中缺乏透明導致資料被篡改等問題難以被發現,影響決策資料質量並最終導致資料決策不可信。由此可以得出,當前資料治理的根本保障在於增加大資料價值實現過程的透明性。資料收集和共享流透過程透明地對資料流向進行記錄,以溯源問責的方式進行隱私保護[5]和為解決資料壟斷提供依據;資料儲存、處理和共享流通等過程透明使決策資料可審計和促進資料決策可信。資料治理實現途徑有多種方式,除了法律法規和政策標準,還需要技術方法的保駕護航。區塊鏈起源於數字貨幣,具有公開透明、去中心和不可篡改的特性。該技術的進步發展為解決當前資料治理面臨的問題帶來新的機遇[6-10]。本文提出了資料治理的根本保障在於增加大資料價值實現過程中的透明性,總結了資料治理的發展歷程和技術上實現資料治理的關鍵內容,並對基於區塊鏈實現資料治理的研究現狀進行分析和總結,最後提出目前資料治理面臨的挑戰。1. 資料治理概述介“治理”(Governance)一詞起源於拉丁文“掌舵”(Steering),最初用於“政府治理”,目標是協調政府與其他社會主體之間的利益。後來逐漸受到企業的認同和重視,出現了“企業治理”,目標是協調企業內部利益相關者的利益。伴隨著IT資源和資料資源的日益豐富,又出現了“IT治理”和“資料治理”[1,2]。後來,由於大資料的流通性、多源資料融合和涉及多方參與主體等應用特性,“資料治理”又進一步延伸,出現了“大資料治理”。“大資料治理”關注大資料生命週期中資料生產者、資料收集者、資料使用者、資料處理者和資料監管者等各方參與主體,其目標是在兼顧各方參與主體的權利、責任和利益的前提下發揮資料價值,即大資料價值實現和風險規避。由於“大資料治理”是“資料治理”的延伸,為避免混淆,本文後續內容採用“資料治理”的概念來探討大資料時代的資料治理。資料治理的發展過程和涉及的參與主體如圖1所示。
大資料的應用特性與資料治理的目標決定了當下資料治理的關鍵內容。目前,資料治理的關鍵內容和挑戰聚焦在以下3個方面:(1) 提高決策資料質量。大資料價值實現需要多源資料的融合,然而大資料來源廣泛且生命週期內涉及多方參與主體,資料是否真實產生、資料被篡改和多源資料的標準和型別不一致等問題都會影響決策資料質量,進而影響資料使用者的資料決策結果。所以,資料治理需要支援大資料在其全生命週期內的溯源。(2) 評估與監管個人隱私資料的使用。大資料應用的流通特徵使資料生產者對資料獲取和共享缺乏知情權和控制權。作為資料生產者,使用者不知道哪些資料被收集、被誰收集、收集之後流向哪裡和作何使用。同時,資料的收集匯聚導致資料壟斷現象出現。資料壟斷可能會阻礙市場競爭、使消費者福利受損、阻礙行業技術創新和帶來更嚴重的個人隱私洩露風險等問題,但資料監管者卻無法對資料應用進行評估和監管;此外,大資料應用的多源資料融合特徵還可能會引發更嚴峻的隱私洩露問題。所以,資料治理需要對個人隱私資料使用進行評估與監管。(3) 促進資料共享。資料共享可以促進大資料價值實現和緩解資料壟斷,但同時也需要解決隱私保護等問題。一方面,資料共享雙方之間發生資料共享流通時,考慮到隱私問題,需要以有效的方式保護資料生產者的個人隱私。另一方面,限於法律和實際應用中的一些因素,需要在不直接傳輸原始資料情況下,依據多方資料持有者的資料實現分散式資料集進行統計分析和分散式機器學習。由於多方參與者之間不存在完全的可信性,此時應該能夠保護資料使用者對其共享過程進行驗證。所以,資料治理需要在權衡資料生產者和資料使用者等參與主體利益的前提下促進資料共享。

資料治理需要綜合法律法規、政策標準和技術方法等多種途徑實現。一方面,國際組織和國家相關部門出臺相應的法律法規和政策標準。例如,國際資料治理研究所從組織、規則和過程三方面總結資料治理的要素[11];以及,國際標準ISO/IEC 38505-1:《資訊科技—IT治理—資料治理》為資料治理參與主體提供原則、定義以及模型,幫助資料治理參與主體評估、指導和監督其資料利用的過程[12]。另一方面,資料治理亟需安全、可靠的技術方法,為大資料應用過程中資料隱私保護、提高決策資料質量、促進資料共享和評估監管資料應用的合規性等問題提供技術支援。

圖1   資料治理髮展過程和涉及的參與主體
2. 基於區塊鏈實現資料治理區塊鏈本質上是一種去中心化的分散式資料庫,在增加大資料價值實現過程的透明性方面具有天然的優勢,為解決當前資料治理的關鍵問題提供了可行性。 2.1   支援審計的資料儲存和處理資料決策滲透在人們生產、生活的方方面面,由於涉及多方利益相關者,資料在儲存、處理和共享流通等過程中存在資料被篡改、資料偽造,以及不同來源資料的型別和標準規則差異等問題,這些問題都會影響決策資料質量。所以,資料使用者需要對決策資料進行審計。區塊鏈作為去中心化的分散式資料庫,可以實現支援審計的資料儲存和處理。此外,基於區塊鏈在不同利益主體之間構建去中心分散式資料庫系統,資料透過全網快速廣播至各個利益主體,也能夠保證資料共享流通的真實性和及時性。區塊鏈網路內各節點都儲存資料,資料一旦存入區塊鏈就不會被篡改或者丟失,即使存在通訊故障和蓄意攻擊等問題,也仍然能保證資料儲存的正確性,資料使用者可以對其進行審計。此外,將資料存入區塊鏈還支援資料處理過程和處理結果的可審計性。對於傳統的資料庫管理系統,資料庫中儲存和維護當前資料狀態,僅將資料處理過程等資訊存在資料庫日誌,用於故障恢復,並不支援資料的歷史狀態查詢。然而,區塊鏈作為去中心分散式資料庫,支援資料的歷史狀態查詢,用以確認當前資料狀態是否正確。基於區塊鏈進行資料儲存和處理,在保險[13]、醫療[14-17]和供應鏈[18-21]等資料完整性要求較高領域是有重要意義的。由此,資料使用者可以對決策資料進行審計並在可信資料上執行分析和進行決策[22-25]。
針對不同來源資料的型別和標準規則不一致等問題,可以基於區塊鏈和智慧合約制定統一的資料型別和標準規則。智慧合約會被儲存和同步在區塊鏈各個節點,區塊鏈會根據智慧合約上的程式碼自動執行驗證。由於智慧合約的執行過程公開透明,使其執行過程和執行結果是可審計的,能提高多源資料共享效率且不存在單點失敗。2.2   支援溯源問責的資料獲取和共享在傳統的資料獲取和資料共享過程,由資料收集者制定資料使用協議並據此告知使用者資料收集、共享和使用等資訊。使用者作為資料生產者,對資料的知情權和可控權仍然限於法律約束和第三方信用背書。然而,由於資料獲取和共享等過程對外不可見,其契約履行情況也無從考證。2014年皮尤研究中心關於美國隱私狀況的報告指出,91%的受訪者認為他們已經失去對資料收集者收集和使用個人資料的控制,61%的受訪者對不瞭解資料收集者如何使用個人資料感到沮喪[26];2016年《中國網民權益保護調查報告》顯示,84%的網民對個人隱私洩露帶來的不良影響有深切的感受[27]。資料獲取和資料共享不透明導致隱私洩露問題更為嚴峻。傳統的加密、差分等隱私保護技術雖然對資料隱私具有一定的保護作用,但是目前還不足以應對大規模資料收集帶來的隱私洩露風險。應用區塊鏈的去中心性和不可篡改性,可以記錄資料的獲取和共享情況,進一步實施追蹤溯源,並結合策略承諾(Policy Compliance)、違反檢測(Violation Detection)和隱私審計(Privacy Audit),可以在隱私保護技術無效的情況下以溯源問責的方式保護隱私,也可以為評估監管資料和解決資料壟斷問題提供技術支援。目前,已有研究利用區塊鏈增加移動應用[28]、醫療[29,30]和物聯網[31-33]等領域的資料獲取和共享流通的透明性。基於區塊鏈實現資料獲取和共享的框架可以分為四層:資料獲取層—儲存層—區塊鏈層—共享層。在資料獲取層,資料生產者對資料收集內容、形式和目的等具有知情權;在儲存層,採用傳統資料庫管理系統、雲端儲存和分散式儲存系統等方式儲存資料,並採用加密技術對資料進行加密來保護資料安全和隱私;在區塊鏈層,由區塊鏈執行去中心化的訪問控制,使任何資料訪問情況都透過區塊鏈的交易被記錄在區塊鏈;在共享層,實現資料共享並對共享關係進行保護。正是透過上述四層,區塊鏈增加資料獲取和共享流通的透明性。2.3   支援驗證的分散式資料統計分析和機器學習在醫學研究、公共安全和商業合作等一些應用領域,需要在大規模分散式資料集上執行統計分析[34-36]和機器學習任務[37-41],但考慮法律法規等因素的限制,需要在不洩露隱私資料前提下進行分散式資料統計分析和機器學習。針對分散式資料集統計分析,現有方案基於安全多方計算、秘密共享、本地化差分隱私和同態加密等技術實現。然而,安全多方計算方法不適用於大規模資料提供者參與;秘密共享使資料提供者失去資料控制權;本地化差分隱私需要平衡資料的可用性和隱私損失;同態加密能夠保證資料提供者不失去資料控制權,而且不需要考慮隱私損失,但是實現的前提是資料提供者提供真實資料和計算節點的可信計算。針對分散式機器學習,由於資料提供者和資料需求者之間不存在完全的信任,各個資料提供者也可能會提供不可靠的資料或引數擾亂最終結果,以及由於經濟利益等因素提前退出。所以,資料使用者需要對分散式資料集統計分析和分散式機器學習進行驗證,以及需要合理的經濟激勵促進其順利執行。
基於區塊鏈實現可驗證的分散式資料集統計分析常包括資料提供者、多個計算節點、多個驗證節點和資料查詢者。其中,資料提供者提供加密資料,多個結算節點執行密文計算,由區塊鏈組成多個驗證節點並對計算節點的計算進行驗證。除此之外,分散式資料集統計分析需要考慮資料機密性、資料提供者和資料之間不可連線性、查詢結果機密性和計算結果的魯棒性等安全和隱私問題。為此通常採用洗牌和同態加密等技術進行保護。基於區塊鏈實現可驗證的和公平的分散式機器學習,資料提供者將本地機器學習引數上傳和儲存至區塊鏈,由區塊鏈執行交叉驗證,將分散式機器學習過程的每一步都記錄在區塊鏈。同時,還可以結合零知識證明和密碼學承諾對惡意的參與方進行經濟懲罰,透過經濟激勵促進公平。除此以外,分散式機器學習需要考慮資料提供者本地引數的安全性,因為本地引數也可能會洩露資料或者機器學習模型。為此通常採用差分隱私、秘密共享和同態加密等技術對其進行保護。3. 基於區塊鏈實現資料治理區塊鏈為資料治理提供了新的思路,但資料治理具體實現過程中也將面臨諸多挑戰,同時對區塊鏈自身技術有了更高的要求。此外,基於區塊鏈實現資料治理會導致政府和企業的管控機制和業務流程發生重大變革,這將對政府管理和企業管理提出新挑戰。目前,資料治理實現過程面臨的挑戰與問題主要包括以下3個方面:(1) 資料治理實現過程中面臨的挑戰。一方面,雖然將資料共享流通訊息記錄在區塊鏈可以實現溯源問責,但是在大規模資料收集和資料共享流通錯綜複雜背景下,如何實現跨平臺和跨領域的溯源問責是具有挑戰性的問題。同時,溯源問責也可能會帶來隱私洩露問題,所以溯源問責過程的隱私保護也至關重要。另一方面,雖然將資料存入區塊鏈,可以一定程度上防止資料篡改和保證資料可以進行追蹤溯源,但是保證資料存入區塊鏈之前的真實性和可靠性仍存在挑戰。(2) 對區塊鏈自身技術提出的新挑戰。區塊鏈自身的儲存需求限制、隱私與安全、可擴充套件性和互操作性等方面還存在大量待解決的問題,現有比特幣、以太坊和超級賬本等主流的區塊鏈還不能滿足資料治理的需求。為此應該考慮設計輕量級的、高可擴充套件的、互聯通性較強的適用於資料治理需求的區塊鏈。同時,伴隨著各類區塊鏈系統的出現,區塊鏈系統評價標準與評估規範也成為亟待解決的問題。
(3) 對政府管理和企業管理提出的挑戰。區塊鏈的去中心化特性將打破傳統的中心化管理方式,對政府和企業的管理權威帶來挑戰;同時,去中心化特性還會使資料安全和保密的責任置於多方,對政府和企業的資料管理等方面帶來新的挑戰。此外,基於區塊鏈實現資料治理並據此對資料執行相應的監管措施需要一個過程,而且隨著區塊鏈技術的迅猛發展,將會對傳統的監管制度和法律法規政策提出新的要求。4. 結   語資料治理已經成為國家治理和企業治理的重點領域和重要因素。隨著各個領域資料的不斷開放共享,資料治理對資料共享、資料監管和隱私保護等方面都提出了更高的要求。這些問題透過與區塊鏈相結合可以提升資料治理的效率和透明度,將會有利於構建一個全新的資料資訊時代。與此同時也會帶來諸多新的挑戰,需要多學科、多領域和多部門共同的努力去實現資料治理的新篇章。本文選自《中國科學基金》2020年第34卷第1期“區塊鏈技術及應用”專題作者:中國人民大學資訊學院 孟小峰 劉立新 作者簡介
孟小峰:博士,中國人民大學教授,博士生導師,CCF會士,主要研究方向為資料庫理論與系統、大資料管理系統、大資料隱私保護、大資料融合與智慧、大資料實時分析、社會計算等。參考文獻[1]吳信東, 董丙冰, 堵新政, 等. 資料治理技術. 軟體學報, 2019, 30(9): 2830—2856.[2]安小米, 郭明軍, 魏瑋, 等. 大資料治理體系:核心概念、動議及其實現路徑分析. 情報資料工作, 2018, (1): 5—11.[3]Jennifer Zhu Scott. Facebook and Cambridge Analytica: what you need to know as fallout widens.https://www.nytimes.com/2018/03/19/technology/facebook-cambridge-analytica-explained.html. [2018-03-19]/[2020-01-01].
[4]孟小峰, 朱敏傑. 資料壟斷與其治理模式研究. 資訊保安研究, 2019, 1(9): 789—797.[5]孟小峰, 張嘯劍. 大資料隱私管理. 計算機研究與發展, 2015, 52(2): 265—281.[6]祝烈煌,高峰,沈孟, 等.區塊鏈隱私保護研究綜述. 計算機研究與發展, 2017, 54(10): 2170—2185.[7]袁勇, 倪曉春, 曾帥, 等. 區塊鏈共識演算法的發展現狀與展望. 自動化學報, 2018, 44(11): 93—104.[8]邵奇峰, 金澈清, 張召, 等. 區塊鏈技術:架構及進展. 計算機學報, 2018, 41(5): 3—22.[9]韓璇, 袁勇, 王飛躍. 區塊鏈安全問題:研究現狀與展望. 自動化學報, 2019, 45(1): 208—227.
[10]李芳, 李卓然, 趙赫. 區塊鏈跨鏈技術進展研究. 軟體學報, 2019, (6): 1649—1660.[11]The Data Governance Institute. data governance institute framework. http://www.datagovernance.com/wp-ontent/uploads/2014/11/dgi_framework.pdf. [2014-11-15]/[2020-02-13].[12]國家標準化管理委員會. 《資訊科技—IT治理—資料治理—第1部分:ISO/IEC 38500在資料治理中的應用》. http://www.sac.gov.cn/sgybzeb/gzdt_2132/201705/t20170515_238441.htm. [2017-05-15]/[2020-02-13].[13]Vo H. Blockchainbased data management and analytics for micro-insurance applications//Proc of the ACM Int Conf on Information and Knowledge Management. New York: ACM, 2017: 2539—2542.[14]Vo, H. Research directions in blockchain data management and Analytics//Proc of Int Conf on Extending Database Technology. Bordeaux: Springer LNCS, 2018: 445—448.
[15]Vo H. Blockchain-Powered big data analytics platform//Proc of the Int Conf on Big Data Analytics. Berlin: Springer, 2018: 15—32.[16]Shae Z, Tsai J P. On the design of a blockchain platform for clinical trial and precision medicine// Proc of the Int Conf on Distributed Computing Systems. Washington: IEEE, 2017: 1972—1980.[17]Tsai J. Transform blockchain into distributed parallel computing architecture for pecision medicine//Proc of the Int Conf on Distributed Computing Systems. Washington: IEEE, 2018: 1290—1299.[18]Xu XW, Lu QH, Liu Y. Designing blockchain-based applications a case study for imported product traceability. Future Generation Computer Systems 2019, 92: 399—406.[19]Swan M. Blockchain: Blueprint for a new economy //O'Reilly Media Inc, 2015: 1—18. [20]Vasco L, Luís A. An overview of blockchain integration with robotics and artificial intelligence [EB/OL]. arXiv preprint, arXiv: 1810.00329,2018[2018-09-30]. https://arxiv.org/abs/1810.00329
[21]Salah K, Rehman MHU, Nizamuddin N, et al. Blockchain for AI: review and open research challenges. IEEE Access, 2019, 7: 10127—10149.[22]Li Y, Zheng K, Yan Y. EtherQL: A query layer for blockchain system// Proc of the Int Conf on Database Systems for Advanced Applications. Berlin: Springer, 2017: 556—567.[23]Xu C, Zhang C, Xu J. vChain: Enabling verifiable boolean range queries over blockchain databases [EB/OL]. arXiv preprint, arXiv:1812.02386,2018[2018-12-06]. https://arxiv.org/abs/1812.02386.[24]Zhang C, Xu C, Xu J, et al. GEM^ 2-Tree: A gas-efficient structure for authenticated range queries in blockchain// Proc of the 35th Int Conf on Data Engineering. Washington: IEEE, 2019: 842—853.[25]P Ruan, Chen G, TTA Dinh. Fine-grained, secure and efficient data provenance on blockchain systems//Proceeding of the Very Large DataBase. California:ACM, 2019:975—988Explainable artificial intelligence: A survey.[26]Pew Research Center. Public perceptions of privacy and security in the post-Snowden era. 
https://www.pewinternet.org/2014/11/12/public-privacy-perceptions/. [2019-01-30]/[2020-01-01].[27]中國網際網路協會.《中國網民權益保護調查報告2016》.http://www.isc.org.cn/zxzx/xhdt/listinfo-33759.html. [2016-06-26]/[2020-01-01].[28]Zyskind G, Nathan O. Decentralizing privacy: using blockchain to protect personal data// Proc of IEEE Security and Privacy Workshops. Washington: IEEE, 2015: 180—184.[29]Azaria A, Ekblaw A, Vieira T. MedRec: using blockchain for medical data access and permission management// Proc of the Int Conf on Open & Big Data. Washington: IEEE, 2016: 25—30.[30]Dubovitskaya A, Xu Z, Ryu S. Secure and trustable electronic medical records sharing using blockchain. American Medical Informatics Association., 2017, 650—659.
[31]Ouaddah A, Abou Elkalam A, Ait Ouahman A. FairAccess: a new blockchain-based access control framework for the Internet of Things. Security and Communication Networks, 2016, 9(18): 5943—5964.[32]Hossein S, Lukas B. Droplet: Decentralized authorization for IoT Data Streams [EB/OL]. arXiv preprint, arXiv: 1806.02057,2018[2018-11-14]. https://arxiv.org/abs/1806.02057.[33]Li R, Song T, Mei B. Blockchain for large-scale internet of things data storage and protection. IEEE Transactions on Services Computing, 2018: 1—8.[34]Henry C, Dan B. Prio: Private, robust, and scalable computation of aggregate statistics// Proc of the 14th USENIX Symposium on Networked Systems Design and Implementation, Berkeley CA: USENIX, 2017: 259—282.[35]Froelicher D, Egger P. UnLynx: a decentralized system for privacy-conscious data sharing// Proc on Privacy Enhancing Technologies. NJ: IEEE, 2017: 232—250.[36]Froelicher D, Juan R. Drynx: Decentralized, secure, verifiable system for statistical queries and machine learning on distributed datasets [EB/OL]. arXiv preprint, arXiv:1902.03785, 2019[2019-02-11]. https://arxiv.org/abs/1902.03785.
[37]Nelson Kibichi Bore,Ravi Kiran Raman. Promoting distributed trust in machine learning and computational simulation via a blockchain network. http://arxiv.org/abs/1810.11126.[38]Ravi K, Roman V, Michael H. Trusted multi-party computation and verifiable simulations: a scalable blockchain approach [EB/OL]. arXiv preprint, arXiv:1809.08438,2018[2018-09-22]. https://arxiv.org/abs/1809.08438.[39]Tsung T, Lucila O. ModelChain: decentralized privacy-preserving healthcare predictive modeling framework on private blockchain networks [EB/OL]. arXiv preprint, arXiv:1802.01746,2018[2018-02-06]. https://arxiv.org/abs/1802.01746.[40]Weng J, Zhang J. Deepchain: auditable and privacy-preserving deep learning with blockchain-based incentive. Cryptology ePrint Archive, Report 2018/679.[41]KUO, Tsung-Ting; GABRIEL, Rodney A, et al. Fair compute loads enabled by blockchain: sharing models by alternating client and server roles. Journal of the American Medical Informatics Association, 2019, 26(5): 392—403.

免責聲明:

  1. 本文版權歸原作者所有,僅代表作者本人觀點,不代表鏈報觀點或立場。
  2. 如發現文章、圖片等侵權行爲,侵權責任將由作者本人承擔。
  3. 鏈報僅提供相關項目信息,不構成任何投資建議

推荐阅读

;