資料治理需要綜合法律法規、政策標準和技術方法等多種途徑實現。一方面,國際組織和國家相關部門出臺相應的法律法規和政策標準。例如,國際資料治理研究所從組織、規則和過程三方面總結資料治理的要素[11];以及,國際標準ISO/IEC 38505-1:《資訊科技—IT治理—資料治理》為資料治理參與主體提供原則、定義以及模型,幫助資料治理參與主體評估、指導和監督其資料利用的過程[12]。另一方面,資料治理亟需安全、可靠的技術方法,為大資料應用過程中資料隱私保護、提高決策資料質量、促進資料共享和評估監管資料應用的合規性等問題提供技術支援。
圖1 資料治理髮展過程和涉及的參與主體
2. 基於區塊鏈實現資料治理區塊鏈本質上是一種去中心化的分散式資料庫,在增加大資料價值實現過程的透明性方面具有天然的優勢,為解決當前資料治理的關鍵問題提供了可行性。 2.1 支援審計的資料儲存和處理資料決策滲透在人們生產、生活的方方面面,由於涉及多方利益相關者,資料在儲存、處理和共享流通等過程中存在資料被篡改、資料偽造,以及不同來源資料的型別和標準規則差異等問題,這些問題都會影響決策資料質量。所以,資料使用者需要對決策資料進行審計。區塊鏈作為去中心化的分散式資料庫,可以實現支援審計的資料儲存和處理。此外,基於區塊鏈在不同利益主體之間構建去中心分散式資料庫系統,資料透過全網快速廣播至各個利益主體,也能夠保證資料共享流通的真實性和及時性。區塊鏈網路內各節點都儲存資料,資料一旦存入區塊鏈就不會被篡改或者丟失,即使存在通訊故障和蓄意攻擊等問題,也仍然能保證資料儲存的正確性,資料使用者可以對其進行審計。此外,將資料存入區塊鏈還支援資料處理過程和處理結果的可審計性。對於傳統的資料庫管理系統,資料庫中儲存和維護當前資料狀態,僅將資料處理過程等資訊存在資料庫日誌,用於故障恢復,並不支援資料的歷史狀態查詢。然而,區塊鏈作為去中心分散式資料庫,支援資料的歷史狀態查詢,用以確認當前資料狀態是否正確。基於區塊鏈進行資料儲存和處理,在保險[13]、醫療[14-17]和供應鏈[18-21]等資料完整性要求較高領域是有重要意義的。由此,資料使用者可以對決策資料進行審計並在可信資料上執行分析和進行決策[22-25]。針對不同來源資料的型別和標準規則不一致等問題,可以基於區塊鏈和智慧合約制定統一的資料型別和標準規則。智慧合約會被儲存和同步在區塊鏈各個節點,區塊鏈會根據智慧合約上的程式碼自動執行驗證。由於智慧合約的執行過程公開透明,使其執行過程和執行結果是可審計的,能提高多源資料共享效率且不存在單點失敗。2.2 支援溯源問責的資料獲取和共享在傳統的資料獲取和資料共享過程,由資料收集者制定資料使用協議並據此告知使用者資料收集、共享和使用等資訊。使用者作為資料生產者,對資料的知情權和可控權仍然限於法律約束和第三方信用背書。然而,由於資料獲取和共享等過程對外不可見,其契約履行情況也無從考證。2014年皮尤研究中心關於美國隱私狀況的報告指出,91%的受訪者認為他們已經失去對資料收集者收集和使用個人資料的控制,61%的受訪者對不瞭解資料收集者如何使用個人資料感到沮喪[26];2016年《中國網民權益保護調查報告》顯示,84%的網民對個人隱私洩露帶來的不良影響有深切的感受[27]。資料獲取和資料共享不透明導致隱私洩露問題更為嚴峻。傳統的加密、差分等隱私保護技術雖然對資料隱私具有一定的保護作用,但是目前還不足以應對大規模資料收集帶來的隱私洩露風險。應用區塊鏈的去中心性和不可篡改性,可以記錄資料的獲取和共享情況,進一步實施追蹤溯源,並結合策略承諾(Policy Compliance)、違反檢測(Violation Detection)和隱私審計(Privacy Audit),可以在隱私保護技術無效的情況下以溯源問責的方式保護隱私,也可以為評估監管資料和解決資料壟斷問題提供技術支援。目前,已有研究利用區塊鏈增加移動應用[28]、醫療[29,30]和物聯網[31-33]等領域的資料獲取和共享流通的透明性。基於區塊鏈實現資料獲取和共享的框架可以分為四層:資料獲取層—儲存層—區塊鏈層—共享層。在資料獲取層,資料生產者對資料收集內容、形式和目的等具有知情權;在儲存層,採用傳統資料庫管理系統、雲端儲存和分散式儲存系統等方式儲存資料,並採用加密技術對資料進行加密來保護資料安全和隱私;在區塊鏈層,由區塊鏈執行去中心化的訪問控制,使任何資料訪問情況都透過區塊鏈的交易被記錄在區塊鏈;在共享層,實現資料共享並對共享關係進行保護。正是透過上述四層,區塊鏈增加資料獲取和共享流通的透明性。2.3 支援驗證的分散式資料統計分析和機器學習在醫學研究、公共安全和商業合作等一些應用領域,需要在大規模分散式資料集上執行統計分析[34-36]和機器學習任務[37-41],但考慮法律法規等因素的限制,需要在不洩露隱私資料前提下進行分散式資料統計分析和機器學習。針對分散式資料集統計分析,現有方案基於安全多方計算、秘密共享、本地化差分隱私和同態加密等技術實現。然而,安全多方計算方法不適用於大規模資料提供者參與;秘密共享使資料提供者失去資料控制權;本地化差分隱私需要平衡資料的可用性和隱私損失;同態加密能夠保證資料提供者不失去資料控制權,而且不需要考慮隱私損失,但是實現的前提是資料提供者提供真實資料和計算節點的可信計算。針對分散式機器學習,由於資料提供者和資料需求者之間不存在完全的信任,各個資料提供者也可能會提供不可靠的資料或引數擾亂最終結果,以及由於經濟利益等因素提前退出。所以,資料使用者需要對分散式資料集統計分析和分散式機器學習進行驗證,以及需要合理的經濟激勵促進其順利執行。基於區塊鏈實現可驗證的分散式資料集統計分析常包括資料提供者、多個計算節點、多個驗證節點和資料查詢者。其中,資料提供者提供加密資料,多個結算節點執行密文計算,由區塊鏈組成多個驗證節點並對計算節點的計算進行驗證。除此之外,分散式資料集統計分析需要考慮資料機密性、資料提供者和資料之間不可連線性、查詢結果機密性和計算結果的魯棒性等安全和隱私問題。為此通常採用洗牌和同態加密等技術進行保護。基於區塊鏈實現可驗證的和公平的分散式機器學習,資料提供者將本地機器學習引數上傳和儲存至區塊鏈,由區塊鏈執行交叉驗證,將分散式機器學習過程的每一步都記錄在區塊鏈。同時,還可以結合零知識證明和密碼學承諾對惡意的參與方進行經濟懲罰,透過經濟激勵促進公平。除此以外,分散式機器學習需要考慮資料提供者本地引數的安全性,因為本地引數也可能會洩露資料或者機器學習模型。為此通常採用差分隱私、秘密共享和同態加密等技術對其進行保護。3. 基於區塊鏈實現資料治理區塊鏈為資料治理提供了新的思路,但資料治理具體實現過程中也將面臨諸多挑戰,同時對區塊鏈自身技術有了更高的要求。此外,基於區塊鏈實現資料治理會導致政府和企業的管控機制和業務流程發生重大變革,這將對政府管理和企業管理提出新挑戰。目前,資料治理實現過程面臨的挑戰與問題主要包括以下3個方面:(1) 資料治理實現過程中面臨的挑戰。一方面,雖然將資料共享流通訊息記錄在區塊鏈可以實現溯源問責,但是在大規模資料收集和資料共享流通錯綜複雜背景下,如何實現跨平臺和跨領域的溯源問責是具有挑戰性的問題。同時,溯源問責也可能會帶來隱私洩露問題,所以溯源問責過程的隱私保護也至關重要。另一方面,雖然將資料存入區塊鏈,可以一定程度上防止資料篡改和保證資料可以進行追蹤溯源,但是保證資料存入區塊鏈之前的真實性和可靠性仍存在挑戰。(2) 對區塊鏈自身技術提出的新挑戰。區塊鏈自身的儲存需求限制、隱私與安全、可擴充套件性和互操作性等方面還存在大量待解決的問題,現有比特幣、以太坊和超級賬本等主流的區塊鏈還不能滿足資料治理的需求。為此應該考慮設計輕量級的、高可擴充套件的、互聯通性較強的適用於資料治理需求的區塊鏈。同時,伴隨著各類區塊鏈系統的出現,區塊鏈系統評價標準與評估規範也成為亟待解決的問題。(3) 對政府管理和企業管理提出的挑戰。區塊鏈的去中心化特性將打破傳統的中心化管理方式,對政府和企業的管理權威帶來挑戰;同時,去中心化特性還會使資料安全和保密的責任置於多方,對政府和企業的資料管理等方面帶來新的挑戰。此外,基於區塊鏈實現資料治理並據此對資料執行相應的監管措施需要一個過程,而且隨著區塊鏈技術的迅猛發展,將會對傳統的監管制度和法律法規政策提出新的要求。4. 結 語資料治理已經成為國家治理和企業治理的重點領域和重要因素。隨著各個領域資料的不斷開放共享,資料治理對資料共享、資料監管和隱私保護等方面都提出了更高的要求。這些問題透過與區塊鏈相結合可以提升資料治理的效率和透明度,將會有利於構建一個全新的資料資訊時代。與此同時也會帶來諸多新的挑戰,需要多學科、多領域和多部門共同的努力去實現資料治理的新篇章。本文選自《中國科學基金》2020年第34卷第1期“區塊鏈技術及應用”專題作者:中國人民大學資訊學院 孟小峰 劉立新 作者簡介孟小峰:博士,中國人民大學教授,博士生導師,CCF會士,主要研究方向為資料庫理論與系統、大資料管理系統、大資料隱私保護、大資料融合與智慧、大資料實時分析、社會計算等。參考文獻[1]吳信東, 董丙冰, 堵新政, 等. 資料治理技術. 軟體學報, 2019, 30(9): 2830—2856.[2]安小米, 郭明軍, 魏瑋, 等. 大資料治理體系:核心概念、動議及其實現路徑分析. 情報資料工作, 2018, (1): 5—11.[3]Jennifer Zhu Scott. Facebook and Cambridge Analytica: what you need to know as fallout widens.https://www.nytimes.com/2018/03/19/technology/facebook-cambridge-analytica-explained.html. [2018-03-19]/[2020-01-01].[4]孟小峰, 朱敏傑. 資料壟斷與其治理模式研究. 資訊保安研究, 2019, 1(9): 789—797.[5]孟小峰, 張嘯劍. 大資料隱私管理. 計算機研究與發展, 2015, 52(2): 265—281.[6]祝烈煌,高峰,沈孟, 等.區塊鏈隱私保護研究綜述. 計算機研究與發展, 2017, 54(10): 2170—2185.[7]袁勇, 倪曉春, 曾帥, 等. 區塊鏈共識演算法的發展現狀與展望. 自動化學報, 2018, 44(11): 93—104.[8]邵奇峰, 金澈清, 張召, 等. 區塊鏈技術:架構及進展. 計算機學報, 2018, 41(5): 3—22.[9]韓璇, 袁勇, 王飛躍. 區塊鏈安全問題:研究現狀與展望. 自動化學報, 2019, 45(1): 208—227.[10]李芳, 李卓然, 趙赫. 區塊鏈跨鏈技術進展研究. 軟體學報, 2019, (6): 1649—1660.[11]The Data Governance Institute. data governance institute framework. http://www.datagovernance.com/wp-ontent/uploads/2014/11/dgi_framework.pdf. [2014-11-15]/[2020-02-13].[12]國家標準化管理委員會. 《資訊科技—IT治理—資料治理—第1部分:ISO/IEC 38500在資料治理中的應用》. http://www.sac.gov.cn/sgybzeb/gzdt_2132/201705/t20170515_238441.htm. [2017-05-15]/[2020-02-13].[13]Vo H. Blockchainbased data management and analytics for micro-insurance applications//Proc of the ACM Int Conf on Information and Knowledge Management. New York: ACM, 2017: 2539—2542.[14]Vo, H. Research directions in blockchain data management and Analytics//Proc of Int Conf on Extending Database Technology. Bordeaux: Springer LNCS, 2018: 445—448.[15]Vo H. Blockchain-Powered big data analytics platform//Proc of the Int Conf on Big Data Analytics. Berlin: Springer, 2018: 15—32.[16]Shae Z, Tsai J P. On the design of a blockchain platform for clinical trial and precision medicine// Proc of the Int Conf on Distributed Computing Systems. Washington: IEEE, 2017: 1972—1980.[17]Tsai J. Transform blockchain into distributed parallel computing architecture for pecision medicine//Proc of the Int Conf on Distributed Computing Systems. Washington: IEEE, 2018: 1290—1299.[18]Xu XW, Lu QH, Liu Y. Designing blockchain-based applications a case study for imported product traceability. Future Generation Computer Systems 2019, 92: 399—406.[19]Swan M. Blockchain: Blueprint for a new economy //O'Reilly Media Inc, 2015: 1—18. [20]Vasco L, Luís A. An overview of blockchain integration with robotics and artificial intelligence [EB/OL]. arXiv preprint, arXiv: 1810.00329,2018[2018-09-30]. https://arxiv.org/abs/1810.00329[21]Salah K, Rehman MHU, Nizamuddin N, et al. Blockchain for AI: review and open research challenges. IEEE Access, 2019, 7: 10127—10149.[22]Li Y, Zheng K, Yan Y. EtherQL: A query layer for blockchain system// Proc of the Int Conf on Database Systems for Advanced Applications. Berlin: Springer, 2017: 556—567.[23]Xu C, Zhang C, Xu J. vChain: Enabling verifiable boolean range queries over blockchain databases [EB/OL]. arXiv preprint, arXiv:1812.02386,2018[2018-12-06]. https://arxiv.org/abs/1812.02386.[24]Zhang C, Xu C, Xu J, et al. GEM^ 2-Tree: A gas-efficient structure for authenticated range queries in blockchain// Proc of the 35th Int Conf on Data Engineering. Washington: IEEE, 2019: 842—853.[25]P Ruan, Chen G, TTA Dinh. Fine-grained, secure and efficient data provenance on blockchain systems//Proceeding of the Very Large DataBase. California:ACM, 2019:975—988Explainable artificial intelligence: A survey.[26]Pew Research Center. Public perceptions of privacy and security in the post-Snowden era. https://www.pewinternet.org/2014/11/12/public-privacy-perceptions/. [2019-01-30]/[2020-01-01].[27]中國網際網路協會.《中國網民權益保護調查報告2016》.http://www.isc.org.cn/zxzx/xhdt/listinfo-33759.html. [2016-06-26]/[2020-01-01].[28]Zyskind G, Nathan O. Decentralizing privacy: using blockchain to protect personal data// Proc of IEEE Security and Privacy Workshops. Washington: IEEE, 2015: 180—184.[29]Azaria A, Ekblaw A, Vieira T. MedRec: using blockchain for medical data access and permission management// Proc of the Int Conf on Open & Big Data. Washington: IEEE, 2016: 25—30.[30]Dubovitskaya A, Xu Z, Ryu S. Secure and trustable electronic medical records sharing using blockchain. American Medical Informatics Association., 2017, 650—659.[31]Ouaddah A, Abou Elkalam A, Ait Ouahman A. FairAccess: a new blockchain-based access control framework for the Internet of Things. Security and Communication Networks, 2016, 9(18): 5943—5964.[32]Hossein S, Lukas B. Droplet: Decentralized authorization for IoT Data Streams [EB/OL]. arXiv preprint, arXiv: 1806.02057,2018[2018-11-14]. https://arxiv.org/abs/1806.02057.[33]Li R, Song T, Mei B. Blockchain for large-scale internet of things data storage and protection. IEEE Transactions on Services Computing, 2018: 1—8.[34]Henry C, Dan B. Prio: Private, robust, and scalable computation of aggregate statistics// Proc of the 14th USENIX Symposium on Networked Systems Design and Implementation, Berkeley CA: USENIX, 2017: 259—282.[35]Froelicher D, Egger P. UnLynx: a decentralized system for privacy-conscious data sharing// Proc on Privacy Enhancing Technologies. NJ: IEEE, 2017: 232—250.[36]Froelicher D, Juan R. Drynx: Decentralized, secure, verifiable system for statistical queries and machine learning on distributed datasets [EB/OL]. arXiv preprint, arXiv:1902.03785, 2019[2019-02-11]. https://arxiv.org/abs/1902.03785.[37]Nelson Kibichi Bore,Ravi Kiran Raman. Promoting distributed trust in machine learning and computational simulation via a blockchain network. http://arxiv.org/abs/1810.11126.[38]Ravi K, Roman V, Michael H. Trusted multi-party computation and verifiable simulations: a scalable blockchain approach [EB/OL]. arXiv preprint, arXiv:1809.08438,2018[2018-09-22]. https://arxiv.org/abs/1809.08438.[39]Tsung T, Lucila O. ModelChain: decentralized privacy-preserving healthcare predictive modeling framework on private blockchain networks [EB/OL]. arXiv preprint, arXiv:1802.01746,2018[2018-02-06]. https://arxiv.org/abs/1802.01746.[40]Weng J, Zhang J. Deepchain: auditable and privacy-preserving deep learning with blockchain-based incentive. Cryptology ePrint Archive, Report 2018/679.[41]KUO, Tsung-Ting; GABRIEL, Rodney A, et al. Fair compute loads enabled by blockchain: sharing models by alternating client and server roles. Journal of the American Medical Informatics Association, 2019, 26(5): 392—403.