鄒傳偉:區塊鏈在資料要素市場中的應用

買賣虛擬貨幣

摘要

本文為萬向區塊鏈“融合創新”系列行業研究文章,作者為萬向區塊鏈首席經濟學家鄒傳偉博士。

本文采取“化整為零”方法,先將資料價值鏈分為資料記錄和獲取,資料收集、驗證和儲存,資料分析,以及資料要素配置等4個環節,再依次討論區塊鏈在這些環節能發揮的作用。

關鍵詞:區塊鏈、資料要素市場

區塊鏈和資料要素市場是當前兩個備受關注的領域。今年4月,中共中央和國務院《關於構建更加完善的要素市場化配置體制機制的意見》首次將資料列為要素之一,國家發改委在對“新基建”的界定中將區塊鏈定位於新技術基礎設施。很多專業和學者討論了區塊鏈在資料要素市場中的應用,高度肯定這方面應用對保護和使用個人資料以及為AI發展完善資料基礎的重要意義。但與區塊鏈在央行數字貨幣、穩定幣、供應鏈金融、存證和防偽溯源等領域的應用不同,資料要素市場本身處於發展早期,在很多核心問題上尚無定論,這使得關於區塊鏈在資料要素市場中的應用的討論很難深入。

本文在之前研究的基礎上,討論區塊鏈在資料價值鏈的不同環節能發揮的作用。根據全球行動通訊系統協會2018年報告[1],資料價值鏈主要可分為4個環節(圖1):一是資料生成,指資料記錄和獲取。二是資料收集、驗證和儲存。三是資料分析,指處理和分析資料以產生新的洞見和知識。四是交換,指對資料分析結果的使用,既可以是內部用,也可以對外轉讓,這個環節稱為“資料要素配置”更合適。本文共分5部分,前4部分依次按上述4個環節展開,重點是對第4個環節的討論,第5部分總結全文。

圖1:資料價值的主要環節

區塊鏈在資料記錄和獲取中的應用

區塊鏈是關於Token的分散式賬本,Token本質上是區塊鏈內定義的狀態變數(第4部分將討論Token在支付領域的另一個含義)。區塊鏈內既存在與Token及其交易有關的資料,也存在與Token及其交易無關的資料。

與Token及其交易有關的資料——區塊鏈各地址內有多少Token以及不同地址之間的Token交易記錄——原生於區塊鏈並被區塊鏈記錄下來,是數學規則的產物,真實準確性由密碼學、共識演算法等保證。從佔用區塊鏈記憶體儲空間的比例以及驗證節點(礦工)投入的計算資源來衡量,這部分資料在區塊鏈內資料中居於主導地位,也是區塊鏈內“價值含量”最高的資料。比如,在央行數字貨幣和穩定幣等應用中,這部分資料是分析資金流動和實施反洗錢、反恐怖融資等監管的基礎。再比如,在加密貨幣定價中,鏈內交易資料是重要的估值參考。

與Token及其交易無關的資料作為Token交易的附加被寫入區塊鏈內。寫入區塊鏈意味著全網可見,不可篡改,並且在複製、傳播中不會出錯,但區塊鏈本身不能保證這些資料在源頭和寫入環節的真實準確性。因為區塊鏈記憶體儲容量的限制,這部分資料在很多時候只能以雜湊摘要形式寫入區塊鏈,只有少量結構化資訊才能以原始資料形式上鍊。因此,在現實世界無時無刻不在產生的瀚如煙海的資料中,能以原始資料形式上鍊的比例幾乎可以忽略。這說明,區塊鏈不是一個有一般用途的賬本或資料庫,應該用其所長,只有價值足夠高的資料才值得以原始資料形式上鍊。

雜湊摘要上鍊主要作用是存證[2],為存放在本地裝置或雲端上的原始資料增信——在事後透過揭示原始資料(比如允許外部機構穿透到存放原始資料的本地裝置),證明兩點:一是在區塊鏈記錄的上傳時點,原始資料確實存在;二是上傳者確實知道原始資料。但不宜拔高理解區塊鏈的存證和為資料增信的作用。特別是,對並非原生於區塊鏈的資料,其可信度離不開專門的資料記錄和獲取技術以及相關制度的支援,比如接下來將討論的“區塊鏈+物聯網” 對物聯網資料的管理。

物聯網裝置不斷從周邊獲取地理位置、溫溼度、速度和高度等資料。在目前的端側抗攻擊技術下,物聯網資料在源頭的真實準確性有相當程度的保障。物聯網資料主要存放在雲上和物聯網裝置本地。大部分物聯網能夠執行雜湊演算法和公私鑰簽名運算。在物聯網資料上鍊中,只有少量結構化資料可以直接寫入區塊鏈,大部分資料是以雜湊摘要的形式上鍊。因此,在“區塊鏈+物聯網”對物聯網資料的管理中,相關操作均由物聯網裝置自動執行,效率非常高,也減少了人為干預。

“區塊鏈+物聯網”為理解區塊鏈在資料記錄和獲取中的應用提供了基準。在物聯網資料以外,很多資料在記錄和獲取中受人為因素影響很大,是否值得上鍊,需要算成本和收益的細賬。

區塊鏈在資料收集、驗證和儲存中的應用

資料收集、驗證和儲存主要靠資料庫技術,區塊鏈能直接發揮的作用有限。比如,金融領域對個人資料的管理,現在普遍強調API技術的應用,透過資料聚合產生複合價值。

如第一部分討論的,區塊鏈能儲存的資料非常有限。絕大部分資料存放在本地裝置或雲端上,但可以透過雜湊摘要上鍊來增信。另外,如果資料收集、驗證和儲存透過由不同機構組成的市場分工網路進行,那麼理論上,這個市場分工網路可以構建在區塊鏈上。分散式儲存專案Filecoin可以視為這個方向的嘗試[3]。這個方向要取得大範圍成功,需要做好分散式經濟體的機制設計。我把相關的經濟學問題概括為分散式資料經濟體(Decentralized Data Economy),將在第4部分討論。

區塊鏈在資料分析中的應用

區塊鏈在資料分析中能直接發揮的作用也非常有限。因為區塊鏈內計算效能的限制,複雜的資料分析工作一般不透過區塊鏈內智慧合約進行,而主要靠統計學、計量經濟學、資料視覺化、大資料分析和AI等技術,相關計算髮生在區塊鏈外。

如果資料分析也透過不同機構組成的市場分工網路進行(比如,一些機構提供算力,另一些機構提供演算法),那麼理論上,也可以引入基於區塊鏈的分散式資料經濟體。比如,PlatON專案致力於建設一個高效能的計算網路,以促進資料和算力的流通,主要的市場參與者包括計算協調方、資料提供方和算力提供方等[4]。

區塊鏈在資料要素配置中的應用

區塊鏈作為一項帶有生產關係色彩的整合型技術,在資料要素市場中的應用將主要體現在資料要素配置環節。接下來將從資料要素確權和資料要素市場的組織形式兩個層次討論這一問題。

(一)資料要素確權

經濟學研究表明,任何資源有效配置的前提都是確定資源的產權,資料要素也不例外。產權是一個複雜的經濟學概念,指一種可執行的社會架構,該架構決定資源如何被使用或擁有的。產權有三個核心維度:第一,使用資源的權利;第二,從資源中獲得收益的權利;第三,將資源轉移給他人,改變資源,放棄資源,以及損毀資源的權利。產權可以細分為所有權、佔有權、支配權、使用權、收益權和處置權等“權利束”。

資料兼有商品和服務的特點,很多資料是非排他性的和非競爭性的,資料的所有權不管在法律上還是在實踐中都是一個複雜問題,特別對個人資料。現實中,能清晰界定所有權的資料的典型代表是專利,但從專利更能看出資料確權的複雜性。

取得專利權的前提是公開發明的技術內容,以便大眾作進一步改良,避免重複研發的資源浪費。比如,專利審理機關一般會在發明專利申請後約18個月將專利說明書內容公開。專利權人在法定期間內享有專利技術的排他權,享有商業上的特權利益。這是為保護髮明人的權利,鼓勵大眾從事發明。當專利權法定期間屆滿時,專利權即告消滅,民眾可根據專利說明書所揭露的內容,自由運用其專利技術。

從全球實踐看,資料要素確權是法律和技術共同作用下的產物,一般先由法律確定資料產權的制度框架,再由技術來保證這些制度框架的可執行性。比如,現在很多報刊雜誌是付費的,只有付費賬戶才能閱讀文章,並透過技術來限制對文章的複製和截圖,如果發現有人抄襲就透過法律來維護權益。在很多場合,只靠技術是沒法對資料要素確權。第一部分討論了區塊鏈的存證作用。資料存證不等於資料確權。比如,發明人可以把發明檔案的雜湊摘要放到區塊鏈上,證明自己最早做出相關發明,將來出現糾紛時有 “自證清白”功能。但如果不經過專利審查機關的核準,發明檔案上鍊不意味著專利權。

一些專家和學者認為,只有所有權清晰的資料才能進入資料要素市場。這是很大的誤解。“所有權清晰+買斷式交易”模式只適合像專利這樣的特殊型別資料(比如很多企業兼併收購交易就包含對專利的定價),但不會成為資料要素市場的主流。在實踐中,資料要素市場成立的前提是對資料的有效控制,也就是控制誰(Who)能在何種條件下(What)以何種方式(How)使用資料。換言之,資料產權歸根結底體現為對資料的有效控制。這個角度有助於理解區塊鏈在資料要素確權中的作用。

在區塊鏈內,地址能隱藏實際控制者的身份,雜湊摘要能隱藏原始資料,但區塊鏈本身不是隱私管理技術。特別是,公鏈內資料是全網可見的,需要配合環簽名、混幣和合幣等技術才能隱藏鏈內資金流向。聯盟鏈可以實現對資料的有差異開放,讓不同使用者在讀取區塊鏈內資料上有不同許可權。但正如第一部分討論的,區塊鏈記憶體儲的資料畢竟有限,區塊鏈在資料控制上的直接作用也是有限的。比如,“區塊鏈+政務資料共享”類專案中,政務資料存放在本地裝置上(一般是政府部門內部的保密網路),跨政府部門的資料呼叫仍透過傳統方法進行,原始資料不可能在區塊鏈上流通,但區塊鏈會記錄資料申請、授權、呼叫和訪問等記錄,做到不可抵賴,主要為事後審計留痕。

在各種資料控制技術中,與區塊鏈關係最大的是密碼學技術,包括可驗證計算、同態加密和安全多方計算等。對複雜的計算任務,可驗證計算會生成一個簡短證明。只要驗證這個簡短證明,就能判斷計算任務是否被準確執行,不需要重複執行計算任務。在同態加密和安全多方計算下,對外提供資料時,採取密文而非明文形式。這些密碼學技術使得“資料可用不可見”,但因為對計算資源的要求很高,只能在區塊鏈外進行。

在各種資料控制技術中,與區塊鏈最容易混淆的是支付標記化,在此也做簡單說明。支付標記化的英文是Tokenization[5],指用特定的支付標記(英文是Payment Token)替代銀行卡號和非銀行支付機構支付賬戶等支付要素,並對標記的應用範圍加以限定,降低在商戶和受理機構側發生銀行賬戶和支付賬戶資訊洩露的風險,減少交易欺詐,保障使用者交易安全。支付標記與銀行賬戶、支付賬戶之間有對映關係,這個對映關係由標記服務提供方透過支付標記化和去標記化兩個過程來管理。支付標記化是數字支付的基礎核心要素。比如,在移動支付中,使用者使用Token號作為儲存在手機等移動裝置中的裝置卡號,可以線上下POS機、ATM機等終端機上用移動裝置做非接觸式近場支付,也可以在手機客戶端中直接發起遠端支付。

目前,銀聯手機閃付和線上支付產品已全面應用支付標記化技術。從以上介紹可以看出,支付標記化中的Token是代表銀行賬戶和支付賬戶等敏感資訊,有規範的編制標準,不依賴於複雜的密碼學技術;區塊鏈內的Token在央行數字貨幣和穩定幣等應用中代表法定貨幣儲備資產,但Token本身是區塊鏈技術的產物。

(二)資料要素市場的組織形式

資料要素因為型別和特徵多樣,缺乏客觀的估值標準,並且在很多場合不會採取買斷式交易模式,所以資料要素市場不會像股票市場那樣,成為一個集中化、流動性好的交易市場。這從過去幾年多省市對大資料交易中心或大資料交易所的試驗中可以得到驗證。這些試驗都沒有取得預期的成功。這儘管有政策支援力度不夠和配套技術跟不上等原因,但更重要的原因則是:資料要素的經濟學屬性不支援標準化程度高、競價撮合和成交活躍的交易模式。

在大圖景上,資料要素市場將更接近債券市場和場外衍生品市場這樣的場外市場,標準化程度較低,點對點交易並協商定價,成交頻率低但會一直髮生。但這不意味著最終的資料提供者(比如個人和物聯網裝置)和最終的資料需求者(比如AI演算法公司)會直接進場交易。資料要素市場會演變出一些“資料中介機構”,讓資料更好地從最終的提供者流向最終的需求者。

因此,資料要素市場在整體架構上將是分散式的,但會有一些 “資料中介機構”作為核心節點。對區塊鏈在資料要素市場組織形式這個環節的應用,要在這個大框架分析。

第一,“資料中介機構”的主要功能是資料收集、驗證、儲存和分析。對這些“資料中介機構”如何使用區塊鏈,第二、三部分已有分析。需要補充說明的是,區塊鏈可以用來改進資料釋出環節。比如,姚前2018年在央行數字貨幣原型系統中[6],提出將區塊鏈應用於央行數字貨幣確權登記。他的設想是,由中央銀行和商業銀行構建央行數字貨幣分散式確權賬本,提供可供外部透過網際網路進行確權查詢的網站,實現央行數字貨幣的網上驗鈔機功能。這是利用區塊鏈不可篡改、不可偽造的特性提高確權查詢的資料和系統安全性。

第二,如前面已討論的,現實世界中大部分資料不會透過區塊鏈儲存和流轉,但區塊鏈可以記錄資料的授權、呼叫和訪問等活動,這類似於區塊鏈在供應鏈管理和商品溯源等場景的應用。這個應用方向有價值,但創新意義不是很強。首先,資料分析和使用會產生新資料,使得對資料流通的溯源意義不大。其次,如果要從資料保密和防洩漏的角度跟蹤追溯資料流通,分析TCP/IP資料包是比區塊鏈更直接、有效的方法。

第三,區塊鏈作為資料要素市場的組織工具,這就是前面引入的分散式資料經濟體概念:

分散式資料經濟體的基礎是資料確權,體現為資料提供者能有效控制資料需求者對資料的使用。

分散式資料經濟體是一個豐富的資料生態。不同參與者在資料、演算法(資料分析方法)和算力等方面互通有無。這本質上是透過市場機制進行大規模協同計算,在保護資料產權的情況下實現資料要素的有效配置,以促進經濟發展和增進社會福利。

區塊鏈記錄下分散式資料經濟體中的經濟活動,但不是為了存證和溯源,而是為了對經濟活動進行核算。

在分散式資料經濟體中,交易媒介採用央行數字貨幣或穩定幣。原因在於,分散式資料經濟體的一些參與者可以是非人格化的,比如物聯網裝置作為資料提供者,AI演算法作為資料需求者。央行數字貨幣和穩定幣能相容分散式資料經濟體的這種開放性,並且能保障支付的安全和高效。

分散式資料經濟體有很多有意思的應用場景。比如,在“區塊鏈+物聯網”中,物聯網裝置ID繫結數字貨幣錢包地址,物聯網中的資料儲存、傳輸和挖掘以及價值互動就能以可信方式進行,物聯網中與資料有關的經濟活動透過央行數字貨幣或穩定幣來核算。可以設想,當一個物聯網裝置持續提供高質量資料後,將收穫更多央行數字貨幣或穩定幣作為“酬勞”(實際上歸屬於物聯網裝置的所有者)。這種經濟激勵將顯著促進物聯網資料的收集和使用。

這個方向有助於實現肖風博士提出的分散式認知工業網際網路[7]。分散式認知工業網際網路採取分散式的治理架構,所有企業都可以放心加入,採取基於知識圖譜的認知智慧技術以及基於隱私計算的資料協同,並且基於全生命週期管理的製造和服務的融合。

小結

區塊鏈對建設資料要素市場有重要意義。但因為資料要素市場本身處於發展早期,在很多核心問題上尚無定論,這使得關於區塊鏈在資料要素市場中的應用的討論很難深入。本文采取“化整為零”方法,討論區塊鏈在資料價值鏈的不同環節能發揮的作用。

第一,資料記錄和獲取環節。區塊鏈作為關於Token的分散式賬本,不能當作一個有一般用途的資料庫來用。與Token及其交易有關的資料,原生於區塊鏈並被區塊鏈記錄下來,是區塊鏈內“價值含量”最高的資料。但在現實世界的海量資料中,能以原始資料形式上鍊的比例幾乎可以忽略,大部分資料只能以雜湊摘要形式寫入區塊鏈。雜湊摘要上鍊有存證和為原始資料增信的作用。“區塊鏈+物聯網”對物聯網資料的管理,效率高且人為干預少,為理解區塊鏈在資料記錄和獲取環節的應用提供了基準。其他資料是否值得上鍊,則要仔細平衡成本和收益。

第二,資料收集、驗證、儲存和分析環節。區塊鏈在這些環節能直接發揮的作用有限。但如果這些環節透過由不同機構組成的市場分工網路進行,那麼就可以構建在區塊鏈上,成為分散式資料經濟體。

第三,資料確權環節。資料確權是資料要素配置的基礎。資料要素確權是法律和技術共同作用下的產物。透過區塊鏈為資料存證不等於資料確權。在實踐中,資料確權主要體現為資料提供者能有效控制資料需求者對資料的使用。在這個意義上,區塊鏈(特別是公鏈)不是隱私管理技術。聯盟鏈可以做到對資料的有差異開放,讓不同使用者在讀取區塊鏈內資料上有不同許可權。但區塊鏈記憶體儲的資料有限,區塊鏈在資料控制上的直接作用也有限。可驗證計算、同態加密和安全多方計算等密碼學技術使得“資料可用不可見”,但因為對計算資源的要求很高,只能在區塊鏈外進行。

第四,資料要素的配置環節。資料要素市場在整體架構上將是分散式的,但會有一些 “資料中介機構”作為核心節點。區塊鏈不可篡改、不可偽造的特性有助於改進資料釋出環節。區塊鏈可以記錄資料的授權、呼叫和訪問等活動,有一定價值,但創新意義有限。區塊鏈在這個環節的創新價值主要體現為分散式資料經濟體,本質上是透過市場機制進行大規模協同計算,在保護資料產權的情況下實現資料要素的有效配置。分散式資料經濟體有助於實現分散式認知工業網際網路。

本文結束,想get更多區塊鏈深度洞察,點選閱讀原文,報名第六屆區塊鏈全球峰會!

附註:

[1] GSMA, 2018, "The Data Value Chain".

[2] 雜湊摘要的另一個主要用途是與原像(Preimage)配合,在雜湊時間鎖合約(HTLC)和離散日誌合約(DLC)中作為多方協調工具。可參考《雜湊時間鎖應用》(萬向區塊鏈研究報告2020年第12期),https://www.chainnews.com/articles/365768981629.htm。

[3] 對Filecoin經濟學模型的分析可見《Filecoin經濟模型簡述》(萬向區塊鏈研究報告2020年第29期),https://www.chainnews.com/articles/974219932958.htm

[4] 感興趣的讀者可以參考PlatON的經濟學藍皮書:https://platon.network/pdf/zh/PlatON_Blue_Paper_on_Economics_ZH.pdf

[5] Tokenization與加密(Encryption)有一定聯絡,但也有很大區別,請見:https://www.mcafee.com/enterprise/en-hk/security-awareness/cloud/tokenization-vs-encryption.html

[6] 姚前,2018,《中央銀行數字貨幣原型系統實驗研究》,《軟體學報》2018年9月,總第29卷第9期。

[7] https://www.chainnews.com/articles/636789905948.htm

免責聲明:

  1. 本文版權歸原作者所有,僅代表作者本人觀點,不代表鏈報觀點或立場。
  2. 如發現文章、圖片等侵權行爲,侵權責任將由作者本人承擔。
  3. 鏈報僅提供相關項目信息,不構成任何投資建議

推荐阅读

;