鄒傳偉:對資料要素的特徵、價值和配置機制的初步研究

買賣虛擬貨幣
前言中共中央、國務院《關於構建更加完善的要素市場化配置體制機制的意見》首次將資料列為要素之一。本文由萬向區塊鏈、PlatON首席經濟學家鄒傳偉博士撰寫,主要結論是:資料是一個複雜概念,有多種型別和豐富特徵。對資料的理解離不開對資訊和知識等相關概念的辨析,可以在DIKW模型的框架下進行。從資料中提煉出資訊、知識和智慧,能幫助個人更好做出決策並提高效應,在巨集觀上促進經濟增長,這是資料價值的體現。

但很多資料屬於公共產品或準公共產品,資料價值缺乏客觀計量標準,使得資料要素有多種配置機制。市場化配置不等於市場交易模式。資料產權界定是資料要素有效配置的基礎,可以透過密碼學、區塊鏈和制度設計來實施。對個人資料,控制權和隱私保護的重要性超過所有權。

2020年4月9日,中共中央、國務院釋出《關於構建更加完善的要素市場化配置體制機制的意見》,首次將資料與土地、勞動力、資本、技術等傳統要素並列為要素之一,提出要加快培育資料要素市場,包括推進政府資料開放共享、提升社會資料資源價值和加強資料資源整合和安全保護等三方面工作。

資料作為要素是一個新命題,有大量前沿問題需要研究。在文獻中,相關問題歸屬於資料經濟(Data Economy)範疇。資料經濟指資料收集、組織、使用、分享、流轉和管理等活動組成的經濟生態。

德勤和阿里研究院(2019)認為資料資產不完全符合會計準則中對於“資產”及“無形資產”的定義。劍橋大學研究報告《資料的價值》(BIPP,2020)對資料經濟的理論、實踐和政策問題進行了全面綜述。李小加(2020)提出組建資料要素產業化聯盟,梳理資料經濟中八方面的重要問題。於施洋等(2020)分析了我國深化資料要素市場化配置面臨的挑戰,提出搭建公共平臺、完善市場條件、研究配套政策、推動協同聯動、最佳化市場結構等方面政策建議。但從國內外研究來看,資料經濟是一個方興未艾的領域,而且學術研究略顯落後於行業和監管實踐,有不少新概念、新問題和新機制值得梳理。

本文對以下三個問題進行了初步探討:第一,資料要素有哪些重要的技術和經濟學特徵?第二,資料價值的內涵和計量方法;第三,資料要素的配置機制。

一、資料要素的技術和經濟學特徵

(一)資料的技術特徵

什麼是資料?與通常認為的不同,這是資訊科學中一個基本但複雜的問題,沒有顯而易見的答案。對資料的理解離不開對資訊和知識等相關概念的辨析。Ackoff(1989)提出了DIKW模型(圖1),D指資料(Data),I指資訊(Information),K指知識(Knowledge),W指智慧(Wisdom)。DIKW模型在資訊管理、資訊系統和知識管理等領域有廣泛使用,不同研究者從不同角度給出不同解釋,Rowley(2007)進行了綜述。本文不深入討論DIKW模型,只在Rowley(2007)的基礎上梳理資料的技術特徵中與經濟學分析最相關的部分。

第一,智慧、知識、資訊和資料之間依次存在從窄口徑到寬口徑的從屬關係。從資料中可以提取出資訊,從資訊中可以總結出知識,從知識中可以昇華出智慧。這些提取、總結和昇華都不是簡單的機械過程,依靠不同方法論和額外輸入(比如應用場景和相關學科的背景知識)。因此,資訊、知識和智慧儘管也屬於資料的範疇,卻是“更高階”的資料。

第二,資料是觀察的產物。觀察物件包括物體、個人、機構、事件以及它們所處環境等。觀察是基於一系列視角、方法和工具進行的,並伴隨著相應的符號表達系統,比如度量衡單位。資料就是用這些符號表達系統記錄觀察物件特徵和行為的產物。資料可以採取文字、數字、圖表、聲音和影片等形式。在存在形態上,資料有數字化的(Digital),也有非數字化的(比如記錄在紙上)。但隨著資訊和通訊技術(ICT)的發展,越來越多資料被數字化,在底層都表示成二進位制。

第三,資料經過認知過程處理後得到資訊,給出關於誰(Who)、什麼(What)、何處(Where)和何時(When)等問題的答案。資訊是有組織和結構化的資料,與特定目標和情景有關,因此有價值和意義。比如,根據資訊理論,資訊能削減用熵度量的不確定性。

第四,與資料和資訊相比,知識和智慧更難被準確定義。知識是對資料和資訊的應用,給出關於如何做(How)的答案。智慧則有鮮明的價值判斷意味,在很多場合與對未來的預測和價值取向有關。

接下來用計量經濟學為例說明DIKW模型。計量經濟學是經濟學實證分析的主要方法。實證分析基於觀察,回答“是什麼”的問題。在計量經濟學中,觀察的物件通常被稱為樣本,可以是個人、機構、地區甚至國家。從不同角度觀察樣本,對應計量經濟學中的變數概念。從不同角度觀察一組樣本得到橫截面資料,而在不同時點上持續從同一角度觀察得到時間序列資料,橫截面資料和時間序列資料的綜合則是面板資料。這些型別的資料都是結構化資料。隨著越來越多的資料被數字化,以及人工智慧和大資料分析方法的發展,半結構化資料和非結構化資料在經濟學中也有越來越多應用,比如網際網路瀏覽、點選等資料。

計量經濟學從資料中提煉資訊,主要包括:一是發現資料中隱含的規律和模式;二是估計模型;三是檢驗假說。這對應著DIKW模型的資訊層次。比如,對資料做描述統計,計算變數的平均值、標準差以及變數之間的相關係數等,是從資料中提煉資訊的最簡單方式之一。計量經濟學經常假設資料遵循資料生成過程(Data Generation Process),但資料生成過程的模型形式和引數取值未知,並且隨機干擾會為觀察帶來誤差。計量經濟學根據觀察到的資料,估計資料生成過程,再據此檢驗假說。人工智慧和大資料分析方法對資料的處理更為靈活,分為預測型分析和描述型分析。預測型分析是根據某些變數的取值,預測另外一些變數的取值。描述型分析是匯出、概括資料中潛在聯絡的模式,包括相關、趨勢、聚類、軌跡和異常等。兩類分析體現為分類、迴歸、關聯分析、聚類分析、推薦系統和異常檢測等具體方法。

根據計量經濟學分析結果提出政策建議,對應著DIKW模型的知識層次。很多政策研究屬於規範分析,回答“應該是什麼”的問題。經濟學關於經濟均衡、經濟增長、巨集觀調控、價格機制、微觀激勵和風險定價等方面的洞見,對應著DIKW模型的智慧層次。

一般而言,資料的技術特徵主要包括以下維度:

· 資料的樣本分佈、時間覆蓋和變數/屬性/欄位等。
· 資料容量,比如樣本數、變數數、時間序列長度和佔用的儲存空間等。
· 資料質量,比如樣本是否有代表性,資料是否符合事先定義的規範和標準,觀察的顆粒度、精度和誤差,以及資料完整性(比如是否有資料缺失情況)。
· 資料的時效性。鑑於觀察物件的特徵和行為可以隨時間變化,資料是否還能反映觀察物件的情況?
· 資料來源。有些資料來自第一手觀察,有些資料由第一手觀察者提供,還有些資料從其它資料推導而來。資料可以來自受控實驗和抽樣調查,也可以來自網際網路、社交網路、物聯網和工業網際網路等。資料可以由人產生,也可以由機器產生。資料可以來自線上,也可以來自線下。
· 資料型別,包括是數字化還是非數字化的,是結構化還是非結構化的,以及存在形式(文字、數字、圖表、聲音和影片等)。
· 不同資料集之間的互操作性和可聯接性,比如樣本ID是否統一,變數定義是否一致,以及資料單位是否一致等。
· 是否為個人資料。個人資料在隱私保護上有很多特殊性,需要專門討論。

(二)資料的經濟學特徵

與資料的技術特徵相比,資料的經濟學特徵要複雜得多。資料可以產生價值(見後文),因此具有資產屬性。資料兼有商品和服務的特徵。一方面,資料可儲存、可轉移,類似商品。資料可積累,在物理上不會消減或腐化。另一方面,很多資料是無形的,類似服務。資料作為資產具有很多特殊性,可以從表1的視角分析:

非競爭性指的是,當一個人消費某種產品時,不會減少或限制其他人對該產品的消費。換言之,該產品每增加一個消費者,所帶來的邊際成本等於0。大部分資料可以被重複使用,重複使用不會降低資料質量或容量,並且可以被不同人在同一時間使用,因此具有非競爭性。

非排他性指的是,當某人在付費消費某種產品時,不能排除其他沒有付費的人消費這一產品,或者排除的成本很高。很多資料是非排他性的,比如天氣預報資料。但透過技術和制度設計,有些型別的資料有排他性。比如,一些媒體資訊終端採取付費形式,只有付費會員才可以閱讀。

根據表1,很多資料屬於公共產品,可以由任何人為任何目的而自由使用、改造和分享。比如,政府釋出的經濟統計資料和天氣預報資料。一些資料是俱樂部產品,屬於準公共產品,比如前面提到的收費媒體資訊終端。大部分資料是非競爭性的,因此屬於私人產品和公共資源的資料較少。

資料的所有權不管在法律上還是在實踐中都是一個複雜問題,特別對個人資料。資料容易在未經合理授權的情況下被收集、儲存、複製、傳播、彙集和加工,並且資料彙集和加工伴隨著新資料的產生。這使得資料的所有權很難界定清楚,也很難被有效保護。比如,在網際網路經濟中,網際網路平臺記錄下使用者的點選、瀏覽和購物歷史等,是非常有價值的資料。這些資料儘管描述了使用者的特徵和行為,但不像使用者個人身份資訊那樣由使用者對外提供,很難說由使用者所有。網際網路平臺儘管記錄和儲存這些資料,但這些資料與使用者的隱私和利益息息相關,很難任由網際網路平臺在使用者不知情的情況下使用和處置這些資料,所以網際網路平臺也不擁有完整產權。

因此,需要透過制度設計和密碼學技術等精巧界定使用者作為資料主體以及網際網路平臺作為資料控制者的權利,這會為他們之間的經濟利益關係產生顯著影響。

很多文章把資料比喻成新經濟的石油。這個比喻實際上不準確。石油是競爭性和排他性的,產權可以清楚界定,作為私人產品形成了現貨和期貨等複雜的市場交易模式。很多資料難以清晰界定所有權,作為公共產品或準公共產品難以有效參與市場交易。因此,把資料比喻成陽光更為合適。

二、資料價值的內涵和計量

(一)資料價值的內涵

根據DIKW模型,從資料中提煉出資訊、知識和智慧,這隱含著資料價值鏈的概念。原始資料經過處理並與其他資料整合後,再經分析形成可行動的洞見,最終由行動產生價值。

資料價值可以從微觀和巨集觀兩個層面理解。在微觀層面,資訊、知識和智慧既可以滿足使用者的好奇心(即作為最終產品),更可以提高使用者的認知,幫助他們更好做出決策(即作為中間產品),最終效果都是提高他們的效用。資料對使用者效用的提高,就反映了資料價值。在巨集觀層面,資訊、知識和智慧有助於提高全要素生產率,發揮乘數作用,這也是資料價值的體現。本文主要討論微觀層面的資料價值,有以下關鍵特徵。

1.同樣資料對不同人的價值可以大相徑庭

第一,不同人的分析方法不一樣,從同樣資料中提煉出的資訊、知識和智慧可以相差很大。比如,在科學史上,很多科學家深入研究一些大眾習以為常的現象並做出了重大發現。重物落地之於牛頓,閃電之於富蘭克林,海水的藍色之於拉曼,與它們對大眾的價值是完全不一樣的。再比如,在經濟學中,不同的經濟學家對同樣的經濟資料經常做出完全不一樣的解讀。

第二,不同人所處的場景和麵臨的問題不一樣,同一資料對他們起的作用也不一樣。同一資料,對一些人可能是垃圾,對另一些人則可能是寶藏。比如,考古發現對歷史研究者的價值很大,但對金融投資者則很可能沒有價值。比如,另類資料(Alternative Data)包括個人產生資料、商業過程資料和感測器資料等。這些資料能幫助投資者做投資決策,但對非金融投資者則沒有太大價值。不同的人可以在不同時間維度上使用資料,比如有評估過去的,有分析當前的,有預測未來的,也有做回溯測試的。使用目的不同,對資料的要求不一樣,同一資料就意味著不同價值。

第三,不同制度和政策框架對資料使用的限定不一,也會影響資料價值。換言之,資料價值內生於制度和政策。比如,不同國家對個人資料的保護程度不一,個人資料被收集和使用的情況以及產生的價值在國家之間有很大差異。我國排名靠前的網際網路平臺基於使用者行為資料推出了線上信貸產品,這在其他國家則不常見。網際網路平臺獲得使用者資料後,如果不恰當保護和使用,不尊重使用者隱私,將會影響其品牌形象和使用者信任,對資料價值和公司價值都會帶來負面影響。2020年4月,美國聯邦法院批准Facebook與美國聯邦貿易委員會就劍橋分析醜聞的50億美元和解協議。

2.資料價值隨時間變化

第一,資料有時效性。很多資料在經過一段時間後,因為不能很好反映觀察物件的當前情況,價值會下降。這種現象稱為資料折舊。資料折舊在金融市場中表現得非常明顯。比如,一個新訊息在剛釋出時可以對證券價格產生很大影響,但等到證券價格反映這個訊息後,它對金融投資的價值就急劇降到0。在DIKW模型中,將資料提煉為資訊、知識和智慧,並且提煉層次越高,就越能抵抗資料折舊。

第二,資料有期權價值。新機會和新技術會讓已有資料產生新價值。在很多場合中,收集資料不僅是為了當下的需求,也有助於提升未來的福利。

3.資料會產生外部性

第一,資料對個人的價值稱為私人價值,資料對社會的價值稱為公共價值。資料如果具有非排他性或非競爭性,就會產生外部性,並造成私人價值與公共價值之間的差異。這種外部性可正可負,沒有定論。

第二,資料與資料結合的價值,可以不同於它們各自價值之和,是另一種外部性。但資料聚合是否增加價值,也沒有定論。一方面,可能存在規模報酬遞增情形,比如更多資料更好地揭示了隱含的規律和趨勢。另一方面,可能存在規模報酬遞減情形,比如更多資料引入更多噪聲。但總的來說,資料容量越大,資料價值不一定越高,資料內容也很重要。比如,1小時的影片監控資料,有價值資料可能僅有1-2秒。

(二)資料價值的計量

1.絕對估值

鑑於資料價值的三個關鍵特徵,資料的絕對估值比較難,沒有公認方法。目前行業實踐中有幾種主要方法,但都有缺陷(BIPP,2020;德勤和阿里研究院,2019)。

第一,成本法,也就是將收集、儲存和分析資料的成本作為資料估值基準。這些成本有軟體和硬體方面的,也有智慧財產權和人力資源方面的,還有因安全事件、敏感資訊丟失或名譽損失而造成的或有成本。資料收集和分析一般具有高固定成本、低邊際成本特徵,從而有規模效應。成本法儘管便於實施,但很難考慮同樣資料對不同人、在不同時間點以及與其他資料組合時的價值差異。另外,德勤和阿里研究院(2019)指出,一些資料為企業生產經營的附加產物,獲取成本通常難以從業務中劃分出來而難以可靠計量。顯然,資料價值不一定高於成本,說明不是所有資料都值得收集、儲存和分析。

第二,收入法,也就是評估資料的社會和經濟影響,預測由此產生的未來現金流,再將未來現金流折現到當前。收入法在邏輯上類似公司估值中的折現現金流法,能考慮資料價值的三個關鍵特徵,在理論上比較完善,但實施中則面臨很多障礙。一是對資料的社會和經濟影響建模難度很大。二是資料的期權價值如何評估。實物期權估值法是一個可選方法,但並不完美。

第三,市場法,也就是以資料的市場價格為基準,評估不在市場上的資料的價值。市場法類似股票市場的市盈率和市淨率估值方法。市場法的不足在於,很多資料是非排他性的或非競爭性的,很難參與市場交易。目前,資料要素市場有一些嘗試,但市場厚度和流動性都不夠,價格發現功能不健全。另外,一些公司兼併收購價格著包含著對資料的估值,但不易分離出來。

第四,問卷測試法。這個方法主要針對個人資料,透過問卷測試個人願意收多少錢以出讓自己的資料,或願意花多少錢保護自己的資料,從而評估個人資料的價值。這個方法應用面非常窄,實施成本較高。

2.相對估值

資料相對估值目標是,給定一組資料以及一個共同的任務,評估每組資料對完成該任務的貢獻。與絕對估值相比,相對估值要簡單一些,特別針對定量的資料分析任務。

在資料相對估值中,常見資料分組方法包括:一是變數/欄位一樣,但屬於不同的觀察樣本;二是同樣的觀察樣本,但變數/欄位不同。對常見預測性任務和描述性任務,統計學和資料科學建立了量化評估指標。比如,對預測任務,需做樣本外檢驗,評估預測誤差。在預測變數是離散型時,常用準確率、錯誤率以及操作特徵(Receiver Operating Characteristic,ROC)曲線下方面積等指標。在預測變數是連續型時,常用標準誤差。對描述任務,需用樣本資料評估模型擬合效果,線性模型一般用R平方,非線性模型一般用似然函式(需對干擾項分佈做出假設)。

使用Shapley值進行資料相對估值遵循以下步驟。第一步:定義資料集合及其元素。第二步:定義擬完成的任務。第三步:選擇完成任務所使用的模型及評估指標。第四步:對資料集合中元素形成的每一個資料子集(〡N〡個元素,意味著2〡N〡個可能的資料子集),執行模型並獲得評估結果。第五步:根據Shapley值計算每個元素對完成任務的貢獻。此方法的主要不足是,隨著資料集合的元素數量上升,計算量將指數上升。主要優點是符合直覺,容易計算,而且源自經濟學的長期研究。Jia et al. (2019)討論瞭如何最佳化使用Shapley值進行資料相對估值的計算過程。

資料相對估值說明,同一資料在用於不同任務,使用不同分析方法,或與不同資料組合時,體現出的價值是不同的。特別是,偏離資料集合“主流”的資料,在相對估值上可能比靠近資料集合“主流”的資料高,這顯示了“異常值”(Outlier)的價值。

三、資料要素的配置機制

在現實中,資料有多種型別和不同特徵,相應產生了不同的配置機制。因為很多資料不適合參與市場交易,很多配置機制不屬於市場交易模式。換言之,市場化配置不等於市場交易模式。

這些機制都致力於解決資料要素配置中的兩個突出問題。第一,資訊不對稱。資料要素配置機制涉及多個利益不一致的參與方。比如,資料主體往往不清楚自己資料在何時、因何目標或有何後果而被收集。資料生產者不清楚資料主體是否選擇性披露資料,以及在知道自己的資料被收集時是否會有針對性地調整行為,也不清楚生產出的資料對不同資料使用者的價值。資料使用者在事前很難完全瞭解資料對自己的價值。比如,資料相對估值就是在事後進行的。

第二,非完全契約。資料要素配置機制都可以表示成一系列契約的組合。但資料應用有豐富場景,資料價值鏈有多個環節,資料價值缺乏客觀計量標準,這些因素使得資料要素配置機制很難在事前覆蓋事後所有可能出現的情況。這既會影響資料主體分享資料以及資料生產者生產資料的激勵,也會影響資料價值在資料價值鏈中不同貢獻者之間的合理分配。

接下來,按照資料的經濟學特徵以及應用場景,討論有代表性的資料要素配置機制。

(一)作為公共產品的資料

資料作為公共產品時,由私人部門提供會有投資不足和供給不足的問題,一般由政府部門利用稅收收入提供。政府部門的資料開放和共享專案可以在這個框架下理解。政府部門應該在不涉密的前提下,儘可能向社會和市場開放政府資料,這樣才能最大化政府資料的公共價值。

2009年,美國聯邦政府推出資料開放入口網站Data.gov,為之前分散在聯邦政府不同機構的網站上資料統一提供託管平臺。2019年,美國《開放政府資料法案》要求,除涉及國家安全和其他特殊原因的資料以外,聯邦政府應該線上釋出它們擁有的資料,並且這些公開資料採取標準化、機器可讀的形式。

2016年以來,我國頒佈《政務資訊資源共享管理暫行辦法》、《公共資訊資源開放試點工作方案》等一系列檔案,開啟政務資料共享開放程序。《關於構建更加完善的要素市場化配置體制機制的意見》提出的第一個工作方向就是推進政府資料開放共享。

(二)作為準公共產品的資料

作為準公共產品的資料如果在所有權上較為清晰,並且具有排他性,有以下三種主要的配置機制。

第一,作為俱樂部產品的資料,可以採取付費訂購模式,比如收費媒體資訊終端。

第二,開放銀行模式。銀行透過應用程式介面(Application Programming Interface,API)將使用者資料開放給經授權的第三方機構,以促進使用者資料的開發使用。銀行既限定哪些使用者資料可開放,也限定向哪些機構開放。這實際上是部分實現使用者資料的可攜帶性。

第三,資料信託模式。根據BIPP(2020)的介紹,資料信託可以採取不同形式,比如法律信託、契約、公司以及公共和社羣信託等。資料信託的主要目標包括:一是使資料可被共享;二是促進公共利益以及資料分享者的私人利益;三是尊重那些對資料有法律權利的人的利益;四是確保資料以合乎倫理和資料信託規則的方式共享。

(三)網際網路平臺的PIK(Pay-in-kind)模式

前面已提到,在網際網路經濟中,如果個人資料不是由使用者對外提供,而是來自網際網路平臺對使用者特徵和行為的觀察和記錄,那麼所有權就很難界定清楚。現實中,網際網路平臺經常為使用者提供免費資訊和社交服務,目標是擴大使用者量,並獲得使用者的注意力和個人資料(比如使用者喜好、消費特徵和社會聯絡等)。在這個模式中,可以認為是使用者用自己的注意力和個人資料換取資訊和社交服務,因此被稱為PIK模式(圖2)。網際網路平臺一方面是透過廣告收入變現使用者流量,另一方面基於使用者個人資料進行精準營銷和開發信貸產品等。

PIK模式主要有三個弊端:第一,網際網路平臺與使用者之間地位不平等,容易在未經使用者授權的情況下收集使用者資料,或過度收集使用者資料,或把從甲業務中收集到的個人資料用於乙業務,從而造成隱私侵犯和資料濫用問題。第二,網際網路平臺如果形成捕獲性生態,會鎖定使用者,並在事實上控制使用者資料。使用者很難將自己資料開放給或遷移到網際網路平臺的競爭對手。網際網路平臺透過資料壟斷(Data-opoly)對競爭者構成不公平競爭。第三,難以保證使用者提供個人資料後獲得了合理報酬。比如,使用者是否為不太有價值的資訊而揭示了重要個人資訊?網際網路平臺與使用者之間的地位不平等,以及PIK模式中不存在市場定價機制,使得使用者權益很難被有效保護。

在PIK模式下,資料控制者(網際網路平臺)相對資料主體(使用者)處於主導地位,並且資料控制者往往也是資料使用者,而資料主體對自己資料缺乏控制,在資料產權上有很多模糊不清之處。如何糾正PIK模式的弊端,是個人資料管理中的一個核心問題。

(四)資料要素市場

很多資料因為有非排他性或非競爭性,參與市場交易都面臨限制。另一方面,非排他性或非競爭性造成的外部性,使得資料的私人價值與公共價值之間有差異,市場交易不一定能實現資料的最大社會價值。

在現實中,因為資料型別和特徵的多樣性,以及資料價值缺乏客觀計量標準,目前並不存在一個集中化、流動性好的資料要素市場。但資料的點對點交易(類似場外交易)一直在發生,比如另類資料市場。這個市場中存在大量的另類資料提供商。它們對資料的處理程度從淺到深大致可分為原始資料提供者、輕處理資料提供者和訊號提供者。這個市場已發展出諮詢中介、資料聚合商和技術支援中介等,作為連線資料買方(主要是投資基金)和資料提供方之間的橋樑。其中,諮詢中介為買方提供關於另類資料購買、處理及相關法律事宜的諮詢,以及資料供應商資訊。資料聚合商提供整合服務,買方只需和它們協商即可,無需進入市場與分散的資料提供商打交道。技術支援中介為買方提供技術諮詢,包括資料庫和建模等。

可見,另類資料市場發展已很完善,形成了豐富的分工合作關係,但這個市場仍很不透明且非標準化。這是目前資料交易面臨的普遍問題。更不容忽視的是非法資料交易,比如交易個人隱私資料的“資料黑市”和“資料黑產”。2019年以來,我國對“資料黑產”開展了集中整頓。

如何建立合規有效的資料要素市場?一個可行選項是使用密碼學技術,包括可驗證計算(Verifiable computing)、同態加密(Homomorphic encryption)和安全多方計算(Secure multi-party computation)等(PlatON,2018)。

對複雜的計算任務,可驗證計算會生成一個簡短證明。只要驗證這個簡短證明,就能判斷計算任務是否被準確執行,不需要重複執行計算任務。在同態加密和安全多方計算下,對外提供資料時,採取密文而非明文形式,從而使資料具備排他性。這些密碼學技術支援資料確權,使得在不影響資料所有權的前提下交易資料使用權成為可能,從而構建資料交易的產權基礎,並影響資料主體和資料控制者的經濟利益關係。區塊鏈技術用於資料存證和使用授權,也在資料產權界定中發揮重大作用。後文將討論,除了技術以外,資料產權界定也可以透過制度設計來實施。

但即便如此,基於密碼學的資料要素市場也不同於傳統市場。首先,同一資料在加密後可以同時向多方提供,因此仍然是非競爭性的,除非資料使用者與資料控制者之間簽署保密協議,要求後者不得再將資料提供給其他人使用,或者資料有很強時效性,一經使用後很快失去價值。換言之,資料很難成為私人產品,從而很難像私人產品那樣參與市場交易。其次,同一資料對不同人的價值可以差別很大。這使得在基於密碼學的資料使用權交易中,應用場景對資料價值的影響,可能超過了資料本身特徵和內容的影響,從而很難從資料交易價格中提煉出有價值的定價資訊。因此,基於密碼學的資料要素市場不會採取“對同一商品,多個買方競價,價高者得”的要素配置模式。

需要說明的是,資料要素市場不一定是簡單的撮合買賣模式,可以存在其他複雜的模式。比如,Markit公司(2016年與HIS合併成HIS Markit)建立CDS(Credit Default Swap,信用違約互換)定價資料服務的模式值得研究。國際金融危機之前,CDS是純粹的場外交易,資訊披露很不完善。CDS頭寸是金融機構重要的商業機密,很難與其他金融機構分享。參與CDS市場的金融機構只知道自己的CDS頭寸,但不知道市場的整體情況。CDS市場沒有好的指數,資訊不對稱程度很高。Markit公司成立於2003年,其股東包含主要的CDS做市商。這些金融機構股東把自己的CDS資料上傳到Markit,Markit整合得到CDS市場資料後以收費方式對外提供,包括定價和參考資料、指數產品、估值和交易服務等。Markit的股東金融機構在不洩露自己商業機密的情況下,不僅從Markit的工作中獲知CDS市場整體情況,還從Markit的業務增長中獲得投資收益。Markit儘管沒有對資料進行顯式定價,但透過股權的利益繫結功能以及資料整合的“1+1>2”效應,解決了資料共享中的激勵相容問題。這是一個複雜而巧妙的資料交易模式。我國個人徵信市場的百行徵信公司也可以在類似框架下理解。

(五)資料產權界定

從前面介紹的資料要素配置機制可以看出,資料產權界定是資料要素有效配置的基礎。資料產權主要分為所有權和控制權。資料控制權包括誰能使用資料,如何使用資料,以及能否進一步對外分享資料等。在公司治理中,所有權和控制權是統一的——股東擁有公司,股東大會是公司的最高權力機關。但資料的所有權和控制權可以分離,特別是對所有權不清晰的個人資料。資料產權可以透過技術來界定,比如可驗證計算、同態加密和安全多方計算等密碼學技術。資料產權還可以透過制度設計來界定。

2018年5月,歐盟開始實施《通用資料保護條例》(GDPR)。GDPR給予資料主體廣泛權力:第一,被遺忘權,指資料主體有權要求資料控制者刪除其個人資料,以避免個人資料被傳播。第二,可攜帶權,指資料主體有權向資料控制者索取本人資料並自主決定用途。第三,資料主體在自願、基於特定目的且在與資料控制者地位平衡等情況下,授權資料控制者處理個人資料,但授權在法律上不具備永久效力,可隨時撤回。第四,特殊類別的個人資料的處理條件,比如醫療資料。

GDPR還提高了對資料控制者的要求:第一,企業作為資料控制者必須在事前資料採集和事後資料洩露兩個環節履行明確的告知義務。第二,資料採集與資料使用目標的一一對應原則,以及資料採集(範圍、數量、時間、接觸主體等)最小化原則。第三,個人資料跨境傳輸條件。總的來說,GDPR引入了資料產權的精細維度,包括被遺忘權、可攜帶權、有條件授權和最小化採集原則等,建立了資料管理的制度正規化。這些做法被歐盟以外的很多國家和地區所採納。2019年5月,我國網信辦釋出《資料安全管理辦法(徵求意見稿)》。2019年12月,國家網信辦、工信部、公安部和市場監管總局四部門聯合印發《App違法違規收集使用個人資訊行為認定方法》。

個人資料管理的核心問題隱私保護。隱私涉及個人與他人、私有與公開的邊界,是個人尊嚴、自主和自由的重要方面(Acquisti et al., 2016)。隱私不排斥共享個人資訊,而是要有效控制共享過程,在保護和共享個人資料之間做好平衡。對個人資料,控制權和隱私保護的重要性超過所有權。這一點在GDPR中有體現。

四、小結

本文對資料要素的特徵、價值和配置機制進行了初步研究,主要結論如下。

資料作為資訊科學中一個基本但複雜的概念,對其的理解離不開對資訊和知識等相關概念的辨析,而DIKW模型為此提供了一個合適的分析框架。根據DIKW模型,智慧、知識、資訊和資料之間依次存在從窄口徑到寬口徑的從屬關係。資料是觀察的產物。資料經過認知過程處理後得到資訊,給出關於誰(Who)、什麼(What)、何處(Where)和何時(When)等問題的答案。知識是對資料和資訊的應用,給出關於如何做(How)的答案。智慧則有鮮明的價值判斷意味,在很多場合與對未來的預測和價值取向有關。

資料有多個維度的技術特徵,但資料的經濟學特徵更復雜。資料可以產生價值,因此具有資產屬性。資料兼有商品和服務的特徵。很多資料屬於公共產品,可以由任何人為任何目的而自由使用、改造和分享。因為大部分資料是非競爭性的,屬於私人產品和公共資源的資料較少。資料的所有權不管在法律上還是在實踐中都是一個複雜問題,特別對個人資料。因此,把資料比喻成石油,不如把資料比喻成陽光更為合適。

資料經過處理並與其他資料整合後,再經分析形成可行動的洞見,最終由行動產生價值。資料價值在微觀層面體現為對使用者效用的提高,在巨集觀層面體現為從資料中提煉出的資訊、知識和智慧對全要素生產率的提高。然而,資料價值缺乏客觀計量標準,主要有三方面原因:一是同樣資料對不同人的價值可以大相徑庭;二是資料價值隨時間變化;三是資料會產生外部性。

資料價值的計量包括絕對估值和相對估值。資料絕對估值比較難,沒有公認方法。目前行業主要使用成本法、收入法、市場法和問卷測試法,但都有缺陷。資料相對估值是給定一組資料以及一個共同的任務,評估每組資料對完成該任務的貢獻。與絕對估值相比,相對估值要簡單一些。針對定量的資料分析任務,可以使用Shapley值進行相對估值。

資料有多種型別和不同特徵,產生了不同的配置機制。這些配置機制都致力於資料要素配置中的資訊不對稱和非完全契約問題。本文主要討論了四種配置機制。

第一,作為公共產品的資料,一般由政府部門利用稅收收入提供。政府部門應該在不涉密的前提下,儘可能向社會和市場開放政府資料,這樣才能最大化政府資料的公共價值。

第二,作為準公共產品的資料如果在所有權上較為清晰,並且具有排他性,可以採取俱樂部產品式的付費模式、開放銀行模式以及資料信託模式。

第三,在網際網路經濟中,很多個人資料的所有權很難界定清楚,現實中常見PIK(Pay-in-kind)模式,本質上是使用者用自己的注意力和個人資料換取資訊和社交服務,但PIK模式存在很多弊端。

第四,很多資料因為有非排他性或非競爭性,不適合參與市場交易。換言之,市場化配置不等於市場交易模式。現實中並不存在一個集中化、流動性好的資料要素市場。資料的點對點交易(類似場外交易)儘管一直在發生,但很不透明且非標準化,並且非法資料交易是一個不容忽視的問題。

資料產權界定是資料要素有效配置的基礎。可驗證計算、同態加密和安全多方計算等密碼學技術支援資料確權,使得在不影響資料所有權的前提下交易資料使用權成為可能,從而構建資料交易的產權基礎。區塊鏈技術用於資料存證和使用授權,也在資料產權界定中發揮重大作用。但即便如此,基於密碼學的資料要素市場也不同於傳統市場,不會採取“對同一商品,多個買方競價,價高者得”的要素配置模式。

除了技術以外,資料產權還可以透過制度設計來界定。GDPR引入了資料產權的精細維度,包括被遺忘權、可攜帶權、有條件授權和最小化採集原則等,建立了資料管理的制度正規化。這些做法被歐盟以外的很多國家和地區所採納。個人資料管理的核心問題隱私保護。對個人資料,控制權和隱私保護的重要性超過所有權。

參考文獻

Ackoff, R.L., 1989, “From Data to Wisdom”, Journal of Applied System Analysis, 16: 3-9.

Acquisti, A., C. Taylor, and L. Wagman, 2016, "The Economics of Privacy", Journal of Economic Literature, 54(2): 442-292

Bennett Institute for Public Policy (BIPP), 2020, The Value of Data, 

https://www.bennettinstitute.cam.ac.uk/research/research-projects/valuing-data/

Jia R., D. Dao, B. Wang, F. Hubis, N. Hynes, N. Gurel, B. Li, C. Zhang, D. Song, and C. Spanos, 2019, "Towards Efficient Data Valuation Based on the Shapley Value".

PlatON, 2018, "PlatON: A High-Efficiency Trustless Computing Network", https://www.platon.network/static/pdf/en/PlatON_A%20High-Efficiency%20Trustless%20Computing%20Network_Whitepaper_EN.pdf

Rowley, J., 2007, “The Wisdom Hierarchy: Representation of the DIKW Hierarchy”, Journal of Information and Communication Science, 33(2): 163-180.

德勤和阿里研究院,2019,《資料資產化之路——資料資產的估值與行業實踐》

李小加,2020,《呼籲成立“資料要素產業化聯盟”》,香港交易所

於施洋、王建冬和郭巧敏,2020,《中國構建資料新型要素市場體系面臨的挑戰與對策》,《電子政務》2020年第3期

免責聲明:

  1. 本文版權歸原作者所有,僅代表作者本人觀點,不代表鏈報觀點或立場。
  2. 如發現文章、圖片等侵權行爲,侵權責任將由作者本人承擔。
  3. 鏈報僅提供相關項目信息,不構成任何投資建議

推荐阅读

;