鄒傳偉:DataRank—資料要素估值框架

買賣虛擬貨幣

*本文為萬向區塊鏈“融合創新”系列行業研究報告。作者:萬向區塊鏈首席經濟學家鄒傳偉博士。

由萬向區塊鏈實驗室主辦的第六屆區塊鏈全球峰會,以“融合創新”為主題,旨在廣邀國內外知名技術專家、學者、企業家共聚一堂,探討區塊鏈與其他技術的融合創新,以及如何以區塊鏈技術為驅動力,推動不同行業的融合創新,共創良好地技術生態效應。

萬向區塊鏈將在峰會開始前的這段時間內,不定期推出“融合創新”系列行業研究報告,深度解讀在新基建和數字化遷徙背景下,區塊鏈如何與其它技術融合發展,發揮資訊基礎設施應有的作用。

研究背景

在此前的研究文章《對資料要素的特徵、價值和配置機制的初步研究》,討論了資料要素估值面臨的難題。

第一,同樣資料對不同人的價值可以大相徑庭。不同人的分析方法不一樣,從同樣資料中提煉出的資訊、知識和智慧可以相差很大。不同人所處的場景和麵臨的問題不一樣,同一資料對他們起的作用也不一樣。不同制度和政策框架對資料使用的限定不一,也會影響資料價值。

第二,資料要素價值隨時間變化。資料有時效性,資料折舊是一個普遍現象。資料還有期權價值。

第三,資料會產生外部性。同一資料對個人和社會的價值可以不一樣。資料與資料結合的價值,可以不同於它們各自價值之和。

總的來說,目前的資料要素估值方法,主要包括成本法、收入法、市場法和問卷調查法,儘管在一定維度上都有合理性,但在理論上和實施中都有不少問題。

資料要素市場在發展早期,參與者將以機構為主。但如果沒有合適的估值框架,一個由機構參與者主導的市場也不一定能發展起來。鑑於現有資料要素估值方法面臨的問題,我提出一個新的估值框架,稱為DataRank。

DataRank概述

DataRank的分析單元是資料,也就是一組觀察的集合。觀察物件包括物體、個人、機構、事件以及它們所處環境等,並基於一系列視角、方法和工具進行。對每個新進入資料要素市場的資料單元,DataRank先對其提煉出一系列Tag,再給出初始的datarank值,作為估值起點。然後,DataRank根據資料單元實際被呼叫的情況,動態調整並持續更新datarank值。

DataRank有以下核心特徵。第一,用統一尺度評估不同資料單元價值高低。儘管datarank值沒有量綱,但根據市場供需情況和交易價格,不難從datarank值折算出貨幣標價的資料估值。

第二,對不同的資料使用者而言,datarank值相當於參考基準。他們根據datarank值提供的資訊,決定是否呼叫資料單元。資料單元被呼叫的情況,將反映到datarank值的動態調整中。在其他條件一樣的情況下,某一資料單元被呼叫得越多,其datarank值上調也越多。換言之,DataRank不試圖一勞永逸地給出資料單元估值,而是在一個動態過程中不斷評估資料單元價值,並充分考慮資料單元在資料要素市場上的表現。DataRank能相容同一資料對不同人以及在不同時點上的價值可以差別很大的情況。

理論上,資料對使用者的價值,只能在事後評估,也就是使用完資料後,才能準確評估資料價值。事前只能去推測或估算資料價值。因此,在一定意義上,資料估值類似“賭石”。翡翠開採出來後,原石有一層風化皮包裹著,無法知道其內的好壞,須切割後才能知道翡翠的質量。有經驗的賭石師可以根據原石外觀推測內部情況。datarank值相當於為資料“賭石”提供了參考。

第三,多個資料單元一起被呼叫時,DataRank能考慮資料之間的協同效應。換言之,在其他條件一樣的情況下,與一個datarank值高的資料單元一起被呼叫,能增加自身的datarank值。

最後需要看到的是,DataRank還為資料要素市場的組織形式提供了參考。在資料要素市場上,資料使用者在尋找合適的資料單元時,會透過關鍵詞來檢索。關鍵詞就對應著Tag,資料單元展示的優先順序可以依據datarank值。

Tag與datarank值的初始賦值

資料單元的Tag來自以下維度:

資料型別,比如個人身份資訊、衣食住行等方面行為資料以及金融資產和交易資料。

資料涉及的樣本分佈、時間範圍和變數型別等。

資料容量,比如樣本數、變數數、時間序列長度和佔用的儲存空間等。

資料質量,比如樣本是否有代表性,資料是否符合事先定義的規範和標準,觀察的顆粒度、精度和誤差,以及資料完整性(比如是否有資料缺失情況)等。

資料的時效性。

資料來源。有些資料來自第一手觀察,有些資料由第一手觀察者提供,還有些資料從其它資料推導而來。資料可以來自受控實驗和抽樣調查,也可以來自網際網路、社交網路、物聯網和工業網際網路等。資料可以由人產生,也可以由機器產生。資料可以來自線上,也可以來自線下。

假設共提煉出P個Tag,依次記為

。每個Tag賦予一定權重。為簡便起見,也用

表示這些Tag的權重。

對一個新進入資料要素市場的資料單元,在每個Tag上對其打分,得分依次為

。這個資料單元的初始datarank值是

假設在這個新資料單元進入前,市場中共有N個資料單元。用下標i表示一個代表性的資料單元(i取值從1到N)。權重

,可以用線性迴歸來估計:

其中

是被解釋變數,

是解釋變數,

表示誤差項。

datarank值的動態調整

有兩種可以考慮的datarank值的動態調整機制。

(一)按資料呼叫次數調整

假設使用者在一次呼叫中,同時呼叫了J個資料單元,編號依次為

。用

表示因這次呼叫對資料單元

的datarank值的上調:

其中

表示呼叫獎勵係數。

以上調整公式背後的直覺非常簡單:一是與datarank值高的資料單元一起被呼叫,更有助於提高自身的datarank值,也就是“近朱者赤”;二是在其他條件一樣的情況下,被呼叫次數越多,datarank值上調越多,也就是“多勞多得”。

因為每次資料呼叫都要根據datarank值付費,透過呼叫“刷單”來提高某一資料單元的datarank值,會付出比較高的成本。這樣能保障DataRank框架不會被操縱。

(二)按資料單元間聯絡調整

這個調整機制本質上類似Google的PageRank演算法(見附件)。

把每個資料單元視為一個節點。如果兩個資料單元曾被一起呼叫過,就認為它們之間存在一條邊,只不過這條邊有權重。比如,考慮某一資料單元a,它與資料單元b、c和d分別一起呼叫過5、2和3次。那麼,從a到b、c和d的有向邊的權重就分別是0.5、0.2和0.3。這樣,資料單元和它們之間的聯絡就構成了一個有向圖。如果賦予有向邊的權重以概率含義,那麼資料單元之間的呼叫關係就可以用馬爾科夫過程來描述,有向邊的權重就是轉移概率。

按照與PageRank類似的方法,分析這個馬爾科夫過程的穩態分佈,就得到datarank值。

附件:PageRank演算法簡介

在Google之前出現過很多搜尋引擎,其中大部分都是利用網路爬蟲從網際網路上抓取資料,然後透過倒排索引方式列出每個頁面所包含的詞項。當使用者提交一個搜尋查詢(search query)時,所有包含這些詞項的網頁會從倒排索引中抽取出來,並按照能夠反映頁面內詞項作用的某種方式排序。因此,如果詞項出現在網頁頭部,該網頁的相關性比詞項出現在普通正文中的網頁更高,而且詞項出現次數越多,網頁相關性越高。在這種情況下,詞項作弊(term spam)大量出現,一些人透過修改網頁的方式(比如大量重複某一關鍵詞)欺騙搜尋引擎,讓它們相信一個本來不相關的頁面。PageRank演算法就是針對詞項作弊開發的,主要有兩項創新。

第一,模擬網際網路衝浪者的行為。這些假想的衝浪者從隨機網頁出發,每次從當前頁面隨機選擇出鏈前行,該過程可以迭代多步。最終,這些衝浪者會在頁面上匯合。較多衝浪者訪問的頁面的重要性被認為高於那些較少衝浪者訪問的頁面。網頁的這種重要性就用PageRank值來衡量。Google在決定查詢應答順序時,會將PageRank值較高的頁面排在前面。

第二,在判斷網頁內容時,不僅只考慮網頁上出現的詞項,還考慮指向該網頁的連結中或周圍所使用的詞項。這裡面隱含的假設是:網頁的所有者傾向於連結他們認為較好或有用的網頁,而不願連結那些糟糕或無用的網頁;儘管作弊者很容易在它們控制的網頁中增加虛假詞項,但是在指向當前網頁的網頁上新增虛假詞項卻不那麼容易。(針對連結分析出現了連結作弊,即為提高某個或者某些特定網頁的PageRank值而構建一個網頁集合,稱為垃圾農場。相應地,出現了一些反作弊方法,比如TrustRank和垃圾質量等。)

在上述兩項創新下,PageRank演算法實際上把網際網路視為一個有向圖,其中網頁是圖中節點,如果兩個網頁之間存在一條或多條連結,那麼它們之間就存在一條有向邊。PageRank演算法為模擬網際網路衝浪者的行為,賦予這些有向邊以轉移概率(transition probability)含義。比如,假設衝浪者當前處在頁面A,而頁面A有3條出鏈分別指向頁面B、C和D。可以認為,衝浪者下一步以各1/3的概率分別訪問B、C和D,但繼續訪問A的概率為0。這樣,衝浪者在網際網路上的行為就可以用馬爾可夫過程(Markov process)來刻畫。

假設共有N個頁面,其集合記為

,是馬爾可夫過程的狀態空間。用

表示衝浪者在時刻所處頁面,

是一個隨機變數,取值在

之中。隨機變數序列

就是一個隨機過程。在PageRank演算法中,該隨機過程滿足馬爾可夫性質(直觀描述是,給定現在,過去和未來不相關):

其中

表示

的條件概率分佈。

因此,

是一個馬爾可夫過程,可以用轉移概率矩陣(transition matrix)來刻畫其動態變化。用NxN矩陣P表示轉移概率矩陣,其第i行第j列元素

的含義是:

用Nx1矩陣

表示

時刻衝浪者在網際網路上位置分佈,其第i個分量

的含義是:

那麼,

時刻衝浪者在網際網路上位置分佈

滿足:

如果網際網路對應的有向圖是強連通的(strongly connected),即從任一節點出發可到達其他節點,並且不存在終止點(即不存在沒有出鏈的節點),那麼不管衝浪者初始時刻在網際網路上位置如何分佈,足夠長時間後,他的位置分佈將逼近一個穩態分佈

。嚴謹表述是:

穩態分佈

滿足

(即從穩態出發,下一個時刻仍是穩態),因此

實際上是矩陣P的特徵向量(eigenvector),對應的特徵值(eigenvalue)為1。

的第i個分量

表示在穩態時,衝浪者處於第i個頁面的概率,也就是第i個頁面的PageRank值。

現實中,網際網路對應的有向圖一般不具有強連通特徵。比如,可能存在沒有任何出鏈的終止點,也可能存在一組網頁,雖然它們都有出鏈但這些出鏈不會指向這組網頁之外的其他網頁。PageRank演算法透過修正轉移概率矩陣來解決這些問題,比如“抽稅”法,就不詳述了。

免責聲明:

  1. 本文版權歸原作者所有,僅代表作者本人觀點,不代表鏈報觀點或立場。
  2. 如發現文章、圖片等侵權行爲,侵權責任將由作者本人承擔。
  3. 鏈報僅提供相關項目信息,不構成任何投資建議

推荐阅读

;