AI大神如何用區塊鏈解決模型訓練痛點, AI+區塊鏈的正確玩法原來是這樣…… | 人物誌

買賣虛擬貨幣

記者 | Aholiab

出品 | 區塊鏈大本營(blockchain_camp)

現如今,資料成為了企業發展的核心因素,據世界經濟論壇的一份資料表明,到明年,我們的世界中將產生超過44個ZB的資料,這個資料量比宇宙中可見恆星的數量都多出40倍!在未來的世界中,每個人每秒鐘都會產生1.7MB的資料。

只要得到資料,就能得到價值。因此這些資料經常被大公司壟斷。想要得到這些資料成本非常之高。在此基礎上,有人提出了資料交換平臺的概念,比如DEX、BDEX等,希望透過平臺把資料提供方和資料需求方進行對接。

然而資料交換平臺是由第三方來運營的,這其中也會有很多問題。那麼,如何解決這些問題呢?去中心化資料公司OceanProtocol給出了答案

OceanProtocol專案來源於BigChainDB團隊,初衷是透過提供一套去中心化資料交換的協議,為AI模型訓練等需要大量資料的業務提供服務。OceanProtocol允許資料提供者透過去中心化的資料市場與資料消費者進行互動,同時保證所有參與者的控制,可審計性,透明度和合規性

然而,要實現這樣一個資料平臺,卻並不是件簡單的事情,其中包括很多技術挑戰。

為了深入瞭解這一專案的背後,營長近期採訪了OceanProtocol聯合創始人&DEX技術長Mike Anderson

圖片來源 | AsiaBlockchain Review

Mike Anderson可謂是西方世界開源領域中非常活躍的一位開發者,主攻大資料和AI。之前曾開發過多個開源庫和開源工具,比如數值計算庫core.matrix等。他還曾擔任麥肯錫的軟體開發專家,並且創辦過一些公司。如今OceanProtocol也已經被用在保險、醫療、移動等多個領域。

接下來我們就來看看OceanProtocol的前世今生,以及開源大神Mike Anderson關於去中心化資料交換協議技術上的一些思考吧!

“我看到了用區塊鏈釋放分散式資料和AI的價值”

營長:能談談你如何看待區塊鏈嗎?

Mike:對於我來說,區塊鏈技術最令人興奮的地方在於它能夠將加密技術和經濟機制結合在一起,建立有效的分散式系統,這個系統不需要集中控制機制。

隨著區塊鏈技術的發展,我們可以期待在未來看到智慧合約被用於實現全自動業務流程,甚至實現更為完善的業務模型。

營長:你之前在資料科學及AI方向頗有建樹,是什麼讓你決定加入一個區塊鏈公司?分散式的資料協議,難點在哪?

Mike:我之所以作為Ocean Protocol的創始成員加入專案,是因為我看到了應用區塊鏈技術來釋放分散式資料和人工智慧的價值的巨大機遇。Ocean Protocol正致力於解決將資料和人工智慧技術結合起來這一關鍵問題。

這個問題並不簡單,要面臨很多挑戰,例如:

  • 資料由無數個不同的組織持有,需要從一個地方流向另一個地方。這可能發生在組織內部,也可能發生在跨組織之間。

  • 資料有不同的形式和格式,而且資料資產通常不以其解決問題的最終形式存在。此外,還有許多不同的資料平臺和技術,它們都有自己的介面和API。

  • 在涉及高價值或者由技術驅動的活動中經常出現經濟專業化。各個組織往往會扮演最適合它們的角色。因此,為了從資料中提取價值,就會涉及多個利益相關者。

  • 不同組織和地區有不同的的法規和信任問題。

考慮到資料的分散性,集中化方法不太可能會取得大規模成功。我們需要一種分散的方法來解決我們在資料共享方面面臨的挑戰,並且開始創造真正的價值。

因此,要我們的主要工作是發展一套開放的資料交換標準,使分散式資料供應線得以運作。我們將其稱為DEPs(Data Ecosystem Proposals,資料生態系統方案)。

*DEPs地址: https://github.com/DEX-Company/DEPs

營長:能舉個例子談談,這種分散式的資料交換有哪些應用場景嗎?

Mike:我就拿我們現在合作的幾個案例來講講吧。

  • 在保險領域,Aviva和ConnectedLife把資料分析和人工智慧應用在智慧家居資料上,以加強對老年人口的保護和照顧,並支援其獨立生活;

  • 在醫療領域,Roche Diagnostics正在探索如何更好地為接受血液稀釋療法(血夜透析)的患者提供護理;

  • 在零售領域,Next Billion 正在試驗一種新的資料共享模式,該模式將獎勵為銷售資料做出貢獻的農村店主;

  • 在移動領域,sgCarMart剛剛建立了一個二手車資料市場,幫助買家作出更加明智、安全的決策。

去中心化資料交換如何賦能AI模型訓練?

營長:在一般的AI模型訓練中,資料採集的痛點是什麼?

Mike:通常來講,資料採集和資料準備是人工智慧專案中最難的部分,可能會佔專案總成本的80%。如果沒有充足的高質量資料,那麼無論你的演算法有多好都沒太大意義。

而去中心化資料交易的做法是,透過消除當前資料共享的摩擦來解鎖資料,並將問題所有者與問題解決者、資料持有者以及沒有資料的人連結起來。

營長:這一做法的原理是什麼?

Mike:我們可以從下面兩張圖中,看看中心化的資料服務和去中心化的資料服務的流程有哪些不同。

中心化資料供給模式

去中心化資料供給模式

在中心化的服務中,資料是由計算和儲存機構來主導的;而在去中心化的模式中,資料的計算、儲存等孤島被打破。

在實現原理上,我們透過API將資料的儲存、計算和演算法能力開放給開發者。在這一過程中,DEPs作為中間協議對資料進行標準化。最終,將這些標準化、來自於不同節點的資料提供給開發者。

營長:既然是資料的來源來自於分散式節點,那麼你們如何保證資料的質量和可用性?

Mike:在人工智慧領域,資料的質量是非常主觀的——這取決於你要解決的問題。滿足這一個問題需求的資料不一定適合另一個問題。

為了保證資料質量,我們主要透過以下方式:

  • 透過加密技術追蹤資料的來源和完整性,因此你可以確定資料沒有被篡改過並且瞭解資料的來源;

  • 提供利用第三方組織進行資料清理和處理服務的功能,以便自動提高資料質量;

  • 為人工智慧專案提供可以根據用例需求來定義自定義資料格式和工作流;

  • 透過將計算帶入資料的方式(而非將資料帶入計算)為分散式機器學習提供了一個用於培訓和推理的基礎設施。這為隱私提供了進一步的保障,因為資料不會離開其前提,從而開放了對來自多個站點的資料的訪問許可權;

  • 允許資料所有者保留對其資料資產訪問許可權的控制權。

營長:剛才你提到了DEPs,這也是連結資料提供者和消費者的核心嗎?

Mike:是的,DEPs就像是在物流行業中的集裝箱標準——因為每個人都是用相同大小和設計的集裝箱,你就可以構建可擴充套件度很高的的基礎設施,比如可以使用相同標準的集裝箱船、港口、集裝箱起重機。同樣,DEPs為資料和人工智慧供應線提供了一個通用的標準。

這個模型非常簡單:我們定義了名為Data Assets(資料資產)的實體,它們代表有價值的資料集如果使用者有足夠的訪問許可權,那麼就可以把“資料資產”的副本從提供者轉移到消費者。

此外,我們還有名為Operations(操作)的實體,代表計算服務。“操作”可以接受“資料資產”和輸入,並生成其他“資料資產”作為輸出。服務提供者可以自由建立他們喜歡的任何“操作”:資料清理、訓練AI 模型、格式轉換等等都是可能的有用操作。

透過在有向無環圖中組合“資料資產”和“操作”,你可以設計跨越多個參與者的任意資料供應線。這是DEP標準所支援的關鍵創新點。

營長:你認為隨著這種去中心化的資料交換機制的成熟,是否會帶出新的應用場景?

Mike:在我看來,分散式資料交換是人工智慧和分析學的未來。透過標準的、可互操作的協議,我們可以期待一個充滿活力的專案生態系統蓬勃發展。

此外,我們同樣還可以期待服務提供商專注於資料經濟中適合其能力的特定角色。例如,分散式儲存服務提供商,或者提供強大模型訓練演算法的人工智慧公司。

這些資料生態系統可以與加密貨幣以及代幣共存。事實上,我們期待在未來的資料經濟中,加密代幣可以成為消費者購買資產和服務的主要方式。

區塊鏈+AI,前路何方?

營長:你是如何看待「區塊鏈+人工智慧」的?我們目前正處於什麼階段?

Mike:我認為,儘管區塊鏈技術還處於初期階段,但它在建立分散式系統和服務方面具有驚人的潛力。相比之下,人工智慧技術現在在許多用例中已非常前沿,特別是在預測建模、影象識別等方面。人工智慧專案通常存在的問題是在獲取高質量資料進行訓練和推理方面。

此外,區塊鏈具的可追蹤性。可以找到資料共享和交易記錄,並且可以建立資料來源軌跡。透過在模型訓練期間追蹤所有交易(從資料採集、預處理到模型訓練和測試)我們可以重現來源追蹤,幫助我們瞭解模型訓練過程中使用了哪些資料,誰在模型中工作或對資料價值鏈做出了貢獻。這條來源追蹤線可以與食物鏈相媲美,並且可以創造出「負責任的人工智慧」。

營長:作為一家初創公司,你們但不擔心亞馬遜這樣的巨頭也切入到這個領域?這會對你們造成哪些影響?

Mike:如果大公司能夠基於DEPs標準建立他們自己的解決方案,我會非常高興,因為這將幫助我們構建一個真正可互操作的分散式資料生態系統。從另一方面來說,如果這些公司只是簡單地建立了一個有圍牆的花,比如某種形式的集中服務,那麼我認為他們不會有可行的解決方案。

市場需求是一種分散式模型,它可以識別在不同參與者控制資料或處理的不同子集時需要建立的不同資料供應線的複雜性。永遠不會出現適合所有人「一刀切」的集中式解決方案。

營長:你如何看待區塊鏈在中國的發展?

Mike:中國是區塊鏈發展的一股主要力量。我發現有一個很有趣的現象:和世界其他國家相比,中國是申請區塊鏈相關專利最多的國家。各國在鼓勵區塊鏈發展方面似乎存在一些差異,中國顯然有成為區塊鏈領域主導者的願景,區塊鏈技術的發展已被列入國家五年計劃。與世界其他國家相比,中國為這項技術的進步和發展制定了一條更加結構化的道路。相比之下,美國政府在區塊鏈方面的策略則不那麼集中。

我平常base在新加坡,新加坡憑正在打造「智慧國家」,對創新持有極其開放的態度,並且設立了很多專案來資助和推動新技術的發展。新加坡專門為初創公司和企業、公共和私營部門的合作創造了沙盤環境。這些沙盤極大地促進了包括區塊鏈在內的新技術和解決方案的發展,使該國成為了十分利於開發新技術、測試概念驗證和大規模部署的地方。

營長:對於那些想嘗試OceanProtocol的開發者,有什麼建議?

Mike:我們鼓勵人們參與到這個令人興奮的領域中來,為開源發展做貢獻並把這項技術應用到你自己的專案中去。

如果你想參與進來,你可以這樣做:

  • 對DEPs標準做出貢獻/提供反饋;

  • 參與編寫Starfish程式碼;

  • 開始使用該技術構建PoCs。

免責聲明:

  1. 本文版權歸原作者所有,僅代表作者本人觀點,不代表鏈報觀點或立場。
  2. 如發現文章、圖片等侵權行爲,侵權責任將由作者本人承擔。
  3. 鏈報僅提供相關項目信息,不構成任何投資建議

推荐阅读

;