萬向董事長肖風:3-5年,去中心化AI平臺或將出現(附全文)

買賣虛擬貨幣

在AI World 2018世界人工智慧峰會上,中國萬向控股有限公司副董事長兼執行董事肖風分享了他對AI、資料隱私保護和區塊鏈的獨到看法。

肖風認為,隨著AI迎來第三次高潮,技術對資料愈發依賴,帶來了人們對資料估值的重新發現。

區塊鏈加上加密演算法是一對絕配。網際網路是“資訊機器”,區塊鏈是“事實機器”。區塊鏈加上加密演算法將會給AI帶來一片新的天地,它們的結合將滿足AI對資料的需求,資料隱私會得到保護,資料資產會得到確權,資料共享會得到激勵,資料計算會得以開放,資料治理會得以有序。

未來三到五年內,一個去中心化的分散式AI平臺或將出現。

以下是肖風在新智元AI WORLD 2018世界人工智慧峰會上的演講實錄:《AI、資料隱私保護與區塊鏈》

分散式的AI平臺將解決資料帶來的問題

肖風:很榮幸有這樣一個機會在人工智慧大會上進行分享。我自己過去五年在區塊鏈這個領域當中做研究、投資和應用推廣,既然來到這裡,我還是想談一談和區塊鏈有關係的一些話題,當然,首先它也是和人工智慧有關係。

人工智慧和區塊鏈兩個話題碰在一起,資料的產權意識、價值以及資料隱私保護意識的覺醒和AI的發展是密不可分的,或者可以說是AI帶來的。

隨著2016年人工智慧第三次浪潮起來,人們突然發現原來資料有這麼大的作用,資料能夠創造這麼大的價值,人們自然要問:我的資料在哪裡?我的資料得到妥善的保護了嗎?商業機構用我們的資料創造了價值,這些價值難道和我一點關係都沒有嗎?

有關資料的隱私保護、資料的價值分享和資料的共享,我總結了一下,最熱門的有這樣幾個方向:

權確認。在座的各位可能都有很多資料遺留在網際網路上,這些資料是屬於我們的,還是屬於網際網路平臺的?或者是屬於我們和網際網路平臺共同擁有的?怎樣確認我們遺留在網際網路和其它平臺產生的資料?比如醫療平臺上你的基因資料、病歷資料,怎麼確定資料的主權是屬於你還是屬於誰?

第二個方向是資料的隱私保護。大家可能不想把某些資料這麼直白地、這麼公開地在網際網路上被傳播甚至被買賣,所以我們要討論資料的隱私保護。

資料的協同計算。資料如果不被使用根本就不會有價值,但現在我們可能沒有任何一個單一的平臺能夠擁有多維的、多元的資料滿足人工智慧演算法的需求。電商平臺可能有電商的資料,社交平臺可能有社交關係的資料,但如果這些資料能夠協同計算,那麼對AI來說一定是功莫大焉。

但沒有人願意在現在的網際網路的環境下把自己的資料交出去,因為交出去就等於斷送,別人不可能拍著胸脯保證說這些資料我絕對不會偷看,絕對不會傳播出去。即使有這種主觀的善良的意願,技術上也不一定能夠做到,無法保證資料得到妥善的保管。那麼怎樣在既打消這種不信任的念頭,同時又能夠讓這麼多維、多元、多層次的資料在一起協同計算,共同共享,得出具有更大社會福利的AI成果呢?這確實也是一個話題。

資料的價值分享。既然這些資料創造了很大的商業價值,我是不是應該從中得到我應該得到的那一份?現有的網際網路架構下沒有人給你。當然,網際網路平臺也用另外一種方式稍微返還了一部分利益,比如免費使用,這是因為要收集你的資料,你可以得到一些免費的使用,也許這是一種價值間接的體現。但有沒有什麼更直接的體現,能夠激發大家願意貢獻更多的資料來幫助AI達到更好的結果?激勵機制是資料共享或協同計算必須要建立的,沒有很好的激勵機制我們就很難相信,或者很難想像別人會平白無故地把隱私資料貢獻出去,讓某個科學家或讓某個商業機構依據這些資料來訓練機器、最佳化演算法,得到一些結果。

今天很多人工智慧學家都在談怎麼用資料。這些問題是AI的發展帶來的,但AI本身不能解決這些問題。如果這些問題不得到解決,那麼對AI來說是一個巨大的缺陷,尤其是如果我們不能用一個很好的激勵機制去激勵那些資料的持有人把自己的資料貢獻出來,這對人工智慧的發展來說也是一個巨大的缺陷。

舉個例子,科學家如何徵求1萬個特殊病的案例?可以去找醫院,這也是很困難的事情。但如果用區塊鏈技術,用一個分散式的AI平臺,並不需要找中間商,可以用你的智慧合約加上隱私保護的演算法,加上基於數字貨幣的激勵機制,那些互不認識的1萬個陌生人就會願意把自己的病歷資料貢獻給這個平臺,讓某個科學家計算出來結果,然後智慧合約會保證你能得到事先承諾給你的回報,並且你的所有資料能夠得到很好的隱私保護。

如果能夠做到這樣一個分散式的AI平臺,可以想像AI技術、AI行業會和今天討論的不一樣了。今天所有人工智慧學家討論的都是基於中心化的機制、中心化的資料平臺去訓練AI演算法,得到一些結果。其實這是一方面,另一方面就是能不能用分散式、去中心化的AI平臺把中心化平臺無法提供,或者不能提供的資料都蒐羅出來,然後達成我們想要達到的研究目的?

密碼學家在這方面做了很多努力,並且有了很好的成果。

雜湊函式。雜湊函式能夠證明一串數字或者一本書是不是被篡改過,不管是一段話還是一本書,這麼多的內容雜湊以後,得到的雜湊值是一樣大小的;但如果一本書當中改變了其中的一個標點符號,最後得到新的雜湊值和原來就會有巨大的不同,所以能夠證明後來的東西是不是被篡改過。雜湊函式可以得到很好的保證,不需要寫保證書,也不需要籤合同,只要檢查兩個資訊的雜湊值是不是一樣,就知道資料是不是被篡改過。

非對稱加密。所謂的公鑰、私鑰的非對稱加密演算法,能夠保證資料的安全、完整和匿名,某種程度上也能夠對資料的產權進行確認,因為區塊鏈上面唯一的產權確認的依據就是擁有這個數字或者密碼學帳戶的私鑰,擁有了私鑰,就擁有了帳戶裡面的所有價值物和資料。

零知識證明。這種加密演算法能夠在把資料加密之後,在密文的狀態下讓第三方驗證者驗證資料的真實,或者狀態是否真的存在。

也是一樣,資料加密之後,在密文的狀態下,第三方仍然可以就這些資料進行某種程度上的分析和處理,最後由擁有金鑰的人從這裡得到想要得到的結果。也許這個金鑰持有者並不是資料的所有者,因此也不會碰到原始的資料,或者說不會碰到明文的資料。

安全多方計算。就是有一組互不信任的陌生人,比如前面講到的某種特殊病的患者。這樣一組互不信任的參與方,資料擁有者可以把自己的資料在加密以後貢獻出來,讓別人來做協同計算,最後大家可以共享計算的結果。資料永遠都不會離開本地,永遠無法推匯出所有的原始資料。

其實密碼學演算法已經存在很長時間了,但是被用來做資料的隱私保護和隱私保護之後的資料協同計算是最近兩年蓬勃發展的一個事實。

但是光有加密演算法並不能夠完整地達到幫助AI更好地利用這些資料的目的。比如資料確權方面需要藉助其它的技術,資料的真實性方面雜湊函式可以證明是否被篡改過,但只有雜湊函式並不能夠使得資料真的不可撤銷、不可篡改和可追溯。

第三,資料真正要有價值就必須把資料資產化,資料沒有被資產化就無法就資料進行交易,無法給資料確定價值,也無法收到貢獻資料以後應該得到的回報。資料資產化是資料交易的基礎,但是資料資產化的基礎是資料的確權。尤其是去中心化計算,或者所謂的點對點、分散式、邊緣以及多方協同計算這樣的情形,如何建立一套激勵機制,讓那些無關但擁有某方面的資料的人交出這些資料。這時需要建立一套價值分配和激勵機制,讓他們願意把資料貢獻出來,這種價值分配機制和激勵機制密碼學演算法也不能解決。

什麼新的系統加上密碼學演算法才能解決呢?有人說網際網路能夠解決,但網際網路不能解決前面的幾個熱點問題。

首先技術上,我們不能相信一個網際網路平臺確實能夠確保資料的安全和資料的隱私。前段時間我們有看到新聞,一家著名的連鎖酒店,幾億的住客資料被盜取。今天的新聞好像是洩露資料的人被抓到了,公安部門說他沒有能夠完成交易,資料沒有被賣出去。所以技術上並不能夠證明網際網路平臺能夠做到保證這些資料的安全和隱私。

第二,在利益上,大家都在用這些資料賺錢,沒有人在意資料的隱私保護或者產權歸誰。

第三,意願方面,網際網路平臺希望掌握資料的主權,而資料的擁有者希望資料的主動權掌握在自己手裡,使用資料就應該得到許可,分配使用資料獲得利益的一部分。

最後,在管理上。這幾天也有新聞報道,一家非常著名的物流公司的一個工程師無意當中把一個資料庫刪掉了,導致這家很大的物流公司整個停擺了590分鐘,整個系統才得以恢復。

因此,密碼學演算法不能解決這些問題,網際網路技術也一樣不能解決。

誰能解決呢?區塊鏈是可以解決的,因為區塊鏈和網際網路有很大的不同。有人說區塊鏈是第二代網際網路,我覺得不是,區塊鏈和網際網路有巨大的區別,主要是這幾個方面:

網際網路剛出來的時候,美國的媒體把網際網路叫做“資訊機器”。確實,網際網路使得資訊的產生、交流、傳遞成本極低,低到邊際成本是零,傳遞速度極快,資訊的獲取也極端方便。區塊鏈被人們叫做事實機器,因為它的分散式資料庫的特點,區塊鏈的資料庫上面任何資料只能新增,不能撤除,不能篡改。因此資料一旦登記到區塊鏈上面,我們完全不需要擔心是不是被改過,所以叫做事實機器一個事實機器顯然更有利於AI。

第二,網際網路是一種中心化的信任機制,你必須相信網際網路平臺,說你的資料在我這裡是得到妥善保護的,我是不會隨便碰你的資料的。但是到現在為止幾乎沒有人敢徹底相信任何一個網際網路平臺不偷看你的資料,或者你的資料能夠在那裡得到妥善的保護。區塊鏈是一個去中心化的信任機制,不需要信任任何人、任何機構、任何組織,只需要信任這套數學演算法,這套數學演算法不會偷窺你的資料,也不會擅自利用你的資料。靠著一條共識演算法來建立的分散式信任機制,顯然要比一箇中心化的網際網路機制好得多。

激勵相容。資料的擁有方、演算法的提供方、算力的提供方和AI的需求方在區塊鏈上面完全能夠做到激勵相容,每個人各得其所,不會有激勵不相容的現象發生。所以在激勵機制上區塊鏈和網際網路有巨大的不同,網際網路平臺是多方參與的,但是我們無法在網際網路平臺建立很好的激勵相容機制,區塊鏈上面可以建立這樣的激勵機制。

第四,網際網路上的應用叫做App,區塊鏈上的應用叫做Dapp,D就是“去中心化”(Decentralized)。App和Dapp的最大區別是什麼?比如說,如果你用出版社加上新華社的渠道來出版一本書,那麼你可能得到這本書售價的10%,那是你的版稅。但如果透過網際網路平臺,比如騰訊的閱文平臺,出版任何的讀物,收入的25%要歸平臺。這意味著作者本人可以得到這本著作所有收入的75%。但在區塊鏈上面的Dapp上出版這樣的讀物和著作,所有的收入100%歸你,沒有任何人會在中間抽取你的費用。這是一個去中心化的商業模式,我們把它叫做分散式商業。

第五,網際網路在利益上希望資料獨享,所以在現有的技術狀況下很難看到不同的網際網路平臺會把資料共享出來,這實際上妨礙了AI的進一步發展。但是在區塊鏈上面是資料共享的,因為所謂分散式資料庫之上的分散式記帳系統本來就是一個共享記帳系統,帳本系統本來就是相關參與方在一個資料庫當中記錄大家相關的所有資料,可以同步給所有的參與方。

最後,區塊鏈上面跑的是數字貨幣,資料要達成交易交換,或者用來激勵資料的所有者或者提供者,演算法的提供者或者算力的提供者。網際網路的環境中可以用微信和支付寶,但這是另外一套系統,把資料提供之後仍然可以懷疑是不是能夠得到事先承諾的價值和利益。但是區塊鏈上面不需要擔心這個,任何一個需求的發起方建立智慧合約,數字貨幣寫在智慧合約裡面,也把資料交給這個智慧合約,運算結束以後智慧化合約會自動觸發一個支付流程,所有人會依據事先約定好的計算機程式分配所得利益,所以它是可程式設計的智慧貨幣。數字貨幣本身就是一段計算機程式,而不是一串數字。

這些是網際網路和區塊鏈很大的區別,可以看到區塊鏈加上加密演算法可能是一對絕配。區塊鏈的鏈式資料庫可以保證資料的真實性。區塊鏈作為事實機器,它和網際網路這種資訊機器最大的不同是,任何資料在區塊鏈上面不可能被“雙花”,所謂“雙花”就是資料可以不經許可,沒有成本,隨便複製。

我們把區塊鏈叫做價值網際網路。我們在區塊鏈上面傳送BTC/" target="_blank"">比特幣,如果像傳送郵件一樣,一個比特幣可以發給一萬個人,本地還儲存這樣的郵件,這個世界就亂了。區塊鏈技術有一套機制防止雙花,當你宣稱你要利用區塊鏈寄送一個比特幣給別人,這個系統會保證你的比特幣一定會被減掉,而且你的比特幣只能給你指定的那個人得到,不可能像郵件那樣一千個人、一萬個人都能得到。防止雙花,資料才能成為資產。如果像網際網路上面資訊可以這樣無成本、不經許可、隨便擴散,這種時候資料不可能成為資產。

再就是點對點的交易系統。區塊鏈就是一個點對點的交易系統。這種機制可以防止資料壟斷,每個人擁有自己的資料,可以參與交易。

去中心化的信任機制保障了資料的安全,前面我們已經講過了。

智慧可程式設計貨幣帶來資料協作新的激勵機制,加上前面講的加密演算法是一對絕配。

最後,簡單總結一下區塊鏈和加密演算法的發展趨勢。

現在有越來越多大學的密碼學家開始加入到區塊鏈的創業團隊當中,我在今年上半年就已經碰到過好幾個斯坦福、MIT、馬里蘭大學和伯克利大學的密碼學家,大家紛紛加入到了區塊鏈行業,投身到資料的隱私保護和資料的協同計算。

透過這些密碼學家我們瞭解到,密碼學界研究方向正在發生巨大的轉變,明年的美國密碼學年會和歐洲密碼學年會目前為止接到的論文和議題有一半是安全多方計算MPC。資料隱私保護成為了最熱門、最重要的話題,我所發起的PlatON區塊鏈專案就是致力於用加密演算法加上區塊鏈技術解決資料多方安全計算的問題。我們已經在工程上實現了兩方安全計算,明年中會實現三方的安全計算,之後多方安全計算就不遠了。

區塊鏈加上加密演算法將會給AI帶來一片新的天地,滿足AI對資料的需求,資料隱私會得到保護,資料資產會得到確權,資料共享會得到激勵,資料計算會得以開放,資料治理會得以有序。可以期待三到五年之後,一個去中心化的分散式AI平臺會出現,不再需要依靠中心化的機構,也不再需要中心化機構的資料。一個科學家可以在這樣的平臺上面釋出自己的需求徵集資料所有者,徵集演算法所有者,徵集算力所有者,完成自己的一項科學研究。三到五年以內分散式的AI平臺應該會出現。

謝謝大家!

免責聲明:

  1. 本文版權歸原作者所有,僅代表作者本人觀點,不代表鏈報觀點或立場。
  2. 如發現文章、圖片等侵權行爲,侵權責任將由作者本人承擔。
  3. 鏈報僅提供相關項目信息,不構成任何投資建議

推荐阅读

;