去中心化如何減輕人工智慧中的資料偏差

新冠肺炎的爆發使世界各地的衛生系統不堪重負。在某種程度上，病人的床位和、吸器以及衛生工作人員的防護裝置都不夠。這意味著衛生系統，特別是發達國家的衛生系統，必須採用某些技術來有效地分配資源。AI是其中之一，它在防治冠狀病毒方面的重要性繼續增強。紐約大學的研究人員開發了一款應用程式，利用人工智慧和大資料來預測新冠肺炎病例的嚴重程度，很好地說明了這項技術是如何幫助資源分配的，至少在理論上是這樣。研究人員利用來自中國武漢160家醫院的患者資料，確定了四種生物標誌物，它們在死於該病毒的患者中明顯高於那些康復的患者。基於人工智慧模型中的資料，該應用程式為患者分配了一個嚴重程度評分，臨床醫生可以使用該評分來做出知情的護理和資源分配決定。

加州大學伯克利哈斯商學院(UC Berkeley Haas School Of Business)公平、性別和領導力中心的Genevieve Smith和Ishita Rustagi在一篇發表在“斯坦福社會創新評論”(Stanford Social創新評論)上的文章中寫道，儘管人工智慧可能給冠狀病毒戰場帶來積極影響，但所使用的底層資料的缺陷可能加深性別和種族群體中已經存在的不平等現象。有趣的是，這些資料可靠性問題並不是冠狀病毒時代特有的。事實上，人工智慧以及它的機器學習和深度學習的子集，都被資料偏見和資料質量難題的困擾。這裡主要討論的是區塊鏈如何幫助解決這些資料可靠性問題。但是，首先了解資料偏差的來源是很有價值的。資料偏差如何進入人工智慧的

資料偏差可能會在不同的階段進入人工智慧，包括問題框架、資料收集和資料準備階段。一個公司希望達到的商業目標將是解決問題的基礎。這一目標本身可能是歧視性的或不公平的。此外，在資料收集階段，偏見可能會透過收集不具有現實代表性或反映現有偏見的資料而被忽略。例如，如果你給一個深度學習模型提供了更多的特定膚色的照片，那麼隨後的面部識別系統在識別訓練資料中占主導地位的膚色方面就會有更好的表現。關於收集反映現有偏見的資料方面，據說在發現一個基於人工智慧的招聘系統對婦女有偏見之後，亞馬遜公司放棄了該招聘系統。回到醫療保健領域，一組研究人員在2019年發現，許多美國醫院使用一種演算法來預測風險，然後分配資源，在同樣的疾病折磨方面，白人患者比黑人患者更受青睞。基於區塊鏈的兩種提高資料質量的方法你挖得越深，就會發現越多的偏見。鑑於這些問題的複雜性，沒有一個單一的解決方案。不過，專家們一致認為需要多樣性的資料。為了實現資料的多樣性，提高資料的透明度以及強有力的協作可以改善這種情況。根據設計，區塊鏈技術只能透過多方協作來維護網路。這可能會給機器學習模型和它們所提供的資料帶來透明度、去中心化和可驗證性。激勵質量培訓資料的貢獻

去年微軟MSFT推出了一項名為區塊鏈上的去中心化和協作式人工智慧的計劃。我們的目標是利用公共區塊鏈（以太坊），用於協作和持續的模型培訓和維護。據參與這項計劃的微軟高階軟體開發人員Justin Harris表示，其中的一個關鍵部分是開發一種機制，激勵參與者貢獻“好的資料”。在這個系統中，參與者必須在智慧合約上預先承諾一定的金額，以便為培訓貢獻他們的資料。如果系統確定資料是好的——即滿足某些要求，他們就會得到退款。因此，提供不良資料將導致最初承諾的損失。然而，這裡的重點並不是提供好資料的經濟動機，而是壞資料帶來的成本。例如，以面部識別模型為例，您可以使用智慧合約來要求參與者提交的影象資料中的各種膚色。因此，任何不符合要求的資料集都被認為是壞的，因此貢獻者會受到懲罰。這是一個簡化的例子。當處理不同和複雜的資料集時，事情可能會變得更加複雜。然而，這裡的意圖是指出基於區塊鏈的激勵系統如何能夠幫助生成更高質量的資料。基於區塊鏈的資料市場Streamr也正在開發一個系統，該系統可能有助於提高人工智慧模型中使用的資料的質量和深度。透過它所謂的“資料聯盟”，Streamr希望讓網際網路使用者能夠出售他們的資料。第一個名為Swash的資料聯盟由第三方公司建立，它使用瀏覽器擴充套件來聚合使用者資料。捆綁後的資料最終在其市場上出售。使用者保留排除任何他們不願意共享的資料的權利。這裡有趣的是，任何人都可以建立一個資料聯合來生成特定型別的資料——例如基於性別或種族。此外，在聯合中收集資料使它們比單個實體更有用和更有價值。這樣一個系統可能會使人工智慧中使用的資料在某些領域更接近現實。

使用區塊鏈開啟對孤立資料的訪問

一些專案也在探索基於區塊鏈的聯邦學習的潛力。聯邦學習使得人工智慧演算法能夠從大量筒孤立據中積累經驗。計算不是將資料移動到計算地點，而是在資料位置進行。聯邦學習允許資料提供者保留對其資料的控制。然而，無論何時使用聯邦學習都存在隱私風險。區塊鏈由於其卓越的可追溯性和透明度，能夠減輕這種風險。此外，智慧合約還可以透過要求一筆保證金來阻止惡意玩家，這筆保證金只有在演算法沒有違反網路隱私標準的情況下才可以退還。海洋議定書和GNY是兩個探索基於區塊鏈的聯邦學習的專案。海洋最近推出了一款名為“計算到資料”的產品，它允許資料提供者和資料消費者安全地在區塊鏈上購買和銷售資料。這家總部位於新加坡的初創公司已經擁有一些企業名稱。GNY計劃在今年晚些時候推出其主網，最近演示了研究人員如何在其區塊鏈上建立一個側鏈，並對全美各城市每天的新冠病毒死亡人數進行了比較分析。這是一種略有不同的方法，因為它鼓勵資料提供者將其資料放在鏈上，從而消除了以往存在的單點攻擊風險。

在它的演示中，GNY採用支援向量機（SVM）的鏈上演算法來分析新冠病毒相關的死亡率資料。然後，支援向量機模型預測哪些城市的感染率可能會上升或下降。這樣的預測可以幫助城市和州提前收緊或放松管制措施。資料提供商和消費者會轉向區塊鏈嗎？這裡的一個大問題是，區塊鏈提供的激勵是否足以讓人工智慧領域的企業和決策者接受區塊鏈。在過去的幾年裡，區塊鏈被吹捧為有可能顛覆一切。而現實並沒有改變多少。區塊鏈可能有助於緩解問題或促進各行業提高效率，但這並不足以成為放棄現狀的動力。基於區塊鏈的人工智慧的支持者將尋求逆潮流而動。

去中心化如何減輕人工智慧中的資料偏差

推荐阅读

近期文章

新手教程

1什麼是區塊鏈？區塊鏈能做什麼？

2區塊鏈是如何運作的？

3區塊鏈和比特幣的關係？

4比特幣有什麼價值？

5如何購買比特幣？