加州大學伯克利哈斯商學院(UC Berkeley Haas School Of Business)公平、性別和領導力中心的Genevieve Smith和Ishita Rustagi在一篇發表在“斯坦福社會創新評論”(Stanford Social創新評論)上的文章中寫道,儘管人工智慧可能給冠狀病毒戰場帶來積極影響,但所使用的底層資料的缺陷可能加深性別和種族群體中已經存在的不平等現象。有趣的是,這些資料可靠性問題並不是冠狀病毒時代特有的。事實上,人工智慧以及它的機器學習和深度學習的子集,都被資料偏見和資料質量難題的困擾。這裡主要討論的是區塊鏈如何幫助解決這些資料可靠性問題。但是,首先了解資料偏差的來源是很有價值的。資料偏差如何進入人工智慧的資料偏差可能會在不同的階段進入人工智慧,包括問題框架、資料收集和資料準備階段。一個公司希望達到的商業目標將是解決問題的基礎。這一目標本身可能是歧視性的或不公平的。此外,在資料收集階段,偏見可能會透過收集不具有現實代表性或反映現有偏見的資料而被忽略。例如,如果你給一個深度學習模型提供了更多的特定膚色的照片,那麼隨後的面部識別系統在識別訓練資料中占主導地位的膚色方面就會有更好的表現。關於收集反映現有偏見的資料方面,據說在發現一個基於人工智慧的招聘系統對婦女有偏見之後,亞馬遜公司放棄了該招聘系統。回到醫療保健領域,一組研究人員在2019年發現,許多美國醫院使用一種演算法來預測風險,然後分配資源,在同樣的疾病折磨方面,白人患者比黑人患者更受青睞。基於區塊鏈的兩種提高資料質量的方法你挖得越深,就會發現越多的偏見。鑑於這些問題的複雜性,沒有一個單一的解決方案。不過,專家們一致認為需要多樣性的資料。為了實現資料的多樣性,提高資料的透明度以及強有力的協作可以改善這種情況。根據設計,區塊鏈技術只能透過多方協作來維護網路。這可能會給機器學習模型和它們所提供的資料帶來透明度、去中心化和可驗證性。激勵質量培訓資料的貢獻去年微軟MSFT推出了一項名為區塊鏈上的去中心化和協作式人工智慧的計劃。我們的目標是利用公共區塊鏈(以太坊),用於協作和持續的模型培訓和維護。據參與這項計劃的微軟高階軟體開發人員Justin Harris表示,其中的一個關鍵部分是開發一種機制,激勵參與者貢獻“好的資料”。在這個系統中,參與者必須在智慧合約上預先承諾一定的金額,以便為培訓貢獻他們的資料。如果系統確定資料是好的——即滿足某些要求,他們就會得到退款。因此,提供不良資料將導致最初承諾的損失。然而,這裡的重點並不是提供好資料的經濟動機,而是壞資料帶來的成本。例如,以面部識別模型為例,您可以使用智慧合約來要求參與者提交的影象資料中的各種膚色。因此,任何不符合要求的資料集都被認為是壞的,因此貢獻者會受到懲罰。這是一個簡化的例子。當處理不同和複雜的資料集時,事情可能會變得更加複雜。然而,這裡的意圖是指出基於區塊鏈的激勵系統如何能夠幫助生成更高質量的資料。基於區塊鏈的資料市場Streamr也正在開發一個系統,該系統可能有助於提高人工智慧模型中使用的資料的質量和深度。透過它所謂的“資料聯盟”,Streamr希望讓網際網路使用者能夠出售他們的資料。第一個名為Swash的資料聯盟由第三方公司建立,它使用瀏覽器擴充套件來聚合使用者資料。捆綁後的資料最終在其市場上出售。使用者保留排除任何他們不願意共享的資料的權利。這裡有趣的是,任何人都可以建立一個資料聯合來生成特定型別的資料——例如基於性別或種族。此外,在聯合中收集資料使它們比單個實體更有用和更有價值。這樣一個系統可能會使人工智慧中使用的資料在某些領域更接近現實。