區塊鏈與機器學習模型共享

人工智慧已取得重大進展，但是訪問和利用機器學習系統使這些發展成為可能會面臨挑戰，特別是對於那些資源有限的人而言。這些系統往往是高度集中的，它們的預測通常按每個查詢出售，而訓練它們所需的資料集通常是專有的，而且要自行建立也很昂貴。此外，如果不定期提供新資料來對其進行再訓練，則已釋出的模型可能會過時。我們設想一種稍有不同的範例，在該範例中，人們將能夠使用他們已經擁有的技術（例如手機和其他裝置上的瀏覽器和應用）輕鬆且經濟高效地執行機器學習模型。本著使AI民主化的精神，我們在區塊鏈上引入去中心化和協作AI。透過這個新的框架，參與者可以在公共區塊鏈上持續協作地訓練和維護模型，以及建立資料集，在這些區塊鏈上，模型通常可以免費用於評估預測。該框架非常適合人們每天遇到的AI輔助場景，例如與個人助手互動，玩遊戲或使用推薦系統。為什麼選擇區塊鏈？

利用區塊鏈技術，透過該框架可以完成兩件事：為參與者提供一定程度的信任和安全，並可靠地執行基於激勵的系統，以鼓勵參與者提供有助於改善模型效能的資料。使用當前的Web服務，即使程式碼是開源的，人們也無法100％地確定與之互動的內容，並且執行模型通常需要專門的雲服務。在我們的解決方案中，我們將這些公共模型放入了智慧合約中，在區塊鏈上進行編碼，以幫助確保遵守約定條款的規範。在我們的框架中，模型可以在鏈上進行更新，即在區塊鏈環境內進行更新，只需支付少量交易費用，或將其用於鏈下推理（在個人裝置上本地進行，無需交易費用）。智慧合約不可修改，許多機器都無法對其進行評估，從而有助於確保模型能夠執行其指定的功能。智慧合約的不變性和永久性記錄也使我們能夠可靠地計算並提供對良好資料貢獻的獎勵。在處理付款時，信任非常重要，尤其是在像我們這樣的系統中，這種系統試圖透過激勵措施鼓勵積極參與（稍後再介紹）。此外，以太坊等區塊鏈在全球擁有成千上萬的去中心化機器，這使得智慧合約變得完全不可用或離線的可能性較小。部署和更新模型

根據區塊鏈網路的計算成本，在公共區塊鏈上託管機器學習模型需要一次性的部署費，通常為幾美元。從那時起，任何提供資料來訓練模型的人，無論是部署模型的個人還是其他參與者，都將不得不支付少量費用（通常為幾美分），這再次與完成的計算量成比例。使用我們的框架，我們建立了一個Perceptron模型，能夠對電影評論的正面或負面情緒進行分類。截至2019年7月，在以太坊上更新模型的成本約為0.25美元。我們已計劃擴充套件框架，以使大多數資料提供者不必支付這筆費用。例如，當資料來自使用第三方技術（例如遊戲）時，貢獻者可以在獎勵階段獲得報銷，或者第三方可以提交資料並代表他們支付費用。為了減少計算成本，我們使用非常有效的訓練模型，例如Perceptron或Nearest Centroid分類器。我們還可以將這些模型與鏈外計算的高維表示形式一起使用。可以使用從智慧合約到機器學習服務的API呼叫來整合更復雜的模型，但理想情況下，模型應在智慧合約中完全公開。激勵機制區塊鏈很容易讓我們共享不斷髮展的模型引數。新建立的資訊（例如新詞，新電影標題和新圖片）可用於更新託管的現有模型，而無需考慮特定個人或組織自身更新和託管模型的能力。為了鼓勵人們貢獻有助於維持模型效能的新資料，我們提出了幾種激勵機制：遊戲化，基於市場的預測以及持續進行的自我評估。遊戲化：就像在Stack Exchange網站上一樣，資料貢獻者可以在其他貢獻者驗證其貢獻時獲得積分和徽章。該提議僅取決於貢獻者為實現共同利益（模型的改進）而進行合作的意願。

基於市場的預測：使用特定測試集進行評估時，如果貢獻者提高了模型的效能，他們將獲得獎勵。該提案以現有工作為基礎，使用預測市場框架來協作培訓和評估模型，其中包括“眾包預測問題的協作機制”和“消除私有資料的市場框架”。在我們的框架中，基於預測的市場激勵包括三個階段：1. 在承諾階段，提供者需要下注以獎勵給貢獻者，並共享足夠的測試集以證明測試集有效2. 參與階段，參與者以少量的資金提交培訓資料樣本，以彌補其資料不正確的可能性3. 獎勵階段，提供者展示其餘測試集，而智慧合約確認其與承諾階段提供的證據匹配根據參與者對模型改進的貢獻來獎勵他們。如果模型在測試集上的表現更差，那麼貢獻“不良”資料的參與者將失去其存款。

持續進行的自我評估：參與者有效地驗證併為良好的資料貢獻相互支付。在這種情況下，將部署已經使用一些資料訓練的現有模型。希望更新模型的貢獻者提交具有特徵x，標籤y和存款的資料。在經過預定時間後，如果當前模型仍與分類一致，則此人將退回其定金。現在，我們假設資料已被驗證為“良好”，並且貢獻者獲得了積分。如果貢獻者新增了“不良”資料（即無法驗證為“良好”的資料），那麼該貢獻者的存款將被沒收，並分配給因“良好”貢獻而獲得積分的貢獻者。這樣的獎勵系統將有助於阻止“不良”資料的惡意貢獻。從小型高效到複雜區塊鏈上的分散式和協作式AI框架是基於共享模型觀點的，使所有人都可以使用有價值的資源，以及（同樣重要的是）建立可用於訓練區塊鏈環境內外模型的大型公共資料集。當前，該框架主要設計用於可以有效更新的小型模型。隨著區塊鏈技術的發展，我們預計將有更多的人與機器學習模型之間的協作應用程式可用，並且我們希望看到將來在擴充套件到更復雜的模型以及新的激勵機制方面的研究。格密鏈公司正在研究密文機器學習模型的訓練，以及如何基於區塊鏈釋出機器學習模型，從而共享資料與模型的使用。

區塊鏈與機器學習模型共享

推荐阅读

近期文章

新手教程

1什麼是區塊鏈？區塊鏈能做什麼？

2區塊鏈是如何運作的？

3區塊鏈和比特幣的關係？

4比特幣有什麼價值？

5如何購買比特幣？