技術Live | 打破資料孤島：聯邦學習

未來的世界資料稱王

人類可能只是放大版的螞蟻

——未來簡史

科技的迅速發展，使得資料量猛增，人類進入大資料時代。為充分釋放資料紅利，必須利用合適的技術或演算法，最大化發揮資料中的潛在價值，而說到當前最熱門的演算法必然要提到人工智慧中常用的機器學習、深度學習。

隨著大資料技術的發展以及隱私保護意識的提高，人們開始擔心自己的資料被收集後會被洩露或者是被不正當使用。如何在滿足使用者隱私保護、資料安全和政府法規的前提下，對跨組織的資料進行學習並建立模型是困擾從業者的一大難題。

在現階段，聯邦學習技術（FederatedLearning, FL）被認為是這個問題的解決方法之一。

聯邦學習的概念

聯邦學習又稱協作學習、分散式學習，最早在2016年由谷歌提出。簡單來說，可以將聯邦學習看作具有隱私保護的機器學習。在聯邦學習過程中，多個參與者在各方不共享資料的情況下對資料進行聯合訓練，建立共享的學習模型，共同獲益。

聯邦學習能夠保證每個客戶的隱私資料不出本地，可以降低傳統中心化機器學習帶來的隱私洩露風險和因資料洩露帶來的相應成本，而建模效果與將整個資料集放在一處效果相同（或相差不大）。

當前國內外已有一些聯邦學習開源框架，主要的有谷歌的Tensorflow、OpenMinded的Pysyft、微眾銀行的FATE、百度的PaddleFL等。

聯邦學習的過程

聯邦學習本質上是深度學習和分散式計算的結合，由多個參與方共同完成分散式訓練，其中有一箇中央伺服器被稱為引數伺服器，具體過程簡述如下：

（1）訓練資料被分割槽並儲存在每一方，每一方分別在其本地資料上訓練一個深度學習模型（與在引數伺服器上維護的模型相同），並向引數伺服器上傳加密後的中間梯度。

（2）引數伺服器收到各方上傳的梯度後，聚合這些引數，更新全域性模型。

（3）每個參與方從伺服器下載更新後的全域性模型，繼續用本地資料進行訓練再上傳更新。

上述訓練過程會重複進行，直到訓練誤差小於預先設定的閾值。

聯邦學習的分類

圖1聯邦學習分類

根據資料孤島的型別及資料劃分方式，可以把聯邦學習分為橫向聯邦學習，縱向聯邦學習和聯邦遷移學習，如圖1所示。

橫向聯邦學習

橫向聯邦學習適用於資料集間使用者特徵重疊部分較大、使用者重疊部分較小的場景，例如兩個不同地區的銀行，他們使用者不同但業務特徵相似。

橫向聯邦學習的實現方式相對簡單，各參與方在本地計算模型，再將結果加密上傳後由伺服器聚合更新即可，如圖2所示。

圖2橫向聯邦學習

縱向聯邦學習

縱向聯邦學習適用於資料集間使用者重疊部分較大、使用者特徵重疊部分較小的場景，例如同一個地方的銀行和電商機構，他們的使用者相似但業務特徵不同。

縱向聯邦學習過程相對複雜，如圖3所示，首先需要找出參與雙方共有的訓練樣本ID（加密樣本對齊），才能進行模型加密訓練。

圖3縱向聯邦學習

訓練過程中，一個表示式裡既有己方的變數又有對方的變數，因此中間引數需互動，且不能直接獲得對方的資料，此過程中涉及安全多方計算等技術。

目前，邏輯迴歸模型、樹形結構模型、神經網路模型等眾多機器學習模型已逐漸被證實可建立在縱向聯邦體系上。

聯邦遷移學習

聯邦遷移學習適用於資料集間使用者與使用者特徵重疊部分都較小時的情景。此時不對資料進行切分，而是在聯邦學習中引入遷移學習來克服聯邦學習資料和標籤不足的問題，提升模型效果。

問題與挑戰

新技術的出現往往是一把“雙刃劍”，聯邦學習也不例外，作為一項“年輕”的技術，聯邦計算仍面臨著一些問題與挑戰。

通訊與計算開銷

聯邦學習需要將迭代的訓練引數上傳至伺服器，參與使用者數目及訓練迭代次數的增加都會導致鏈路傳輸開銷的增加。此外，加密和解密演算法也會帶來計算量的劇增，這些都需進一步最佳化。

信任問題

由於聯邦學習的參與方來自不同的組織或機構，彼此間缺少信任，因此，如何在互相缺乏信任的場景下建立安全可靠的協作機制，是實際應用中亟待解決的問題。

安全問題

一方面，各參與方所提供的引數缺乏相應的驗證機制，惡意的參與者可能會提供虛假的模型引數，這會直接影響整體模型的質量。

另一方面，近期的一些研究表明，攻擊者有可能根據每一輪的更新引數推測出使用者的私有資料，這會使得聯邦學習不再具有隱私保護的能力。

除了上述問題，聯邦學習中參與使用者的異構性、通訊鏈路的可靠性、如何將深度學習等複雜演算法改造成聯邦學習模式等問題都值得進一步深入研究。

聯邦學習+區塊鏈？

在傳統的聯邦學習中，全域性模型更新的儲存和計算完全依賴於中央伺服器的可靠性，任何惡意行為都會導致全域性模型更新出現問題，從而使整個學習過程變得錯誤。

區塊鏈是一種分散式、去中心化、可追溯的分類賬技術，將區塊鏈技術引入聯邦學習，在不安全的環境中可以用來替換容易受到攻擊的中央伺服器。與此同時，還可利用區塊鏈的激勵機制，透過提供與訓練樣本大小成比例的獎勵，激勵更多裝置與更多訓練樣本的聯合。

因此，將區塊鏈技術與聯邦學習進行結合或許將是一種能有效解決安全問題又能激勵更多人參與的方案。

小結

總的來說，聯邦學習技術目前仍不算成熟，但相信隨著人工智慧等技術的不斷髮展，聯邦學習在跨部門合作、資料隱私保護等方面將會發揮越來越重要的作用，有著廣闊的應用前景。

技術Live | 打破資料孤島：聯邦學習

推荐阅读

近期文章

新手教程

1什麼是區塊鏈？區塊鏈能做什麼？

2區塊鏈是如何運作的？

3區塊鏈和比特幣的關係？

4比特幣有什麼價值？

5如何購買比特幣？