區塊鏈分析中的過度擬合挑戰

當與區塊鏈資料集一起使用時，機器學習模型往往會過擬合。什麼是過度擬合以及如何解決？乍一看，使用機器學習來分析區塊鏈資料集的想法聽起來非常吸引人，但這是充滿挑戰的道路。在這些挑戰中，當將機器學習方法應用於區塊鏈資料集時，缺少標記資料集仍然是要克服的最大難題。這些侷限性導致許多機器學習模型使用非常小的資料樣本進行操作，以訓練和過度最佳化那些引起過擬合現象的模型。今天，我想深入探討區塊鏈分析中的過度擬合挑戰，並提出一些解決方案。過度擬合被認為是現代深度學習應用程式中的最大挑戰之一。從概念上講，當模型生成的假設過於適合特定資料集的假設而無法適應新資料集時，就會發生過度擬合。理解過度擬合的一個有用類比是將其視為模型中的幻覺。本質上，模型從資料集中推斷出錯誤的假設時會產生幻覺/過度擬合。自從機器學習的早期以來，已經有很多關於過擬合的文章，所以我不認為有任何聰明的方法來解釋它。對於區塊鏈資料集，過度擬合是缺少標記資料的直接結果。區塊鏈是大型的半匿名資料結構，其中的所有事物都使用一組通用的構造表示，例如交易，地址和區塊。從這個角度來看，有最少的資訊可以證明區塊鏈記錄。這是轉賬還是付款交易？這是個人投資者錢包或交易所冷錢包的地址？這些限定符對於機器學習模型至關重要。想象一下，我們正在建立一個模型來檢測一組區塊鏈中的交換地址。這個過程需要我們使用現有的區塊鏈地址資料集訓練模型，我們都知道這不是很常見。如果我們使用來自EtherScan或其他來源的小型資料集，則該模型可能會過度擬合併做出錯誤的分類。使過擬合變得如此具有挑戰性的方面之一是很難在不同的深度學習技術中進行概括。卷積神經網路傾向於形成過擬合模式，該模式與觀察到的與生成模型不同的遞迴神經網路不同，該模式可以外推到任何型別的深度學習模型。具有諷刺意味的是，過度擬合的傾向隨著深度學習模型的計算能力線性增加。由於深度學習主體幾乎可以免費產生複雜的假設，因此過擬合的可能性增加了。

在機器學習模型中，過度擬合是一個持續的挑戰，但是在使用區塊鏈資料集時，這幾乎是必然的。解決過度擬合的明顯答案是使用更大的訓練資料集，但這並不總是一種選擇。在IntoTheBlock，我們經常遇到過度擬合的挑戰，我們依靠一系列基本方法來解決問題。對抗區塊鏈資料集過擬合的三種簡單策略對抗過度擬合的第一個規則是認識到這一點。雖然沒有防止過度擬合的靈丹妙藥，但實踐經驗表明，一些簡單的，幾乎是常識的規則可以幫助防止在深度學習應用中出現這種現象。為了防止過度擬合，已經發布了數十種最佳實踐，其中包含三個基本概念。資料/假設比率當模型產生太多假設而沒有相應的資料來驗證它們時，通常會發生過度擬合。因此，深度學習應用程式應嘗試在測試資料集和應評估的假設之間保持適當的比率。但是，這並不總是一種選擇。

有許多深度學習演算法（例如歸納學習）依賴於不斷生成新的，有時是更復雜的假設。在這些情況下，有一些統計技術可以幫助估計正確的假設數量，以最佳化找到接近正確的假設的機會。儘管此方法無法提供確切的答案，但可以幫助在假設數量和資料集組成之間保持統計平衡的比率。哈佛大學教授萊斯利·瓦利安特（Leslie Valiant）在他的《大概是正確的》一書中出色地解釋了這一概念。

進行區塊鏈分析時，資料/假設比率非常明顯。假設我們正在基於一年的區塊鏈交易構建預測演算法。因為我們不確定要測試哪種機器學習模型，所以我們使用了一種神經架構搜尋（NAS）方法，該方法針對區塊鏈資料集測試了數百種模型。假設資料集僅包含一年的交易，則NAS方法可能會產生一個完全適合訓練資料集的模型。

支援簡單假設

防止深度學習模型過度擬合的概念上瑣碎但技術上困難的想法是不斷生成更簡單的假設。當然！簡單總是更好，不是嗎？但是在深度學習演算法的背景下，一個更簡單的假設是什麼？如果我們需要將其減少到一個定量因素，我會說深度學習假設中的屬性數量與它的複雜度成正比。

簡單的假設往往比其他具有大量計算和認知屬性的假設更易於評估。因此，與複雜模型相比，較簡單的模型通常不易過擬合。現在，下一個明顯的難題是弄清楚如何在深度學習模型中生成更簡單的假設。一種不太明顯的技術是基於估計的複雜度將某種形式的懲罰附加到演算法上。該機制傾向於傾向於更簡單，近似準確的假設，而不是在出現新資料集時可能會崩潰的更復雜（有時甚至更準確）的假設。

為了在區塊鏈分析的背景下解釋這個想法，讓我們想象一下我們正在建立一個模型，用於對區塊鏈中的支付交易進行分類。該模型使用一個複雜的深度神經網路，該網路會生成1000個特徵以執行分類。如果將其應用於較小的區塊鏈（例如Dash或Litecoin），則該模型很可能會過擬合。

偏差/方差餘額

偏差和方差是深度學習模型中的兩個關鍵估計量。從概念上講，偏差是模型的平均預測與我們試圖預測的正確值之間的差。具有高偏差的模型很少關注訓練資料，從而簡化了模型。總是會導致培訓和測試資料的錯誤率很高。或者，方差是指給定資料點的模型預測的可變性或一個告訴我們資料分佈的值。具有高方差的模型將大量注意力放在訓練資料上，並且沒有對以前從未見過的資料進行概括。結果，這樣的模型在訓練資料上表現很好，但是在測試資料上有很高的錯誤率。

偏差和方差與過度擬合如何相關？用超簡單的術語來說，可以透過減少模型的偏差而不增加其方差來概括泛化的技巧。深度學習的一種良好做法是對它進行建模，以定期將產生的假設與測試資料集進行比較並評估結果。如果假設繼續輸出相同的錯誤，則說明我們存在很大的偏差問題，需要調整或替換演算法。相反，如果沒有明確的錯誤模式，則問題在於差異，我們需要更多資料。

綜上所述

• 任何低複雜度模型-由於高偏差和低方差，容易出現擬合不足。
• 任何高複雜度模型（深度神經網路）-由於低偏差和高方差，容易出現過度擬合。

在區塊鏈分析的背景下，偏差方差摩擦無處不在。讓我們回到我們的演算法，該演算法嘗試使用許多區塊鏈因素來預測價格。如果我們使用簡單的線性迴歸方法，則該模型可能不合適。但是，如果我們使用具有少量資料集的超複雜神經網路，則該模型可能會過擬合。

使用機器學習來分析區塊鏈資料是一個新生的空間。結果，大多數模型在機器學習應用程式中都遇到了傳統挑戰。根本上，由於缺乏標記資料和訓練有素的模型，過度擬合是區塊鏈分析中無所不在的挑戰之一。

區塊鏈分析中的過度擬合挑戰

推荐阅读

近期文章

新手教程

1什麼是區塊鏈？區塊鏈能做什麼？

2區塊鏈是如何運作的？

3區塊鏈和比特幣的關係？

4比特幣有什麼價值？

5如何購買比特幣？