雖然這種方法不能提供準確的答案,但它有助於保持假設數量和資料集組成之間的統計平衡。哈佛大學教授萊斯利·瓦蘭特在他的書中精采地解釋了這一概念。
當進行區塊鏈分析時,資料/假設的比例非常明顯。假設我們正在構建一個基於一年區塊鏈交易的預測演算法。
因為我們不確定要測試哪個機器學習模型,所以我們使用神經架構搜尋(NAS)方法,該方法針對區塊鏈資料集測試數百個模型。
考慮到資料集只包含一年的交易,NAS方法可能會生成一個完全適合訓練資料集的模型。
支援簡單的假設
在深度學習模型中,防止過度擬合的一個概念上瑣碎但技術上困難的想法是不斷生成更簡單的假設。當然!簡單總是更好的,不是嗎?
但在深度學習演算法的背景下,有什麼更簡單的假設呢?如果我們需要將其歸結為一個量化的因素,我會說深度學習假設中屬性的數量與複雜度成正比。
簡單的假設往往比其他有大量屬性的假設更容易評估,無論是在計算上還是在認知上。
因此,與複雜的模型相比,簡單的模型通常不太容易過度擬合。下一個明顯的難題是如何在深度學習模型中生成更簡單的假設。
一種不太明顯的技術是根據演算法的估計複雜度對其附加某種形式的懲罰。這種機制傾向於更簡單、更準確的假設,而不是更復雜、有時更準確的假設。
為了在區塊鏈分析中解釋這個概念,讓我們假設我們正在構建一個在區塊鏈中對支付交易進行分類的模型。
該模型使用一個複雜的深度神經網路生成1000個特徵來進行分類。如果應用於較小的區塊鏈,如Dash或Litecoin,該模型很可能會過度擬合。
偏差/方差平衡
偏差和方差是深度學習模型的兩個關鍵估計量。從概念上講,偏差是我們模型的平均預測值與我們試圖預測的正確值之間的差異。高偏差模型對訓練資料的重視程度低,模型過於簡化。它往往會導致訓練和測試資料的高誤差。
或者,方差指的是模型對給定資料點或值的預測的可變性,它告訴我們資料的分佈。高方差模型對訓練資料非常重視,對未見過的資料不進行泛化。因此,這樣的模型在訓練資料上表現得很好,但在測試資料上有很高的錯誤率。
偏差和方差如何與過度擬合相關?在超簡單的術語中,概括的藝術可以透過減少模型的偏差而不增加其方差來概括。
在深度學習模型中,定期將生成的假設與測試資料集進行比較並評估結果是一個很好的實踐。如果假設繼續輸出相同的錯誤,那麼我們就有一個很大的偏差問題,我們需要調整或替換演算法。如果錯誤沒有清晰的模式,那麼問題就是不一致,我們需要更多的資料。總而言之:
· 任何低複雜度的模型都會因為高偏差和低方差而傾向於擬合不足。
· 任何高複雜度的模型(深度神經網路)都會因為低偏差和高方差而傾向於過度擬合。
在區塊鏈分析中,偏差-方差摩擦無處不在。讓我們回到我們的演算法,試圖預測價格與許多區塊鏈因素。如果我們使用簡單的線性迴歸方法,模型很可能不適合。然而,如果我們使用一個具有小資料集的超級複雜的神經網路,模型可能會過度擬合。
使用機器學習來分析區塊鏈資料是一個非常新興的領域。因此,大多數模型都遇到了機器學習應用程式的傳統挑戰。
過度擬合是區塊鏈分析中無處不在的挑戰之一,其根本原因是缺乏標記資料和訓練過的模型。沒有什麼神奇的解決方案可以解決過度擬合的問題,但是本文中列出的一些原則已經被證明對IntoTheBlock是有效的。