有許多深度學習演算法(例如歸納學習)依賴於不斷生成新的,有時是更復雜的假設。在這些情況下,有一些統計技術可以幫助估計正確的假設數量,以最佳化找到接近正確的假設的機會。儘管此方法無法提供確切的答案,但可以幫助在假設數量和資料集組成之間保持統計平衡的比率。哈佛大學教授萊斯利·瓦利安特(Leslie Valiant)在他的《大概是正確的》一書中出色地解釋了這一概念。
進行區塊鏈分析時,資料/假設比率非常明顯。假設我們正在基於一年的區塊鏈交易構建預測演算法。因為我們不確定要測試哪種機器學習模型,所以我們使用了一種神經架構搜尋(NAS)方法,該方法針對區塊鏈資料集測試了數百種模型。假設資料集僅包含一年的交易,則NAS方法可能會產生一個完全適合訓練資料集的模型。
支援簡單假設
防止深度學習模型過度擬合的概念上瑣碎但技術上困難的想法是不斷生成更簡單的假設。當然!簡單總是更好,不是嗎?但是在深度學習演算法的背景下,一個更簡單的假設是什麼?如果我們需要將其減少到一個定量因素,我會說深度學習假設中的屬性數量與它的複雜度成正比。
簡單的假設往往比其他具有大量計算和認知屬性的假設更易於評估。因此,與複雜模型相比,較簡單的模型通常不易過擬合。現在,下一個明顯的難題是弄清楚如何在深度學習模型中生成更簡單的假設。一種不太明顯的技術是基於估計的複雜度將某種形式的懲罰附加到演算法上。該機制傾向於傾向於更簡單,近似準確的假設,而不是在出現新資料集時可能會崩潰的更復雜(有時甚至更準確)的假設。
為了在區塊鏈分析的背景下解釋這個想法,讓我們想象一下我們正在建立一個模型,用於對區塊鏈中的支付交易進行分類。該模型使用一個複雜的深度神經網路,該網路會生成1000個特徵以執行分類。如果將其應用於較小的區塊鏈(例如Dash或Litecoin),則該模型很可能會過擬合。
偏差/方差餘額
偏差和方差是深度學習模型中的兩個關鍵估計量。從概念上講,偏差是模型的平均預測與我們試圖預測的正確值之間的差。具有高偏差的模型很少關注訓練資料,從而簡化了模型。總是會導致培訓和測試資料的錯誤率很高。或者,方差是指給定資料點的模型預測的可變性或一個告訴我們資料分佈的值。具有高方差的模型將大量注意力放在訓練資料上,並且沒有對以前從未見過的資料進行概括。結果,這樣的模型在訓練資料上表現很好,但是在測試資料上有很高的錯誤率。
偏差和方差與過度擬合如何相關?用超簡單的術語來說,可以透過減少模型的偏差而不增加其方差來概括泛化的技巧。深度學習的一種良好做法是對它進行建模,以定期將產生的假設與測試資料集進行比較並評估結果。如果假設繼續輸出相同的錯誤,則說明我們存在很大的偏差問題,需要調整或替換演算法。相反,如果沒有明確的錯誤模式,則問題在於差異,我們需要更多資料。
綜上所述
• 任何低複雜度模型-由於高偏差和低方差,容易出現擬合不足。
• 任何高複雜度模型(深度神經網路)-由於低偏差和高方差,容易出現過度擬合。
在區塊鏈分析的背景下,偏差方差摩擦無處不在。讓我們回到我們的演算法,該演算法嘗試使用許多區塊鏈因素來預測價格。如果我們使用簡單的線性迴歸方法,則該模型可能不合適。但是,如果我們使用具有少量資料集的超複雜神經網路,則該模型可能會過擬合。
使用機器學習來分析區塊鏈資料是一個新生的空間。結果,大多數模型在機器學習應用程式中都遇到了傳統挑戰。根本上,由於缺乏標記資料和訓練有素的模型,過度擬合是區塊鏈分析中無所不在的挑戰之一。