線性迴歸:超參數

https://developers.google.com/machine-learning/crash-course/linear-regression/hyperparameters?hl=zh-tw

參數是紙模型本身的一部分, 例如權重和偏差等變數

超參數則是用於控制訓練過程各個層面的變數。常見的超參數如下:

學習率是個浮點數,會影響模型收斂的速度。如果學習率太低,模型可能需要很長的時間才能收斂。如果學習率過高,模型就不會收斂,而是會在最小化損失的權重和偏差之間來回擺動。

批次大小 是指的是模型在更新權重和偏差之前處理的樣本數量。

您可能會認為,模型應先計算資料集中每個示例的損失,再更新權重和偏差。

不過,如果資料集包含數十萬或數百萬個樣本,使用完整批次就沒有實用性。

有兩種常見的技術可在平均情況下取得正確的梯度,無須在更新權重和偏差之前查看資料集中的每個範例,

這兩種技術分別是隨機梯度下降法小批次隨機梯度下降法

  • 隨機梯度下降 (SGD):隨機梯度下降在每個疊代中只使用單一例項 (批次大小為 1)。在足夠的疊代次數下,SGD 雖然可行,但雜訊相當多。「雜訊」是指訓練期間的變化,會導致損失在迭代期間增加,而非減少。「隨機」一詞表示系統會隨機選擇一個範例,用於組成每個批次。要注意的是隨機梯度下降法可能會在整個損失曲線中產生雜訊,而不僅限於收斂附近。

  • 小批隨機梯度下降法 (小批 SGD):小批隨機梯度下降法是全批和 SGD 之間的折衷方案。對於
    個資料點,批次大小可以是任何大於 1 且小於N的數字。模型會隨機選擇每個批次中包含的範例,計算其梯度的平均值,然後在每次迭代中更新權重和偏差。

    每個批次的範例數量取決於資料集和可用的運算資源。一般來說,小批次會像 SGD 一樣運作,而大批次則會像全批次梯度下降一樣運作