實戰：從零訓練線性回歸

Vibe Prompt

「使用 Adam Optimizer 從零訓練線性回歸，比較自實作的 Adam 與 sklearn 的結果。」

import numpy as np
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

# 產生資料
X, y = make_regression(n_samples=1000, n_features=10, noise=10, random_state=42)
y = y.reshape(-1, 1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 標準化
mean, std = X_train.mean(axis=0), X_train.std(axis=0)
X_train = (X_train - mean) / std
X_test = (X_test - mean) / std

# 自實作 Adam 訓練
def train_adam(X, y, lr=0.01, epochs=200):
    m, n = X.shape
    w = np.zeros((n, 1))
    b = 0.0
    m_w, v_w = np.zeros((n, 1)), np.zeros((n, 1))
    m_b, v_b = 0.0, 0.0
    beta1, beta2 = 0.9, 0.999
    eps = 1e-8
    losses = []
    
    for t in range(1, epochs+1):
        pred = X @ w + b
        loss = np.mean((pred - y)**2)
        losses.append(loss)
        
        dw = (2/m) * X.T @ (pred - y)
        db = (2/m) * np.sum(pred - y)
        
        m_w = beta1*m_w + (1-beta1)*dw
        v_w = beta2*v_w + (1-beta2)*dw*dw
        m_b = beta1*m_b + (1-beta1)*db
        v_b = beta2*v_b + (1-beta2)*db*db
        
        m_w_hat = m_w / (1-beta1**t)
        v_w_hat = v_w / (1-beta2**t)
        m_b_hat = m_b / (1-beta1**t)
        v_b_hat = v_b / (1-beta2**t)
        
        w -= lr * m_w_hat / (np.sqrt(v_w_hat) + eps)
        b -= lr * m_b_hat / (np.sqrt(v_b_hat) + eps)
    
    return w, b, losses

w, b, losses = train_adam(X_train, y_train)
pred = X_test @ w + b
print(f"自實作 Adam R²: {r2_score(y_test, pred):.4f}")

# sklearn 比較
lr = LinearRegression()
lr.fit(X_train, y_train)
print(f"sklearn R²: {r2_score(y_test, lr.predict(X_test)):.4f}")
print(f"權重差異: {np.mean(np.abs(w.flatten() - lr.coef_)):.6f}")

深入分析：自實作 vs sklearn

結果解讀

當你執行上述程式碼，你會發現：

自實作 Adam 的 R² 與 sklearn 的 R² 非常接近（差異通常在 0.001 以內）
權重差異很小（通常在 0.01-0.1 之間），證明自實作正確
差異來源：Adam 使用隨機梯度估計，而 sklearn 使用封閉解析解 (Normal Equation)

從 SGD 到 Adam 的收斂視覺化

import matplotlib.pyplot as plt

# 比較四種最佳化器的收斂速度
optimizers = {
    'SGD (lr=0.01)': lambda: sgd(X_train, y_train, lr=0.01, epochs=100),
    'Momentum (lr=0.01)': lambda: momentum_sgd(X_train, y_train, lr=0.01, epochs=100),
    'Adam (lr=0.01)': lambda: train_adam(X_train, y_train, lr=0.01, epochs=100),
}

plt.figure(figsize=(10, 6))
for name, opt_fn in optimizers.items():
    _, _, losses = opt_fn()
    plt.plot(losses, label=name, linewidth=2)

plt.xlabel('Epoch')
plt.ylabel('MSE Loss')
plt.title('四種最佳化器收斂速度比較')
plt.legend()
plt.yscale('log')
plt.grid(True)
plt.show()

評估指標深入說明

| 指標 | 公式 | 範圍 | 意義 | |------|------|:----:|------| | MSE (均方誤差) | $\frac{1}{m}\sum(y_i - \hat{y}i)^2$ | $[0, \infty)$ | 越大代表誤差越大 | | RMSE (均方根誤差) | $\sqrt{MSE}$ | $[0, \infty)$ | 與原始單位相同，易解讀 | | MAE (平均絕對誤差) | $\frac{1}{m}\sum|y_i - \hat{y}i|$ | $[0, \infty)$ | 對異常值較不敏感 | | R² (決定係數) | $1 - \frac{SS{res}}{SS{tot}}$ | $(-\infty, 1]$ | 1=完美，0=baseline |

超參數調諧實戰

在實際專案中，最佳化器的超參數需要調整：

# 學習率搜尋
def find_best_lr(X_train, y_train, X_test, y_test, lrs=[0.1, 0.01, 0.001, 0.0001]):
    best_r2 = -float('inf')
    best_lr = None
    
    for lr in lrs:
        w, b, _ = train_adam(X_train, y_train, lr=lr, epochs=200)
        pred = X_test @ w + b
        r2 = r2_score(y_test, pred)
        print(f"lr={lr}: R²={r2:.4f}")
        if r2 > best_r2:
            best_r2 = r2
            best_lr = lr
    
    print(f"最佳學習率: {best_lr}, R²={best_r2:.4f}")
    return best_lr

課程總結

你已經完成了從零打造完整訓練管線的五堂課程！

你學會了

| 章節 | 核心技能 | |------|---------| | 1️⃣ 梯度下降原理 | 理解 GD 數學，實作基本版本 | | 2️⃣ Momentum & Adam | 慣性 + 自適應學習率的最佳化器 | | 3️⃣ SGD & Mini-Batch | 大規模資料的隨機最佳化策略 | | 4️⃣ 自動微分 | 從零打造 autograd 引擎 | | 5️⃣ 線性回歸實戰 | 整合所有技術訓練完整模型 |

下一步

將同樣的技巧應用到邏輯回歸或神經網路
嘗試不同的最佳化器組合與學習率排程
使用 PyTorch/TensorFlow 的自動微分引擎進行更大規模的實驗
探索更進階的最佳化器如 AdamW、LAMB、LARS

梯度下降實戰要點

梯度下降是機器學習中最核心的最佳化演算法。理解它的變體（SGD、Momentum、Adam）對於訓練深度學習模型至關重要。

核心概念

梯度方向是函數增加最快的方向
學習率決定每一步的大小
SGD 用隨機樣本近似梯度
Momentum 加速收斂
Adam 結合 Momentum + RMSProp

線性迴歸 + PyTorch

import torch

X = torch.linspace(0, 10, 100).reshape(-1, 1)
true_w, true_b = 2.0, 1.0
y = true_w * X + true_b + torch.randn(100, 1) * 0.5

model = torch.nn.Linear(1, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
loss_fn = torch.nn.MSELoss()

for epoch in range(1000):
    y_pred = model(X)
    loss = loss_fn(y_pred, y)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

print(f"w = {model.weight.item():.3f} (真實: {true_w})")
print(f"b = {model.bias.item():.3f} (真實: {true_b})")

課程總結

這堂課從基本原理、Momentum/Adam、SGD、AutoDiff 到線性迴歸——你已經理解深度學習的訓練機制了。

實戰：從零訓練線性回歸

Vibe Prompt

深入分析：自實作 vs sklearn

結果解讀

從 SGD 到 Adam 的收斂視覺化

評估指標深入說明

超參數調諧實戰

課程總結

你學會了

下一步

梯度下降實戰要點

核心概念

線性迴歸 + PyTorch

課程總結

解鎖完整教學內容