機器學習筆記(四) - 頻率學派與貝葉斯學派、共軛分布、貝葉斯估計
頻率學派(Frequentist) 與貝葉斯學派(Bayesian) 頻率學派與貝葉斯學派都是用來估計未知參數(機率)的方法,兩者最大的不同點是: 頻率學派主張的是一種評價範式。它沒有先驗,更加的客觀。貝葉斯學派主張的是一種模型方法,通過建立未知參數的模型,在沒有觀測到樣本之前,一切參數都是不確定的。使用觀測的樣本值來估計參數,得到的參數帶入模型使當前模型最佳的擬合觀測到的數據。 頻率學派(Frequentist) 頻率學派一般採用的是 最大似然估計(Maximum likelihood estimation, MLE),在給定資料 \(\mathcal{D}\) 以及機率分布模型,我們想找出在此特定模型下的參數,使得資料 \(\mathcal{D}\) 發生的可能性最大。定義 似然函數(likelihood function): \[\mathcal {L}(\theta \mid \mathcal{D})=P(\mathcal{D}\mid \theta)\] 其中 \(\theta\) 為模型所需的參數。可以看到似然函數的變數為 \(\theta\),而非一隨機變量。如果套用貝式定理: \[P(\theta\mid\mathcal{D})=\frac{P(\theta)P(\mathcal{D}\mid \theta)}{P(\mathcal{D})}\] 以貝葉斯學派觀點來說明的話, MLE 對先驗分布做了均勻分布的假設 (\(P(\theta)\) 為定值),因此若要最大化 \(P(\theta\mid\mathcal{D})\),等價於最大化 \(P(\mathcal{D}\mid \theta)\),換句話說,均勻部分的先驗並不影響我們最大化的結果,也可以說是不考慮先驗。頻率學派不考慮先驗的原因是因為其認為客觀先驗不存在,要得到準確的機率只能靠增大數據量來逼近。以數學可以表示如下: \[\widehat{\theta}_{MLE} = \arg\max_{\theta}f(x\mid\theta)\] 其中 \(x\) 為獨立同分佈的採樣,\(\theta\) 為模型參數,\(f\) 為我們所使用的模型。 貝葉斯學派(Bayesian) 貝葉斯學派其中一個估計方式為 最大後驗估計(Maximum a posteriori, MA