上課筆記

頻率學派(Frequentist) 與貝葉斯學派(Bayesian) 頻率學派與貝葉斯學派都是用來估計未知參數(機率)的方法，兩者最大的不同點是：頻率學派主張的是一種評價範式。它沒有先驗，更加的客觀。貝葉斯學派主張的是一種模型方法，通過建立未知參數的模型，在沒有觀測到樣本之前，一切參數都是不確定的。使用觀測的樣本值來估計參數，得到的參數帶入模型使當前模型最佳的擬合觀測到的數據。頻率學派(Frequentist) 頻率學派一般採用的是最大似然估計(Maximum likelihood estimation, MLE)，在給定資料 \(\mathcal{D}\) 以及機率分布模型，我們想找出在此特定模型下的參數，使得資料 \(\mathcal{D}\) 發生的可能性最大。定義似然函數(likelihood function)： \[\mathcal {L}(\theta \mid \mathcal{D})=P(\mathcal{D}\mid \theta)\] 其中 \(\theta\) 為模型所需的參數。可以看到似然函數的變數為 \(\theta\)，而非一隨機變量。如果套用貝式定理： \[P(\theta\mid\mathcal{D})=\frac{P(\theta)P(\mathcal{D}\mid \theta)}{P(\mathcal{D})}\] 以貝葉斯學派觀點來說明的話， MLE 對先驗分布做了均勻分布的假設 (\(P(\theta)\) 為定值)，因此若要最大化 \(P(\theta\mid\mathcal{D})\)，等價於最大化 \(P(\mathcal{D}\mid \theta)\)，換句話說，均勻部分的先驗並不影響我們最大化的結果，也可以說是不考慮先驗。頻率學派不考慮先驗的原因是因為其認為客觀先驗不存在，要得到準確的機率只能靠增大數據量來逼近。以數學可以表示如下： \[\widehat{\theta}_{MLE} = \arg\max_{\theta}f(x\mid\theta)\] 其中 \(x\) 為獨立同分佈的採樣，\(\theta\) 為模型參數，\(f\) 為我們所使用的模型。貝葉斯學派(Bayesian) 貝葉斯學派其中一個估計方式為最大後驗估計(Maximum a posteriori, MA

搜尋此網誌

上課筆記

發表文章

機器學習筆記(四) - 頻率學派與貝葉斯學派、共軛分布、貝葉斯估計