機器學習筆記(四) - 頻率學派與貝葉斯學派、共軛分布、貝葉斯估計
頻率學派(Frequentist) 與貝葉斯學派(Bayesian) 頻率學派與貝葉斯學派都是用來估計未知參數(機率)的方法,兩者最大的不同點是: 頻率學派主張的是一種評價範式。它沒有先驗,更加的客觀。貝葉斯學派主張的是一種模型方法,通過建立未知參數的模型,在沒有觀測到樣本之前,一切參數都是不確定的。使用觀測的樣本值來估計參數,得到的參數帶入模型使當前模型最佳的擬合觀測到的數據。 頻率學派(Frequentist) 頻率學派一般採用的是 最大似然估計(Maximum likelihood estimation, MLE),在給定資料 D 以及機率分布模型,我們想找出在此特定模型下的參數,使得資料 D 發生的可能性最大。定義 似然函數(likelihood function): L(θ∣D)=P(D∣θ) 其中 θ 為模型所需的參數。可以看到似然函數的變數為 θ,而非一隨機變量。如果套用貝式定理: P(θ∣D)=P(θ)P(D∣θ)P(D) 以貝葉斯學派觀點來說明的話, MLE 對先驗分布做了均勻分布的假設 (P(θ) 為定值),因此若要最大化 P(θ∣D),等價於最大化 P(D∣θ),換句話說,均勻部分的先驗並不影響我們最大化的結果,也可以說是不考慮先驗。頻率學派不考慮先驗的原因是因為其認為客觀先驗不存在,要得到準確的機率只能靠增大數據量來逼近。以數學可以表示如下: ˆθMLE=argmax 其中 x 為獨立同分佈的採樣,\theta 為模型參數,f 為我們所使用的模型。 貝葉斯學派(Bayesian) 貝葉斯學派其中一個估計方式為 最大後驗估計(Maximum a posteriori, MA...