機器學習筆記(四) - 頻率學派與貝葉斯學派、共軛分布、貝葉斯估計

頻率學派(Frequentist) 與貝葉斯學派(Bayesian)

頻率學派與貝葉斯學派都是用來估計未知參數(機率)的方法,兩者最大的不同點是:

頻率學派主張的是一種評價範式。它沒有先驗,更加的客觀。貝葉斯學派主張的是一種模型方法,通過建立未知參數的模型,在沒有觀測到樣本之前,一切參數都是不確定的。使用觀測的樣本值來估計參數,得到的參數帶入模型使當前模型最佳的擬合觀測到的數據。

頻率學派(Frequentist)

頻率學派一般採用的是 最大似然估計(Maximum likelihood estimation, MLE),在給定資料 \(\mathcal{D}\) 以及機率分布模型,我們想找出在此特定模型下的參數,使得資料 \(\mathcal{D}\) 發生的可能性最大。定義 似然函數(likelihood function):

\[\mathcal {L}(\theta \mid \mathcal{D})=P(\mathcal{D}\mid \theta)\]

其中 \(\theta\) 為模型所需的參數。可以看到似然函數的變數為 \(\theta\),而非一隨機變量。如果套用貝式定理:

\[P(\theta\mid\mathcal{D})=\frac{P(\theta)P(\mathcal{D}\mid \theta)}{P(\mathcal{D})}\]

以貝葉斯學派觀點來說明的話, MLE 對先驗分布做了均勻分布的假設 (\(P(\theta)\) 為定值),因此若要最大化 \(P(\theta\mid\mathcal{D})\),等價於最大化 \(P(\mathcal{D}\mid \theta)\),換句話說,均勻部分的先驗並不影響我們最大化的結果,也可以說是不考慮先驗。頻率學派不考慮先驗的原因是因為其認為客觀先驗不存在,要得到準確的機率只能靠增大數據量來逼近。以數學可以表示如下:

\[\widehat{\theta}_{MLE} = \arg\max_{\theta}f(x\mid\theta)\]

其中 \(x\) 為獨立同分佈的採樣,\(\theta\) 為模型參數,\(f\) 為我們所使用的模型。

貝葉斯學派(Bayesian)

貝葉斯學派其中一個估計方式為 最大後驗估計(Maximum a posteriori, MAP),與 MLE 不同的是,MAP 導入了先驗的概念,假設先驗分布模型為 \(g\),透過貝式定理:

\[f(\theta\mid x) = \frac{f(x\mid\theta)g(\theta)}{\int_{\theta\in\Theta}f(x\mid\theta')g(\theta')d\theta'}\]

後驗分布的目標為:

\[\widehat{\theta}_{MAP} = \arg\max_{\theta}\frac{f(x\mid\theta)g(\theta)}{\int_{\theta\in\Theta}f(x\mid\theta')g(\theta')d\theta'}=\arg\max_{\theta}f(x\mid\theta)g(\theta)\]

另外值得注意的是,MLE 和 MAP 都是 點估計(point estimation),和之後會提到的貝葉斯估計不同 (貝葉斯估計為 區間估計(interval estimation))。

伯努利分布(Bernoulli distribution)

伯努利分布是一個離散型機率分布,若伯努利試驗成功,則伯努利隨機變數取值為1。若伯努利試驗失敗,則伯努利隨機變數取值為0。假設其成功機率為 \(p\ \ (0\le p\le1)\):

a.機率質量函數

\[f_X(x)=p^x(1-p)^{1-x}=\begin{cases} p, & \text{if \(x\) = 1} \\ 1-p, & \text{if \(x\) = 0} \end{cases}\]

b.期望值

\[E[X] =0\times f_{X}(0)+1\times f_{X}(1)=0+p=p\]

c.變異數

\[Var(X) = E[X^2] - E[X]^2 = p - p^2 = p(1-p) \triangleq p\ q\]

伯努利分布的一個典型例子為投擲硬幣,令投擲結果出現正面時,隨機變數 \(X = 1\),當我們經過多次試驗後,考慮以下問題:給定 \(n\) 次試驗結果 \(\mathcal{D} =\{x_1,\ x_2,\ \cdots,\ x_n\}\),其中正面次數為 \(S\)、失敗次數為 \(F\),試問在此結果為前提下,硬幣出現正面的機率為何?

根據 MLE,待求目標為

\begin{align}\max \mathcal {L}(p \mid \mathcal{D}) &=P(\mathcal{D}\mid p) \\ &=P(\{x_1,\ x_2,\ \cdots,\ x_n\}\mid p)\end{align}

因為每次試驗為 獨立同分佈(independent and identically distributed, IID):

\begin{align}\qquad\qquad\qquad&=P(x_1\mid p)\times P(x_2\mid p)\times\cdots\times P(x_n\mid p) \\ &=p^{x_1}(1-p)^{1-x_1}\times p^{x_2}(1-p)^{1-x_2}\times\cdots\times p^{x_n}(1-p)^{1-x_n} \\ &=p^{\sum_{i=1}^n x_i}\times (1-p)^{N- \sum_{i=1}^n x_i}\end{align}

因為要求函數最大值,我們需要算其一階微分,取 \(log\) 後會有比較良好的性質,與此同時,因為 \(log\) 是單調遞增函數,不影響最大值的分布:

\begin{align}\qquad\qquad\qquad&\Rightarrow (\sum_{i=1}^n x_i) \log p + (N-\sum_{i=1}^n x_i) \log(1-p) \\ &\Rightarrow \frac{1}{p}\sum_{i=1}^n x_i - \frac{1}{1-p}(N-\sum_{i=1}^n x_i) = 0 \\ &\Rightarrow \frac{S}{p}+\frac{S}{1-p} = \frac{N}{1-p} \\ &\Rightarrow \frac{S}{p} = \frac{F}{1-p} \\ &\Rightarrow Fp = S - Sp \\ &\Rightarrow (F + S)p = S \\ &\Rightarrow p = \frac{S}{N}\end{align}

二項分布(Binomial distribution)

二項分布是 \(n\) 個獨立的是/非試驗中成功的次數的離散機率分布,其中每次試驗的成功機率為 \(p\)。這樣的單次成功/失敗試驗又稱為伯努利試驗。實際上,當 \(n = 1\) 時,二項分布就是伯努利分布。

a.機率質量函數

如果隨機變數 \(X\) 服從參數為 \(n\)和 \(p\)的二項分布,我們記 \(X\sim b(n,p)\) 或 \(X\sim B(n,p)\)。\(n\) 次試驗中正好得到 \(k\) 次成功的機率由機率質量函數給出:

\[f(k;n,p)=\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k} \qquad\forall k \in [1, n]\] \[\text{其中}\ {n \choose k}=\frac {n!}{k!(n-k)!}\]

b.期望值

如果 \(X \sim B(n, p)\)(也就是說,\(X\) 是服從二項分布的隨機變數),那麼 \(X\) 的期望值為:

\begin{align}E[X] &=\sum_{k = 0}^n k \Pr(X=k) \\ &=\sum_{k = 0}^n k {n \choose k}p^{k}(1-p)^{n-k} \\ &=\sum_{k = 1}^n k {n \choose k}p^{k}(1-p)^{n-k} \\ &=\sum_{k = 1}^n n {n-1 \choose k-1}p^{k}(1-p)^{n-k} \\ &=n\sum_{k = 0}^{n-1} {n-1 \choose k}p^{k+1}(1-p)^{n-k-1} \\ &=np\sum_{k = 0}^{n-1} {n-1 \choose k}p^{k}(1-p)^{n-k-1} \\ &=np[p+(1-p)]^{n-1} \\ &= np\end{align}

等價於做 \(n\) 次伯努利試驗的結果。

c.變異數

\begin{align}Var(X) &= E[X^2] - E[X]^2 \\ &=\sum_{k = 0}^n k^2 \Pr(X=k) - E[X]^2\\ &=\sum_{k = 0}^n k^2 {n \choose k}p^{k}(1-p)^{n-k}- E[X]^2 \\ &=\sum_{k = 1}^n k^2 {n \choose k}p^{k}(1-p)^{n-k}- E[X]^2 \\ &=\sum_{k = 1}^n k n {n-1 \choose k-1}p^{k}(1-p)^{n-k}- E[X]^2 \\ &=n\sum_{k = 0}^{n-1} (k+1){n-1 \choose k}p^{k+1}(1-p)^{n-k-1}- E[X]^2 \\ &=np\left[\sum_{k = 0}^{n-1} k{n-1 \choose k}p^k(1-p)^{n-k-1}+\sum_{k = 0}^{n-1} {n-1 \choose k}p^k(1-p)^{n-k-1}\right]- E[X]^2 \\ &=np[(n-1)p + 1] -(np)^2\\ &=np(np -p + 1 -np) \\ &= np(1-p)\end{align}

貝塔分布(beta distribution)

\(\beta\) 分布是指一組定義在 \([0,1]\) 區間的連續機率分布,有兩個參數 \(\alpha ,\beta >0\)。

a.機率密度函數

\begin{aligned}f(x;\alpha ,\beta )&={\frac {x^{{\alpha -1}}(1-x)^{{\beta -1}}}{\int _{0}^{1}u^{{\alpha -1}}(1-u)^{{\beta -1}}\,du}}\\[6pt]&={\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}\,x^{{\alpha -1}}(1-x)^{{\beta -1}}\\[6pt]&\triangleq{\frac {1}{{\mathrm {B}}(\alpha ,\beta )}}\,x^{{\alpha -1}}(1-x)^{{\beta -1}}\end{aligned}

(第一行到第二行會在下一篇文章中推導)

其中 \(\Gamma(z)\) 為 Gamma 函數,定義如下:

\[\Gamma(z) = \int_{0}^{\infty} \frac{t^{z-1}}{\mathrm{e}^t} \,{\rm{d}}t\]

Gamma 函數有以下性質:

\begin{align} \Gamma(n+1) &= \int_{0}^{\infty} \frac{t^n}{\mathrm{e}^t} \,{\rm{d}}t \\ &= -\frac{t^n}{e^{t}}\Big|_0^{\infty} + \int_{0}^{\infty} \frac{nt^{n-1}}{e^{t}}\,{\rm{d}}t \\ &= n\Gamma(n)\end{align}

另外透過推導得知:

\begin{align} \Gamma(1) &= \int_{0}^{\infty} \frac{t^{1-1}}{\mathrm{e}^t} \,{\rm{d}}t \\ &= \int_{0}^{\infty} \mathrm{e}^{-t} \,{\rm{d}}t \\ &= - \left.\mathrm{e}^{-t}\right|_0^{\infty} \\ &= 1 \end{align} \[\text{所以}\quad \Gamma(n) = (n-1)! \qquad\qquad\forall\ n \in \mathrm{N}\]

b.期望值

\begin{align}E[X] &= \int_0^1 xf(x;\alpha ,\beta )\rm{d}x \\ &= \int_0^1 x \frac{1}{\mathrm {B}(\alpha ,\beta )}\,x^{\alpha -1}(1-x)^{\beta -1}\rm{d}x \\ &= \frac{1}{\mathrm {B}(\alpha ,\beta )}\int_0^1 x^{\alpha}(1-x)^{\beta -1}\rm{d}x \\ &= \frac{1}{\mathrm {B}(\alpha ,\beta )} \mathrm {B}(\alpha+1 ,\beta) \\ &={\frac {\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}}\frac{\Gamma (\alpha+1 )\Gamma (\beta )}{\Gamma (\alpha +\beta+1 )} \\ &= \frac{\alpha}{\alpha+\beta}\end{align}

c.變異數

\begin{align}Var(X) &= E[X^2] - E[X]^2 \\ &= \int_0^1 x^2f(x;\alpha ,\beta )\rm{d}x \\ &= \int_0^1 x^2 \frac{1}{\mathrm {B}(\alpha ,\beta )}\,x^{\alpha -1}(1-x)^{\beta -1}\rm{d}x- E[X]^2 \\ &= \frac{1}{\mathrm {B}(\alpha ,\beta )}\int_0^1 x^{\alpha + 1}(1-x)^{\beta -1}\rm{d}x - E[X]^2\\ &= \frac{1}{\mathrm {B}(\alpha ,\beta )} \mathrm {B}(\alpha+2 ,\beta) - E[X]^2\\ &= \frac{\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )}\frac{\Gamma (\alpha+2 )\Gamma (\beta )}{\Gamma (\alpha +\beta+2 )}- E[X]^2 \\ &= \frac{(\alpha+1)\alpha}{(\alpha+\beta+1)(\alpha+\beta)} - \left(\frac{\alpha}{\alpha+\beta}\right)^2 \\ &= \frac{\alpha}{\alpha+\beta}\left[\frac{\alpha+1}{\alpha+\beta+1} - \frac{\alpha}{\alpha+\beta}\right] \\ &= \frac{\alpha}{\alpha+\beta}\frac{(\alpha + 1)(\alpha + \beta) - \alpha(\alpha+\beta+1)}{(\alpha+\beta+1)(\alpha+\beta)} \\ &= \frac{\alpha}{\alpha+\beta}\frac{\alpha^2 + \alpha\beta + \alpha + \beta - \alpha^2 - \alpha\beta - \alpha}{(\alpha+\beta+1)(\alpha+\beta)} \\ &= \frac{\alpha\beta}{(\alpha+\beta+1)(\alpha+\beta)^2}\end{align}

貝葉斯估計

貝葉斯估計是 最大後驗估計(MAP) 的進一步擴展,和 MAP 一樣,也認為參數不是固定的,都假設參數服從一個先驗分佈。但是 MAP 是直接估計出參數的值,而貝葉斯估計是估計出參數的分佈,這就是貝葉斯與 MLE 與 MAP 最大的不同。

下方假設一個情況:假設硬幣的正面機率 (prior) 服從 \(\beta\)分布,即 \(p \sim \beta(\alpha,\ \beta)\),現在再投擲此硬幣 \(N\) 次,其中成功次數為 \(N^{(1)}\)次、失敗次數為 \(N^{(0)}\)次,將其記作 \(B(p)\),我們想知道硬幣的正面機率 \(p\) 的後驗分布:

根據貝氏定理:

\begin{align}posterior &= \frac{likelihood \times prior}{marginal} \\ &=\frac{{N \choose N^{(1)}}p^{N^{(1)}}(1-p)^{N^{(0)}}\times\frac{\Gamma(\alpha +\beta)}{\Gamma(\alpha)\Gamma(\beta)}\,p^{{\alpha -1}}(1-p)^{{\beta -1}}}{\int_0^1{N \choose N^{(1)}}p^{N^{(1)}}(1-p)^{N^{(0)}}\frac{\Gamma(\alpha +\beta)}{\Gamma(\alpha)\Gamma(\beta)}\,p^{{\alpha -1}}(1-p)^{{\beta -1}}\rm{d}p} \\ &=\frac{\Gamma (\alpha +\beta )}{\Gamma (\alpha )\Gamma (\beta )} \\ &= \frac{p^{\alpha+N^{(1)}-1}(1-p)^{\beta+N^{(0)}-1}}{\int_0^1 p^{\alpha+N^{(1)}-1}(1-p)^{\beta+N^{(0)}-1}\rm{d}p} \\ &= f(p;\alpha+N^{(1)}, \beta+N^{(0)})\end{align}

從推導中可以看出,其後驗和其先驗一樣,是個 beta 分布,像這樣的情況稱為 共軛先驗(Conjugate prior),事實上還有許多共軛分布的例子。最後推導一下後驗分布的最大值發生點,也就是 MAP:

\begin{align}\hat{p}_{MAP} &= \mathop{\arg\max}\limits_{p}\quad f(p;\alpha+N^{(1)}, \beta+N^{(0)}) \\ &= \mathop{\arg\max}\limits_{p}\quad p^{\alpha+N^{(1)}-1}(1-p)^{\beta+N^{(0)}-1} \\ &= \mathop{\arg\max}\limits_{p}\quad (\alpha+N^{(1)}-1)\log p + (\beta+N^{(0)}-1)\log(1-p)\end{align}

令一階導數為 \(0\):

\[\frac{\alpha+N^{(1)}-1}{p}-\frac{\beta+N^{(0)}-1}{1-p} = 0\] \[\Rightarrow \frac{\alpha+N^{(1)}-1}{p} = \frac{\beta+N^{(0)}-1}{1-p} \\ \Rightarrow \alpha+N^{(1)}-1 - \alpha p - N^{(1)}p +p = \beta p + N^{(0)}p -p \\ \Rightarrow p(\alpha + \beta + N -2) = \alpha+N^{(1)}-1 \\ \Rightarrow p = \frac{\alpha+N^{(1)}-1}{\alpha + \beta + N -2}\] 參考資料:

留言

這個網誌中的熱門文章

機器學習筆記(三) - 資訊熵

機器學習筆記(一) - LSE 、牛頓法

機器學習筆記(二) - 機率 、貝氏定理