機器學習筆記(二) - 機率 、貝氏定理
機率(probability)
機率是人類基於不確定性的描述,對於已經發生或確定的事情,我們一般會說機率為 1;對於不太可能發生的事,我們會說發生機率接近於 0 ,以上這段描述說明了機率的上界與下界。接下來以投擲硬幣為例,列出在機率會用到的相關名詞定義:
- 試驗(trail):投擲一次硬幣。
- 試驗結果(outcome):投擲硬幣的結果(正面 <H>、反面 <T>)。
- 樣本空間(sample space):所有試驗結果所產生的集合 \(\mathrm{U} =\{\ H,\ T \ \}\) 。
- 事件(event):符合設定條件的樣本空間子集合。
- 隨機變數(random variable):將樣本空間的元素對應到實數的對應函數。
- 機率密度函數(probability density function, PDF):\((x, y):y=\mathrm{P}(X=x)\),其中 \(X\) 為一連續型隨機變數(continuous random variable)。
- 機率質量函數(probability mass function, PMF):\((x, y):y=\mathrm{P}(X=x)\),其中 \(X\) 為一離散型隨機變數(discrete random variable)。
- 累積分布函數(cumulative distribution function, CDF):\(F_X(x) = \mathrm{P}\{X \leq x\}.\)。
蒙特霍問題(Monty Hall problem)
蒙特霍問題又稱三門問題,是一個源自博弈論的數學遊戲問題,大致出自美國的電視遊戲節目Let's Make a Deal,問題的名字來自該節目的主持人蒙蒂·霍爾,該問題的修正描述如下:
- 參賽者在三扇門中挑選一扇。他並不知道內裏有甚麼。
- 主持人知道每扇門後面有什麼。
- 主持人必須開啓剩下的其中一扇門,並且必須提供換門的機會。
- 主持人永遠都會挑一扇有山羊的門。
- 如果參賽者挑了一扇有山羊的門,主持人必須挑另一扇有山羊的門。
- 如果參賽者挑了一扇有汽車的門,主持人隨機(機率均勻分布)在另外兩扇門中挑一扇有山羊的門。
- 參賽者會被問是否保持他的原來選擇,還是轉而選擇剩下的那一道門。
節錄自維基百科
要解決這個問題可以先假設選的門是固定的 (在不知道門後面是什麼情情況下,選任何一個門都是等價的),接著分兩部分討論:
- 不換門:因為決定不換門,主持人告知一扇有山羊的門並不影響結果,因此是 \(\frac{1}{3}\)。
- 換門:這邊需要考慮兩個狀況:
- 第一次選到車子的門:此情況的機率為 \(\frac{1}{3}\) ,剩下的兩扇門都為山羊,主持人隨機開啟其中一扇門,最後必留下山羊的門被參賽者選中,勝利的機率為0。
- 第一次選到山羊的門:此情況的機率為 \(\frac{2}{3}\) ,剩下的門一扇為山羊、一扇為車子,主持人打開後面為山羊的門,最後必留下後面為車子的門,勝利的機率為 \(1\)。
由上面的討論可以得知:不換門選到車子的機率為 \(\frac{1}{3}\);而換門選到車子的機率為 \(\frac{2}{3}\),因此選擇換門對參賽者較有利。我們試著將其推廣到 \(G\)隻山羊、\(C\)台車子:
- 不換門:任何一扇門後面是車子的機率為 \(\frac{C}{G+C}\)。
- 換門:這邊同樣需要考慮兩個狀況,值得注意的是第二次選擇的時候只剩下 \(G+C-2\) 扇門 (少了一開始選的門及主持人打開後面為山羊的門):
- 第一次選到車子的門:此情況的機率為 \(\frac{C}{G+C}\) ,再從剩下的門中選到車子的機率為 \(\frac{C-1}{G+C-2}\)。
- 第一次選到山羊的門:此情況的機率為 \(\frac{G}{G+C}\) ,再從剩下的門中選到車子的機率為 \(\frac{C}{G+C-2}\)。
由上面的討論可以得知:不換門選到車子的機率為 \(\frac{C}{G+C}\);而換門選到車子的機率為 \(\frac{C^2+GC-C}{(G+C)(G+C-2)}\),因此依然是選擇換門對參賽者較有利。
機率論(Probability theory) 相關名詞
條件機率(conditional probability)
條件機率指的是事件 A 在另外一個事件 B 已經發生條件下的發生機率,以符號記作 \(\mathrm{P}(A\mid B)\)。
\[\mathrm{P}(A\mid B)=\frac{\mathrm{P}(A\cap B)}{\mathrm{P}(B)}\]聯合分布(joint probability)
對兩個隨機變量 X 和 Y,其聯合分布是同時對於 X 和 Y 的機率分布:
\[\mathrm{P}(X = x\ and\ Y = y)=\mathrm{P}(Y = y\mid X = x)\ \mathrm{P}(X = x)=\mathrm{P}(X = x\mid Y = y)\ \mathrm{P}(Y = y)\]貝氏定理(Bayes' theorem)
\[\mathrm{P}(A\mid B)=\frac{\mathrm{P}(A)\times\mathrm{P}(B\mid A)}{\mathrm{P}(B)}\]另外可將其推廣:
\begin{align}\mathrm{P}(A \mid B, C)&=\frac{\mathrm{P}(A)\times\mathrm{P}(B, C\mid A)}{\mathrm{P}(B, C)} \\ &=\frac{\mathrm{P}(A)}{\mathrm{P}(B, C)}\times\frac{\mathrm{P}(A, B, C)}{\mathrm{P}(A)} \\ &=\frac{\mathrm{P}(A)}{\mathrm{P}(B, C)}\times\frac{\mathrm{P}(A, B, C)}{\mathrm{P}(A, B)}\times\frac{\mathrm{P}(A, B)}{\mathrm{P}(A)} \\ &=\frac{\mathrm{P}(A)\ \mathrm{P}(B\mid A)\ \mathrm{P}(C\mid A,B)}{\mathrm{P}(B)\ \mathrm{P}(C\mid B)} \\ \end{align}貝式定理的概念可以進一步把他轉成以下這個樣子呈現:
\[posterior = \frac{likelihood \times prior}{evidence(marginal)}\]會稱為 marginal 是因為可利用全機率公式將 \(P(B)\) 寫成在一個完備事件組下的條件機率相加。即:
\[\mathrm{P}(B)=\mathrm{P}(A, B)+\mathrm{P}(A^C, B)=\mathrm{P}(B\mid A)\ \mathrm{P}(A)+\mathrm{P}(B\mid A^C)\ \mathrm{P}(A^C)\]其中 \(A^C\) 為 \(A\) 的補集 (即非 \(A\),又作 ~\(A\))。
我們就可以得出所謂的後驗機率(posterior probability),貝式定理的運算主要來自兩個重要的東西,一個是資料,我們會根據資料是否符合模型或假說來估計出所謂的likelihood function,另一個就是先驗機率,也就是在看過資料之前,你對你要推論的東西知道多少。換句話說,資料跟預先的認知對貝式推論來說是重要的,跟只看資料跟模型的吻合程度的傳統機率不一樣,以上就是貝式定理的概念了!
統計學(Statistics) 相關名詞
平均值(mean)
值得注意的是,平均值和期望值的意義並不相同:
- 平均值(mean):所有資料總和的的平均 \(\sum_{i=1}^n x_i / n\)。
- 期望值(expected value):一個隨機變數的期望值,也就是試驗中每次可能的結果乘以其結果機率的總和 \(\sum_{i=1}^n x_i p_i\) (如果 \(X\) 為離散型隨機變數)。
可以看到期望值牽扯到了隨機變數的概念,雖然我們也可以將資料的結果對應到一個隨機變數,但我們仍然不知道各個資料出現的機率,因此平均值主要用於統計學,而期望值多用於機率。從結論來說,當樣本趨近於無限時,平均值會無限接近期望值。
變異數(variance)
\[Var(X) = E[(X-\mu)^2]\] \[\sigma^2 = \frac{1}{n}\sum_{i=1}^n(x_i - \mu)^2\]其中 \(\mu\) 為該隨機變數的平均值,一般帶入 \(E[X]\) (隨機變數 \(X\) 的期望值)。
\begin{align}\Rightarrow Var(X) &= E[(X-E[X])^2] \\ &= E[X^2 - 2XE[X] + E[X]^2] \\ &= E[X^2] -2E[X]E[X] + E[X]^2 \\ &= E[X^2] - E[X]^2\end{align}共變異數(covariance)
\[cov(X, Y) = E[(X-\mu)(Y- \nu)]=E[X\cdot Y] - \mu\nu\]其中 \(\mu\) 為隨機變數 \(X\) 的期望值、\(\nu\) 為隨機變數 \(Y\) 的期望值。
單純貝氏分類器(Naive Bayes classifier)
單純貝氏分類器想要討論的問題是:當樣本中有 \(n\) 項特徵(feature):\(F_1,\ F_2,\ \cdots,\ F_n\),並且可以根據這些特徵被歸類為 \(m\) 個類別 \(C_1,\ C_2,\ \cdots,\ C_m\) 中的一類時,若新給定一個資料的 \(n\) 項特徵,要如何判斷新資料屬於哪個類別。所以很直觀的可以考慮,在給定的特徵下,哪個類別的可能機率比較高:
\[max\quad \mathrm{P}(C_i \mid F_1,\ F_2,\ \cdots,\ F_n)\] 當我們將所有類別的機率都求出後,可以選擇機率最高的類別當作我們的推測,根據貝氏定理: \[\mathrm{P}(C_i \mid F_1,\ F_2,\ \cdots,\ F_n) = \frac{\mathrm{P}(C_i) \times \mathrm{P}(F_1,\ F_2,\ \cdots,\ F_n \mid C_i)}{\mathrm{P}(F_1,\ F_2,\ \cdots,\ F_n)}\]單純貝氏分類器更進一步假設各個特徵彼此獨立(雖然在現實中不太可能成立,但是它可以大大簡化計算,而且有研究表明對分類結果的準確性影響不大):
\[\Rightarrow \mathrm{P}(C_i \mid F_1,\ F_2,\ \cdots,\ F_n) = \frac{\mathrm{P}(C_i) \prod\limits_{k=1}^n \mathrm{P}(F_k \mid C_i)}{\mathrm{P}(F_1,\ F_2,\ \cdots,\ F_n)}\]因為分母部分在同一組特徵下會一樣,我們只需考慮分子部分即可。
\[(F_1,\ F_2,\ \cdots,\ F_n) \in C_i\quad \Leftrightarrow\quad i = \mathop{\arg\max}\limits_{1\ \le\ i\ \le\ m}\quad \mathrm{P}(C_i) \prod\limits_{k=1}^n \mathrm{P}(F_k \mid C_i)\] 參考資料:
留言
張貼留言