機器學習筆記(二) - 機率、貝氏定理

機率(probability)

機率是人類基於不確定性的描述，對於已經發生或確定的事情，我們一般會說機率為 1；對於不太可能發生的事，我們會說發生機率接近於 0 ，以上這段描述說明了機率的上界與下界。接下來以投擲硬幣為例，列出在機率會用到的相關名詞定義：

試驗(trail)：投擲一次硬幣。
試驗結果(outcome)：投擲硬幣的結果(正面 <H>、反面 <T>)。
樣本空間(sample space)：所有試驗結果所產生的集合 \(\mathrm{U} =\{\ H,\ T \ \}\) 。
事件(event)：符合設定條件的樣本空間子集合。
隨機變數(random variable)：將樣本空間的元素對應到實數的對應函數。
機率密度函數(probability density function, PDF)：\((x, y):y=\mathrm{P}(X=x)\)，其中 \(X\) 為一連續型隨機變數(continuous random variable)。
機率質量函數(probability mass function, PMF)：\((x, y):y=\mathrm{P}(X=x)\)，其中 \(X\) 為一離散型隨機變數(discrete random variable)。
累積分布函數(cumulative distribution function, CDF)：\(F_X(x) = \mathrm{P}\{X \leq x\}.\)。

蒙特霍問題(Monty Hall problem)

蒙特霍問題又稱三門問題，是一個源自博弈論的數學遊戲問題，大致出自美國的電視遊戲節目Let's Make a Deal，問題的名字來自該節目的主持人蒙蒂·霍爾，該問題的修正描述如下：

參賽者在三扇門中挑選一扇。他並不知道內裏有甚麼。
主持人知道每扇門後面有什麼。
主持人必須開啓剩下的其中一扇門，並且必須提供換門的機會。
主持人永遠都會挑一扇有山羊的門。
如果參賽者挑了一扇有山羊的門，主持人必須挑另一扇有山羊的門。
如果參賽者挑了一扇有汽車的門，主持人隨機（機率均勻分布）在另外兩扇門中挑一扇有山羊的門。
參賽者會被問是否保持他的原來選擇，還是轉而選擇剩下的那一道門。

節錄自維基百科

要解決這個問題可以先假設選的門是固定的 (在不知道門後面是什麼情情況下，選任何一個門都是等價的)，接著分兩部分討論：

不換門：因為決定不換門，主持人告知一扇有山羊的門並不影響結果，因此是 \(\frac{1}{3}\)。
換門：這邊需要考慮兩個狀況：
1. 第一次選到車子的門：此情況的機率為 \(\frac{1}{3}\) ，剩下的兩扇門都為山羊，主持人隨機開啟其中一扇門，最後必留下山羊的門被參賽者選中，勝利的機率為0。
2. 第一次選到山羊的門：此情況的機率為 \(\frac{2}{3}\) ，剩下的門一扇為山羊、一扇為車子，主持人打開後面為山羊的門，最後必留下後面為車子的門，勝利的機率為 \(1\)。

由上面的討論可以得知：不換門選到車子的機率為 \(\frac{1}{3}\)；而換門選到車子的機率為 \(\frac{2}{3}\)，因此選擇換門對參賽者較有利。我們試著將其推廣到 \(G\)隻山羊、\(C\)台車子：

不換門：任何一扇門後面是車子的機率為 \(\frac{C}{G+C}\)。
換門：這邊同樣需要考慮兩個狀況，值得注意的是第二次選擇的時候只剩下 \(G+C-2\) 扇門 (少了一開始選的門及主持人打開後面為山羊的門)：
1. 第一次選到車子的門：此情況的機率為 \(\frac{C}{G+C}\) ，再從剩下的門中選到車子的機率為 \(\frac{C-1}{G+C-2}\)。
2. 第一次選到山羊的門：此情況的機率為 \(\frac{G}{G+C}\) ，再從剩下的門中選到車子的機率為 \(\frac{C}{G+C-2}\)。

由上面的討論可以得知：不換門選到車子的機率為 \(\frac{C}{G+C}\)；而換門選到車子的機率為 \(\frac{C^2+GC-C}{(G+C)(G+C-2)}\)，因此依然是選擇換門對參賽者較有利。

機率論(Probability theory) 相關名詞

條件機率(conditional probability)

條件機率指的是事件 A 在另外一個事件 B 已經發生條件下的發生機率，以符號記作 \(\mathrm{P}(A\mid B)\)。

\[\mathrm{P}(A\mid B)=\frac{\mathrm{P}(A\cap B)}{\mathrm{P}(B)}\]

聯合分布(joint probability)

對兩個隨機變量 X 和 Y，其聯合分布是同時對於 X 和 Y 的機率分布：

\[\mathrm{P}(X = x\ and\ Y = y)=\mathrm{P}(Y = y\mid X = x)\ \mathrm{P}(X = x)=\mathrm{P}(X = x\mid Y = y)\ \mathrm{P}(Y = y)\]

貝氏定理(Bayes' theorem)

\[\mathrm{P}(A\mid B)=\frac{\mathrm{P}(A)\times\mathrm{P}(B\mid A)}{\mathrm{P}(B)}\]

另外可將其推廣：

\begin{align}\mathrm{P}(A \mid B, C)&=\frac{\mathrm{P}(A)\times\mathrm{P}(B, C\mid A)}{\mathrm{P}(B, C)} \\ &=\frac{\mathrm{P}(A)}{\mathrm{P}(B, C)}\times\frac{\mathrm{P}(A, B, C)}{\mathrm{P}(A)} \\ &=\frac{\mathrm{P}(A)}{\mathrm{P}(B, C)}\times\frac{\mathrm{P}(A, B, C)}{\mathrm{P}(A, B)}\times\frac{\mathrm{P}(A, B)}{\mathrm{P}(A)} \\ &=\frac{\mathrm{P}(A)\ \mathrm{P}(B\mid A)\ \mathrm{P}(C\mid A,B)}{\mathrm{P}(B)\ \mathrm{P}(C\mid B)} \\ \end{align}

貝式定理的概念可以進一步把他轉成以下這個樣子呈現：

\[posterior = \frac{likelihood \times prior}{evidence(marginal)}\]

會稱為 marginal 是因為可利用全機率公式將 \(P(B)\) 寫成在一個完備事件組下的條件機率相加。即：

\[\mathrm{P}(B)=\mathrm{P}(A, B)+\mathrm{P}(A^C, B)=\mathrm{P}(B\mid A)\ \mathrm{P}(A)+\mathrm{P}(B\mid A^C)\ \mathrm{P}(A^C)\]

其中 \(A^C\) 為 \(A\) 的補集 (即非 \(A\)，又作 ~\(A\))。

我們就可以得出所謂的後驗機率(posterior probability)，貝式定理的運算主要來自兩個重要的東西，一個是資料，我們會根據資料是否符合模型或假說來估計出所謂的likelihood function，另一個就是先驗機率，也就是在看過資料之前，你對你要推論的東西知道多少。換句話說，資料跟預先的認知對貝式推論來說是重要的，跟只看資料跟模型的吻合程度的傳統機率不一樣，以上就是貝式定理的概念了！

統計學(Statistics) 相關名詞

平均值(mean)

值得注意的是，平均值和期望值的意義並不相同：

平均值(mean)：所有資料總和的的平均 \(\sum_{i=1}^n x_i / n\)。
期望值(expected value)：一個隨機變數的期望值，也就是試驗中每次可能的結果乘以其結果機率的總和 \(\sum_{i=1}^n x_i p_i\) (如果 \(X\) 為離散型隨機變數)。

可以看到期望值牽扯到了隨機變數的概念，雖然我們也可以將資料的結果對應到一個隨機變數，但我們仍然不知道各個資料出現的機率，因此平均值主要用於統計學，而期望值多用於機率。從結論來說，當樣本趨近於無限時，平均值會無限接近期望值。

變異數(variance)

\[Var(X) = E[(X-\mu)^2]\] \[\sigma^2 = \frac{1}{n}\sum_{i=1}^n(x_i - \mu)^2\]

其中 \(\mu\) 為該隨機變數的平均值，一般帶入 \(E[X]\) (隨機變數 \(X\) 的期望值)。

\begin{align}\Rightarrow Var(X) &= E[(X-E[X])^2] \\ &= E[X^2 - 2XE[X] + E[X]^2] \\ &= E[X^2] -2E[X]E[X] + E[X]^2 \\ &= E[X^2] - E[X]^2\end{align}

共變異數(covariance)

\[cov(X, Y) = E[(X-\mu)(Y- \nu)]=E[X\cdot Y] - \mu\nu\]

其中 \(\mu\) 為隨機變數 \(X\) 的期望值、\(\nu\) 為隨機變數 \(Y\) 的期望值。

單純貝氏分類器(Naive Bayes classifier)

單純貝氏分類器想要討論的問題是：當樣本中有 \(n\) 項特徵(feature)：\(F_1,\ F_2,\ \cdots,\ F_n\)，並且可以根據這些特徵被歸類為 \(m\) 個類別 \(C_1,\ C_2,\ \cdots,\ C_m\) 中的一類時，若新給定一個資料的 \(n\) 項特徵，要如何判斷新資料屬於哪個類別。所以很直觀的可以考慮，在給定的特徵下，哪個類別的可能機率比較高：

\[max\quad \mathrm{P}(C_i \mid F_1,\ F_2,\ \cdots,\ F_n)\] 當我們將所有類別的機率都求出後，可以選擇機率最高的類別當作我們的推測，根據貝氏定理： \[\mathrm{P}(C_i \mid F_1,\ F_2,\ \cdots,\ F_n) = \frac{\mathrm{P}(C_i) \times \mathrm{P}(F_1,\ F_2,\ \cdots,\ F_n \mid C_i)}{\mathrm{P}(F_1,\ F_2,\ \cdots,\ F_n)}\]

單純貝氏分類器更進一步假設各個特徵彼此獨立(雖然在現實中不太可能成立，但是它可以大大簡化計算，而且有研究表明對分類結果的準確性影響不大)：

\[\Rightarrow \mathrm{P}(C_i \mid F_1,\ F_2,\ \cdots,\ F_n) = \frac{\mathrm{P}(C_i) \prod\limits_{k=1}^n \mathrm{P}(F_k \mid C_i)}{\mathrm{P}(F_1,\ F_2,\ \cdots,\ F_n)}\]

因為分母部分在同一組特徵下會一樣，我們只需考慮分子部分即可。

\[(F_1,\ F_2,\ \cdots,\ F_n) \in C_i\quad \Leftrightarrow\quad i = \mathop{\arg\max}\limits_{1\ \le\ i\ \le\ m}\quad \mathrm{P}(C_i) \prod\limits_{k=1}^n \mathrm{P}(F_k \mid C_i)\] 參考資料：

期望和平均数有什么区别？
單純貝氏分類器
樸素貝葉斯分類器的應用
[Day 09] 貝式派的統計推論

機器學習筆記(一) - LSE 、牛頓法

3月 17, 2018

閱讀完整內容

搜尋此網誌

上課筆記