機器學習筆記(二) - 機率 、貝氏定理
機率(probability)
機率是人類基於不確定性的描述,對於已經發生或確定的事情,我們一般會說機率為 1;對於不太可能發生的事,我們會說發生機率接近於 0 ,以上這段描述說明了機率的上界與下界。接下來以投擲硬幣為例,列出在機率會用到的相關名詞定義:
- 試驗(trail):投擲一次硬幣。
- 試驗結果(outcome):投擲硬幣的結果(正面 <H>、反面 <T>)。
- 樣本空間(sample space):所有試驗結果所產生的集合 U={ H, T } 。
- 事件(event):符合設定條件的樣本空間子集合。
- 隨機變數(random variable):將樣本空間的元素對應到實數的對應函數。
- 機率密度函數(probability density function, PDF):(x,y):y=P(X=x),其中 X 為一連續型隨機變數(continuous random variable)。
- 機率質量函數(probability mass function, PMF):(x,y):y=P(X=x),其中 X 為一離散型隨機變數(discrete random variable)。
- 累積分布函數(cumulative distribution function, CDF):FX(x)=P{X≤x}.。
蒙特霍問題(Monty Hall problem)
蒙特霍問題又稱三門問題,是一個源自博弈論的數學遊戲問題,大致出自美國的電視遊戲節目Let's Make a Deal,問題的名字來自該節目的主持人蒙蒂·霍爾,該問題的修正描述如下:
- 參賽者在三扇門中挑選一扇。他並不知道內裏有甚麼。
- 主持人知道每扇門後面有什麼。
- 主持人必須開啓剩下的其中一扇門,並且必須提供換門的機會。
- 主持人永遠都會挑一扇有山羊的門。
- 如果參賽者挑了一扇有山羊的門,主持人必須挑另一扇有山羊的門。
- 如果參賽者挑了一扇有汽車的門,主持人隨機(機率均勻分布)在另外兩扇門中挑一扇有山羊的門。
- 參賽者會被問是否保持他的原來選擇,還是轉而選擇剩下的那一道門。
節錄自維基百科
要解決這個問題可以先假設選的門是固定的 (在不知道門後面是什麼情情況下,選任何一個門都是等價的),接著分兩部分討論:
- 不換門:因為決定不換門,主持人告知一扇有山羊的門並不影響結果,因此是 13。
- 換門:這邊需要考慮兩個狀況:
- 第一次選到車子的門:此情況的機率為 13 ,剩下的兩扇門都為山羊,主持人隨機開啟其中一扇門,最後必留下山羊的門被參賽者選中,勝利的機率為0。
- 第一次選到山羊的門:此情況的機率為 23 ,剩下的門一扇為山羊、一扇為車子,主持人打開後面為山羊的門,最後必留下後面為車子的門,勝利的機率為 1。
由上面的討論可以得知:不換門選到車子的機率為 13;而換門選到車子的機率為 23,因此選擇換門對參賽者較有利。我們試著將其推廣到 G隻山羊、C台車子:
- 不換門:任何一扇門後面是車子的機率為 CG+C。
- 換門:這邊同樣需要考慮兩個狀況,值得注意的是第二次選擇的時候只剩下 G+C−2 扇門 (少了一開始選的門及主持人打開後面為山羊的門):
- 第一次選到車子的門:此情況的機率為 CG+C ,再從剩下的門中選到車子的機率為 C−1G+C−2。
- 第一次選到山羊的門:此情況的機率為 GG+C ,再從剩下的門中選到車子的機率為 CG+C−2。
由上面的討論可以得知:不換門選到車子的機率為 CG+C;而換門選到車子的機率為 C2+GC−C(G+C)(G+C−2),因此依然是選擇換門對參賽者較有利。
機率論(Probability theory) 相關名詞
條件機率(conditional probability)
條件機率指的是事件 A 在另外一個事件 B 已經發生條件下的發生機率,以符號記作 P(A∣B)。
P(A∣B)=P(A∩B)P(B)聯合分布(joint probability)
對兩個隨機變量 X 和 Y,其聯合分布是同時對於 X 和 Y 的機率分布:
P(X=x and Y=y)=P(Y=y∣X=x) P(X=x)=P(X=x∣Y=y) P(Y=y)貝氏定理(Bayes' theorem)
P(A∣B)=P(A)×P(B∣A)P(B)另外可將其推廣:
P(A∣B,C)=P(A)×P(B,C∣A)P(B,C)=P(A)P(B,C)×P(A,B,C)P(A)=P(A)P(B,C)×P(A,B,C)P(A,B)×P(A,B)P(A)=P(A) P(B∣A) P(C∣A,B)P(B) P(C∣B)貝式定理的概念可以進一步把他轉成以下這個樣子呈現:
posterior=likelihood×priorevidence(marginal)會稱為 marginal 是因為可利用全機率公式將 P(B) 寫成在一個完備事件組下的條件機率相加。即:
P(B)=P(A,B)+P(AC,B)=P(B∣A) P(A)+P(B∣AC) P(AC)其中 AC 為 A 的補集 (即非 A,又作 ~A)。
我們就可以得出所謂的後驗機率(posterior probability),貝式定理的運算主要來自兩個重要的東西,一個是資料,我們會根據資料是否符合模型或假說來估計出所謂的likelihood function,另一個就是先驗機率,也就是在看過資料之前,你對你要推論的東西知道多少。換句話說,資料跟預先的認知對貝式推論來說是重要的,跟只看資料跟模型的吻合程度的傳統機率不一樣,以上就是貝式定理的概念了!
統計學(Statistics) 相關名詞
平均值(mean)
值得注意的是,平均值和期望值的意義並不相同:
- 平均值(mean):所有資料總和的的平均 ∑ni=1xi/n。
- 期望值(expected value):一個隨機變數的期望值,也就是試驗中每次可能的結果乘以其結果機率的總和 ∑ni=1xipi (如果 X 為離散型隨機變數)。
可以看到期望值牽扯到了隨機變數的概念,雖然我們也可以將資料的結果對應到一個隨機變數,但我們仍然不知道各個資料出現的機率,因此平均值主要用於統計學,而期望值多用於機率。從結論來說,當樣本趨近於無限時,平均值會無限接近期望值。
變異數(variance)
Var(X)=E[(X−μ)2] σ2=1nn∑i=1(xi−μ)2其中 μ 為該隨機變數的平均值,一般帶入 E[X] (隨機變數 X 的期望值)。
⇒Var(X)=E[(X−E[X])2]=E[X2−2XE[X]+E[X]2]=E[X2]−2E[X]E[X]+E[X]2=E[X2]−E[X]2共變異數(covariance)
cov(X,Y)=E[(X−μ)(Y−ν)]=E[X⋅Y]−μν其中 μ 為隨機變數 X 的期望值、ν 為隨機變數 Y 的期望值。
單純貝氏分類器(Naive Bayes classifier)
單純貝氏分類器想要討論的問題是:當樣本中有 n 項特徵(feature):F1, F2, ⋯, Fn,並且可以根據這些特徵被歸類為 m 個類別 C1, C2, ⋯, Cm 中的一類時,若新給定一個資料的 n 項特徵,要如何判斷新資料屬於哪個類別。所以很直觀的可以考慮,在給定的特徵下,哪個類別的可能機率比較高:
maxP(Ci∣F1, F2, ⋯, Fn) 當我們將所有類別的機率都求出後,可以選擇機率最高的類別當作我們的推測,根據貝氏定理: P(Ci∣F1, F2, ⋯, Fn)=P(Ci)×P(F1, F2, ⋯, Fn∣Ci)P(F1, F2, ⋯, Fn)單純貝氏分類器更進一步假設各個特徵彼此獨立(雖然在現實中不太可能成立,但是它可以大大簡化計算,而且有研究表明對分類結果的準確性影響不大):
⇒P(Ci∣F1, F2, ⋯, Fn)=P(Ci)n∏k=1P(Fk∣Ci)P(F1, F2, ⋯, Fn)因為分母部分在同一組特徵下會一樣,我們只需考慮分子部分即可。
(F1, F2, ⋯, Fn)∈Ci⇔i=argmax1 ≤ i ≤ mP(Ci)n∏k=1P(Fk∣Ci) 參考資料:
留言
張貼留言