機器學習筆記(二) - 機率 、貝氏定理

機率(probability)

機率是人類基於不確定性的描述,對於已經發生或確定的事情,我們一般會說機率為 1;對於不太可能發生的事,我們會說發生機率接近於 0 ,以上這段描述說明了機率的上界與下界。接下來以投擲硬幣為例,列出在機率會用到的相關名詞定義:

  • 試驗(trail):投擲一次硬幣。
  • 試驗結果(outcome):投擲硬幣的結果(正面 <H>、反面 <T>)。
  • 樣本空間(sample space):所有試驗結果所產生的集合 U={ H, T }
  • 事件(event):符合設定條件的樣本空間子集合。
  • 隨機變數(random variable):將樣本空間的元素對應到實數的對應函數。
  • 機率密度函數(probability density function, PDF):(x,y):y=P(X=x),其中 X 為一連續型隨機變數(continuous random variable)。
  • 機率質量函數(probability mass function, PMF):(x,y):y=P(X=x),其中 X 為一離散型隨機變數(discrete random variable)。
  • 累積分布函數(cumulative distribution function, CDF):FX(x)=P{Xx}.

蒙特霍問題(Monty Hall problem)

蒙特霍問題又稱三門問題,是一個源自博弈論的數學遊戲問題,大致出自美國的電視遊戲節目Let's Make a Deal,問題的名字來自該節目的主持人蒙蒂·霍爾,該問題的修正描述如下:

  • 參賽者在三扇門中挑選一扇。他並不知道內裏有甚麼。
  • 主持人知道每扇門後面有什麼。
  • 主持人必須開啓剩下的其中一扇門,並且必須提供換門的機會。
  • 主持人永遠都會挑一扇有山羊的門。
  • 如果參賽者挑了一扇有山羊的門,主持人必須挑另一扇有山羊的門。
  • 如果參賽者挑了一扇有汽車的門,主持人隨機(機率均勻分布)在另外兩扇門中挑一扇有山羊的門。
  • 參賽者會被問是否保持他的原來選擇,還是轉而選擇剩下的那一道門。

節錄自維基百科

要解決這個問題可以先假設選的門是固定的 (在不知道門後面是什麼情情況下,選任何一個門都是等價的),接著分兩部分討論:

  • 不換門:因為決定不換門,主持人告知一扇有山羊的門並不影響結果,因此是 13
  • 換門:這邊需要考慮兩個狀況:
    1. 第一次選到車子的門:此情況的機率為 13 ,剩下的兩扇門都為山羊,主持人隨機開啟其中一扇門,最後必留下山羊的門被參賽者選中,勝利的機率為0。
    2. 第一次選到山羊的門:此情況的機率為 23 ,剩下的門一扇為山羊、一扇為車子,主持人打開後面為山羊的門,最後必留下後面為車子的門,勝利的機率為 1

由上面的討論可以得知:不換門選到車子的機率為 13;而換門選到車子的機率為 23,因此選擇換門對參賽者較有利。我們試著將其推廣到 G隻山羊、C台車子:

  • 不換門:任何一扇門後面是車子的機率為 CG+C
  • 換門:這邊同樣需要考慮兩個狀況,值得注意的是第二次選擇的時候只剩下 G+C2 扇門 (少了一開始選的門及主持人打開後面為山羊的門):
    1. 第一次選到車子的門:此情況的機率為 CG+C ,再從剩下的門中選到車子的機率為 C1G+C2
    2. 第一次選到山羊的門:此情況的機率為 GG+C ,再從剩下的門中選到車子的機率為 CG+C2

由上面的討論可以得知:不換門選到車子的機率為 CG+C;而換門選到車子的機率為 C2+GCC(G+C)(G+C2),因此依然是選擇換門對參賽者較有利。

機率論(Probability theory) 相關名詞

條件機率(conditional probability)

條件機率指的是事件 A 在另外一個事件 B 已經發生條件下的發生機率,以符號記作 P(AB)

P(AB)=P(AB)P(B)

聯合分布(joint probability)

對兩個隨機變量 X 和 Y,其聯合分布是同時對於 X 和 Y 的機率分布:

P(X=x and Y=y)=P(Y=yX=x) P(X=x)=P(X=xY=y) P(Y=y)

貝氏定理(Bayes' theorem)

P(AB)=P(A)×P(BA)P(B)

另外可將其推廣:

P(AB,C)=P(A)×P(B,CA)P(B,C)=P(A)P(B,C)×P(A,B,C)P(A)=P(A)P(B,C)×P(A,B,C)P(A,B)×P(A,B)P(A)=P(A) P(BA) P(CA,B)P(B) P(CB)

貝式定理的概念可以進一步把他轉成以下這個樣子呈現:

posterior=likelihood×priorevidence(marginal)

會稱為 marginal 是因為可利用全機率公式將 P(B) 寫成在一個完備事件組下的條件機率相加。即:

P(B)=P(A,B)+P(AC,B)=P(BA) P(A)+P(BAC) P(AC)

其中 ACA 的補集 (即非 A,又作 ~A)。

我們就可以得出所謂的後驗機率(posterior probability),貝式定理的運算主要來自兩個重要的東西,一個是資料,我們會根據資料是否符合模型或假說來估計出所謂的likelihood function,另一個就是先驗機率,也就是在看過資料之前,你對你要推論的東西知道多少。換句話說,資料跟預先的認知對貝式推論來說是重要的,跟只看資料跟模型的吻合程度的傳統機率不一樣,以上就是貝式定理的概念了!

統計學(Statistics) 相關名詞

平均值(mean)

值得注意的是,平均值和期望值的意義並不相同:

  • 平均值(mean):所有資料總和的的平均 ni=1xi/n
  • 期望值(expected value):一個隨機變數的期望值,也就是試驗中每次可能的結果乘以其結果機率的總和 ni=1xipi (如果 X 為離散型隨機變數)。

可以看到期望值牽扯到了隨機變數的概念,雖然我們也可以將資料的結果對應到一個隨機變數,但我們仍然不知道各個資料出現的機率,因此平均值主要用於統計學,而期望值多用於機率。從結論來說,當樣本趨近於無限時,平均值會無限接近期望值。

變異數(variance)

Var(X)=E[(Xμ)2] σ2=1nni=1(xiμ)2

其中 μ 為該隨機變數的平均值,一般帶入 E[X] (隨機變數 X 的期望值)。

Var(X)=E[(XE[X])2]=E[X22XE[X]+E[X]2]=E[X2]2E[X]E[X]+E[X]2=E[X2]E[X]2

共變異數(covariance)

cov(X,Y)=E[(Xμ)(Yν)]=E[XY]μν

其中 μ 為隨機變數 X 的期望值、ν 為隨機變數 Y 的期望值。

單純貝氏分類器(Naive Bayes classifier)

單純貝氏分類器想要討論的問題是:當樣本中有 n 項特徵(feature):F1, F2, , Fn,並且可以根據這些特徵被歸類為 m 個類別 C1, C2, , Cm 中的一類時,若新給定一個資料的 n 項特徵,要如何判斷新資料屬於哪個類別。所以很直觀的可以考慮,在給定的特徵下,哪個類別的可能機率比較高:

maxP(CiF1, F2, , Fn) 當我們將所有類別的機率都求出後,可以選擇機率最高的類別當作我們的推測,根據貝氏定理: P(CiF1, F2, , Fn)=P(Ci)×P(F1, F2, , FnCi)P(F1, F2, , Fn)

單純貝氏分類器更進一步假設各個特徵彼此獨立(雖然在現實中不太可能成立,但是它可以大大簡化計算,而且有研究表明對分類結果的準確性影響不大):

P(CiF1, F2, , Fn)=P(Ci)nk=1P(FkCi)P(F1, F2, , Fn)

因為分母部分在同一組特徵下會一樣,我們只需考慮分子部分即可。

(F1, F2, , Fn)Cii=argmax1  i  mP(Ci)nk=1P(FkCi) 參考資料:

留言

這個網誌中的熱門文章

機器學習筆記(三) - 資訊熵

機器學習筆記(一) - LSE 、牛頓法