機器學習筆記(三) - 資訊熵

資訊熵(Shannon entropy) 在資訊理論中,熵是指接收的每條消息中包含的資訊的平均量,為不確定性的量度,越隨機的信源熵越大,又被稱為資訊熵、信源熵、平均資訊本體。依據 Boltzmann's H-theorem,Shannon 把隨機變量 X 的熵值 H(希臘字母Eta)定義如下,其值域為 {x1,⋯,xn}: H(X)=E[ I(X) ]=E[−ln(P(X))] 其中,P 為 X 的機率質量函數(probability mass function),E 為期望函數,而 I(X) 是 X 的資訊量(又稱為資訊本體)。 I(X) 本身是個隨機變數。當取自有限的樣本時,熵的公式可以表示為: H(X)=∑iP(xi)I(xi)=−∑iP(xi)logbP(xi) 在這裡 b 是對數所使用的底,當 b=2,熵的單位是 bit;當 b=e,熵的單位是 nat;而當 b=10,熵的單位是 Hart。 若存在 pi=0 時,對應的被加數值將會是 0,這與極限一致。 lim 最大熵(Maximum entropy) 熵...