機器學習筆記(三) - 資訊熵
資訊熵(Shannon entropy) 在資訊理論中,熵是指接收的每條消息中包含的資訊的平均量,為不確定性的量度,越隨機的信源熵越大,又被稱為資訊熵、信源熵、平均資訊本體。依據 Boltzmann's H-theorem,Shannon 把隨機變量 \(X\) 的熵值 \(H\)(希臘字母Eta)定義如下,其值域為 \(\{x_1, \cdots, x_n\}\): \[\mathrm {H}(X)=\mathrm {E}[\ \mathrm {I} (X)\ ]=\mathrm {E} [-\ln(\mathrm {P} (X))]\] 其中,\(\mathrm {P}\) 為 \(X\) 的機率質量函數(probability mass function),\(\mathrm {E}\) 為期望函數,而 \(\mathrm{I}(X)\) 是 \(X\) 的資訊量(又稱為資訊本體)。 \(\mathrm{I}(X)\) 本身是個隨機變數。當取自有限的樣本時,熵的公式可以表示為: \[\mathrm {H} (X)=\sum _{i}{\mathrm {P} (x_{i})\,\mathrm {I} (x_{i})}=-\sum _{i}{\mathrm {P} (x_{i})\,\log_b\mathrm {P} (x_{i})}\] 在這裡 \(b\) 是對數所使用的底,當 \(b = 2\),熵的單位是 bit;當 \(b = e\),熵的單位是 nat;而當 \(b = 10\),熵的單位是 Hart。 若存在 \(p_i = 0\) 時,對應的被加數值將會是 \(0\),這與極限一致。 \begin{align}\lim _{p\to 0^+}p\log p &=\lim _{q\to \infty}\frac{1}{q}\log{\frac{1}{q}}\\ &=\lim _{q\to \infty}\frac{-\log q}{q}\\&=\lim _{q\to \infty}\frac{-1}{q}\qquad\qquad\qquad\qquad\text{(by L'Hospital's rule)}\\&=0 \end{align} 最大熵(Maximum entropy) 熵