熵的定义
熵的英文原文为 entropy,最初由德国物理学家鲁道夫·克劳修斯提出,其表达式为:
\[\Delta = \dfrac{Q}{T}\]
它表示一个系系统在不受外部干扰时,其内部最稳定的状态。后来一中国学者翻译 entropy 时,考虑到 entropy 是能量 $Q$ 跟温度 $T$ 的商,且跟火有关,便把 entropy 形象的翻译成“熵”。
我们知道,任何粒子的常态都是随机运动,也就是"无序运动",如果让粒子呈现"有序化",必须耗费能量。所以,温度(热能)可以被看作"有序化"的一种度量,而"熵"可以看作是"无序化"的度量。如果没有外部能量输入,封闭系统趋向越来越混乱(熵越来越大)。比如,如果房间无人打扫,不可能越来越干净(有序化),只可能越来越乱(无序化)。而要让一个系统变得更有序,必须有外部能量的输入。
1948年,香农 Claude E. Shannon 引入信息(熵),将其定义为离散随机事件的出现概率。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以说,信息熵可以被认为是系统有序化程度的一个度量。若无特别指出,下文中所有提到的熵均为信息熵。
如果一个随机变量 $X$ 的可能取值为 $X = {x_1, x_2,…, x_n}$,其概率分布为 $P(X = x_i) = p_i(i = 1,2, ..., n)$,则随机变量 $X$ 的熵定义为:
\[H(X) = H(p_1,...,p_n) = -\sum_{i=1}^{n}{p_i \log_2{p_i}}\]
基本性质
基本性质1:均匀分布具有最大的不确定性
概率分布是一个函数,对于每个可能的结果都有一个概率,且所有的概率相加等于 1。当所有可能的结果具有相同的可能性时,该分布为均匀分布。例如:抛硬币实验(50% 和 50% 的概率),均匀的骰子(每个面朝上的概率都为六分之一)。
给定 $n$ 个可能的结果,最大的熵在所有结果的概率相同时得到。以伯努利试验为例,有两种可能的结果:$p$ 和 $1-p$。当 $p=0.5$ 时,熵达到最大。
基本性质2:对于独立事件,不确定性是可加的
考虑两个特殊的硬币,第一个硬币 (A) 正面朝上 (H, Head) 的概率为 80%,背面朝上 (T, Tail) 的概率为 20%。另一个硬币 (B) 的正面朝上和反面朝上的概率分别为 60% 和 40%。如果我们同时抛两枚硬币,那么有四种可能:正正(48%),正反(32%),反正(12%),反反(8%)。
将这些概率带入到熵的公式中,有:
\[H(A) = 0.722, H(B) = 0.971, H(A,B) = 1.693\]
可以看到:$H(A,B) = H(A) + H(B)$,即两个独立事件的联合熵等于各个独立事件的熵的和。
基本性质3:加入发生概率为 0 的结果并不会有影响
举例来说,事件 A 有两种可能,1 号结果为 80% 概率,2 号结果为 20% 概率。事件 B 有三种结果,1 号结果 80%,2 号结果 20%,3 号结果 0%。显然,第三个结果的加入并没有增加或减少事件 B 的不确定性。
即增加一个概率为 0 的结果,并不会影响对于不确定性的度量。
基本性质4:不确定性的度量应该是连续的
对数函数在定义域上每个点都是连续的,在子集上有限数量函数的和和乘积也是连续的。由此可得出,熵函数也是连续的。
唯一性定理
Khinchin(1957)证明,满足上述四种基本属性的唯一函数族具有如下形式:
\[H(X) = H(p_1,...,p_n) = -\lambda \sum_{i=1}^{n}{p_i \log{p_i}}\]
其中,$\lambda$ 是正常数。
Khinchin 称之为唯一性定理。将 $\lambda$ 设为 1,并使用以 2 为底的对数就得到了香农熵。
重申一下,使用熵作为不确定性度量是因为它具有我们期望的属性,并且是从满足上面提到的四个属性的函数族中做出的很自然的选择。
其他属性
除了上述用于 Khinchin 的唯一性定理中的四个基本属性,熵还具有一些其他的性质,下面就介绍其中的一些:
性质5:具有更多可能结果的均匀分布有更大的不确定性
一般来说,$L(k)$ 为具有 $k$ 个结果的均匀分布的熵。当 $m>n$ 时有:
\[L(m) > L(n)\]
以掷骰子和抛硬币为例:
\[H(\dfrac{1}{6},\dfrac{1}{6}, \dfrac{1}{6},\dfrac{1}{6}, \dfrac{1}{6},\dfrac{1}{6}) > H(0.5, 0.5)\]
性质6:事件拥有非负的不确定性
从公式上来分析,概率 $p_i$ 在 0-1 的范围内,是非负的,但是取对数后,则为负值。负正负相乘,可得熵是非负的。
性质7:有确定结果的事件具有0不确定性
假设在事件 $X$ 中,结果 $i$ 一定会发生,即 $p_i=1$, 所以 $H(X)$ 为:
\[H(X) = 0\]
性质8:调转参数顺序没有影响
这是一个显而易见的理想性质。考虑两种情况,第一个,抛硬币正面朝上的概率和背面朝上的概率分别为 80% 和 20%。第二个情况里概率正好相反:正面朝上和背面朝上的概率分别为 20% 和 80%。
两种抛硬币试验都有相同的熵,即 $H(0.8, 0.2) = H(0.2, 0.8)$。
除特别注明外,本站所有文章均为交通人原创,转载请注明出处来自http://www.hijtr.com/entropy/
暂无评论