• 欢迎访问交通人网站!
  • 分享一款小游戏:信任的进化
  •    发表于6年前 (2018-11-19)  模型与算法 |   抢沙发  569 
    文章评分 1 次,平均分 5.0
    导语:熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。

    熵的定义

    熵的英文原文为 entropy,最初由德国物理学家鲁道夫·克劳修斯提出,其表达式为:

    \[\Delta = \dfrac{Q}{T}\]

    它表示一个系系统在不受外部干扰时,其内部最稳定的状态。后来一中国学者翻译 entropy 时,考虑到 entropy 是能量 $Q$ 跟温度 $T$ 的商,且跟火有关,便把 entropy 形象的翻译成“熵”。

    我们知道,任何粒子的常态都是随机运动,也就是"无序运动",如果让粒子呈现"有序化",必须耗费能量。所以,温度(热能)可以被看作"有序化"的一种度量,而"熵"可以看作是"无序化"的度量。如果没有外部能量输入,封闭系统趋向越来越混乱(熵越来越大)。比如,如果房间无人打扫,不可能越来越干净(有序化),只可能越来越乱(无序化)。而要让一个系统变得更有序,必须有外部能量的输入。

    1948年,香农 Claude E. Shannon 引入信息(熵),将其定义为离散随机事件的出现概率。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以说,信息熵可以被认为是系统有序化程度的一个度量。若无特别指出,下文中所有提到的熵均为信息熵。

    如果一个随机变量 $X$ 的可能取值为 $X = {x_1, x_2,…, x_n}$,其概率分布为 $P(X = x_i) = p_i(i = 1,2, ..., n)$,则随机变量 $X$ 的熵定义为:

    \[H(X) = H(p_1,...,p_n) = -\sum_{i=1}^{n}{p_i \log_2{p_i}}\]

    基本性质

    基本性质1:均匀分布具有最大的不确定性

    概率分布是一个函数,对于每个可能的结果都有一个概率,且所有的概率相加等于 1。当所有可能的结果具有相同的可能性时,该分布为均匀分布。例如:抛硬币实验(50% 和 50% 的概率),均匀的骰子(每个面朝上的概率都为六分之一)。

    给定 $n$ 个可能的结果,最大的熵在所有结果的概率相同时得到。以伯努利试验为例,有两种可能的结果:$p$ 和 $1-p$。当 $p=0.5$ 时,熵达到最大。

    什么是熵?

    基本性质2:对于独立事件,不确定性是可加的

    考虑两个特殊的硬币,第一个硬币 (A) 正面朝上 (H, Head) 的概率为 80%,背面朝上 (T, Tail) 的概率为 20%。另一个硬币 (B) 的正面朝上和反面朝上的概率分别为 60% 和 40%。如果我们同时抛两枚硬币,那么有四种可能:正正(48%),正反(32%),反正(12%),反反(8%)。

    将这些概率带入到熵的公式中,有:

    \[H(A) = 0.722, H(B) = 0.971, H(A,B) = 1.693\]

    可以看到:$H(A,B) = H(A) + H(B)$,即两个独立事件的联合熵等于各个独立事件的熵的和。

    基本性质3:加入发生概率为 0 的结果并不会有影响

    举例来说,事件 A 有两种可能,1 号结果为 80% 概率,2  号结果为 20% 概率。事件 B 有三种结果,1 号结果 80%,2 号结果 20%,3 号结果 0%。显然,第三个结果的加入并没有增加或减少事件 B 的不确定性。

    即增加一个概率为 0 的结果,并不会影响对于不确定性的度量。

    基本性质4:不确定性的度量应该是连续的

    对数函数在定义域上每个点都是连续的,在子集上有限数量函数的和和乘积也是连续的。由此可得出,熵函数也是连续的。

    唯一性定理

    Khinchin(1957)证明,满足上述四种基本属性的唯一函数族具有如下形式:

    \[H(X) = H(p_1,...,p_n) = -\lambda \sum_{i=1}^{n}{p_i \log{p_i}}\]

    其中,$\lambda$ 是正常数。

    Khinchin 称之为唯一性定理。将 $\lambda$ 设为 1,并使用以 2 为底的对数就得到了香农熵。

    重申一下,使用熵作为不确定性度量是因为它具有我们期望的属性,并且是从满足上面提到的四个属性的函数族中做出的很自然的选择。

    其他属性

    除了上述用于 Khinchin 的唯一性定理中的四个基本属性,熵还具有一些其他的性质,下面就介绍其中的一些:

    性质5:具有更多可能结果的均匀分布有更大的不确定性

    一般来说,$L(k)$ 为具有 $k$ 个结果的均匀分布的熵。当 $m>n$ 时有:

    \[L(m) > L(n)\]

    以掷骰子和抛硬币为例:

    \[H(\dfrac{1}{6},\dfrac{1}{6}, \dfrac{1}{6},\dfrac{1}{6}, \dfrac{1}{6},\dfrac{1}{6}) > H(0.5, 0.5)\]

    性质6:事件拥有非负的不确定性

    从公式上来分析,概率 $p_i$ 在 0-1 的范围内,是非负的,但是取对数后,则为负值。负正负相乘,可得熵是非负的。

    性质7:有确定结果的事件具有0不确定性

    假设在事件 $X$ 中,结果 $i$ 一定会发生,即 $p_i=1$, 所以 $H(X)$ 为:

    \[H(X) = 0\]

    性质8:调转参数顺序没有影响

    这是一个显而易见的理想性质。考虑两种情况,第一个,抛硬币正面朝上的概率和背面朝上的概率分别为 80% 和 20%。第二个情况里概率正好相反:正面朝上和背面朝上的概率分别为 20% 和 80%。

    两种抛硬币试验都有相同的熵,即 $H(0.8, 0.2) = H(0.2, 0.8)$。

    打赏
    微信
    支付宝
    微信二维码图片

    微信 扫描二维码打赏

    支付宝二维码图片

    支付宝 扫描二维码打赏

     

    除特别注明外,本站所有文章均为交通人原创,转载请注明出处来自http://www.hijtr.com/entropy/

    交通人博客是交通人工作室(JTR Studio)建立的交通人系列网站之一,是交通人工作室的主阵地,旨在整合和分享交通行业相关资讯,具体包括但不限于行业新闻、行业动态,以及行业相关规范、书籍、报告和软件等资源。

    发表评论

    表情 格式

    *

    暂无评论

    
    切换注册

    登录

    忘记密码 ?

    切换登录

    注册

    扫一扫二维码分享