互信息
这部分内容算是对前面时间序列中近似熵、样本熵、模糊熵等熵的基础部分,毕竟前面部分只是对各种熵的求法步骤做了归纳,要理解其中的意义来得从最基础的部分进行分析。
Entropy (熵)
熵是衡量随机变量不确定性的指标。根据Shannon的定义,对于一个在概率空间 Ω 中,具有概率分布 p(x) 的随机变量 X,它的熵的定义为:
H(X)continuous=−∫Ωp(x)log2(p(x))dxH(X)discrete=−x∈Ω∑p(x)log2(p(x))其中,上面两个式子分别是当 X 为连续或者离散随机变量时,所以 p(x) 也便是对应的连续概率分布或者离散概率分布。
由于连续的情况是基于离散情况泛化出的结果,所以下面以离散随机变量的情况为例分析。
举个扔硬币的例子,一个硬币正反两面的概率都是 21,所以对于正负结果这个随机变量,它的熵为:H(x)=−21log2(21)−21log2(21)=1再举个极端的例子,这个硬币每次扔都是正面或者背面向上,此时的熵为:H(x)=−1log2(1)=0对于这样具有两个状态空间的变量,当概率分布变化时,得到的熵的变化对应如下:
图中可以看出,当概率为21时熵最大。对于不确定性,也可以理解对于一个问题有不同的答案,像扔硬币这个例子,问题就是结果是正面还是背面,当极端情况下只有背面或者正面的结果时,问题的答案就没有任何疑问,此时也便不具有不确定性,所以熵为0;当概率五五开时,此时问题的答案就有不确定性,并且此时的不确定性是最大的。
熵是有界的,下面的不等式适用于离散随机变量:0⩽H(X)⩽log2(∣X∣)其中,∣X∣ 表示离散变量 X 的值的个数,其中当 X 服从于均匀分布 (uniform distribution) 时等号成立。
Joined Entropy (联合熵)
对于两个离散随机变量X,Y,则它们的联合熵是:H(X,Y)=−x∈Xy∈Y∑p(x,y)log2(p(x,y))联合熵可以归纳到多变量的情况下,对于X1,...,Xn 有 H(X1,...,Xn)。
conditional Entropy (条件熵)
条件熵的表现形式是:H(X∣Y)=−x∈X,y∈Y∑p(x∣y)log2(p(x∣y))当 X,Y 是对立的随机变量时,条件熵的表现形式是:H(X∣Y)=−x∈X,y∈Y∑p(x)log2(p(x))=H(X)条件熵和联合熵之间的关系是:H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
Relative Entropy (相对熵)
相对熵也称作K-L散度 (Kullback–Leibler pergence),K-L距离 (Kullback–Leibler distance)。是用来衡量两个随机变量的概率分布之间的差异性的指标。
还是以随机变量X,Y为例,它们对应的概率分布分别是p(x),q(y),当X,Y为离散型变量时,p对q的相对熵为:D(p∣∣q)=x∈X,y∈Y∑p(x)log2q(x)p(x)当X,Y为连续型变量时,p对q的相对熵为:D(p∣∣q)=∫x∈X,y∈Yp(x)log2q(x)p(x)dx当p(x)和q(x)的相似度越高,相对熵越小。
KL散度主要有两个性质:
(1)、不对称性
尽管KL散度从直观上是个度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,即D(P∣∣Q)!=D(Q∣∣P)。
(2)、非负性
相对熵的值是非负值,即D(P∣∣Q)>0。
Mutual Information (互信息)
对于两个随机变量X,Y,它们的互信息可以定义为X,Y的联合分布和对立分布乘积的相对熵。I(X;Y)=D(p(x,y)∣∣p(x)q(y))=−x∈X,y∈Y∑p(x,y)log2p(x)p(y)p(x,y)经过变形和计算可以得到互信息I(X;Y)=H(X)+H(Y)−H(X,Y)
互信息的意义是衡量X到Y的不确定性的减少程度,另外互信息是对称的(symmetric),也就是I(X;Y)=I(Y;X),所以互信息不能用于确定信息流的方向。
总结
对于随机变量 X,Y,它们的熵、联合熵、条件熵以及互信息之间的关系是:
其中,左边的圆形区域表示随机变量X的熵,右边的圆形区域表示随机变量Y的熵。左边的H(X∣Y)区域表示在随机变量Y给定的条件下随机变量X的条件熵;左边的H(Y∣X)区域表示在随机变量X给定的条件下随机变量Y的条件熵。两个圆中间相交的部分表示随机变量X,Y的互信息。两个圆构成的整体部分表示X,Y的联合熵。
REF
《Entropy Analysis of Financial Time Series》
信息熵,条件熵,互信息的通俗理解
详解熵、最大熵、联合熵和条件熵、相对熵以及互信息之间的关系