信息熵公式
那么怎么压缩才能得到极限值呢?
香农第一定理指出:
一段信息的信息量是固定的,这称为这段信息的信息熵(H)无论怎么压缩,信息熵是无失真信源编码的极限值若编码的平均码长小于信息熵值,必然发生差错(也就是有损)
那么
怎么压缩才能得到极限值呢?香农第一定理指出,对于不同的符号要采用不同编码,经常出现的符号使用短的编码,出现频率低的使用更长的编码。如果做到每个符号的代码长度等于它出现概率的对数,则编码总长度就是
信息熵。在吴军博士的《信息传》中,举了个例子。
图源:《信息传》——吴军这个编码方法是怎么得来的?可以通过大名鼎鼎的霍夫曼编码得到。
霍夫曼编码也称为zuijia编码,由Huffman1952年提出,就是根据是香农1948年发表的《A mathematical theory of communication》里的思想而构造的,是香农第一定理的延伸。如果你细心观察,你会发现,在很多领域都有意识无意识的能香农第一定理的身影。例如摩尔斯电报码也一定程度上接近香农第一定律的压缩极限值(虽然还不完美),例如经常出现的A、E、I特别短。而且发明摩尔斯电码的时候,那时候香农还没出生呢。大家都冥冥中感受到这个规律,但只有香农把这个规律总结成定理。
香农第二定理(有噪信道编码定理)
有噪信道编码定理。当信道的信息传输率不超过信道容量时,采用合适的信道编码方法可以实现任意高的传输可靠性,但若信息传输率超过了信道容量,就不可能实现可靠的传输。设某信道有r个输入符号,s个输出符号,信道容量为C,当信道的信息传输率R<C,码长N足够长时,总可以在输入的集合中(含有 个长度为N的码符号序列),找到M ( ),a为任意小的正数)个码字,分别代表M个等可能性的消息,组成一个码以及相应的译码规则,使信道输出端的最小平均错误译码概率Pmin达到任意小。公式: 注:B为信道带宽;S/N为信噪比,通常用分贝(dB)表示。
一般业内讲到香农定理,主要指的是第二定理有噪信道编码定理。在讲解这个原理之前,我想让大家思考一个问题,为啥你离路由器越远,网速越差?你可能会回答「信号发不到那么远」之类的回答。但有的时候,只是网速变差,并没有断线啊,甚至你看你wifi信号还是满格的呢,如果信号发不到那么远,那你应该直接掉线才对。你有没有想过,
距离和网速有什么关系?香农第二定理就能帮你解答这个问题。(当然,香农那个年代没有wifi)为了说明香农定理,这里就不得不提一个人了,傅里叶(Fourier)。傅里叶和香农其实并不是一个时代的人,傅里叶比香农早出生148年。但1807年提出的傅里叶变换,确实为百年后的通信发展做出了「意外的贡献」。通过傅里叶级数可以把似波的函数表示成简单正弦波的方式。在weijibaike中,给出了这个一个动图,可以帮助理解。在这个图里,把一个方波分解成了几个正弦波(近似)。
傅里叶变换将函数的时域(红色)与频域(蓝色)相关联。频谱中的不同成分频率在频域中以峰值形式表示。
应用到通讯领域,傅里叶公式能把时间信息变成频谱信息。(一个正弦波就是一个频率)