其中X为有限个事件x的集合,X是定义在X上的随机变量。信息熵是随机事件不确定性的度量。
信息熵与物理学中的热力学熵有着紧密的联系:
其中S(X)为热力学熵,H(X)为信息熵,kB为波兹曼常数。 事实上这个关系也就是广义的波兹曼熵公式,或是在正则系综内的热力学熵表示式。如此可知,玻尔兹曼与吉布斯在统计物理学中对熵的工作,启发了信息论的熵。
信息熵是信源编码定理中,压缩率的下限。若编码所用的信息量少于信息熵,则一定有信息的损失。香农在大数定律和渐进均分性的基础上定义了典型集和典型序列。典型集是典型序列的集合。因为一个独立同分布的X序列属于由X定义的典型集的概率大约为1,所以只需要将属于典型集的无记忆X信源序列编为唯一可译码,其他序列随意编码,就可以达到几乎无损失的压缩。