1. 信息量是怎么计算的
假设我错过了某年的世界杯比赛,现在要去问一个知道比赛结果的朋友“哪支球队最终获得世界杯冠军”?他要求我猜,猜完会告诉我是对还是错,但我每猜一次就要给他一块钱。那么我需要付给他多少钱才能知道谁是冠军?我可以把球队编号,从1到32,然后问“冠军的球队在1-16号中吗?”。假如他告诉我对了,我就问“冠军的球队在1-8号中吗?”。如果他告诉我不对,我就自然就知道冠军队在9-16号中。这样我只需要猜5次就可以知道哪支球队是冠军了。所以,“谁是世界杯冠军”这个问题的答案的信息量只值5块钱。香农用“比特”(bit)来作为信息量的单位。像上边“谁是世界杯冠军”这个问题的答案的信息量是5比特。如果是64支球队,“谁是世界杯冠军”这个问题的答案的信息量就是6比特,因为要多猜一次。
对足球了解的朋友看到这有疑问了,他觉得他不需要5次来猜。因为他知道巴西,西班牙,德国等这些强队夺冠的可能性比日本,韩国等球队大的多。所以他可以先把强队分成一组,剩下的其它队伍一组。然后问冠军是否在夺冠热门组里边。重复这样的过程,根据夺冠的概率对剩下的候选球队分组,直至找到冠军队,这样也许三次或四次就猜出结果了。因此,当每支球队夺冠的可能性(概率)不一样时,“谁是世界杯冠军”这个问题的答案的信息量比5比特少。
香农指出,“谁是世界杯冠军”这个问题的答案的信息量是:
H = -(p1*log(p1) + p2 * log(p2) + ... + p32 * log(32))
其中log是以2为底数的对数,以下本文中的log都是以2为底的对数,下边不再特别说明。
这就是衡量信息量多少的公式,它的单位是比特。之所以称为熵是因为它的定义形式和热力学的熵有很大的相似性。对于一个随机变量X的信息熵的定义公式为:
H(X)=-∑P(xi)logP(xi)
其中xi是随机变量X的可能取值。
更多计算信息量的例子可以看这篇文章:信息怎么衡量多少?
2. 信息的自信息量如何计算
信息量 I=log2(1/p)其中 p是概率, log2指以二为底的对数。 对于第一问,“不能使用”, 其概率为25%(35度以下)+5%(40度以上)=30% 信息量