1. 信息量是怎麼計算的
假設我錯過了某年的世界盃比賽,現在要去問一個知道比賽結果的朋友「哪支球隊最終獲得世界盃冠軍」?他要求我猜,猜完會告訴我是對還是錯,但我每猜一次就要給他一塊錢。那麼我需要付給他多少錢才能知道誰是冠軍?我可以把球隊編號,從1到32,然後問「冠軍的球隊在1-16號中嗎?」。假如他告訴我對了,我就問「冠軍的球隊在1-8號中嗎?」。如果他告訴我不對,我就自然就知道冠軍隊在9-16號中。這樣我只需要猜5次就可以知道哪支球隊是冠軍了。所以,「誰是世界盃冠軍」這個問題的答案的信息量只值5塊錢。香農用「比特」(bit)來作為信息量的單位。像上邊「誰是世界盃冠軍」這個問題的答案的信息量是5比特。如果是64支球隊,「誰是世界盃冠軍」這個問題的答案的信息量就是6比特,因為要多猜一次。
對足球了解的朋友看到這有疑問了,他覺得他不需要5次來猜。因為他知道巴西,西班牙,德國等這些強隊奪冠的可能性比日本,韓國等球隊大的多。所以他可以先把強隊分成一組,剩下的其它隊伍一組。然後問冠軍是否在奪冠熱門組里邊。重復這樣的過程,根據奪冠的概率對剩下的候選球隊分組,直至找到冠軍隊,這樣也許三次或四次就猜出結果了。因此,當每支球隊奪冠的可能性(概率)不一樣時,「誰是世界盃冠軍」這個問題的答案的信息量比5比特少。
香農指出,「誰是世界盃冠軍」這個問題的答案的信息量是:
H = -(p1*log(p1) + p2 * log(p2) + ... + p32 * log(32))
其中log是以2為底數的對數,以下本文中的log都是以2為底的對數,下邊不再特別說明。
這就是衡量信息量多少的公式,它的單位是比特。之所以稱為熵是因為它的定義形式和熱力學的熵有很大的相似性。對於一個隨機變數X的信息熵的定義公式為:
H(X)=-∑P(xi)logP(xi)
其中xi是隨機變數X的可能取值。
更多計算信息量的例子可以看這篇文章:信息怎麼衡量多少?
2. 信息的自信息量如何計算
信息量 I=log2(1/p)其中 p是概率, log2指以二為底的對數。 對於第一問,「不能使用」, 其概率為25%(35度以下)+5%(40度以上)=30% 信息量