① 信息量的定義是什麼
數據就是信息,
數據的方差顯示了數據的集中程度,數據越是集中則說明數據包含的信息越准確密集,這樣的話,其實就是信息量越小。
信息量就是方差。可見統計學fisher信息量。
② 信息量的單位
信息量的單位是:Bit
所謂信息量是指從N個相等可能事件中選出一個事件所需要的信息度量或含量,也就是在辯識N個事件中特定的一個事件的過程中所需要提問"是或否"的最少次數.
香農(C. E. Shannon)資訊理論應用概率來描述不確定性。信息是用不確定性的量度定義的.一個消息的可能性愈小,其信息愈多;而消息的可能性愈大,則其信息愈少.事件出現的概率小,不確定性越多,信息量就大,反之則少。
③ 怎樣衡量信息量的大小呢
如果用統計學的術語來描述,就是出現概率小的事件信息量多。因此,事件出現得概率越小,信息量愈大。即信息量的多少是與事件發生頻繁(即概率大小)成反比。
例題:向空中投擲硬幣,落地後有兩種可能的狀態,一個是正面朝上,另一個是反面朝上,每個狀態出現的概率為1/2。如投擲均勻的正六面體的骰子,則可能會出現的狀態有6個,每一個狀態出現的概率均為1/6。試通過計算來比較骰子狀態的不肯定性與硬幣狀態的不肯定性的大小。
信息量的簡介:
信息量是指信息多少的量度。1928年R.V.L.哈特萊首先提出信息定量化的初步設想,他將消息數的對數定義為信息量。若信源有m種消息,且每個消息是以相等可能產生的,則該信源的信息量可表示為I=logm。但對信息量作深入而系統研究,還是從1948年C.E.香農的奠基性工作開始的。
在資訊理論中,認為信源輸出的消息是隨機的。即在未收到消息之前,是不能肯定信源到底發送什麼樣的消息。而通信的目的也就是要使接收者在接收到消息後,盡可能多的解除接收者對信源所存在的疑義(不定度),因此這個被解除的不定度實際上就是在通信中所要傳送的信息量。
④ 一個信源的信息量用什麼來度量
信息度量的單位有B、KB、MB、GB、TB
信息量的簡介:信息量是指信息多少的量度。 1928 R.V.L. Hartley首先提出了信息量化的初步思想,並將消息的數量定義為信息量。 如果源具有M組,並且每條消息同樣可能,則可以表示為i = logm的源的信息量。 然而信息量是深入和系統的研究,還是從1948年C.E.香農的奠基性工作開始的。
在信息理論中,源輸出被認為是隨機的消息。 也就是說,在未收到消息之前,無法確定發送到結尾的消息。 通信的目的是在收到消息後啟用收件人,因此不需要將收件人存在於源的源,因此實際上在通信中傳輸了前所未有的不確定性的信息量。
⑤ 如何度量信息的存在 為什麼信息量的大小與信息的出現概率有關
為了引出後面機器學習的一個演算法——決策樹,我想先講點基礎知識,那就是信息熵。
信息是一個比較抽象的概念,我們常說某句話信息量很大,或者某句話看不懂在說什麼。直觀上來說,信息是可以量化的。
生活中有些事情是具有不確定性的,比如說預測明天股票的漲勢。假如你告訴我,明天世界盃足球賽要開始了,這兩者似乎沒有太大的關聯,那「世界盃足球賽開始」這條信息對於股票漲勢的信息量是很小的。但是,假如世界盃足球賽開始,大家都不關注股票了,那就沒有人坐莊,那這條信息的信息量就變大了很多。
而有些事情本來就是具有確定性的,比如太陽從東邊升起。假如你告訴我,明天太陽會從東邊升起,那這句話就沒有什麼信息量,因為沒有什麼比這個更確定的事了。
那麼,信息量的大小和什麼有關呢?
1、可能出現的結果數量。
2、事件發生的概率。
如果一個事件只有可能,那麼無論傳遞任何信息,都不會帶來什麼信息量。如果一個事件發生的概率越小,事件發生所帶來的信息量就越大,反之亦然。
信息熵的定義:
假設有離散隨機變數X={x1,x2,...,Xn},設pi=P{X=xi},則有:
I(xi)表示xi的自信息量,即事件xi發生所帶來信息量的大小。H(x)為事件X的信息熵,即事件X={x1,x2,...xm}的平均信息量,熵是對信息量的一個期望。
有了信息熵的定義,我們可以解決現實中的許多問題。比如英語中的26個英文字母,假設每個字母出現的概率是相等的,那麼其中一個字母的自信息量大小就是:
這個公式以2為底數,對應單位為bit,表示該信息的大小需要多少位二進制數可以衡量。
而對於中文來說,我們常知道的漢子大約有7000多個,假設每個字等概率出現,我們大約需要13個比特來表示一個漢字。但由於每個漢字的使用出現的頻率是不一樣的,有些常用的詞類似「的」出現的頻率很高,即使這樣每個漢字的信息熵也要 8-9 個比特信息。
這也是為什麼英文書翻譯成中文,總是厚厚的一本。
用公式來解決具體實際問題——稱小球問題。
問題:有10個小球,其中有一個小球偏重,用一個天平,需要至少用多少次天平才能把小球找出來?
這個問題大家也比較熟悉,現在我們利用信息熵公式來解決這種問題。
(1)每次使用天平,都會有三種可能性,左偏,右偏和平衡。而且這三種情況的概率是相等得,即每次使用天平可以得到log3的信息量。
(2)要從10個小球中,取出偏重的小球,每個小球都是等概率的,所以這個事件所攜帶的信息量是log10。
答案是我們最少需要log10/log3(約等於2.09),所以至少需要3次。