導航:首頁 > 信息系統 > 拋一枚硬幣的信息量是多少

拋一枚硬幣的信息量是多少

發布時間:2022-10-24 18:12:43

⑴ 拋硬幣概率

最笨的方法:(條件概率)
第一次正第二次反的概率=1/2*1/2=1/4
第二次正第一次反的概率=1/4
兩次都是正的概率=1/4
兩次都是反的概率=1/4
兩次至少一次正的概率=1/4+1/4+1/4=3/4
兩次出現一正一反概率=1/4+1/4=1/2

1. 拋一硬幣二次,第一次是正面,請問出現一正一反概率為多少?
第一次是正面概率=1/2
第一次是正面,出現一正一反,就是第一次正第二次反的概率=1/4,出現一正一反,不可能是第一次反第二次正,因為前提是第一次是正面!
1/4/(1/2)=1/2
又因為第一次是正面,出現一正一反,也就是第二次出現的要是反面,所以概率是1/2,因為:第二次出現是正是反概率是一樣的,和第一次出現是正的沒有關系。

2. 拋一硬幣二次,至少有依次一次是正面,請問出現一正一反概率為多少?
兩次至少一次正的概率=3/4,出現一正一反,可以是一正二反或一反二正,概率=1/2
1/2/(3/4)=2/3

3. 拋一硬幣二次,其中一次是正面,請問出現另一枚為反面概率為多少?
兩次至少一次正的概率=1/4+1/4+1/4=3/4,另一枚為反面,就是一正一反,概率=1/2
1/2/(3/4)=2/3
其中一次是正面,並沒有說第二次一定是反面,所以就是至少一次是正面。出現另一枚為反面,所以就是一正一反,所以和第二問相同!

常常有人習慣地以為概率是1/2,認為另一枚為反面的概率和一面是正面沒有關系,這是錯誤的!!!
經常有人問這不就是第一問嗎?不是的!!!
第一問中第二次出現是正是反概率是一樣的,和第一次出現是正的沒有關系。而這一問中,兩者是有關系的,因為:一次是正面,出現一正一反的概率要大,出現兩正的概率要小!!!一次是正面,出現一正一反的概率要大,可以是一正二反,或二反一正,而出現兩正就是一正二正。概率比是2:1,所以出現另一枚為反面概率為2/3。這和鏈接中的生小孩是類似的!!!

拋一硬幣二次,其中一次是正面,請問出現一正一反概率為多少?
兩次至少一次正的概率=1/4+1/4+1/4=3/4,兩次出現一正一反概率=1/4+1/4=1/2
1/2/(3/4)=2/3
其中一次是正面,出現一正一反,也就是另一枚是反面,所以和第三問相同!

⑵ 人工智慧通識-科普-最大熵

最大熵是什麼?最大熵有什麼意義?

在這篇文章中, 人工智慧通識-科普-信息熵和信息量 ,我們提到了香農發明的信息熵計算公式:

並且我們計算得到了拋擲均勻硬幣所得結果的信息熵是1bit,投擲均勻骰子的點數結果的信息熵是2.585bit,對於等概率隨機四個數字所得結果的信息熵是2bit。

那麼假設有一個用來作弊的骰子,扔出一點的概率有50%,扔出其他五個點的概率均等,都是10%。那麼這個結果的信息熵是:

從這個例子我們可以看到, 均勻骰子等概率隨機產生結果的信息熵最大,任何作弊之後的骰子產生的信息熵都會小於這個最大熵

再以非均勻的硬幣為例,正面朝上的概率如果是0.6,而反面朝上的概率是0.4,那麼它產生結果的信息熵是:

上面是我們感性的認識,當然這個規律是可以被數學證明的,即: 所有可能性為等概率的時候,結果的信息熵最大

信息熵也叫香農熵。資訊理論中信息量的單位是比特bit,也叫香農單位。消息所帶的信息量可以消除不確定性,即消除熵。所以信息熵的單位也是比特。

比特就是正反兩面二選一。

有ABC三個杯子,一枚硬幣一定在某個杯子底下。假設三個杯子蓋了硬幣的概率是均衡的,那麼,怎麼解開謎題?我們只要2次判斷。

如果在A下,一問即中;如果在B或C下,要問2次,平均每個杯子問(1+2+2)/3=1.66次,而這個系統只有3種均概率的可能,它輸出結果的信息熵是 ,小於2,所以香農熵是確定每種情況平均所需提問的最小值。

換成6個面的骰子會怎樣?是1嗎?是2嗎?...是5嗎?平均每個點數要問的次數是:

也許你會用更好的二叉樹進行提問:

這樣的話,6和3隻問2次,1245則要問三次,平均每個點數對應的問題是:

用二進製表示N種可能(比如0~N范圍的數字),那麼至少需要 個位元組,因為這樣每個表示的二進制數字才能將所有其他可能的數字區別開來。

比如說計算機RGB每個顏色有0~255種,也就是 ,需要8比特才能表示全部情況。

熵描述了無序性,隨機性,不確定性。根據熱力學第二定律,熵總是趨向增加的。因此,當我們遇到未知的情況的時候,我們應該按照最大熵的情況進行推測。

實際上,每天我們都是這樣做的。

比如骰子,我們一直習慣於假設它的六個點是均等概率的,並按照這個1/6的概率去推測下一次情況。即使我告訴你這個骰子我做過特殊處理,有50%的概率會投出1點,那麼大家也還是會習慣的認為剩下5個點數每種可能都是1/5,這就是用最大熵的思維來思考。

最大熵就是以知之為知之,以不知為不知。對於已知條件之外的未知情況,我們都習慣於用最大熵的均等概率進行思考

不要把雞蛋放在一個籃子里,因為放在一個籃子里不符合最大熵原理,放在多個籃子,概率被比較平靜的分散開,就能獲得更大熵,更小的風險。

熱力學第二定律規定在沒有外來能量注入的封閉情況下,熵會趨向於增加,而不會減少。

但這不代表著熵就沒有辦法增加,恰恰相反,這個定理背後隱含著可以通過引入外部能量來減少系統內的熵,從而使系統變得更加有序。

地球是個大系統,太陽光源源不斷的把能量輸送進來,四十億年以來逐漸誕生了生命。生命的一個熱力學定義就是能夠通過輸入輸出實現熵減的系統。

生命是宇宙熵增大潮中的一股逆流,它逆潮而動,吸收能量,努力減少自身的熵,減少周邊世界的熵,讓自身變得更有序,讓世界變得更有序。

然而在大尺度上看,生命這種熵減系統的出現,可以更快的加速周邊世界能量的釋放,更快的實現了更大系統的熵增。

生命讓地球系統的熵更多還是更少?

我認為是更多。不要只看到鱗次櫛比的高樓大廈,更要看到我們消耗了地球儲藏了幾十億年的石油、煤炭、天然氣資源,甚至我們的技術已經伸向了原子層的核能。

在宇宙宏觀層面,生命無法阻攔整個系統的熵增,實際上,系統內的元素和能量越是活躍,也就越是引發更快的熵增。

生命既是熵增大潮的中的逆流,也是大潮的助推者,我們人類就像是地球上生長的食腐細菌,我們發展越快,也就越快的導致地球乃至太陽系的無序熵增。

熵增是無機世界的自然法則,也是真隨機事件的內在特徵。但是也有兩方面值得思考:

END

⑶ 概率,隨機變數,隨機過程

     概率 通常理解為衡量事件發生的可能性大小,但是不嚴謹。拿投骰子舉例,投一次骰子,稱作一次試驗,所有可能的試驗結果就稱為 樣本空間 , 事件 就是樣本空間的子集。

     概率 是賦予事件的一個實數,通常記為P(A),即P(A)是一個函數,這個函數滿足三個條件:

         (1)非負性 :P(A)>=0;

         (2)規范性 :對於必然事件來說,P(A)=1;

         (3)可列可加性 :對於兩個不相容的事件來說,有 P(A並B)=P(A)+ P(B)

    概率是賦予事件的一個實數,這個定義可以說是概率的本質特徵,但是沒有給出概率的具體數值。

為了給出一個具體的數值,設N為試驗次數,N(A)是事件A發生的次數,當N趨向於無窮大時, P(A)=N(A)/N ; 這個定義是符合概率的三條性質的。

    在解決問題時,我們還要分清楚 概率 是 經驗數據得到的結果 還是 邏輯推理得到的結果 。例如:

(1)如果把一枚 偏心 的骰子投1000次,有200次出現5點,那麼5點發生的概率是0.2;

這個概率結果就是一個由 經驗數據 得出的結果。

(2)如果骰子是 均勻 的,由於對稱性,得出5點的概率是1/6;

而這一個概率結果由 對稱性和可列可加性邏輯 推出來的就是1/6。

隨機變數 是賦予實驗的每一個結果的一個數,記作 X(ξ) (對比一下概率的定義哦)

比如你投擲均勻色子的時候, 出現偶數你記作1,出現奇數你記作0 ,那麼定義域就是{1,2,3,4,5,6},值域是{0,1},這也就說明白了隨機變數。

那麼P( X=0 )=0.5,P( X=1 )=0.5。

在接觸了隨機變數後,也有必要回顧一下 聯合概率,邊緣概率,獨立,相關,二元積分,N維高斯的概率分布 等概念……

隨機變數 是賦予實驗所有可能結果的一個數 X(ξ) ,而 隨機過程 x(t)是賦予每個結果ξ的一個函數 X(t,ξ) 。

所謂 過程 ,就是 引入時間t 這一個參量。用大白話來說, 隨機過程是一個二元函數 ,在每一時刻,隨機過程的值是一個隨機變數,相當於在這個時刻時間靜止了; 在每一個ξ下,隨機過程是一個樣本函數。

在 概率論 中 , 通常研究 一個或多個這樣有限個數 的隨機變數,即使在大數定律和中心極限定理中考慮了無窮多個隨機變數,但也要假設隨機變數之間 互相獨立。隨機過程 主要是研究 無窮多個互相不獨立的、有一定相關關系 的隨機變數。隨機過程就是許多隨機變數的集合,代表了某個隨機系統隨著某個指示向量的變化,這個指示向量常用的是 時間向量。

其中 指標集合T : 通常用的指標集合是代表時間,以實數或整數表示其元素。

以 實數 形式表示時,隨機過程即為 連續隨機過程 ;

以 整數 形式表示時,隨機過程即為 離散隨機過程 。

對比一下概率和熵, 概率 給出了在 單次事件A 發生或者不發生這種不確定性的度量,而 熵 考慮的問題不是某一個事件,而是對S的 某個分割U的任何事件Ai 發生與否的不確定性賦予測度。什麼意思呢?

分割 用大白話說,就是把樣本空間用刀去分,類似切西瓜,比如還是用投色子為例,你把總的樣本空間{1,2,3,4,5,6}劃分成{1,2,3;4,5,6}兩塊,這就是一個分割;當然你也可以{1,2;3,4,5,6},這是另外一種分割。

互信息 是 一個隨機變數包含另外一個隨機變數 的信息量。通信最後要達到目的就是能從接收端准確無誤恢復出發送信號,也就是通過 接收信號來逐步消除不確定性 獲得關於發送信號的信息。

資訊理論有多麼重要,你自然明白……就目前學習到的內容來說,資訊理論解答了通信的兩個基本問題:

(1) 臨界數據壓縮的值,即熵H ;第三章講信源編碼,當使用霍夫曼編碼,L長度趨向無窮大時,平均碼長度接近信源熵。

(2) 臨界通信傳輸速率的值,即信道容量C ,也就是第四章信道容量的內容。

該書內容包括有: 隨機變數,隨機過程,排隊論,馬爾科夫過程,熵,編碼,檢測與估計,譜估計,隨機游動,譜應用 等等。

概率論與數理統計 :https://www.cnblogs.com/wanghui626/p/6817359.html

大數定律: 大量樣本數據的均值(樣本值之和除以樣本個數),近似於隨機變數的期望(標准概率*樣本次數)。(樣本(部分)趨近於總體)

中心極限定理: 大量樣本數據的均值(或者樣本和\眾數、極差等等,或者任意的非正態的分布都可以)的頻率分布,服從正態分布(樣本越大,越吻合正態分布)。

大數定律 研究的是在什麼條件下,這組數據依概率收斂於他們的均值。

中心極限定理 研究的是在什麼條件下,這些樣本依分布收斂於正太分布。

依概率收斂就是強收斂,隨機過程中成為強平穩。

依分布收斂就是弱收斂,隨機過程中成為弱平穩。

概率的解釋有兩種觀點,一種是 頻率觀點 ,一種是 貝葉斯觀點 。

比如說,拋硬幣,正面的概率是0.5。

可以解釋為, 經過大量的實驗後發現,拋硬幣正面朝上的頻率為0.5。

也可以解釋為, 下一次拋硬幣,正面朝上的概率為0.5。

⑷ 擲硬幣n次,正面出現次數的數學期望為多少

事實上,猜硬幣正反正確率並不像你認為的那樣是50%,與概率相比,拋硬幣的結果與心理學的關系更大。
拋硬幣時存在自然偏見,這導致最初向上的一面再次向上可能性是51%。也就是說,一枚硬幣是帶頭像的一面朝上拋出去,拋一百次會有51次貸頭像的一面朝上。

好吧,以下為網友智慧:
如果拋硬幣n次,則恰好k次正面的概率為: P(k)=C(n,k)*(1/2)^n,(k=0,1,2,…,n) 這里C(n,k)是從n個不同元素中取k個元素的不同取法種數,即 C(n,k)=n!/[k!*(n-k)!]。 再講幾句: 如果你指定某k次是正面,其餘的n-k次是反面,則概率是(1/2)^n; 如果你問的是k次正面,其餘的n-k次反面,則概率是 P(k)=C(n,k)*(1/2)^n。例如 你問:「正負正負正負正負正負出現的概率」,應該是 (1/2)^10=1/1024; 如果你問:「10次投幣里,出現5次正面、5次反面的概率」,則應該是 C(10,5)*(1/2)^10=252/1024=63/256.

⑸ 天上掉下餡餅的概率怎麼算

概率首先表示的意思是你對某個事件發生的信息掌握的多少,
舉個經常講的例子,你拋一枚硬幣出現正面的概率一般認為是50%,那是因為我們沒有掌握關於硬幣旋轉的足夠信息,如果我們掌握了足夠的信息,比如旋轉的速度,停下來的時候的重心,我們就可以知道它出現正面的概率有兩種0%或者100%。
回到這個問題上來,首先要問你你想在多少信息量的情況下計算這個概率,這件事的概率可以分為一下幾種可能:
首先假設你站在一個空曠的空地上(不然事情會很復雜)
1,這個餡餅是從飛機上掉下來的
(1)這個概率取決於飛機上是否供應餡餅(假設完全不掌握該事件的信息
那麼概率就是50%),
(2)那麼這個餡餅是怎麼掉下來的呢?我們知道的信息是飛機是封閉的,除非遭遇險情,比如撞到鳥劫機並且飛機失事等等,這種概率我們可以根據歷史事件統計出來,大概是萬分之一這個樣子(可能高估了沒有統計過,時間不允許)
那麼我們可以得出餡餅從飛機上掉下來的概率0.5*0.0001=0.00005=0.005%
2,這個餡餅是一隻鳥嘴裡掉下來的
(1)一隻鳥可以用嘴夾住餡餅,肯定不是麻雀,肯定是大個頭的鳥,如果選全體鳥作為事件的全體,那麼大個頭的鳥劃過天空的概率一般是多少呢?大概千分之二(為什麼呢,因為數據需要去做統計,盡管我以科學的態度回答這個問題,實在是經費不夠呀,你給的分好少,自己好主觀印象一下)
(2)這個鳥嘴裡的餡餅掉下來的概率。
(I)夾的累了掉下來了,她很可能沒吃這個餡餅,所以很餓,很乏。這個可能性是50%(要麼吃飽了再夾,要麼沒吃打算回家吃)
(II)吃飽了的情況下,就是因為其他原因導致餡餅掉落,比如見到夥伴打招呼,如此等等。這個概率怎麼算呢?也就是兩只認識的鳥相遇的概率。可能性很小吧,沒有研究經費姑且認為是1%
那麼,從鳥嘴裡掉落餡餅的概率=0.2%*(50%+50%*1%)=0.0101%
3,你遇到了外星人的UFO
並且他剛好在吃餡餅
1,首先,分析一下UFO存在的概率,專家說「比較小」至於多小專家沒說,激勵機制不夠,我還是主觀一下0.01%
2,他吃餡餅嗎?為什麼會掉落餡餅。可以參照飛機掉餡餅概率
那麼UFO掉餡餅的概率=飛機掉餡餅概率*0.01%=0.005*0.0001=0.0000005=0.00005%
4,遇到了上帝(我們是無神論者所以這種概率是0)
最後,總結一下,天上掉餡餅的概率=0.005%+0.0101%+0.00005%+0=0.01515%
這個概率還是蠻大的。
不過能不能接住,就看你的運氣和你的准備情況了,「餡餅屬於有準備的人!」好好學習,好好工作,迎接你的餡餅的到來吧!

⑹ 決策樹(Decision Tree)

  決策樹(Decision Tree)是一種基本的分類與回歸方法,其模型呈樹狀結構,在分類問題中,表示基於特徵對實例進行分類的過程。本質上,決策樹模型就是一個定義在特徵空間與類空間上的條件概率分布。決策樹學習通常包括三個步驟: 特徵選擇 、 決策樹的生成 和 決策樹的修剪 。

  分類決策樹模型是一種描述對實例進行分類的樹形結構,決策樹由節點(node)和有向邊(directed edge)組成。節點有兩種類型:內部節點(internal node)和葉節點(leaf node)。內部節點表示一個特徵或屬性,葉節點表示一個類。

  利用決策樹進行分類,從根節點開始,對實例的某一特徵進行測試,根據測試結果將實例分配到其子節點;這時,每一個子節點對應著該特徵的一個取值。如此遞歸地對實例進行測試並分配,直至達到葉節點。最後將實例分到葉節點的類中。

  決策樹是給定特徵條件下類的條件概率分布,這一條件概率分布定義在特徵區間的一個劃分(partiton)上。將特徵空間劃分為互不相交的單元(cell)或區域(region),並在每個單元定義一個類的概率分布就構成了一個條件概率分布。決策樹的一條路徑對應劃分中的一個單元,決策樹所表示的條件概率分布由各個單元給定條件下類的條件概率分布組成。假設X為表示特徵的隨機變數,Y為表示類的隨機變數,那麼這個條件概率分布可以表示成P(Y|X)。X取值於給定劃分下單元的集合,Y取值於類的集合,各葉節點(單元)上的條件概率往往偏向於某一個類,即屬於某一類的概率較大,決策樹分類時將該節點的實例分到條件概率大的那一類去。也就以為著決策樹學習的過程其實也就是由數據集估計條件概率模型的過程,這些基於特徵區間劃分的類的條件概率模型由無窮多個,在進行選擇時,不僅要考慮模型的擬合能力還要考慮其泛化能力。

  為了使模型兼顧模型的擬合和泛化能力,決策樹學習使用正則化的極大似然函數來作為損失函數,以最小化損失函數為目標,尋找最優的模型。顯然從所有可能的決策樹中選取最優決策樹是NP完全問題,所以在實際中通常採用啟發式的方法,近似求解這一最優化問題: 通過遞歸的選擇最優特徵,根據該特徵對訓練數據進行劃分直到使得各個子數據集有一個最好的分類,最終生成特徵樹 。當然,這樣得到的決策樹實際上是次最優(sub-optimal)的。進一步的,由於決策樹的演算法特性,為了防止模型過擬合,需要對已生成的決策樹自下而上進行剪枝,將樹變得更簡單,提升模型的泛化能力。具體來說,就是去掉過於細分的葉節點,使其退回到父節點,甚至更高的節點,然後將父節點或更高的節點改為新的葉節點。如果數據集的特徵較多,也可以在進行決策樹學習之前,對數據集進行特徵篩選。

  由於決策樹是一個條件概率分布,所以深淺不同的決策樹對應著不同復雜度的概率模型,決策樹的生成對應模型的局部選擇,決策樹的剪枝對應著模型的全局選擇。

   熵(Entropy) 的概念最早起源於物理學,最初物理學家用這個概念度量一個熱力學系統的無序程度。在1948年, 克勞德·艾爾伍德·香農 將熱力學的熵,引入到 資訊理論 ,因此它又被稱為 香農熵 。在資訊理論中,熵是對不確定性的量度,在一條信息的熵越高則能傳輸越多的信息,反之,則意味著傳輸的信息越少。

  如果有一枚理想的硬幣,其出現正面和反面的機會相等,則拋硬幣事件的熵等於其能夠達到的最大值。我們無法知道下一個硬幣拋擲的結果是什麼,因此每一次拋硬幣都是不可預測的。因此,使用一枚正常硬幣進行若干次拋擲,這個事件的熵是一 比特 ,因為結果不外乎兩個——正面或者反面,可以表示為 0, 1 編碼,而且兩個結果彼此之間相互獨立。若進行 n 次 獨立實驗 ,則熵為 n ,因為可以用長度為 n 的比特流表示。但是如果一枚硬幣的兩面完全相同,那個這個系列拋硬幣事件的熵等於零,因為 結果能被准確預測 。現實世界裡,我們收集到的數據的熵介於上面兩種情況之間。

  另一個稍微復雜的例子是假設一個 隨機變數 X ,取三種可能值 ,概率分別為 ,那麼編碼平均比特長度是: 。其熵為 。因此<u>熵實際是對隨機變數的比特量和順次發生概率相乘再總和的</u> 數學期望 。

  依據玻爾茲曼H定理,香農把隨機變數X的熵 定義為:

  其中 是隨機變數X的信息量,當隨機變數取自有限樣本時,熵可以表示為:


  若 ,則定義 。

  同理可以定義條件熵 :

  很容易看出,條件熵(conditional entropy) 就是X給定條件下Y的條件概率分布的熵對X的數學期望。當熵和條件熵中的概率有極大似然估計得到時,所對應的熵和條件熵分別稱為檢驗熵(empirical entropy)和經驗條件熵(empirical conditional entropy).

  熵越大,隨機變數的不確定性就越大,從定義可以驗證:

  當底數 時,熵的單位是 ;當 時,熵的單位是 ;而當 時,熵的單位是 .

  如英語有26個字母,假如每個字母在文章中出現的次數平均的話,每個字母的信息量 為:


  同理常用漢字2500有個,假設每個漢字在文章中出現的次數平均的話,每個漢字的信息量 為:

  事實上每個字母和漢字在文章中出現的次數並不平均,少見字母和罕見漢字具有相對較高的信息量,顯然,由期望的定義,熵是整個消息系統的平均消息量。

  熵可以用來表示數據集的不確定性,熵越大,則數據集的不確定性越大。因此使用 劃分前後數據集熵的差值 量度使用當前特徵對於數據集進行劃分的效果(類似於深度學習的代價函數)。對於待劃分的數據集 ,其劃分前的數據集的熵 是一定的,但是劃分之後的熵 是不定的, 越小說明使用此特徵劃分得到的子集的不確定性越小(也就是純度越高)。因此 越大,說明使用當前特徵劃分數據集 時,純度上升的更快。而我們在構建最優的決策樹的時候總希望能更快速到達純度更高的數據子集,這一點可以參考優化演算法中的梯度下降演算法,每一步沿著負梯度方法最小化損失函數的原因就是負梯度方向是函數值減小最快的方向。同理:在決策樹構建的過程中我們總是希望集合往最快到達純度更高的子集合方向發展,因此我們總是選擇使得信息增益最大的特徵來劃分當前數據集 。

  顯然這種劃分方式是存在弊端的,按信息增益准則的劃分方式,當數據集的某個特徵B取值較多時,依此特徵進行劃分更容易得到純度更高的數據子集,使得 偏小,信息增益會偏大,最終導致信息增益偏向取值較多的特徵。

  設 是 個數據樣本的集合,假定類別屬性具有 個不同的值: ,設 是類 中的樣本數。對於一個給定樣本,它的信息熵為:

  其中, 是任意樣本屬於 的概率,一般可以用 估計。

  設一個屬性A具有 個不同的值 ,利用屬性A將集合 劃分為 個子集 ,其中 包含了集合 中屬性 取 值的樣本。若選擇屬性A為測試屬性,則這些子集就是從集合 的節點生長出來的新的葉節點。設 是子集 中類別為 的樣本數,則根據屬性A劃分樣本的信息熵為:

  其中 , 是子集 中類別為 的樣本的概率。最後,用屬性A劃分樣本子集 後所得的 信息增益(Gain) 為:

  即,<u>屬性A的信息增益=劃分前數據的熵-按屬性A劃分後數據子集的熵</u>。 信息增益(information gain)又稱為互信息(matual information)表示得知特徵X的信息而使得類Y的信息的不確定性減少的程度 。信息增益顯然 越小, 的值越大,說明選擇測試屬性A對於分類提供的信息越多,選擇A之後對分類的不確定程度越小。

  經典演算法 ID3 使用的信息增益特徵選擇准則會使得劃分更偏相遇取值更多的特徵,為了避免這種情況。ID3的提出者 J.Ross Quinlan 提出了 C4.5 ,它在ID3的基礎上將特徵選擇准則由 信息增益 改為了 信息增益率 。在信息增益的基礎之上乘上一個懲罰參數。特徵個數較多時,懲罰參數較小;特徵個數較少時,懲罰參數較大(類似於正則化)。這個懲罰參數就是 分裂信息度量 的倒數 。

  不同於 ID3 和 C4.5 , CART 使用基尼不純度來作為特徵選擇准則。基尼不純度也叫基尼指數 , 表示在樣本集合中一個隨機選中的樣本被分錯的概率 則<u>基尼指數(基尼不純度)= 樣本被選中的概率 * 樣本被分錯的概率</u>。Gini指數越小表示集合中被選中的樣本被分錯的概率越小,也就是說集合的純度越高,反之,集合越不純。

樣本集合的基尼指數:
樣本集合 有m個類別, 表示第 個類別的樣本數量,則 的Gini指數為:

基於某個特徵劃分樣本集合S之後的基尼指數:
  CART是一個二叉樹,也就是當使用某個特徵劃分樣本集合後,得到兩個集合:a.等於給定的特徵值的樣本集合 ;b.不等於給定特徵值的樣本集合 。實質上是對擁有多個取值的特徵的二值處理。

對於上述的每一種劃分,都可以計算出基於劃分特=某個特徵值將樣本集合劃分為兩個子集的純度:

因而對於一個具有多個取值(超過2個)的特徵,需要計算以每個取值為劃分點,對樣本集合劃分後子集的純度 ( 表示特徵 的可能取值)然後從所有的劃分可能 中找出Gini指數最小的劃分,這個劃分的劃分點,就是使用特徵 對樣本集合 進行劃分的最佳劃分點。

參考文獻

決策樹--信息增益,信息增益比,Geni指數的理解

【機器學習】深入理解--信息熵(Information Entropy)

統計學習方法 (李航)

  為了便於理解,利用以下數據集分別使用三種方法進行分類:

  在進行具體分析之前,考慮到收入是數值類型,要使用決策樹演算法,需要先對該屬性進行離散化。
  在機器學習演算法中,一些分類演算法(ID3、Apriori等)要求數據是分類屬性形式,因此在處理分類問題時經常需要將一些連續屬性變換為分類屬性。一般來說,連續屬性的離散化都是通過在數據集的值域內設定若干個離散的劃分點,將值域劃分為若干區間,然後用不同的符號或整數數值代表落在每個子區間中的數據值。所以,離散化最核心的兩個問題是:如何確定分類數以及如何將連續屬性映射到這些分類值。常用的離散化方法有 等寬法 , 等頻法 以及 一維聚類法 等。

在實際使用時往往使用Pandas的 cut() 函數實現等寬離散化:

  可以看到與手工計算的離散化結果相同,需要注意的是,<u> 等寬法對於離群點比較敏感,傾向於不均勻地把屬性值分布到各個區間,導致某些區間數據較多,某些區間數據很少,這顯然不利用決策模型的建立。 </u>

使用四個分位數作為邊界點,對區間進行劃分:

<u> 等頻率離散化雖然避免了等寬離散化的數據分布不均勻的問題,卻可能將相同的數據值分到不同的區間以滿足每個區間具有相同數量的屬性取值的要求。 </u>

使用一維聚類的離散化方法後得到數據集為:

  在本次實例中選擇使用基於聚類的離散化方法後得到的數據集進行指標計算。為了預測客戶能否償還債務,使用A(擁有房產)、B(婚姻情況)、C(年收入)等屬性來進行數據集的劃分最終構建決策樹。

單身 :

離婚 :

已婚 :

顯然,由B屬性取值'已婚'劃分得到的子數據集屬於同一個葉節點,無法再進行分類。
接下來,對由B屬性取值'單身'劃分得到的子數據集 再進行最優特徵選擇:

1)計算數據集 總的信息熵,其中4個數據中,能否償還債務為'是'數據有3,'否'數據有1,則總的信息熵:

2)對於A(擁有房產)屬性,其屬性值有'是'和'否'兩種。其中,在A為'是'的前提下,能否償還債務為'是'的有1、'否'的有0;在A為'否'的前提下,能否償還債務為'是'的有2、為'否'的有1,則A屬性的信息熵為:

3)對於B(婚姻情況)屬性,由於已被確定,在這個數據子集信息熵為0

4)對於C(年收入)屬性,其屬性值有'中等輸入'、'低收入'兩種。在C為'中等收入'的前提下,能否償還作為為'是'的有1,為'否'的有0;在C為'低收入'的前提下,能否償還作為為'是'的有2,為'否'的有1;則C屬性的信息熵為:

5)最後分別計算兩個屬性的信息增益值:


信息增益值相同,說明以兩個屬性對數據子集進行劃分後決策樹的純度上升是相同的,此時任選其一成為葉節點即可。
同理,對數據子集 進行最優特徵選擇,發現信息熵為0:
整理得到最終的決策樹:

⑺ 信息量的計算過程

如何計算信息量的多少?在日常生活中,極少發生的事件一旦發生是容易引起人們關注的,而司空見慣的事不會引起注意,也就是說,極少見的事件所帶來的信息量多。如果用統計學的術語來描述,就是出現概率小的事件信息量多。因此,事件出現得概率越小,信息量愈大。即信息量的多少是與事件發生頻繁(即概率大小)成反比。
⒈如已知事件Xi已發生,則表示Xi所含有或所提供的信息量
H(Xi) = −
例題:若估計在一次國際象棋比賽中謝軍獲得冠軍的可能性為0.1(記為事件A),而在另一次國際象棋比賽中她得到冠軍的可能性為0.9(記為事件B)。試分別計算當你得知她獲得冠軍時,從這兩個事件中獲得的信息量各為多少?
H(A)=- ≈3.32(比特)
H(B)=- ≈0.152(比特)
⒉統計信息量的計算公式為:
Xi —— 表示第i個狀態(總共有n種狀態);
P(Xi)——表示第i個狀態出現的概率;
H(X)——表示用以消除這個事物的不確定性所需要的信息量。
例題:向空中投擲硬幣,落地後有兩種可能的狀態,一個是正面朝上,另一個是反面朝上,每個狀態出現的概率為1/2。如投擲均勻的正六面體的骰子,則可能會出現的狀態有6個,每一個狀態出現的概率均為1/6。試通過計算來比較狀態的不肯定性與硬幣狀態的不肯定性的大小。
H(硬幣)= -(2×1/2)× ≈1(比特)
H(骰子)= -(1/6×6)× ≈2.6(比特)
由以上計算可以得出兩個推論:
[推論1] 當且僅當某個P(Xi)=1,其餘的都等於0時, H(X)= 0。
[推論2]當且僅當某個P(Xi)=1/n,i=1, 2,……, n時,H(X)有極大值log n。

⑻ 假設硬幣下落出現正反兩種狀態的概率都是1/2,則投擲硬幣的信息量為多少。

信息量或者熵(Entropy),又稱Shannon Entropy,定義為:∑_i -pi log_2(pi)
現在,硬幣正反的概率都是1/2,所以p1=1/2,p2=1/2,
所以,Entropy = - (1/2) log_2 (1/2) - (1/2) log_2 (1/2) = - log_2 (1/2) = 1 。

其實,你只有一個硬幣,且出現0,1的機會均等,當然是有1個bit的信息量。。。
所以,計算和直覺是一致的。。。

推廣之,如果你拋這個硬幣n次,或者同時拋n個硬幣,熵就是n。。。
如果要算,只要記住,概率是相乘的,而熵是以log_2 定義的,所以,概率相乘就變成熵相加,
n次或n個就是n個1相加。。。

⑼ 拋硬幣的概率

9次都是正面的概率:10*(0.5)^10
10次都是正面的概率:(0.5)^10

補充如何計算:
1.計算9次都是正面的概率時,可以這樣考慮:依次拋十次硬幣,其中9次拋得正面,則概率為(0.5)^9 其中一次拋得是反面 概率是0.5
而拋反面的時候可能是在第一次也可能在第n(1=<n<=10)次,根據排列組合知識可知,9次都是正面的概率為10*(0.5)^10
2.同理可得10次都是正面的概率:(0.5)^10

如果樓主還不是很清楚可以這樣想:
出現9次正面的情況有10種:
"反正正正正正正正正正"
"正反正正正正正正正正"
"正正反正正正正正正正"
"正正正反正正正正正正"
"正正正正反正正正正正"
"正正正正正反正正正正"
"正正正正正正反正正正"
"正正正正正正正反正正"
"正正正正正正正正反正"
"正正正正正正正正正反"
而每種情況的概率都是(0.5)^10
所以就是10*(0.5)^10

同樣的道理出現10次正面的情況是:
"正正正正正正正正正正"
概率為(0.5)^10

⑽ 拋硬幣的概率

那麼我們系統的分析一下:

1.關於正反面的概率
我們在一般情況下都是研究「一枚硬幣拋出結果為正反面的概率」,通過大量實驗和研究…嗯,多年後我們知道——
「一個質量均勻的正常硬幣(兩面無圖案)拋出後為正面和反面的概率相同」

所以這里必須擴充范圍:不是「正反面」,而是「實際拋出後,硬幣所處物理狀態的概率」(即正面向上,反面向上,直立)

2.硬幣的受力分析
這里主要想根據受力分析來得到硬幣可以直立的條件,顯然,這與「拋出手法」、「拋出角度」和「拋出力度」有關。那麼可以根據手法來分類討論
(太花式的我可以裝作看不懂的樣子( •̀∀•́ )

2.1直立式直落(就指頭捏著)

2.2平攤式拋出(攤在手上)

2.3平攤式彈出(就放大拇指上,然後彈起來在空中翻滾)

2.4放在頭上看它怎麼掉…

2.5雙手包著搖搖搖

2.N……

嗯…上面幾種情況有個問題,那就是「都選擇了一種屬於結果的初始狀態」,我不知道這會不會有什麼影響,望採納

閱讀全文

與拋一枚硬幣的信息量是多少相關的資料

熱點內容
市政府辦公廳信息處有什麼作用 瀏覽:178
會計信息質量控制變數有哪些 瀏覽:52
陌生人進來怎麼發信息 瀏覽:824
大窖嘉賓汽水代理有什麼弊端 瀏覽:629
美豆油為什麼沒交易 瀏覽:256
交易貓買家驗貨拒收怎麼辦 瀏覽:661
現在菏澤哪個水果批發市場還在開 瀏覽:540
去醫院取耳結石需要什麼程序 瀏覽:431
膏葯代理需要什麼手續 瀏覽:365
開個保險代理門店需要什麼 瀏覽:7
創遠儀器產品做什麼用 瀏覽:67
產品賣不出去為什麼還要漲價 瀏覽:569
什麼是創新型產品 瀏覽:882
企業管理中企業信息的種類有哪些 瀏覽:999
今年資本市場怎麼啦 瀏覽:805
四川省綿陽市區的寵物市場有哪些 瀏覽:516
數據通信有什麼好處 瀏覽:103
什麼是合同權利人的代理權 瀏覽:59
小程序怎麼製作1717 瀏覽:715
市場上有哪些三缸suv 瀏覽:439