导航:首页 > 信息系统 > 抛一枚硬币的信息量是多少

抛一枚硬币的信息量是多少

发布时间:2022-10-24 18:12:43

⑴ 抛硬币概率

最笨的方法:(条件概率)
第一次正第二次反的概率=1/2*1/2=1/4
第二次正第一次反的概率=1/4
两次都是正的概率=1/4
两次都是反的概率=1/4
两次至少一次正的概率=1/4+1/4+1/4=3/4
两次出现一正一反概率=1/4+1/4=1/2

1. 抛一硬币二次,第一次是正面,请问出现一正一反概率为多少?
第一次是正面概率=1/2
第一次是正面,出现一正一反,就是第一次正第二次反的概率=1/4,出现一正一反,不可能是第一次反第二次正,因为前提是第一次是正面!
1/4/(1/2)=1/2
又因为第一次是正面,出现一正一反,也就是第二次出现的要是反面,所以概率是1/2,因为:第二次出现是正是反概率是一样的,和第一次出现是正的没有关系。

2. 抛一硬币二次,至少有依次一次是正面,请问出现一正一反概率为多少?
两次至少一次正的概率=3/4,出现一正一反,可以是一正二反或一反二正,概率=1/2
1/2/(3/4)=2/3

3. 抛一硬币二次,其中一次是正面,请问出现另一枚为反面概率为多少?
两次至少一次正的概率=1/4+1/4+1/4=3/4,另一枚为反面,就是一正一反,概率=1/2
1/2/(3/4)=2/3
其中一次是正面,并没有说第二次一定是反面,所以就是至少一次是正面。出现另一枚为反面,所以就是一正一反,所以和第二问相同!

常常有人习惯地以为概率是1/2,认为另一枚为反面的概率和一面是正面没有关系,这是错误的!!!
经常有人问这不就是第一问吗?不是的!!!
第一问中第二次出现是正是反概率是一样的,和第一次出现是正的没有关系。而这一问中,两者是有关系的,因为:一次是正面,出现一正一反的概率要大,出现两正的概率要小!!!一次是正面,出现一正一反的概率要大,可以是一正二反,或二反一正,而出现两正就是一正二正。概率比是2:1,所以出现另一枚为反面概率为2/3。这和链接中的生小孩是类似的!!!

抛一硬币二次,其中一次是正面,请问出现一正一反概率为多少?
两次至少一次正的概率=1/4+1/4+1/4=3/4,两次出现一正一反概率=1/4+1/4=1/2
1/2/(3/4)=2/3
其中一次是正面,出现一正一反,也就是另一枚是反面,所以和第三问相同!

⑵ 人工智能通识-科普-最大熵

最大熵是什么?最大熵有什么意义?

在这篇文章中, 人工智能通识-科普-信息熵和信息量 ,我们提到了香农发明的信息熵计算公式:

并且我们计算得到了抛掷均匀硬币所得结果的信息熵是1bit,投掷均匀骰子的点数结果的信息熵是2.585bit,对于等概率随机四个数字所得结果的信息熵是2bit。

那么假设有一个用来作弊的骰子,扔出一点的概率有50%,扔出其他五个点的概率均等,都是10%。那么这个结果的信息熵是:

从这个例子我们可以看到, 均匀骰子等概率随机产生结果的信息熵最大,任何作弊之后的骰子产生的信息熵都会小于这个最大熵

再以非均匀的硬币为例,正面朝上的概率如果是0.6,而反面朝上的概率是0.4,那么它产生结果的信息熵是:

上面是我们感性的认识,当然这个规律是可以被数学证明的,即: 所有可能性为等概率的时候,结果的信息熵最大

信息熵也叫香农熵。信息论中信息量的单位是比特bit,也叫香农单位。消息所带的信息量可以消除不确定性,即消除熵。所以信息熵的单位也是比特。

比特就是正反两面二选一。

有ABC三个杯子,一枚硬币一定在某个杯子底下。假设三个杯子盖了硬币的概率是均衡的,那么,怎么解开谜题?我们只要2次判断。

如果在A下,一问即中;如果在B或C下,要问2次,平均每个杯子问(1+2+2)/3=1.66次,而这个系统只有3种均概率的可能,它输出结果的信息熵是 ,小于2,所以香农熵是确定每种情况平均所需提问的最小值。

换成6个面的骰子会怎样?是1吗?是2吗?...是5吗?平均每个点数要问的次数是:

也许你会用更好的二叉树进行提问:

这样的话,6和3只问2次,1245则要问三次,平均每个点数对应的问题是:

用二进制表示N种可能(比如0~N范围的数字),那么至少需要 个字节,因为这样每个表示的二进制数字才能将所有其他可能的数字区别开来。

比如说计算机RGB每个颜色有0~255种,也就是 ,需要8比特才能表示全部情况。

熵描述了无序性,随机性,不确定性。根据热力学第二定律,熵总是趋向增加的。因此,当我们遇到未知的情况的时候,我们应该按照最大熵的情况进行推测。

实际上,每天我们都是这样做的。

比如骰子,我们一直习惯于假设它的六个点是均等概率的,并按照这个1/6的概率去推测下一次情况。即使我告诉你这个骰子我做过特殊处理,有50%的概率会投出1点,那么大家也还是会习惯的认为剩下5个点数每种可能都是1/5,这就是用最大熵的思维来思考。

最大熵就是以知之为知之,以不知为不知。对于已知条件之外的未知情况,我们都习惯于用最大熵的均等概率进行思考

不要把鸡蛋放在一个篮子里,因为放在一个篮子里不符合最大熵原理,放在多个篮子,概率被比较平静的分散开,就能获得更大熵,更小的风险。

热力学第二定律规定在没有外来能量注入的封闭情况下,熵会趋向于增加,而不会减少。

但这不代表着熵就没有办法增加,恰恰相反,这个定理背后隐含着可以通过引入外部能量来减少系统内的熵,从而使系统变得更加有序。

地球是个大系统,太阳光源源不断的把能量输送进来,四十亿年以来逐渐诞生了生命。生命的一个热力学定义就是能够通过输入输出实现熵减的系统。

生命是宇宙熵增大潮中的一股逆流,它逆潮而动,吸收能量,努力减少自身的熵,减少周边世界的熵,让自身变得更有序,让世界变得更有序。

然而在大尺度上看,生命这种熵减系统的出现,可以更快的加速周边世界能量的释放,更快的实现了更大系统的熵增。

生命让地球系统的熵更多还是更少?

我认为是更多。不要只看到鳞次栉比的高楼大厦,更要看到我们消耗了地球储藏了几十亿年的石油、煤炭、天然气资源,甚至我们的技术已经伸向了原子层的核能。

在宇宙宏观层面,生命无法阻拦整个系统的熵增,实际上,系统内的元素和能量越是活跃,也就越是引发更快的熵增。

生命既是熵增大潮的中的逆流,也是大潮的助推者,我们人类就像是地球上生长的食腐细菌,我们发展越快,也就越快的导致地球乃至太阳系的无序熵增。

熵增是无机世界的自然法则,也是真随机事件的内在特征。但是也有两方面值得思考:

END

⑶ 概率,随机变量,随机过程

     概率 通常理解为衡量事件发生的可能性大小,但是不严谨。拿投骰子举例,投一次骰子,称作一次试验,所有可能的试验结果就称为 样本空间 , 事件 就是样本空间的子集。

     概率 是赋予事件的一个实数,通常记为P(A),即P(A)是一个函数,这个函数满足三个条件:

         (1)非负性 :P(A)>=0;

         (2)规范性 :对于必然事件来说,P(A)=1;

         (3)可列可加性 :对于两个不相容的事件来说,有 P(A并B)=P(A)+ P(B)

    概率是赋予事件的一个实数,这个定义可以说是概率的本质特征,但是没有给出概率的具体数值。

为了给出一个具体的数值,设N为试验次数,N(A)是事件A发生的次数,当N趋向于无穷大时, P(A)=N(A)/N ; 这个定义是符合概率的三条性质的。

    在解决问题时,我们还要分清楚 概率 是 经验数据得到的结果 还是 逻辑推理得到的结果 。例如:

(1)如果把一枚 偏心 的骰子投1000次,有200次出现5点,那么5点发生的概率是0.2;

这个概率结果就是一个由 经验数据 得出的结果。

(2)如果骰子是 均匀 的,由于对称性,得出5点的概率是1/6;

而这一个概率结果由 对称性和可列可加性逻辑 推出来的就是1/6。

随机变量 是赋予实验的每一个结果的一个数,记作 X(ξ) (对比一下概率的定义哦)

比如你投掷均匀色子的时候, 出现偶数你记作1,出现奇数你记作0 ,那么定义域就是{1,2,3,4,5,6},值域是{0,1},这也就说明白了随机变量。

那么P( X=0 )=0.5,P( X=1 )=0.5。

在接触了随机变量后,也有必要回顾一下 联合概率,边缘概率,独立,相关,二元积分,N维高斯的概率分布 等概念……

随机变量 是赋予实验所有可能结果的一个数 X(ξ) ,而 随机过程 x(t)是赋予每个结果ξ的一个函数 X(t,ξ) 。

所谓 过程 ,就是 引入时间t 这一个参量。用大白话来说, 随机过程是一个二元函数 ,在每一时刻,随机过程的值是一个随机变量,相当于在这个时刻时间静止了; 在每一个ξ下,随机过程是一个样本函数。

在 概率论 中 , 通常研究 一个或多个这样有限个数 的随机变量,即使在大数定律和中心极限定理中考虑了无穷多个随机变量,但也要假设随机变量之间 互相独立。随机过程 主要是研究 无穷多个互相不独立的、有一定相关关系 的随机变量。随机过程就是许多随机变量的集合,代表了某个随机系统随着某个指示向量的变化,这个指示向量常用的是 时间向量。

其中 指标集合T : 通常用的指标集合是代表时间,以实数或整数表示其元素。

以 实数 形式表示时,随机过程即为 连续随机过程 ;

以 整数 形式表示时,随机过程即为 离散随机过程 。

对比一下概率和熵, 概率 给出了在 单次事件A 发生或者不发生这种不确定性的度量,而 熵 考虑的问题不是某一个事件,而是对S的 某个分割U的任何事件Ai 发生与否的不确定性赋予测度。什么意思呢?

分割 用大白话说,就是把样本空间用刀去分,类似切西瓜,比如还是用投色子为例,你把总的样本空间{1,2,3,4,5,6}划分成{1,2,3;4,5,6}两块,这就是一个分割;当然你也可以{1,2;3,4,5,6},这是另外一种分割。

互信息 是 一个随机变量包含另外一个随机变量 的信息量。通信最后要达到目的就是能从接收端准确无误恢复出发送信号,也就是通过 接收信号来逐步消除不确定性 获得关于发送信号的信息。

信息论有多么重要,你自然明白……就目前学习到的内容来说,信息论解答了通信的两个基本问题:

(1) 临界数据压缩的值,即熵H ;第三章讲信源编码,当使用霍夫曼编码,L长度趋向无穷大时,平均码长度接近信源熵。

(2) 临界通信传输速率的值,即信道容量C ,也就是第四章信道容量的内容。

该书内容包括有: 随机变量,随机过程,排队论,马尔科夫过程,熵,编码,检测与估计,谱估计,随机游动,谱应用 等等。

概率论与数理统计 :https://www.cnblogs.com/wanghui626/p/6817359.html

大数定律: 大量样本数据的均值(样本值之和除以样本个数),近似于随机变量的期望(标准概率*样本次数)。(样本(部分)趋近于总体)

中心极限定理: 大量样本数据的均值(或者样本和\众数、极差等等,或者任意的非正态的分布都可以)的频率分布,服从正态分布(样本越大,越吻合正态分布)。

大数定律 研究的是在什么条件下,这组数据依概率收敛于他们的均值。

中心极限定理 研究的是在什么条件下,这些样本依分布收敛于正太分布。

依概率收敛就是强收敛,随机过程中成为强平稳。

依分布收敛就是弱收敛,随机过程中成为弱平稳。

概率的解释有两种观点,一种是 频率观点 ,一种是 贝叶斯观点 。

比如说,抛硬币,正面的概率是0.5。

可以解释为, 经过大量的实验后发现,抛硬币正面朝上的频率为0.5。

也可以解释为, 下一次抛硬币,正面朝上的概率为0.5。

⑷ 掷硬币n次,正面出现次数的数学期望为多少

事实上,猜硬币正反正确率并不像你认为的那样是50%,与概率相比,抛硬币的结果与心理学的关系更大。
抛硬币时存在自然偏见,这导致最初向上的一面再次向上可能性是51%。也就是说,一枚硬币是带头像的一面朝上抛出去,抛一百次会有51次贷头像的一面朝上。

好吧,以下为网友智慧:
如果抛硬币n次,则恰好k次正面的概率为: P(k)=C(n,k)*(1/2)^n,(k=0,1,2,…,n) 这里C(n,k)是从n个不同元素中取k个元素的不同取法种数,即 C(n,k)=n!/[k!*(n-k)!]。 再讲几句: 如果你指定某k次是正面,其余的n-k次是反面,则概率是(1/2)^n; 如果你问的是k次正面,其余的n-k次反面,则概率是 P(k)=C(n,k)*(1/2)^n。例如 你问:“正负正负正负正负正负出现的概率”,应该是 (1/2)^10=1/1024; 如果你问:“10次投币里,出现5次正面、5次反面的概率”,则应该是 C(10,5)*(1/2)^10=252/1024=63/256.

⑸ 天上掉下馅饼的概率怎么算

概率首先表示的意思是你对某个事件发生的信息掌握的多少,
举个经常讲的例子,你抛一枚硬币出现正面的概率一般认为是50%,那是因为我们没有掌握关于硬币旋转的足够信息,如果我们掌握了足够的信息,比如旋转的速度,停下来的时候的重心,我们就可以知道它出现正面的概率有两种0%或者100%。
回到这个问题上来,首先要问你你想在多少信息量的情况下计算这个概率,这件事的概率可以分为一下几种可能:
首先假设你站在一个空旷的空地上(不然事情会很复杂)
1,这个馅饼是从飞机上掉下来的
(1)这个概率取决于飞机上是否供应馅饼(假设完全不掌握该事件的信息
那么概率就是50%),
(2)那么这个馅饼是怎么掉下来的呢?我们知道的信息是飞机是封闭的,除非遭遇险情,比如撞到鸟劫机并且飞机失事等等,这种概率我们可以根据历史事件统计出来,大概是万分之一这个样子(可能高估了没有统计过,时间不允许)
那么我们可以得出馅饼从飞机上掉下来的概率0.5*0.0001=0.00005=0.005%
2,这个馅饼是一只鸟嘴里掉下来的
(1)一只鸟可以用嘴夹住馅饼,肯定不是麻雀,肯定是大个头的鸟,如果选全体鸟作为事件的全体,那么大个头的鸟划过天空的概率一般是多少呢?大概千分之二(为什么呢,因为数据需要去做统计,尽管我以科学的态度回答这个问题,实在是经费不够呀,你给的分好少,自己好主观印象一下)
(2)这个鸟嘴里的馅饼掉下来的概率。
(I)夹的累了掉下来了,她很可能没吃这个馅饼,所以很饿,很乏。这个可能性是50%(要么吃饱了再夹,要么没吃打算回家吃)
(II)吃饱了的情况下,就是因为其他原因导致馅饼掉落,比如见到伙伴打招呼,如此等等。这个概率怎么算呢?也就是两只认识的鸟相遇的概率。可能性很小吧,没有研究经费姑且认为是1%
那么,从鸟嘴里掉落馅饼的概率=0.2%*(50%+50%*1%)=0.0101%
3,你遇到了外星人的UFO
并且他刚好在吃馅饼
1,首先,分析一下UFO存在的概率,专家说“比较小”至于多小专家没说,激励机制不够,我还是主观一下0.01%
2,他吃馅饼吗?为什么会掉落馅饼。可以参照飞机掉馅饼概率
那么UFO掉馅饼的概率=飞机掉馅饼概率*0.01%=0.005*0.0001=0.0000005=0.00005%
4,遇到了上帝(我们是无神论者所以这种概率是0)
最后,总结一下,天上掉馅饼的概率=0.005%+0.0101%+0.00005%+0=0.01515%
这个概率还是蛮大的。
不过能不能接住,就看你的运气和你的准备情况了,“馅饼属于有准备的人!”好好学习,好好工作,迎接你的馅饼的到来吧!

⑹ 决策树(Decision Tree)

  决策树(Decision Tree)是一种基本的分类与回归方法,其模型呈树状结构,在分类问题中,表示基于特征对实例进行分类的过程。本质上,决策树模型就是一个定义在特征空间与类空间上的条件概率分布。决策树学习通常包括三个步骤: 特征选择 、 决策树的生成 和 决策树的修剪 。

  分类决策树模型是一种描述对实例进行分类的树形结构,决策树由节点(node)和有向边(directed edge)组成。节点有两种类型:内部节点(internal node)和叶节点(leaf node)。内部节点表示一个特征或属性,叶节点表示一个类。

  利用决策树进行分类,从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点;这时,每一个子节点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶节点。最后将实例分到叶节点的类中。

  决策树是给定特征条件下类的条件概率分布,这一条件概率分布定义在特征区间的一个划分(partiton)上。将特征空间划分为互不相交的单元(cell)或区域(region),并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应划分中的一个单元,决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设X为表示特征的随机变量,Y为表示类的随机变量,那么这个条件概率分布可以表示成P(Y|X)。X取值于给定划分下单元的集合,Y取值于类的集合,各叶节点(单元)上的条件概率往往偏向于某一个类,即属于某一类的概率较大,决策树分类时将该节点的实例分到条件概率大的那一类去。也就以为着决策树学习的过程其实也就是由数据集估计条件概率模型的过程,这些基于特征区间划分的类的条件概率模型由无穷多个,在进行选择时,不仅要考虑模型的拟合能力还要考虑其泛化能力。

  为了使模型兼顾模型的拟合和泛化能力,决策树学习使用正则化的极大似然函数来作为损失函数,以最小化损失函数为目标,寻找最优的模型。显然从所有可能的决策树中选取最优决策树是NP完全问题,所以在实际中通常采用启发式的方法,近似求解这一最优化问题: 通过递归的选择最优特征,根据该特征对训练数据进行划分直到使得各个子数据集有一个最好的分类,最终生成特征树 。当然,这样得到的决策树实际上是次最优(sub-optimal)的。进一步的,由于决策树的算法特性,为了防止模型过拟合,需要对已生成的决策树自下而上进行剪枝,将树变得更简单,提升模型的泛化能力。具体来说,就是去掉过于细分的叶节点,使其退回到父节点,甚至更高的节点,然后将父节点或更高的节点改为新的叶节点。如果数据集的特征较多,也可以在进行决策树学习之前,对数据集进行特征筛选。

  由于决策树是一个条件概率分布,所以深浅不同的决策树对应着不同复杂度的概率模型,决策树的生成对应模型的局部选择,决策树的剪枝对应着模型的全局选择。

   熵(Entropy) 的概念最早起源于物理学,最初物理学家用这个概念度量一个热力学系统的无序程度。在1948年, 克劳德·艾尔伍德·香农 将热力学的熵,引入到 信息论 ,因此它又被称为 香农熵 。在信息论中,熵是对不确定性的量度,在一条信息的熵越高则能传输越多的信息,反之,则意味着传输的信息越少。

  如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。因此,使用一枚正常硬币进行若干次抛掷,这个事件的熵是一 比特 ,因为结果不外乎两个——正面或者反面,可以表示为 0, 1 编码,而且两个结果彼此之间相互独立。若进行 n 次 独立实验 ,则熵为 n ,因为可以用长度为 n 的比特流表示。但是如果一枚硬币的两面完全相同,那个这个系列抛硬币事件的熵等于零,因为 结果能被准确预测 。现实世界里,我们收集到的数据的熵介于上面两种情况之间。

  另一个稍微复杂的例子是假设一个 随机变量 X ,取三种可能值 ,概率分别为 ,那么编码平均比特长度是: 。其熵为 。因此<u>熵实际是对随机变量的比特量和顺次发生概率相乘再总和的</u> 数学期望 。

  依据玻尔兹曼H定理,香农把随机变量X的熵 定义为:

  其中 是随机变量X的信息量,当随机变量取自有限样本时,熵可以表示为:


  若 ,则定义 。

  同理可以定义条件熵 :

  很容易看出,条件熵(conditional entropy) 就是X给定条件下Y的条件概率分布的熵对X的数学期望。当熵和条件熵中的概率有极大似然估计得到时,所对应的熵和条件熵分别称为检验熵(empirical entropy)和经验条件熵(empirical conditional entropy).

  熵越大,随机变量的不确定性就越大,从定义可以验证:

  当底数 时,熵的单位是 ;当 时,熵的单位是 ;而当 时,熵的单位是 .

  如英语有26个字母,假如每个字母在文章中出现的次数平均的话,每个字母的信息量 为:


  同理常用汉字2500有个,假设每个汉字在文章中出现的次数平均的话,每个汉字的信息量 为:

  事实上每个字母和汉字在文章中出现的次数并不平均,少见字母和罕见汉字具有相对较高的信息量,显然,由期望的定义,熵是整个消息系统的平均消息量。

  熵可以用来表示数据集的不确定性,熵越大,则数据集的不确定性越大。因此使用 划分前后数据集熵的差值 量度使用当前特征对于数据集进行划分的效果(类似于深度学习的代价函数)。对于待划分的数据集 ,其划分前的数据集的熵 是一定的,但是划分之后的熵 是不定的, 越小说明使用此特征划分得到的子集的不确定性越小(也就是纯度越高)。因此 越大,说明使用当前特征划分数据集 时,纯度上升的更快。而我们在构建最优的决策树的时候总希望能更快速到达纯度更高的数据子集,这一点可以参考优化算法中的梯度下降算法,每一步沿着负梯度方法最小化损失函数的原因就是负梯度方向是函数值减小最快的方向。同理:在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展,因此我们总是选择使得信息增益最大的特征来划分当前数据集 。

  显然这种划分方式是存在弊端的,按信息增益准则的划分方式,当数据集的某个特征B取值较多时,依此特征进行划分更容易得到纯度更高的数据子集,使得 偏小,信息增益会偏大,最终导致信息增益偏向取值较多的特征。

  设 是 个数据样本的集合,假定类别属性具有 个不同的值: ,设 是类 中的样本数。对于一个给定样本,它的信息熵为:

  其中, 是任意样本属于 的概率,一般可以用 估计。

  设一个属性A具有 个不同的值 ,利用属性A将集合 划分为 个子集 ,其中 包含了集合 中属性 取 值的样本。若选择属性A为测试属性,则这些子集就是从集合 的节点生长出来的新的叶节点。设 是子集 中类别为 的样本数,则根据属性A划分样本的信息熵为:

  其中 , 是子集 中类别为 的样本的概率。最后,用属性A划分样本子集 后所得的 信息增益(Gain) 为:

  即,<u>属性A的信息增益=划分前数据的熵-按属性A划分后数据子集的熵</u>。 信息增益(information gain)又称为互信息(matual information)表示得知特征X的信息而使得类Y的信息的不确定性减少的程度 。信息增益显然 越小, 的值越大,说明选择测试属性A对于分类提供的信息越多,选择A之后对分类的不确定程度越小。

  经典算法 ID3 使用的信息增益特征选择准则会使得划分更偏相遇取值更多的特征,为了避免这种情况。ID3的提出者 J.Ross Quinlan 提出了 C4.5 ,它在ID3的基础上将特征选择准则由 信息增益 改为了 信息增益率 。在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大(类似于正则化)。这个惩罚参数就是 分裂信息度量 的倒数 。

  不同于 ID3 和 C4.5 , CART 使用基尼不纯度来作为特征选择准则。基尼不纯度也叫基尼指数 , 表示在样本集合中一个随机选中的样本被分错的概率 则<u>基尼指数(基尼不纯度)= 样本被选中的概率 * 样本被分错的概率</u>。Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。

样本集合的基尼指数:
样本集合 有m个类别, 表示第 个类别的样本数量,则 的Gini指数为:

基于某个特征划分样本集合S之后的基尼指数:
  CART是一个二叉树,也就是当使用某个特征划分样本集合后,得到两个集合:a.等于给定的特征值的样本集合 ;b.不等于给定特征值的样本集合 。实质上是对拥有多个取值的特征的二值处理。

对于上述的每一种划分,都可以计算出基于划分特=某个特征值将样本集合划分为两个子集的纯度:

因而对于一个具有多个取值(超过2个)的特征,需要计算以每个取值为划分点,对样本集合划分后子集的纯度 ( 表示特征 的可能取值)然后从所有的划分可能 中找出Gini指数最小的划分,这个划分的划分点,就是使用特征 对样本集合 进行划分的最佳划分点。

参考文献

决策树--信息增益,信息增益比,Geni指数的理解

【机器学习】深入理解--信息熵(Information Entropy)

统计学习方法 (李航)

  为了便于理解,利用以下数据集分别使用三种方法进行分类:

  在进行具体分析之前,考虑到收入是数值类型,要使用决策树算法,需要先对该属性进行离散化。
  在机器学习算法中,一些分类算法(ID3、Apriori等)要求数据是分类属性形式,因此在处理分类问题时经常需要将一些连续属性变换为分类属性。一般来说,连续属性的离散化都是通过在数据集的值域内设定若干个离散的划分点,将值域划分为若干区间,然后用不同的符号或整数数值代表落在每个子区间中的数据值。所以,离散化最核心的两个问题是:如何确定分类数以及如何将连续属性映射到这些分类值。常用的离散化方法有 等宽法 , 等频法 以及 一维聚类法 等。

在实际使用时往往使用Pandas的 cut() 函数实现等宽离散化:

  可以看到与手工计算的离散化结果相同,需要注意的是,<u> 等宽法对于离群点比较敏感,倾向于不均匀地把属性值分布到各个区间,导致某些区间数据较多,某些区间数据很少,这显然不利用决策模型的建立。 </u>

使用四个分位数作为边界点,对区间进行划分:

<u> 等频率离散化虽然避免了等宽离散化的数据分布不均匀的问题,却可能将相同的数据值分到不同的区间以满足每个区间具有相同数量的属性取值的要求。 </u>

使用一维聚类的离散化方法后得到数据集为:

  在本次实例中选择使用基于聚类的离散化方法后得到的数据集进行指标计算。为了预测客户能否偿还债务,使用A(拥有房产)、B(婚姻情况)、C(年收入)等属性来进行数据集的划分最终构建决策树。

单身 :

离婚 :

已婚 :

显然,由B属性取值'已婚'划分得到的子数据集属于同一个叶节点,无法再进行分类。
接下来,对由B属性取值'单身'划分得到的子数据集 再进行最优特征选择:

1)计算数据集 总的信息熵,其中4个数据中,能否偿还债务为'是'数据有3,'否'数据有1,则总的信息熵:

2)对于A(拥有房产)属性,其属性值有'是'和'否'两种。其中,在A为'是'的前提下,能否偿还债务为'是'的有1、'否'的有0;在A为'否'的前提下,能否偿还债务为'是'的有2、为'否'的有1,则A属性的信息熵为:

3)对于B(婚姻情况)属性,由于已被确定,在这个数据子集信息熵为0

4)对于C(年收入)属性,其属性值有'中等输入'、'低收入'两种。在C为'中等收入'的前提下,能否偿还作为为'是'的有1,为'否'的有0;在C为'低收入'的前提下,能否偿还作为为'是'的有2,为'否'的有1;则C属性的信息熵为:

5)最后分别计算两个属性的信息增益值:


信息增益值相同,说明以两个属性对数据子集进行划分后决策树的纯度上升是相同的,此时任选其一成为叶节点即可。
同理,对数据子集 进行最优特征选择,发现信息熵为0:
整理得到最终的决策树:

⑺ 信息量的计算过程

如何计算信息量的多少?在日常生活中,极少发生的事件一旦发生是容易引起人们关注的,而司空见惯的事不会引起注意,也就是说,极少见的事件所带来的信息量多。如果用统计学的术语来描述,就是出现概率小的事件信息量多。因此,事件出现得概率越小,信息量愈大。即信息量的多少是与事件发生频繁(即概率大小)成反比。
⒈如已知事件Xi已发生,则表示Xi所含有或所提供的信息量
H(Xi) = −
例题:若估计在一次国际象棋比赛中谢军获得冠军的可能性为0.1(记为事件A),而在另一次国际象棋比赛中她得到冠军的可能性为0.9(记为事件B)。试分别计算当你得知她获得冠军时,从这两个事件中获得的信息量各为多少?
H(A)=- ≈3.32(比特)
H(B)=- ≈0.152(比特)
⒉统计信息量的计算公式为:
Xi —— 表示第i个状态(总共有n种状态);
P(Xi)——表示第i个状态出现的概率;
H(X)——表示用以消除这个事物的不确定性所需要的信息量。
例题:向空中投掷硬币,落地后有两种可能的状态,一个是正面朝上,另一个是反面朝上,每个状态出现的概率为1/2。如投掷均匀的正六面体的骰子,则可能会出现的状态有6个,每一个状态出现的概率均为1/6。试通过计算来比较状态的不肯定性与硬币状态的不肯定性的大小。
H(硬币)= -(2×1/2)× ≈1(比特)
H(骰子)= -(1/6×6)× ≈2.6(比特)
由以上计算可以得出两个推论:
[推论1] 当且仅当某个P(Xi)=1,其余的都等于0时, H(X)= 0。
[推论2]当且仅当某个P(Xi)=1/n,i=1, 2,……, n时,H(X)有极大值log n。

⑻ 假设硬币下落出现正反两种状态的概率都是1/2,则投掷硬币的信息量为多少。

信息量或者熵(Entropy),又称Shannon Entropy,定义为:∑_i -pi log_2(pi)
现在,硬币正反的概率都是1/2,所以p1=1/2,p2=1/2,
所以,Entropy = - (1/2) log_2 (1/2) - (1/2) log_2 (1/2) = - log_2 (1/2) = 1 。

其实,你只有一个硬币,且出现0,1的机会均等,当然是有1个bit的信息量。。。
所以,计算和直觉是一致的。。。

推广之,如果你抛这个硬币n次,或者同时抛n个硬币,熵就是n。。。
如果要算,只要记住,概率是相乘的,而熵是以log_2 定义的,所以,概率相乘就变成熵相加,
n次或n个就是n个1相加。。。

⑼ 抛硬币的概率

9次都是正面的概率:10*(0.5)^10
10次都是正面的概率:(0.5)^10

补充如何计算:
1.计算9次都是正面的概率时,可以这样考虑:依次抛十次硬币,其中9次抛得正面,则概率为(0.5)^9 其中一次抛得是反面 概率是0.5
而抛反面的时候可能是在第一次也可能在第n(1=<n<=10)次,根据排列组合知识可知,9次都是正面的概率为10*(0.5)^10
2.同理可得10次都是正面的概率:(0.5)^10

如果楼主还不是很清楚可以这样想:
出现9次正面的情况有10种:
"反正正正正正正正正正"
"正反正正正正正正正正"
"正正反正正正正正正正"
"正正正反正正正正正正"
"正正正正反正正正正正"
"正正正正正反正正正正"
"正正正正正正反正正正"
"正正正正正正正反正正"
"正正正正正正正正反正"
"正正正正正正正正正反"
而每种情况的概率都是(0.5)^10
所以就是10*(0.5)^10

同样的道理出现10次正面的情况是:
"正正正正正正正正正正"
概率为(0.5)^10

⑽ 抛硬币的概率

那么我们系统的分析一下:

1.关于正反面的概率
我们在一般情况下都是研究“一枚硬币抛出结果为正反面的概率”,通过大量实验和研究…嗯,多年后我们知道——
“一个质量均匀的正常硬币(两面无图案)抛出后为正面和反面的概率相同”

所以这里必须扩充范围:不是“正反面”,而是“实际抛出后,硬币所处物理状态的概率”(即正面向上,反面向上,直立)

2.硬币的受力分析
这里主要想根据受力分析来得到硬币可以直立的条件,显然,这与“抛出手法”、“抛出角度”和“抛出力度”有关。那么可以根据手法来分类讨论
(太花式的我可以装作看不懂的样子( •̀∀•́ )

2.1直立式直落(就指头捏着)

2.2平摊式抛出(摊在手上)

2.3平摊式弹出(就放大拇指上,然后弹起来在空中翻滚)

2.4放在头上看它怎么掉…

2.5双手包着摇摇摇

2.N……

嗯…上面几种情况有个问题,那就是“都选择了一种属于结果的初始状态”,我不知道这会不会有什么影响,望采纳

阅读全文

与抛一枚硬币的信息量是多少相关的资料

热点内容
ajax不返回数据怎么办 浏览:791
抖音小程序怎么放在视频下方 浏览:628
坏道硬盘的数据怎么导出 浏览:931
昆明西山区玩具批发市场在哪里 浏览:677
程序员发布会是什么 浏览:628
如何让小程序有黏性 浏览:981
碧水源属于哪个交易所 浏览:310
二手房交易哪些证 浏览:379
女性护理产品怎么用 浏览:338
段然技术怎么样 浏览:181
户户通电视信息弱怎么办 浏览:162
聚宝斋手游交易怎么样 浏览:768
天谕都能交易什么 浏览:433
武汉三菱文具批发市场在哪里 浏览:234
pmma产品用什么保护膜保护 浏览:137
怎么找太阳能预测数据集 浏览:770
爬虫解析数据有什么用 浏览:247
dota2代理商怎么样 浏览:106
市政府办公厅信息处有什么作用 浏览:178
会计信息质量控制变量有哪些 浏览:53