① 信息的价值如何衡量,如何才能正确实现其价值
衡量信息的价值通常有两种方法:
按花费的社会必要劳动量来计算:
V=C+P,C:生产该信息所花成本,V: 信息产品的价值,P:利润。
2.按使用效果来衡量:
此方法认为信息的价值体现在决策过程中因用了该信息后所增加的收益,但应该从收益中减去获取信息所花的费用 ,得到的是净收益。
社会必要劳动时间,在卡尔·马克思的《资本论》中是指“在现有社会正常的生产条件下,在社会平均的劳动熟练程度和劳动强度下,制造某种使用价值所需要的劳动时间。”
这里所说的现有的正常的生产条件,是指现时某一生产部门大多数产品生产已经达到的技术装备水平。社会必要劳动时间等于某一时期制造某种使用价值所需要的劳动时间/当期该种使用价值总产量,社会必要劳动时间的量纲是时间单位/使用价值数量单位。
这意味着,社会产品是不断发展的物质的社会存在。社会必要劳动时间获得了抽象劳动的量的规定性,而抽象劳动本身(一定历史形态的商品生产劳动)则表达为一定的社会劳动时间的差别。这种同质基础上的量的差别,说明的是总劳动的历史生成性。
一句话,抽象劳动是抽象规定的赋予,是劳动二重性发展规定的社会显性化。
② 信息量的大小如何衡量
信息量的大小与声音强弱也无关,比如把收音机开得响些,你得到的信息也不会由此而增加。信息论的研究表明,信息量的大小与事件发生的可能性的概率有关。
信息量不能用得到消息的次数来度量,因为千万个消息可能委复着相同的内容;不能用文字的多少来度量,文字再多,全是废话,信息量并不会增大。
信息量指的是什么
信息多少的量度。1928年R.V.L.哈特莱首先提出信息定量化的初步设想,他将消息数的对数定义为信息量。若信源有m种消息,且每个消息是以相等可能产生的,则该信源的信息量可表示为I=logm。
对信息量作深入而系统研究,还是从1948年C.E.仙农的奠基性工作开始的。在来信洎头息论筿中,认为信源输出的消息是随机的。
即在未收到消息之前,是不能肯定信源到底发送什么样的消息。而通信的目的也就是要使接收者在接收到消息后,尽可能多的解除接收者对信源所存在的疑义(不定度),因此这个被解除的不定度实际上就是在通信中所要传送的信息量。
③ 怎样衡量信息量的大小呢
如果用统计学的术语来描述,就是出现概率小的事件信息量多。因此,事件出现得概率越小,信息量愈大。即信息量的多少是与事件发生频繁(即概率大小)成反比。
例题:向空中投掷硬币,落地后有两种可能的状态,一个是正面朝上,另一个是反面朝上,每个状态出现的概率为1/2。如投掷均匀的正六面体的骰子,则可能会出现的状态有6个,每一个状态出现的概率均为1/6。试通过计算来比较骰子状态的不肯定性与硬币状态的不肯定性的大小。
信息量的简介:
信息量是指信息多少的量度。1928年R.V.L.哈特莱首先提出信息定量化的初步设想,他将消息数的对数定义为信息量。若信源有m种消息,且每个消息是以相等可能产生的,则该信源的信息量可表示为I=logm。但对信息量作深入而系统研究,还是从1948年C.E.香农的奠基性工作开始的。
在信息论中,认为信源输出的消息是随机的。即在未收到消息之前,是不能肯定信源到底发送什么样的消息。而通信的目的也就是要使接收者在接收到消息后,尽可能多的解除接收者对信源所存在的疑义(不定度),因此这个被解除的不定度实际上就是在通信中所要传送的信息量。
④ 数学之美系列四:怎样度量信息
信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。 一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。 那么我们如何量化的度量信息量呢?我们来看一个例子,马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问: “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?” 假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。 这样只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。 当然,香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。(如果有朝一日有六十四个队进入决赛阶段的比赛,那么“谁世界杯冠军”的信息量就是六比特,因为我们要多猜一次。) 读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。) 有些读者此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军,因为象巴西、德国、意大利这样的球队得冠军的可能性比日本、美国、韩国等队大的多。因此,我们第一次猜测时不需要把 32 个球队等分成两个组,而可以把少数几个最可能的球队分成一组,把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程,根据夺冠概率对剩下的候选球队分组,直到找到冠军队。这样,我们也许三次或四次就猜出结果。因此,当每个球队夺冠的可能性(概率)不等时,“谁世界杯冠军”的信息量的信息量比五比特少。香农指出,它的准确信息量应该是 = -(p1*log p1 + p2 * log p2 + ...+p32 *log p32), 其中,p1,p2 ,...,p32 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy),一般用符号 H 表示,单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 X(比如得冠军的球队),它的熵定义如下: 变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。 有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(rendancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。 不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。 在下一集中, 我们将介绍信息熵在信息处理中的应用以及两个相关的概念互信息和相对熵。 对中文信息熵有兴趣的读者可以读我和王作英教授在电子学报上合写的一篇文章《语信息熵和语言模型的复杂度》
⑤ 确定信息度量尺度的原则是
信息度量尺度的原则是:
1、一个量的引进,他的出发点必须基本合理,对这个量的度量对象、意义、与内容有一个较为明确而又合理的解释。
2、一个量的引进是否有意义,最终还要看它能否解决问题,解决了什么样的问题,以及它在解决这些问题中的作用与特征。
3、理解一个量的含义,既要从它原始定义的出发点来理解,又要从它最终解决问题的意义上来理解。
4、信息量由许多不同的量组成,他们从多个角度来说明信息的度量问题。
⑥ 如何度量信息的存在 为什么信息量的大小与信息的出现概率有关
为了引出后面机器学习的一个算法——决策树,我想先讲点基础知识,那就是信息熵。
信息是一个比较抽象的概念,我们常说某句话信息量很大,或者某句话看不懂在说什么。直观上来说,信息是可以量化的。
生活中有些事情是具有不确定性的,比如说预测明天股票的涨势。假如你告诉我,明天世界杯足球赛要开始了,这两者似乎没有太大的关联,那“世界杯足球赛开始”这条信息对于股票涨势的信息量是很小的。但是,假如世界杯足球赛开始,大家都不关注股票了,那就没有人坐庄,那这条信息的信息量就变大了很多。
而有些事情本来就是具有确定性的,比如太阳从东边升起。假如你告诉我,明天太阳会从东边升起,那这句话就没有什么信息量,因为没有什么比这个更确定的事了。
那么,信息量的大小和什么有关呢?
1、可能出现的结果数量。
2、事件发生的概率。
如果一个事件只有可能,那么无论传递任何信息,都不会带来什么信息量。如果一个事件发生的概率越小,事件发生所带来的信息量就越大,反之亦然。
信息熵的定义:
假设有离散随机变量X={x1,x2,...,Xn},设pi=P{X=xi},则有:
I(xi)表示xi的自信息量,即事件xi发生所带来信息量的大小。H(x)为事件X的信息熵,即事件X={x1,x2,...xm}的平均信息量,熵是对信息量的一个期望。
有了信息熵的定义,我们可以解决现实中的许多问题。比如英语中的26个英文字母,假设每个字母出现的概率是相等的,那么其中一个字母的自信息量大小就是:
这个公式以2为底数,对应单位为bit,表示该信息的大小需要多少位二进制数可以衡量。
而对于中文来说,我们常知道的汉子大约有7000多个,假设每个字等概率出现,我们大约需要13个比特来表示一个汉字。但由于每个汉字的使用出现的频率是不一样的,有些常用的词类似“的”出现的频率很高,即使这样每个汉字的信息熵也要 8-9 个比特信息。
这也是为什么英文书翻译成中文,总是厚厚的一本。
用公式来解决具体实际问题——称小球问题。
问题:有10个小球,其中有一个小球偏重,用一个天平,需要至少用多少次天平才能把小球找出来?
这个问题大家也比较熟悉,现在我们利用信息熵公式来解决这种问题。
(1)每次使用天平,都会有三种可能性,左偏,右偏和平衡。而且这三种情况的概率是相等得,即每次使用天平可以得到log3的信息量。
(2)要从10个小球中,取出偏重的小球,每个小球都是等概率的,所以这个事件所携带的信息量是log10。
答案是我们最少需要log10/log3(约等于2.09),所以至少需要3次。
⑦ 信息的价值如何衡量如何才能正确地实现其价值
衡量信息的价值通常有两种方法:
1.按花费的社会必要劳动量来计算
V=C+P
C:生产该信息所花成本
V: 信息产品的价值
P:利润
2.按使用效果来衡量
此方法认为信息的价值体现在决策过程中因用了该信息后所增加的收益,但应该从收益中减去获取信息所花的费用 ,得到的是净收益。