A. 什么是平均自信息量,平均条件自信息量以及平均互信息量
平均自信息是针对信源编码而言,而平均互信息是针对信道编码而言,定义自信息(“信息论”中的一个定义)的数学期望为信源的平均自信息量(也即“信息熵”)。平均互信息代表接收到输出符号后平均每个符号获得的关于信源符号X的信息量。
平均自信息给的是发送一个信息所代表的信息量,而平均互信息所代表的是在接收到了符号后发送端符号所代表的信息量。
(1)平均信息量和信息量有什么区别扩展阅读:
信息论中的互信息,一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只可能收到由于干扰作用引起的某种变形的y。
信宿收到y后推测信源发出x的概率,这一过程可由后验概率p(x|y)来描述。相应地,信源发出x的概率p(x)称为先验概率。我们定义x的后验概率与先验概率比值的对数为y对x的互信息量(简称互信息)
互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉熵近似。
互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。
通常用互信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。
B. 信息量的定义是什么
数据就是信息,
数据的方差显示了数据的集中程度,数据越是集中则说明数据包含的信息越准确密集,这样的话,其实就是信息量越小。
信息量就是方差。可见统计学fisher信息量。