Ⅰ 什么是数据集
来自网络,自由的网络全书
Data set(或dataset)是一个数据的集合,
通常以表格形式出现。每一列代表一个特定变量。
每一行都对应于某一成员的数据集的问题。
它列出的价值观为每一个变量,
如身高和体重的一个物体或价值的随机数。
每个数值被称为数据资料。对应于行数,
该数据集的数据可能包括一个或多个成员。
从历史上看,这个术语起源于大型机领域,
在那里它有一个明确界定的意义,非常接近现代的计算机档案。
这个主题是不包括在这里。
最简单的情况下,只有一个变量,
然后在数据集由一列列的数值组成,往往被描述为一个列表。
尽管名称,这样一个单数据集不是一套通常的数学意义,
因为某一个指定数值,可能会出现多次。通常的顺序并不重要,
然后这样数值的集合可能被视为多重集,而不是(顺序)列表。
值可能是数字,例如真正的数字或整数,
例如代表一个人的身高多少厘米,但也可能是象征性的数据(
即不包括数字),例如代表一个人的种族问题。更一般的说,
价值可以是任何类型描述为某种程度的测量。对于每一个变量,
通常所有的值都是同类。但是也可能是“遗漏值”,
其中需要指出的某种方式。
在统计数据集通常来自实际观测得到的抽样统计人口,
每一行对应于观测的一个组成部分,人口。
数据集可能会进一步产生算法为测试目的某些种类的软件。
一些现代统计分析软件,
如PSPP仍然存在的数据中的经典数据集的方式。