Ⅰ 什麼是數據集
來自網路,自由的網路全書
Data set(或dataset)是一個數據的集合,
通常以表格形式出現。每一列代表一個特定變數。
每一行都對應於某一成員的數據集的問題。
它列出的價值觀為每一個變數,
如身高和體重的一個物體或價值的隨機數。
每個數值被稱為數據資料。對應於行數,
該數據集的數據可能包括一個或多個成員。
從歷史上看,這個術語起源於大型機領域,
在那裡它有一個明確界定的意義,非常接近現代的計算機檔案。
這個主題是不包括在這里。
最簡單的情況下,只有一個變數,
然後在數據集由一列列的數值組成,往往被描述為一個列表。
盡管名稱,這樣一個單數據集不是一套通常的數學意義,
因為某一個指定數值,可能會出現多次。通常的順序並不重要,
然後這樣數值的集合可能被視為多重集,而不是(順序)列表。
值可能是數字,例如真正的數字或整數,
例如代表一個人的身高多少厘米,但也可能是象徵性的數據(
即不包括數字),例如代表一個人的種族問題。更一般的說,
價值可以是任何類型描述為某種程度的測量。對於每一個變數,
通常所有的值都是同類。但是也可能是「遺漏值」,
其中需要指出的某種方式。
在統計數據集通常來自實際觀測得到的抽樣統計人口,
每一行對應於觀測的一個組成部分,人口。
數據集可能會進一步產生演算法為測試目的某些種類的軟體。
一些現代統計分析軟體,
如PSPP仍然存在的數據中的經典數據集的方式。