导航:首页 > 数据处理 > r语言中如何自己创建数据集

r语言中如何自己创建数据集

发布时间：2023-09-18 02:30:16

① R语言创建向量、数据框以及数据框的操作

创建向量时，先给向量命名，如letters，名字后加“<-符号，接着写函数c（元素）”，如“letters <- c(a,b,c,2,5)”。输入"<-"的方法：同时按“alt和-”或先按"<"再按"-"。

向量只有一行，向量里元素的数据类型操作：class（向量名称[第几列]），如下：

给数据框的各列及各行命名，输入函数c（元素为数字直接输入，每个元素之间用逗号隔开，英文单词要加引号，再用逗号分开），按要求输入数据框的函数后，记得要输入数据框如resualtdata，才能在结果中把数据框的各行各列内容显示出来。

对数据框的各行和各列进的名称修改时，方法：rownames（数据框名字）<-(各列名之间要用引号，列名之间用逗号隔开)，colnames（数据框名字）<-(各行名之间要用引号，行名之间用逗号隔开)，最后再把数据框名字写上后运行。

第一种方法，class（数据框名称[,第几列]），第几行的数字是空白的；同理，确定数据框中各行的数据类型，class（数据框名称[第几行,]），第几列的数字是空白的。第二种方法，class(数据框名称$第几列的名称)，如下。

or

方法1:数据框名称 [第几行，第几列]；
方法2:数据框名称["第几行对应的名称","第几列对应的名称"]，此方法相应的行名和列名一定要加双引号，否者运行是错误的。

4行6列：矩阵名称<-matrix(1:24,nrow=4,ncol=6)
5行4列：矩阵名称<-matrix(1:20,nrow=5,ncol=4)

参考在数据框中更改各行各列命名的方法，注意的是，输入命名的函数后，运行不要从原始矩阵函数开始，不然会一直默认，应从矩阵名称开始，或者输入更改各行和各列的函数后，再输入矩阵名称，之后运行即可。

参考数据框的方法，同样也要注意在使用X["D3","E2"]方法时，一定要给具体的行和列的名称加引号。

在使用R语言时，输入的字母，符号一定是用英文版，当命令发生错误时，要仔细核对，是不是格式出现错误，显示不出结果时，输入相应的函数后，是不是没有输入数据框或矩阵。

将作业写至邮件 [email protected] ，抄送 [email protected]

② 如何用R语言在数据中提取指定列数据，并且形成一个新的数据表

最简单的方法，数据框的名称，加上你要提取的列数，示例如下：

需要注意的是，如果只提取单列的话，得到的数据就变成了一个vector，而不再是dataframe的格式了。

③ R语言自学笔记-2内置数据集

#b站视频——R语言入门与数据分析

#内置数据集

#固定格式的数据（矩阵、数据框或一个时间序列等）

#统计建模、回归分析等试验需要找合适的数据集

#R内置数据集，存储在，通过

help(package="datasets")

#通过data函数访问这些数据集

data()

#得到新窗口前面：数据集名字后面：内容

#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等

#直接输入数据集的名字就可以直接使用这些数据集

#输出一个向量

rivers

#是北美141条河流长度

#这些数据集的名字都是内置的，一般我们在给变量命名时最好不要重复

#否则数据集在当前对话中会被置换掉

#例如

rivers<-c(1,2,3)

rivers

#不过影响不大

#再使用data函数重新加载这个数据集就可以了

data("rivers")

rivers

#一些常用内置数据集

#默认介绍页面只有名字和介绍，并没有给出数据分类

#哪些是向量、矩阵、数据框等？

#查看数据集除了直接敲数据集名字显示数据之外

#还可以使用help函数查看每个数据集具体的内容

help("mtcars")

euro

#欧元汇率，长度为11，每个元素都有命名

#输出向量的属性信息

names(euro)

#将5个数据构成一个数据框

向量

state.abb #美国50个州的双字母缩写

state.area #美国50个州的面积

state.name #美国50个州的全称

因子

state.division #美国50个州的分类，9个类别

state.region #美国50个州的地理分类

#

state<-data.frame(state.name,state.abb,state.area,state.division,state.region)

state

state.x77 #美国50个州的八个指标

state.x77

VADeaths #1940年弗吉尼亚州死亡率（每千人）

volcano #某火山区的地理信息（10米×10米的网格）

WorldPhones #8个区域在7个年份的电话总数

iris3 #3种鸢尾花形态数据

#以上矩阵→适合画热图

heatmap(volcano)

#这里只是作为一个演示，还需要对这个图进行一些调整

#更复杂的数据结构

Titanic #泰坦尼克乘员统计，是一个数组

UCBAdmissions #伯克利分校1973年院系、录取和性别的频数

crimtab #3000个男性罪犯左手中指长度和身高关系

HairEyeColor #592人头发颜色、眼睛颜色和性别的频数

occupationalStatus #英国男性父子职业联系

#类矩阵

eurodist #欧洲12个城市的距离矩阵，只有下三角部分

Harman23.cor #305个女孩八个形态指标的相关系数矩阵

Harman74.cor #145个儿童24个心理指标的相关系数矩阵

#R中内置最多的数据集——数据框

cars #1920年代汽车速度对刹车距离的影响

iris #3种鸢尾花形态数据

mtcars #32辆汽车在11个指标上的数据

rock #48块石头的形态数据

sleep #两药物的催眠效果

swiss #瑞士生育率和社会经济指标

trees #树木形态指标

USArrests #美国50个州的四个犯罪率指标

women #15名女性的身高和体重

#列表

state.center #美国50个州中心的经度和纬度

#类数据框

Orange #桔子树生长数据

#时间序列数据，和数据框类似，不同的是具有时间序列的顺序，是数据分析中非常常见的格式

#能反映出变化情况以及变化的趋势等

#因此有很多专门的方法用于时间序列的数据分析

co2 #1959-1997年每月大气co2浓度（ppm）

presidents #1945-1974年每季度美国总统支持率

uspop #1790–1970美国每十年一次的人口总数（百万为单位）

#除了内置数据集之外，许多R扩展包中也内置了很多数据集

#这些数据集作为扩展包的函数使用的案例

#加载R包之后这些数据集也同样被加载进来

#例如MASS包中的Cars93数据

#包含了27个变量，是1993年93辆汽车的型号指标

install.packages("MASS")

library("MASS")

help("Cars93")

#使用data函数在参数package中等于对应R包的名字，即可列出每个R包中包含的数据集

#ex

data(package="MASS")

#显示R中所有可用的数据集

data(package=.packages(all.available = TRUE))

#不加载R包使用其中的数据集

data(Chile,package="car")

Chile

#> data(Chile,package="car")

#Warning message:

# In data(Chile, package = "car") : data set ‘Chile’ not found

#> Chile

#Error: object 'Chile' not found

install.packages("car")

library("car")

help("Chile")

④ R语言之创建数据集

R语言之创建数据集
数据集通常是由数据构成的一个矩形数组，行表示观测，列表示变量。
R中有许多用于存储数据的结构，包括标量、向量、数组、数据框和列表。
在R中，对象（object）是指可以赋值给变量的任何事物，包括常量、数据结构、函数、甚至是图形。因子（factor）是名义型变量或有序型变量，在R中被特殊地存储和处理。
R中的数据结构：
1.1向量
向量是用于存储数值型、字符型或逻辑型数据的一维数组。创建向量使用函数c()，如下例所示：
数值型向量：a<-c(1,2,5,3,6,-2,4)
字符型向量：b<-c("one","two","three")
逻辑型向量：c<-c(TRUE,TRUE,TRUE,FALSE,TRUE)
注：单个向量中的数据必须拥有相同的类型或模式。
标量是只含一个元素的向量，例如f<-3、g<-"US"和h<-TRUE。它们用于保存常量。
访问向量中的元素，可在方括号中给定元素所处位置的数值，如：a[c(2,4)]用于访问向量a中的第二个和第四个元素。
1.2矩阵
矩阵是一个二维数组，只是每个元素都拥有相同的模式（数值型、字符型或逻辑型），可以通过matrix创建矩阵
一般使用格式为：
mymatrix<-matrix(vector,nrow=number_of_rows,ncol=number_of_columns,byrow=logical_value,dimnames=list(
char_vector_rownames,char_vector_colnames)) ，其中vector包含了矩阵的元素，nrow和ncol用以指定
行和列的维数，dimnames包含了可选的以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行
填充（byrow=TRUE）还是按列填充（byrow=FALSE），默认情况下按列填充。代码演示如下：
[plain] view plain
> cells<-c(1,23,56,485)
> rnames<-c("R1","R2")
> cnames<-c("c1","c2")

[plain] view plain

<pre name="code" class="html">> mymatrix<-matrix(cells ,nrow=2,ncol=2,byrow=TRUE,dimnames=list(rnames,cnames))
> mymatrix
c1 c2
R1 1 23
R2 56 485
1.3数组
数组与矩阵类似，但是维数可以大于2。数组可通过array函数创建，形式如下：
myarray<-array(vector,dimensions,dimnames)，其中vector包含了数组中的数据，dimensions是一个数值型向量，给出了各个维度下标的最大值，而dimnames是可选的、各维度名称标签的列表。代码如下:
[html] view plain

> dim<-c("A1","A2")
> dim1<-c("A1","A2")
> dim2<-c("B1","B2","B3")
> dim3<-c("C1","C2","C3","C4")
> z<-array(1:24,c(2,3,4),dimnames=list(dim1,dim2,dim3))
> z
, , C1

B1 B2 B3
A1 1 3 5
A2 2 4 6

, , C2

B1 B2 B3
A1 7 9 11
A2 8 10 12

, , C3

B1 B2 B3
A1 13 15 17
A2 14 16 18

, , C4

B1 B2 B3
A1 19 21 23
A2 20 22 24
1.4数据框
数据框中不同的列可以包含不同模式（数值型、字符型等）的数据，是R中最常处理的数据结构。数据框可以通过函数data.frame()创建：mydata<-data.frame(col1,col2,col3,...)，其中的列向量col1，col2，col3，...可为任何类型（如字符型、数值型或逻辑型）。每一列的名称可由函数names指定。代码如下：
[html] view plain

> age<-c(25,34,28,53)
> patientID<-c(1,2,3,4)
> diabetes<-c("Type1","Type2","Type1","Type1")
> status<-c("Poor","Improved","Excellent","Poor")
> patientdata<-data.frame(patientID,age,diabetes,status)
> patientdata
patientID age diabetes status
1 1 25 Type1 Poor
2 2 34 Type2 Improved
3 3 28 Type1 Excellent
4 4 53 Type1 Poor
> patientdata$age
[1] 25 34 28 53
<pre name="code" class="html">> table(patientdata$diabetes,patientdata$status)

Excellent Improved Poor
Type1 1 0 2
Type2 0 1 0
$被用来选取一个给定数据框中的某个特定变量，上面table(patientdata$diabetes,patientdata$status)生成了 diabetes和status的列联表。
函数attach()可将数据框添加到R的搜索路径中。
函数detach()将数据框从搜素路径中移除。
相对于attach。多数的R书籍更推荐使用函数with()。
1.5因子
变量可归结为名义型、有序型或连续型变量。类别（名义型）变量和有序类别（有序型）变量在R中称为因子。因子在R中非常重要，因为它决定了数据的分析方式以及如何进行视觉呈现。
函数factor（）以一个整数向量的形式存储类别值，整数的取值范围是[1...k]（其中k是名义变量中唯一值得个数），同时一个由字符串（原始值）组成的内部向量将映射到这些整数上。
名义型eg：假设有向量：diabetes<-c("Type1","Type2","Type1","Type1")
语句diabetes<-factor(diabetes)将此向量存储为（1，2，1，1）.
有序型eg: 对于给定变量status<-c("Poor","Improved","Excellent","Poor")
语句status<-factor(status,ordered=TRUE)会将向量编码为（3，2，1，3）。
1.6列表（list）
列表是R的数据类型中最为复杂的一种。列表就是一些对象的（或成分，component)的有序集合。列表允许你整合若干（可能无关）的对象到单个对象名下。例如，某个列表中可能是若干向量、矩阵、数据框，甚至是其他列表的组合。可以使用函数list（）创建列表：
mylist<-list(object1,object2,...)
注：列表成为了R中的重要数据结构。
1.列表允许以一种简单的方式组织和重新调用不相干的信息；
2.许多R函数的运行结果都是以列表的形式返回的。

⑤ R语言里如何生成数据统计数据框

你可以利用dplyr包进行计算，假设你的数据名为：yourdata
data <- yourdata[,c("siteNO","user","check")]
library(dplyr)
by_siteNO_USER <- group_by(data,siteNO,user)
need <- summary(by_siteNO_user,
mean =mean(check),
median=median(check))

阅读全文

与r语言中如何自己创建数据集相关的资料

热点内容

xs如何加密程序发布：2025-01-30 16:21:50 浏览：198

程序员喝什么奶粉发布：2025-01-30 16:05:16 浏览：159

币市场在哪里发布：2025-01-30 15:54:12 浏览：705

海鲜市场如何调雪鱼发布：2025-01-30 15:49:53 浏览：997

华为手机从哪看应用程序多少个发布：2025-01-30 15:47:35 浏览：185

逆战游戏账号信息怎么完善发布：2025-01-30 15:42:37 浏览：870

如何做大成熟市场发布：2025-01-30 15:42:21 浏览：913

抖音直播产品id怎么看发布：2025-01-30 15:20:57 浏览：65

开拓外部市场怎么写发布：2025-01-30 15:15:09 浏览：380

北京有哪些品牌的电子产品发布：2025-01-30 14:58:52 浏览：470

什么产品开发需要报备发布：2025-01-30 14:55:40 浏览：366

免费招代理的广告怎么写发布：2025-01-30 14:48:06 浏览：890

马路边边麻辣烫全国有多少家代理发布：2025-01-30 14:44:54 浏览：884

酷派购买产品好服务的原因是什么发布：2025-01-30 14:22:23 浏览：341

电商消费大数据哪里查发布：2025-01-30 14:13:37 浏览：660

产品算什么资产发布：2025-01-30 14:11:55 浏览：838

碳交易如何理解发布：2025-01-30 14:11:41 浏览：225

孩子面对电子产品的诱惑怎么办发布：2025-01-30 13:56:47 浏览：527

哪个宠物市场是在星期天开发布：2025-01-30 13:49:35 浏览：926

程序和语言有什么区别发布：2025-01-30 13:23:24 浏览：977