导航:首页 > 数据处理 > r语言如何下载已知数据集

r语言如何下载已知数据集

发布时间：2022-12-11 16:10:40

⑴ R语言自学笔记-2内置数据集

#b站视频——R语言入门与数据分析

#内置数据集

#固定格式的数据（矩阵、数据框或一个时间序列等）

#统计建模、回归分析等试验需要找合适的数据集

#R内置数据集，存储在，通过

help(package="datasets")

#通过data函数访问这些数据集

data()

#得到新窗口前面：数据集名字后面：内容

#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等

#直接输入数据集的名字就可以直接使用这些数据集

#输出一个向量

rivers

#是北美141条河流长度

#这些数据集的名字都是内置的，一般我们在给变量命名时最好不要重复

#否则数据集在当前对话中会被置换掉

#例如

rivers<-c(1,2,3)

rivers

#不过影响不大

#再使用data函数重新加载这个数据集就可以了

data("rivers")

rivers

#一些常用内置数据集

#默认介绍页面只有名字和介绍，并没有给出数据分类

#哪些是向量、矩阵、数据框等？

#查看数据集除了直接敲数据集名字显示数据之外

#还可以使用help函数查看每个数据集具体的内容

help("mtcars")

euro

#欧元汇率，长度为11，每个元素都有命名

#输出向量的属性信息

names(euro)

#将5个数据构成一个数据框

向量

state.abb #美国50个州的双字母缩写

state.area #美国50个州的面积

state.name #美国50个州的全称

因子

state.division #美国50个州的分类，9个类别

state.region #美国50个州的地理分类

#

state<-data.frame(state.name,state.abb,state.area,state.division,state.region)

state

state.x77 #美国50个州的八个指标

state.x77

VADeaths #1940年弗吉尼亚州死亡率（每千人）

volcano #某火山区的地理信息（10米×10米的网格）

WorldPhones #8个区域在7个年份的电话总数

iris3 #3种鸢尾花形态数据

#以上矩阵→适合画热图

heatmap(volcano)

#这里只是作为一个演示，还需要对这个图进行一些调整

#更复杂的数据结构

Titanic #泰坦尼克乘员统计，是一个数组

UCBAdmissions #伯克利分校1973年院系、录取和性别的频数

crimtab #3000个男性罪犯左手中指长度和身高关系

HairEyeColor #592人头发颜色、眼睛颜色和性别的频数

occupationalStatus #英国男性父子职业联系

#类矩阵

eurodist #欧洲12个城市的距离矩阵，只有下三角部分

Harman23.cor #305个女孩八个形态指标的相关系数矩阵

Harman74.cor #145个儿童24个心理指标的相关系数矩阵

#R中内置最多的数据集——数据框

cars #1920年代汽车速度对刹车距离的影响

iris #3种鸢尾花形态数据

mtcars #32辆汽车在11个指标上的数据

rock #48块石头的形态数据

sleep #两药物的催眠效果

swiss #瑞士生育率和社会经济指标

trees #树木形态指标

USArrests #美国50个州的四个犯罪率指标

women #15名女性的身高和体重

#列表

state.center #美国50个州中心的经度和纬度

#类数据框

Orange #桔子树生长数据

#时间序列数据，和数据框类似，不同的是具有时间序列的顺序，是数据分析中非常常见的格式

#能反映出变化情况以及变化的趋势等

#因此有很多专门的方法用于时间序列的数据分析

co2 #1959-1997年每月大气co2浓度（ppm）

presidents #1945-1974年每季度美国总统支持率

uspop #1790–1970美国每十年一次的人口总数（百万为单位）

#除了内置数据集之外，许多R扩展包中也内置了很多数据集

#这些数据集作为扩展包的函数使用的案例

#加载R包之后这些数据集也同样被加载进来

#例如MASS包中的Cars93数据

#包含了27个变量，是1993年93辆汽车的型号指标

install.packages("MASS")

library("MASS")

help("Cars93")

#使用data函数在参数package中等于对应R包的名字，即可列出每个R包中包含的数据集

#ex

data(package="MASS")

#显示R中所有可用的数据集

data(package=.packages(all.available = TRUE))

#不加载R包使用其中的数据集

data(Chile,package="car")

Chile

#> data(Chile,package="car")

#Warning message:

# In data(Chile, package = "car") : data set ‘Chile’ not found

#> Chile

#Error: object 'Chile' not found

install.packages("car")

library("car")

help("Chile")

⑵ 如何用R语言中的robustrao

用R语言中的robustrao，需要使用到robust包和qcc包，先要下载好。我们使用的是robust包知道的stack.dat数据集进行分析，用R语言中的robustrao导入数据
通过断点回归（RD），还可以用R语言的robustrao命令详解、设计前提条件内生分组等显着性检验、全套标准动作

⑶ R语言之创建数据集

R语言之创建数据集
数据集通常是由数据构成的一个矩形数组，行表示观测，列表示变量。
R中有许多用于存储数据的结构，包括标量、向量、数组、数据框和列表。
在R中，对象（object）是指可以赋值给变量的任何事物，包括常量、数据结构、函数、甚至是图形。因子（factor）是名义型变量或有序型变量，在R中被特殊地存储和处理。
R中的数据结构：
1.1向量
向量是用于存储数值型、字符型或逻辑型数据的一维数组。创建向量使用函数c()，如下例所示：
数值型向量：a<-c(1,2,5,3,6,-2,4)
字符型向量：b<-c("one","two","three")
逻辑型向量：c<-c(TRUE,TRUE,TRUE,FALSE,TRUE)
注：单个向量中的数据必须拥有相同的类型或模式。
标量是只含一个元素的向量，例如f<-3、g<-"US"和h<-TRUE。它们用于保存常量。
访问向量中的元素，可在方括号中给定元素所处位置的数值，如：a[c(2,4)]用于访问向量a中的第二个和第四个元素。
1.2矩阵
矩阵是一个二维数组，只是每个元素都拥有相同的模式（数值型、字符型或逻辑型），可以通过matrix创建矩阵
一般使用格式为：
mymatrix<-matrix(vector,nrow=number_of_rows,ncol=number_of_columns,byrow=logical_value,dimnames=list(
char_vector_rownames,char_vector_colnames)) ，其中vector包含了矩阵的元素，nrow和ncol用以指定
行和列的维数，dimnames包含了可选的以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行
填充（byrow=TRUE）还是按列填充（byrow=FALSE），默认情况下按列填充。代码演示如下：
[plain] view plain
> cells<-c(1,23,56,485)
> rnames<-c("R1","R2")
> cnames<-c("c1","c2")

[plain] view plain

<pre name="code" class="html">> mymatrix<-matrix(cells ,nrow=2,ncol=2,byrow=TRUE,dimnames=list(rnames,cnames))
> mymatrix
c1 c2
R1 1 23
R2 56 485
1.3数组
数组与矩阵类似，但是维数可以大于2。数组可通过array函数创建，形式如下：
myarray<-array(vector,dimensions,dimnames)，其中vector包含了数组中的数据，dimensions是一个数值型向量，给出了各个维度下标的最大值，而dimnames是可选的、各维度名称标签的列表。代码如下:
[html] view plain

> dim<-c("A1","A2")
> dim1<-c("A1","A2")
> dim2<-c("B1","B2","B3")
> dim3<-c("C1","C2","C3","C4")
> z<-array(1:24,c(2,3,4),dimnames=list(dim1,dim2,dim3))
> z
, , C1

B1 B2 B3
A1 1 3 5
A2 2 4 6

, , C2

B1 B2 B3
A1 7 9 11
A2 8 10 12

, , C3

B1 B2 B3
A1 13 15 17
A2 14 16 18

, , C4

B1 B2 B3
A1 19 21 23
A2 20 22 24
1.4数据框
数据框中不同的列可以包含不同模式（数值型、字符型等）的数据，是R中最常处理的数据结构。数据框可以通过函数data.frame()创建：mydata<-data.frame(col1,col2,col3,...)，其中的列向量col1，col2，col3，...可为任何类型（如字符型、数值型或逻辑型）。每一列的名称可由函数names指定。代码如下：
[html] view plain

> age<-c(25,34,28,53)
> patientID<-c(1,2,3,4)
> diabetes<-c("Type1","Type2","Type1","Type1")
> status<-c("Poor","Improved","Excellent","Poor")
> patientdata<-data.frame(patientID,age,diabetes,status)
> patientdata
patientID age diabetes status
1 1 25 Type1 Poor
2 2 34 Type2 Improved
3 3 28 Type1 Excellent
4 4 53 Type1 Poor
> patientdata$age
[1] 25 34 28 53
<pre name="code" class="html">> table(patientdata$diabetes,patientdata$status)

Excellent Improved Poor
Type1 1 0 2
Type2 0 1 0
$被用来选取一个给定数据框中的某个特定变量，上面table(patientdata$diabetes,patientdata$status)生成了 diabetes和status的列联表。
函数attach()可将数据框添加到R的搜索路径中。
函数detach()将数据框从搜素路径中移除。
相对于attach。多数的R书籍更推荐使用函数with()。
1.5因子
变量可归结为名义型、有序型或连续型变量。类别（名义型）变量和有序类别（有序型）变量在R中称为因子。因子在R中非常重要，因为它决定了数据的分析方式以及如何进行视觉呈现。
函数factor（）以一个整数向量的形式存储类别值，整数的取值范围是[1...k]（其中k是名义变量中唯一值得个数），同时一个由字符串（原始值）组成的内部向量将映射到这些整数上。
名义型eg：假设有向量：diabetes<-c("Type1","Type2","Type1","Type1")
语句diabetes<-factor(diabetes)将此向量存储为（1，2，1，1）.
有序型eg: 对于给定变量status<-c("Poor","Improved","Excellent","Poor")
语句status<-factor(status,ordered=TRUE)会将向量编码为（3，2，1，3）。
1.6列表（list）
列表是R的数据类型中最为复杂的一种。列表就是一些对象的（或成分，component)的有序集合。列表允许你整合若干（可能无关）的对象到单个对象名下。例如，某个列表中可能是若干向量、矩阵、数据框，甚至是其他列表的组合。可以使用函数list（）创建列表：
mylist<-list(object1,object2,...)
注：列表成为了R中的重要数据结构。
1.列表允许以一种简单的方式组织和重新调用不相干的信息；
2.许多R函数的运行结果都是以列表的形式返回的。

⑷ 如何用R语言在数据中提取指定列数据，并且形成一个新的数据表

最简单的方法，数据框的名称，加上你要提取的列数，示例如下：

需要注意的是，如果只提取单列的话，得到的数据就变成了一个vector，而不再是dataframe的格式了。

⑸ R自带数据集rivers的第78个元素值

rivers指的是北美141条河流长度，第78个元素值为：350
R语言是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。
R作为一种统计分析软件，是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上，而且嵌入了一个非常方便实用的帮助系统，相比于其他统计分析软件，R还有以下特点：
1.R是自由软件。这意味着它是完全免费，开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件自身就带有许多模块和内嵌统计函数，安装好后可以直接实现许多常用的统计功能。
2.R是一种可编程的语言。作为一个开放的统计编程环境，语法通俗易懂，很容易学会和掌握语言的语法。而且学会之后，我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件，如SPSS、SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。
3.所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时，它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中，随着新的统计分析方法的出现，标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中，已经包含的程序包有：baseR的基础模块、mle极大似然估计模块、ts时间序列分析模块、mva多元统计分析模块、survival生存分析模块等等。
4.R具有很强的互动性。除了图形输出是在另外的窗口处，它的输入输出窗口都是在同一个窗口进行的，输入语法中如果出现错误会马上在窗口中得到提示，对以前输入过的命令有记忆功能，可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG、BMP、PNG等图片格式，还可以直接保存为PDF文件。另外，和其他编程语言和数据库之间有很好的接口。
5.如果加入R的帮助邮件列表一，每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题，可以说是全世界最大、最前沿的统计学家思维的聚集地。
R是基于S语言的一个GNU项目，所以也可以当作S语言的一种实现，通常用S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。R的使用与S-PLUS有很多类似之处，这两种语言有一定的兼容性。S-PLUS的使用手册，只要稍加修改就可作为R的使用手册。所以有人说：R，是S-PLUS的一个“克隆”。
但是请不要忘了：R是免费的（Risfree）。R语言源代码托管在github，具体地址可以看参考资料。
R语言的下载可以通过CRAN的镜像来查找。
R语言有域名为.cn的下载地址，有六个，其中两个由Datagurn，由中国科学技术大学提供的。R语言Windows版，其中由两个下载地点是Datagurn和USTC提供的。

阅读全文

与r语言如何下载已知数据集相关的资料

热点内容

产品怎么插入表格里发布：2025-02-12 12:26:23 浏览：235

个人开增值税发票要哪些信息发布：2025-02-12 12:16:44 浏览：900

交易所系统维护是多久发布：2025-02-12 12:02:59 浏览：16

个人承包市场国家有哪些规定发布：2025-02-12 12:02:22 浏览：358

传递信息怎么更清晰发布：2025-02-12 11:48:13 浏览：482

隐藏正在运行的程序是什么发布：2025-02-12 11:41:50 浏览：614

变电安装技术总结怎么写发布：2025-02-12 11:30:05 浏览：484

代理洗漱用品怎么样发布：2025-02-12 11:29:20 浏览：691

国外农产品电商平台有哪些发布：2025-02-12 11:17:11 浏览：951

白石洲到福田农批市场地铁怎么走发布：2025-02-12 11:08:13 浏览：213

一份市场数据调查多少钱发布：2025-02-12 11:03:25 浏览：598

梦幻刚买的好宝宝多久能交易发布：2025-02-12 10:40:52 浏览：539

景泰牛肉面调料怎么代理发布：2025-02-12 10:17:33 浏览：508

市场营销没用怎么办发布：2025-02-12 09:50:26 浏览：329

公司产品被仿冒怎么走法律程序发布：2025-02-12 09:40:32 浏览：517

进货时赠送产品为什么有库存单价发布：2025-02-12 09:39:10 浏览：690

信息管理属于哪个学科大类发布：2025-02-12 09:39:02 浏览：326

世界最先进的停车场技术有哪些发布：2025-02-12 09:39:00 浏览：658

交易所usdt怎么解冻发布：2025-02-12 09:31:43 浏览：946

山东工程职业技术大学校服多少钱发布：2025-02-12 09:14:21 浏览：218