（数据分析工具）R学习笔记一：向量运算

静妙仙人

浏览: 87305 次
性别:
来自: 北京

最近访客更多访客>>

zhangbohun

taogebx

zym_nanako

进一步海阔天空

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

R/R语言

R R语言向量运算 R入门笔记

向量和赋值

R 在已经命名的数据结构上起作用。其中，最简单的结构就是由一串有序数值构成的数值向量。

x <- c(1,2,3,4,5,6)

这是一个用函数c()完成的赋值语句。(<-是赋值符号)

注：等同于assign(“x”,c(1,2,3,4,5,6))

向量运算

基本的算术运算符就是常用的+，-，*，/和做幂运算的^。另外还包括常用的数学函数，如log,exp,sin,cos,tan,sqrt等等。

Min(x)和max(x)：分别给出向量x最小值和最大值的函数；

Range(x)函数：是一个得到长度为2的向量，即c(min(x),max(x))；

Length(x)函数：给出向量x的元素个数；

Sum(x)函数：计算向量x中元素的累加和；

Prod(x)函数：得到x向量中元素的乘积；

Mean(x)函数：计算均值，等价于sum(x)/length(x)；

Var(x)函数：计算样本方差，等价于sum((x-maen(z))^2)/(length(x)-1) ；（如果var()的参数是一个n*p的矩阵，则将该矩阵行与行之间看作是相互独立的p-变量的样本向量，从而得到一个p*p的样本协方差矩阵）；

Sort(x)函数：返回一个和x长度一样但元素以升序排列的向量；（order()和sort.list()排序功能更强大）

生成正则序列

R有一些列产生常用数列的工具。

常用的如，1:30等价于向量c(1,2,……,29,30);

注：在R表达式中，冒号优先级别最高。

函数seq() 是数列生成中最为常用的工具。它有五个参数，仅部分参数需要每次

都设定。起始的两个参数，表示一个数列的首尾。如果只是给定这两个值，则和冒号

运算符的效果完全一样了。如seq(2,10) 等价于2:10。

seq() 和其他许多R 函数的参数一样都可以用参数命名方式给定。在这情况下，

参数的顺序可以是任意的。这样，前两个参数就可以用from=value 和to=value 方式

设定；因此seq(1,30)，seq(from=1, to=30)，seq(to=30, from=1) 同1:30 完全一

样。seq() 随后的两个参数是by=value 和length=value；它们分别表示这个数列的步

长和长度。如果二者没有设定，默认值就是by=1（步长为1）。

例如：seq(-5,5,by=.2) -> s3，等价于将向量c(-5.0,-4.8,-4.6,……,4.6,4.8,5.0)赋给s3；类似的是，s4 <- seq(length=51, from=-5, by=.2)，将在s4中产生一样的向量。

第五个参数是along=vector。使用这个参数时，它必须是唯一的4，它可以创建数

列1, 2, ..., length(vector)，或者是空数列（在向量vector为空时）。

Rep()函数：可以用各种复杂的方式重复一个对象。最简单的方式：s5 <- rep(x, times=5)，这种方式先把x 的完整拷贝五次，保持x 的数列顺序，逐一放在s5 中。另一种有用的

方式是s6 <- rep(x, each=5)，这种方式把x 中的每个元素都重复五次，然后将重复五次的元素逐一放入。

逻辑向量

逻辑向量元素可以被赋予的值有TURE，FALSE，NA（“不可得到”）。前两个值可以分别简写为T 和F。

注意T 和F 仅仅默认设置为TRUE 和FALSE 的等价变量，不是系统保留字（reserved

word），因此可以被用户重写。正因为这样，你应该尽量使用属于系统保留字的TRUE和FALSE。

R 的逻辑运算符是<，<=，>，>=，以及判断是否严格相等的== 和判断不等的!=。此外，如果c1 和c2 是逻辑不等式，那么c1 & c2 是它们的交集运算(“与”)，c1 | c2 是并集运算(“或”)，!c1 是c1 的非运算。

注：在常规的算术运算中采用逻辑变量，它们会被强制转换成数值变量，FALSE 变成0 ，TRUE 变成1。

缺损值

在某些情况下，向量的元素可能有残缺。

当一个元素或者值在统计的时候“不可得到”（not available）或者“值丢失”（missing value），相关位置可能会被保留并且赋予一个特定的值NA。任何含有NA 数据的运算结果都将是NA。

函数is.na(x) 返回一个和x同等长度的向量。它的某个元素值为TRUE 当且仅当x中对应元素是NA。

数值计算会产生第二种“缺损”值，也称为非数值（Not a Number）NaN。

字符向量

函数paste() 可以有任意多的参数，并且把它们一个接一个连成字符串。

例如，labs <- paste(c("X","Y"), 1:10, sep="")

使得labs 变成一个字符向量。

c("X1", "Y2", "X3", "Y4", "X5", "Y6", "X7", "Y8", "X9", "Y10")

索引向量

逻辑向量：这种情况下，索引向量必须和被挑选元素的向量长度一致。向量中对应索引向量元素为TRUE的元素将会被选中，而那些对应FALSE的元素则被忽略，例如，y<-x[!is.na(x)]。这将创建(或重建)一个含x 中非缺省且次序不变的元素的对象y。注意，如果x含有缺省值，y 在长度上将会比x短。

(x+1)[(!is.na(x)) & x>0] -> z

将创建一个对象z 并且把向量x+1 的值赋给它，其中要求x 中对应的元素既非缺省又是正值。

正整数向量：如x[6]表示x 的第六个元素；

x[1:10]，选择x的前10个元素(我们假定length(x)长度不小于10)；

c("x","y")[rep(c(1,2,2,1), times=4)]，会产生一个长度为16，由"x", "y", "y", "x" 重复4次而构成的向量。

负数向量：这种索引向量指定被排除的元素而不是包括进来。因此，y <- x[1(1:5)] 将x除开始5个元素外的其他元素都赋给y。

字符串向量：这可能仅仅用于一个对象可以用name属性来识别它的元素。这种情况下，名字向量的子向量可以像上面第二条提到的正整数标签一样使用。

> fruit <- c(5, 10, 1, 20)

> names(fruit) <- c("orange", "banana", "apple", "peach")

> lunch <- fruit[c("apple","orange")]

分享到：

使用MySQL处理百万级以上数据时，不得不知 ... | 暗时间——用计算机知识解释时间与效率【转 ...

2013-01-28 19:55
浏览 7325
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论