R 统计软件

R是个很不错的Free统计软件,这几天需要做一些数据分析,因此简单的学习了一些R,R在Linux和Win下面都可运行。主页在http://www.r-project.org/

R的介绍和安装这里就不多讲了,先写写我是怎么用的吧!

一、R的数据

R的基本数据包括数值、字符和逻辑。

数据的输入:实际工作中,大量的数据实际存储在文件或者数据库中,如何导入数据和访问数据?

data < - read.table("data.dat")

这样数据就被读到importdata这个data frame里面了,数据可以是很多行和列的数据,通过edit(data)可以进行编辑。访问某一列则可以使用data$V5,这个表示访问第五列数据,其中data$V5返回的是一个向量,而data[5]也可以访问第五列,但这个返回的是一个list。一些函数的运算,他的自变量必须是向量。

要读入其他更复杂的数据,可以参考使用一些其他的包和文件。

二、数据分析

常有的统计数据分析函数:

1、算术平均: mean(x)

2、中位数(中值):median(x)

3、最大值最小值:max(x), min(x)

4、方差:var(x)

5、标准差:sd(x)

6、相关系数:cor(x,y)

7、summary:summary(x),返回x向量的最小值、第一分位数(25%)、中值、平均值、第三分位数(75%)和最大值

8、fivenum:fivenum(x),返回和summary差不多,就是少了一个中值median

9、density:density(x),返回概率密度,可以用lines绘制出来。

待补充ing

三、数据绘图

绘图对于统计来说非常重要,R的绘图统计功能也是相当强大。下面简单的记录几个简单常用的。

1、plot

plot(x, y, ...) 其中x, y都是向量,其余有用的附加参数有:

  • type : 绘图点的类型
  • main: 绘图的标题
  • sub: 小标题
  • xlim, ylim: xy轴的范围,也是个向量
  • xlab, ylab: xy轴的标题
  • col: 绘图点的颜色
  • log=x, log=y, log=(xy): xy轴为对数坐标
  • lwd: 绘图线的粗细

2、hist 绘制直方图

hist(x, ....) x 为一个向量,其余常用参数如下:

  • br, break: x轴分类的间隔,是个向量,可以根据需要调整x轴
  • probability: TRUE表示y轴为频率,而FALSE表示y轴为频数

3、lines

lines(x, ...) 绘制一条连接线,x为向量,常用参数如上。

三、时间函数

这里将时间函数单列出来,是因为常常会用到。利用下面几个函数可以将字符串转换为时间序列。

比如

dates < - c("02/27/92", "02/27/92", "01/14/92", "02/28/92", "02/01/92")
times <- c("23:03:20", "22:29:56", "01:03:30", "18:21:03", "16:56:26")
x <- paste(dates, times)
dt <- strptime(x, "%m/%d/%y %H:%M:%S")

dt就是一个时间序列了。