R是个很不错的Free统计软件,这几天需要做一些数据分析,因此简单的学习了一些R,R在Linux和Win下面都可运行。主页在http://www.r-project.org/
R的介绍和安装这里就不多讲了,先写写我是怎么用的吧!
一、R的数据
R的基本数据包括数值、字符和逻辑。
数据的输入:实际工作中,大量的数据实际存储在文件或者数据库中,如何导入数据和访问数据?
data < - read.table("data.dat")
这样数据就被读到importdata这个data frame里面了,数据可以是很多行和列的数据,通过edit(data)可以进行编辑。访问某一列则可以使用data$V5,这个表示访问第五列数据,其中data$V5返回的是一个向量,而data[5]也可以访问第五列,但这个返回的是一个list。一些函数的运算,他的自变量必须是向量。
要读入其他更复杂的数据,可以参考使用一些其他的包和文件。
二、数据分析
常有的统计数据分析函数:
1、算术平均: mean(x)
2、中位数(中值):median(x)
3、最大值最小值:max(x), min(x)
4、方差:var(x)
5、标准差:sd(x)
6、相关系数:cor(x,y)
7、summary:summary(x),返回x向量的最小值、第一分位数(25%)、中值、平均值、第三分位数(75%)和最大值
8、fivenum:fivenum(x),返回和summary差不多,就是少了一个中值median
9、density:density(x),返回概率密度,可以用lines绘制出来。
待补充ing
三、数据绘图
绘图对于统计来说非常重要,R的绘图统计功能也是相当强大。下面简单的记录几个简单常用的。
1、plot
plot(x, y, ...) 其中x, y都是向量,其余有用的附加参数有:
- type : 绘图点的类型
- main: 绘图的标题
- sub: 小标题
- xlim, ylim: xy轴的范围,也是个向量
- xlab, ylab: xy轴的标题
- col: 绘图点的颜色
- log=x, log=y, log=(xy): xy轴为对数坐标
- lwd: 绘图线的粗细
2、hist 绘制直方图
hist(x, ....) x 为一个向量,其余常用参数如下:
- br, break: x轴分类的间隔,是个向量,可以根据需要调整x轴
- probability: TRUE表示y轴为频率,而FALSE表示y轴为频数
3、lines
lines(x, ...) 绘制一条连接线,x为向量,常用参数如上。
三、时间函数
这里将时间函数单列出来,是因为常常会用到。利用下面几个函数可以将字符串转换为时间序列。
比如
dates < - c("02/27/92", "02/27/92", "01/14/92", "02/28/92", "02/01/92") times <- c("23:03:20", "22:29:56", "01:03:30", "18:21:03", "16:56:26") x <- paste(dates, times) dt <- strptime(x, "%m/%d/%y %H:%M:%S")
dt就是一个时间序列了。