[转] R 1 常用操作

来源：乌哈旅游

更换镜像站点

chooseCRANmirror()

getwd()   #查看工作目录
setwd("E:/")  #改变工作目录

安装及释放包

install.packages("packge-name") #安装包
library(packge-name)  #安装包

删除R软件运行时保存在内存中的所有对象

rm(list=ls(all=TRUE))

加载数据集data

data(data)

生成数据操作

seq(fom,to,by)        #生成一个从from到to间隔为by的序列
runif(n, min, max )       #生成n个大于min，小于max的随机数
rnorm(n, mean, sd )         #生成n个平均数为mean，标准差为sd的随机数
	#当n足够大的时候，均值与方差精度才越接近设定值
rep(x,n)                  #将x重复n遍

常用运算

基本运算
abs(x)  # 取绝对值
sqrt(x) #开方
log(1000,10)  #求对数，也可写成log10(1000),结果为2
exp(2)   # 结果为7.389056
diff(c(1,3,6,10))  # 求每两个数之间的间隔

数字精度
y<-c(3.46,4.73,22.34567)
ceiling(y)  # 向上取整
floor(y)      # 取整数部分
round(y,digit=1) # 四舍五入，保留1位小数
signif(y)   #数据小数位数统一，以最长为准
signif(y,digits=2)  #保留2位有效数字，注意不是小数位数

程序运行时间

system.time(dtrain <- fread('../input/train.tsv', showProgress = FALSE , data.table=F))

文件操作

tt<-data.frame(x=c(1,2,3),y=c(seq(4,6,1)))
tt<-cbind(tt,z=c(round(runif(3,1,100))))
cbind(tt,"x+y"=apply(tt[c("x","y")], MARGIN=1, sum))  #MARGIN=1为行处理，MARGIN=2为列处理
max(tt$z)

write.table(tt,file="e:/a.csv",col.names = T,row.names=F,sep = ",")
tt1<-read.table("e:/a.csv",sep=",",header=T,blank.lines.skip=T,skip=0,nrow=100)

其他数据源导入

1.导入CSV格式数据

tt<-read.csv("a.csv")

2.导入Excel文件

将Excel文件另存为csv文件导入

3.导入数据库文件

方法一: 安装并加载RODBC包使用odbcConnect("数据源名称",uid = "用户名",pwd="密码")连接,并使用sqlFetch( )读取表格

例:mycon <- odbcConnect("mysql",uid = "root",pwd="0") #连接mysql数据库

data <- sqlFetch(mycon, test ) # 读取test表格

方法二：安装并加载RMYSQL包,这里以MariaDB数据库为例

先安装这个数据库,然后打开其图形界面

输入密码即可登入,此时要记住主机名/IP 用户,密码,端口,为后续R连接准备,登入后,选择一个数据库,右键单击点击创建一个表,就可以创建一个表格.然后用下面代码连接此数据库,当然实际工作中数据库早已经建好,故只需输入数据正确的参数就可以连接.举例:

con_query=dbSendQuery(con,"select * from all_gzdata where fullurlid =107001")

#####R通过连接对表按条件查询，查询fullurl中带有_的并且fullurlid为107001的数据(即知识类型页面)

data=dbFetch(con_query,n=-1)

####提取查询到的数据，n=-1代表提取所有数据，n=100代表提取前100行

这时我们便已经成功导入数据到R中了。

注意：红色标注部分应该是错误的，等待实际验证；

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文