更换镜像站点
chooseCRANmirror()查看目录及更改目录
getwd() #查看工作目录
setwd("E:/") #改变工作目录
安装及释放包
install.packages("packge-name") #安装包
library(packge-name) #安装包
删除R软件运行时保存在内存中的所有对象
rm(list=ls(all=TRUE))
加载数据集data
data(data)
生成数据操作
seq(fom,to,by) #生成一个从from到to间隔为by的序列
runif(n, min, max ) #生成n个大于min,小于max的随机数
rnorm(n, mean, sd ) #生成n个平均数为mean,标准差为sd的随机数
#当n足够大的时候,均值与方差精度才越接近设定值
rep(x,n) #将x重复n遍
常用运算
基本运算
abs(x) # 取绝对值
sqrt(x) #开方
log(1000,10) #求对数,也可写成log10(1000),结果为2
exp(2) # 结果为7.389056
diff(c(1,3,6,10)) # 求每两个数之间的间隔
数字精度
y<-c(3.46,4.73,22.34567)
ceiling(y) # 向上取整
floor(y) # 取整数部分
round(y,digit=1) # 四舍五入,保留1位小数
signif(y) #数据小数位数统一,以最长为准
signif(y,digits=2) #保留2位有效数字,注意不是小数位数
程序运行时间
system.time(dtrain <- fread('../input/train.tsv', showProgress = FALSE , data.table=F))
文件操作
tt<-data.frame(x=c(1,2,3),y=c(seq(4,6,1)))
tt<-cbind(tt,z=c(round(runif(3,1,100))))
cbind(tt,"x+y"=apply(tt[c("x","y")], MARGIN=1, sum)) #MARGIN=1为行处理,MARGIN=2为列处理
max(tt$z)
write.table(tt,file="e:/a.csv",col.names = T,row.names=F,sep = ",")
tt1<-read.table("e:/a.csv",sep=",",header=T,blank.lines.skip=T,skip=0,nrow=100)
其他数据源导入
1.导入CSV格式数据
tt<-read.csv("a.csv")
2.导入Excel文件
将Excel文件另存为csv文件导入
3.导入数据库文件
方法一: 安装并加载RODBC包 使用odbcConnect("数据源名称",uid = "用户名",pwd="密码")连接,并使用sqlFetch( )读取 表格
例:mycon <- odbcConnect("mysql",uid = "root",pwd="0") #连接mysql数据库
data <- sqlFetch(mycon, test ) # 读取test表格
方法二:安装并加载RMYSQL包,这里以MariaDB数据库为例
先安装这个数据库,然后打开其图形界面
输入密码即可登入,此时要记住主机名/IP 用户,密码,端口,为后续R连接准备,登入后,选择一个数据库,右键单击点击创建一个表,就可以创建一个表格.然后用下面代码连接此数据库,当然实际工作中数据库早已经建好,故只需输入数据正确的参数就可以连接.举例:
con_query=dbSendQuery(con,"select * from all_gzdata where fullurlid =107001")
#####R通过连接对表按条件查询,查询fullurl中带有_的并且fullurlid为107001的数据(即知识类型页面)
data=dbFetch(con_query,n=-1)
####提取查询到的数据,n=-1代表提取所有数据,n=100代表提取前100行
这时我们便已经成功导入数据到R中了。
注意:红色标注部分应该是错误的,等待实际验证;
因篇幅问题不能全部显示,请点此查看更多更全内容