数据预处理

## 5.1 数据抽样
# 5.1.2 类失衡处理方法:SMOTE
# 利用Thyroid Disease 数据来研究
# 下载数据
hyper <-read.csv('http://archive.ics.uci.edu/ml/machine-learning-databases/thyroid-disease/hypothyroid.data',
header=F)
names <- read.csv('http://archive.ics.uci.edu/ml/machine-learning-databases/thyroid-disease/hypothyroid.names',
header=F, sep='\t')[[1]]
# 对对象names删除冒号和句号
names <- gsub(pattern =":|[.]", replacement="", x = names)
# 对对象hyper的列进行重命名
colnames(hyper)<-names
colnames(hyper)
# 我们将第一列的列名从 hypothyroid, negative改成target，并将该列中的因子negative变成0，其他值变成1
colnames(hyper)[1]<-"target"
colnames(hyper)
hyper$target<-ifelse(hyper$target=="negative",0,1)
# 检查下0、1的结果
table(hyper$target)
prop.table(table(hyper$target))
# 利用SMOTE对类失衡问题进行处理
# 将变量target变成因子型
hyper$target <- as.factor(hyper$target)
# 加载DMwR包
if(!require(DMwR)) install.packages("DMwR")
# 进行类失衡处理
# perc.over=100:表示少数样本数=151+151*100%=302
# perc.under=200:表示多数样本数(新增少数样本数*200%=151*200%=302)
hyper_new <- SMOTE(target~.,hyper,perc.over = 100,perc.under = 200)
# 查看处理后变量target的0、1个数
table(hyper_new$target)
# perc.over=200:表示少数样本数=151+151*200%=453
# perc.under=300:表示多数样本数(新增少数样本数*300%=151*200%*300%=906)
hyper_new1 <- SMOTE(target~.,hyper,perc.over = 200,perc.under = 300)
# 查看处理后变量target的0、1个数
table(hyper_new1$target)

# 对活跃用户是否付费数据进行研究
# 导入数据
user <- read.csv("/home/xuelfiang/Downloads/Game_DataMining_With_R-master/data/第5章/活跃用户是否付费数据.csv",T)
# 查看变量名
colnames(user)
# 查看是否付费的类别占比(0:非付费，1:付费)
prop.table(table(user$是否付费))
# 将是否付费变量转换成因子型
user$是否付费 <- as.factor(user$是否付费)
table(user$是否付费)

library(DMwR)
# 对类失衡数据进行处理
user_new <- SMOTE(是否付费~.,data=user,perc.over=100,perc.under=200)
# 查看处理后的结果
table(user_new$是否付费)

library(ROSE)
#上采样(oversampling):即增加一些正例使得正、反例数目接近，然后再进行学习
data_balanced_over <- ovun.sample(是否付费~ ., data = user, method = "over",N = 216176)$data
table(data_balanced_over$是否付费)
#下采样(undersampling):去除一些反例使得正、反例数目接近，然后进行学习
data_balanced_under <- ovun.sample(是否付费~ ., data = user, method = "under",N = 34864)$data
table(data_balanced_under$是否付费)
#both
data_balanced_both <- ovun.sample(是否付费~ ., data = user, method = "both", p=0.5, N=20000, seed = 1)$data
table(data_balanced_both$是否付费)
# 5.1.3 数据随机抽样
# sample小例子
set.seed(1234)
# 创建对象x，有1~10组成
x <- seq(1,10);x
# 利用sample函数对x进行无放回抽样
a <- sample(x,8,replace=FALSE);a
# 利用sample函数对x进行有放回抽样
b <- sample(x,8,replace=TRUE);b
# 当size大于x的长度
(c <- sample(x,15,replace = F))
(c <- sample(x,15,replace = T))

# 利用sample对活跃用户数据进行抽样
# 导入数据
user <- read.csv("活跃用户是否付费数据.csv",T)
# 查看数据user的行数
nrow(user)
# 利用sample函数对user数据进行无放回抽样
set.seed(1234)
# 提取下标集
index <- sample(nrow(user),10000,replace=TRUE)
# 将抽样数据赋予对象user_sample
user_sample <- user[index,]
# 查看user_sample的行数
nrow(user_sample)
# 现在我们分别查看user与user_sample变量“是否付费”中0、1占比。
round(prop.table(table(user$是否付费)),3)
round(prop.table(table(user_sample$是否付费)),3)
# 以下代码实现抽样后的“是否付费”的0、1占比不变
# 计算出“是否付费”中0的占比
rate <- sum(user$是否付费==0)/nrow(user)
# 提取未付费用户的下标子集
d <- 1:nrow(user)
index1 <- sample(d[user$是否付费==0],10000*rate)
# 提取付费用户的下标子集
index2 <- sample(d[user$是否付费==1],10000*(1-rate))
# 将抽样数据赋予对象user_sample1
user_sample1 <- user[c(index1,index2),]
# 查看“是否付费”的0、1占比
round(prop.table(table(user_sample1$是否付费)),3)

# 利用createDataPartition函数对数据进行抽样
# 对iris数据进行演示
# 载入caret包，如果本地未安装就进行在线安装caret包
if(!require(caret)) install.packages("caret")
# 提取下标集
splitindex <- createDataPartition(iris$Species,times=1,p=0.1,list=FALSE)
splitindex
# 提取符合子集
sample <- iris[splitindex,]
# 查看Species变量中各类别的个数和占比
table(sample$Species);
prop.table(table(sample$Species))
# 设置list为TRUE
# 提取下标集
splitindex1 <- createDataPartition(iris$Species,times=1,p=0.1,list=TRUE)
# 查看下标集
splitindex1
# 提取子集
iris[splitindex1$Resample1,]
# 设置times=2
splitindex2 <- createDataPartition(iris$Species,times=2,p=0.1,list=TRUE)
splitindex2
# 对12万本周活跃用户的数据按照“是否付费”的比例随机抽取1万的活跃用户进行探索性分析
# 导入数据
user <- read.csv("活跃用户是否付费数据.csv",T)
# 将“是否付费”改为因子型变量
user$是否付费 <- as.factor(user$是否付费)
# 提取下标集
ind <- createDataPartition(user$是否付费,p=10000/nrow(user),
times=1,list=FALSE)
# 查看子集中0、1占比
prop.table(table(user[ind,'是否付费']))

# 利用sample函数对数据分区
# 提取训练数据集的下标
ind <- sample(nrow(user),0.7*nrow(user),replace=F)
# 构建训练集数据
traindata <- user[ind,]
# 构建测试集数据
testdata <- user[-ind,]
# 查看“是否付费”的0、1占比
prop.table(table(user$是否付费))
prop.table(table(traindata$是否付费))
prop.table(table(testdata$是否付费))
# 利用createDataPartition函数按照”是否付费“等比例对数据进行分区
library(caret)
# 将”是否付费“变量转换成因子型
user$是否付费 <- as.factor(user$是否付费)
# 构建训练数据下标集
idx <- createDataPartition(user$是否付费,p=0.7,list=FALSE)
# 构建训练数据集
train <- user[idx,]
# 构建测试数据集
test <- user[-idx,]
# 查看”是否付费“的0、1占比
prop.table(table(user$是否付费))
prop.table(table(train$是否付费))
prop.table(table(test$是否付费))

# 利用sample函数构建五折交叉验证的训练集和测试集
# zz1为所有观测值的下标
n <- nrow(user);
zz1 <- 1:n
# zz2为1:5的随机排列
set.seed(1234)
zz2 <- rep(1:5,ceiling(n/5))[1:n]
zz2 <- sample(zz2,n)
# 构建训练集及测试集
for(i in 1:5){
m <- zz1[zz2==i]
train <- user[-m,]
test <- user[m,]
# 接下来就可以利用训练集建立模型，测试集验证模型，并计算5次MSE
}

# 利用createFoldsh函数构建五折交叉验证的训练集和测试集
user$是否付费 <- as.factor(user$是否付费)
index <- createFolds(user$是否付费,k=5,list=FALSE)
prop.table(table(user[index==1,'是否付费']))
prop.table(table(user[index==2,'是否付费']))
prop.table(table(user[index==3,'是否付费']))
prop.table(table(user[index==4,'是否付费']))
prop.table(table(user[index==5,'是否付费']))

# 5.2 数据清洗
# 5.2.1 缺失值处理
# 导入玩家的玩牌游戏数据
player <- read.csv("玩家玩牌数据.csv",T,na.strings = "NA")
# 查看前六行
head(player)
# 利用is.na函数判断“玩牌局数”变量各值是否为缺失值
is.na(player$玩牌局数)
# 统计缺失值与非缺失值的个数
table(is.na(player$玩牌局数))
# sum()和mean()函数来统计缺失值的个数和占比
# 计算缺失值个数
sum(is.na(player$玩牌局数))
# 计算缺失值占比
mean(is.na(player$玩牌局数))
# 利用complete.cases函数查看完整实例
sum(complete.cases(player))

# 用md.pattern函数查看player的缺失值模式
if(!require(mice)) install.packages("mice")
md.pattern(player)

# 用aggr函数对player数据的缺失值模式进行可视化
if(!require(VIM)) install.packages("VIM")
aggr(player[,-1],prop=FALSE,numbers=TRUE)

# 删除缺失样本
player_full <- na.omit(player)
# 计算有缺失值的样本个数
sum(!complete.cases(player_full))

# 替换缺失值
iris1 <- iris[,c(1,5)]
# 将40、80、120号样本的Sepal.Length变量值设置为缺失值
iris1[c(40,80,120),1] <- NA
# 利用均值替换缺失值
iris1[c(40,80,120),1] <- round(mean(iris1$Sepal.Length,na.rm = T),1)
# 查看以前的值和现在的值
iris[c(40,80,120),1];iris1[c(40,80,120),1]
# 绘制箱线图
plot(iris$Sepal.Length~iris$Species,col=heat.colors(3))
# 利用同类均值进行赋值的方式来填补缺失值
# 将40、80、120号样本的Sepal.Length设置为缺失值
iris1[c(40,80,120),1] <- NA
iris1[40,1] <- round(mean(iris1[iris1$Species=='setosa','Sepal.Length'],
na.rm = T),1)
iris1[80,1] <- round(mean(iris1[iris1$Species=='versicolor','Sepal.Length'],
na.rm = T),1)
iris1[120,1] <- round(mean(iris1[iris1$Species=='virginica','Sepal.Length'],
na.rm = T),1)
# 查看以前的值和现在的值
iris[c(40,80,120),1];iris1[c(40,80,120),1]

# 对缺失值进行赋值
# 利用决策树对性别变量的缺失值进行赋值
# 导入玩家调研数据
questionnaire <- read.csv("问卷调研数据.csv",T)
# 查看问卷调研数据的行数和变量个数
dim(questionnaire)
# 对缺失值进行可视化展示
library(VIM)
aggr(questionnaire[,-1],prop=FALSE,numbers=TRUE)
# 把变量转换成因子型
str(questionnaire)
for(i in 2:ncol(questionnaire)){
questionnaire[,i] <- as.factor(questionnaire[,i])
}
str(questionnaire)
# 对数据进行分区
train <- na.omit(questionnaire[,c("性别","职业" ,"学历","玩家游戏情况","游戏进入","游戏偏好")])
test <- questionnaire[is.na(questionnaire$性别),c("职业" ,"学历","玩家游戏情况","游戏进入","游戏偏好")]
# 建立logit回归模型
fit <- glm(性别~.,train,family = "binomial")
# 由于拟合结果是给每个观测值一个概率值，下面以0.5作为分类界限：
result <- predict(fit,test,type = "response")<0.5
# 把预测结果转换成原先的值(1或2)
z=rep(1,nrow(test));z[!result]=2
# 在test集中增加预测的性别变量值
test_new <- cbind('性别'=z,test)
# 查看前六行数据
head(test_new)
# 利用随机森林迭代弥补缺失值的方法进行赋值
rm(list=ls())
# 导入数据
questionnaire <- read.csv("问卷调研数据.csv",T)
# 把变量转换成因子型
str(questionnaire)
for(i in 2:ncol(questionnaire)){
questionnaire[,i] <- as.factor(questionnaire[,i])
}
# 取前10000行样本进行演示
test <- questionnaire[1:10000,]
library(mice)
md.pattern(test)
# 利用missForest进行缺失值赋值
if(!require(missForest)) install.packages("missForest")
z <- missForest(test)
test.full <- z$ximp
md.pattern(test.full)

# 5.2.2 异常值判断处理
# 3σ原则
# 绘制质量控制图
set.seed(1234)
data <- rnorm(20)
plot(data,type = "l",lwd=1.5,xlab = NA,ylab = NA,
ylim = c(-4,4),xlim = c(0,23),main="质量控制图")
lines(rep(mean(data),20),lwd=1.8);text(21,mean(data),"均值线")
lines(rep(mean(data)-3*sd(data),20),lty=2,col="red",lwd=1.8)
text(21,mean(data)-3*sd(data),labels = "控制下限",col="red")
lines(rep(mean(data)+3*sd(data),20),lty=2,col="red",lwd=1.8)
text(21,mean(data)+3*sd(data),labels = "控制上限",col="red")

# P质量控制图
# 导入数据
dailydata <- read.csv("每日付费及留存数据.csv",T)
# 查看前六行
head(dailydata)
# 绘制付费率的单值-均值质量控制图
library(qcc)
attach(dailydata)
qcc(七日留存率,type="xbar.one",labels= 日期,
title="新增用户第7日留存率的单值-均值质量监控图",
xlab="date",ylab="第七日留存率")

# 通过boxplot.stat()函数识别异常值
boxplot.stats(七日留存率)
# 查找异常值的下标
idx <- which(七日留存率 %in% boxplot.stats(七日留存率)$out)
# 查看异常值的下标集
idx
# 绘制箱线图
boxplot(七日留存率,col='violet')
# 通过text函数把异常值的日期和数值在图上显示
text(1.1,boxplot.stats(七日留存率)$out,
labels=paste(dailydata[idx,'日期'],dailydata[idx,'七日留存率']),
col="darkgreen")

# 通过聚类进行异常检测
# 导入棋牌游戏玩家的样本数据
w <- read.csv("玩家玩牌数据样本.csv",T)
# 查看数据对象w的前六行
head(w)
# w各变量的量纲不是处于同一水平，接下来进行归一化处理
u <- round(apply(w[,-1],2,function(x) (x-min(x))/(max(x)-min(x))),4)
# 将u变成data.frame形式
u <- data.frame(u)
# 将用户ID赋予对象u的行号
row.names(u) <- w$用户id
# 查看u的前六行
head(u)
# 利用K-Means聚类对数据u进行分群，k选择为3
kmeans.result <- kmeans(u,3)
# 查看聚类结果
kmeans.result
# 找出距离最大的5个玩家
centers <- kmeans.result$centers[kmeans.result$cluster,]
distances <- sqrt(rowSums((u-centers)^2))
outliers <- order(distances,decreasing = T)[1:5]
# 打印出距离最大的5个玩家的行号
print(outliers)
# 打印出异常玩家的用户ID
rownames(u[outliers,])
# 对结果进行可视化展示

# 绘制135位玩家的散点图
plot(u$玩牌局数,u$正常牌局,pch=kmeans.result$cluster,
axes=F,xlab="玩牌局数",ylab="正常牌局")
axis(1,labels = F);axis(2,labels = F)
# 绘制类中心点
points(kmeans.result$centers[,c('玩牌局数','正常牌局')],pch=16,cex=1.5)
# 绘制离群点
points(u[outliers,c('玩牌局数','正常牌局')],pch="*",col=4,cex=1.5)
# 把离群点的用户ID号打印出来
text(u[outliers,c('玩牌局数','正常牌局')],
labels=rownames(u[outliers,]),
cex=1,col="black")

### 5.3 数据转换
# 产生衍生变量
# 5.3.1 导入数据
rawdata <- read.csv("数据转换数据.csv",na.strings = NA)
# 查看数据的前六行
head(rawdata)
# 将注册日期变量转换成日期格式
rawdata$registration <- as.Date(paste(substr(rawdata$registration,1,4),
substr(rawdata$registration,5,6),
substr(rawdata$registration,7,8),
sep="/"),
"%Y/%m/%d")
# 将首次付费日期转换成日期格式
rawdata$firstpaydate <- as.Date(paste(substr(rawdata$firstpaydate,1,4),
substr(rawdata$firstpaydate,5,6),
substr(rawdata$firstpaydate,7,8),
sep="/"),
"%Y/%m/%d")
# 查看数据的前六行
head(rawdata)
# 增加ispay变量：0表示非付费用户，1表示付费用户
rawdata$ispay <- ifelse(!is.na(rawdata$firstpaydate),1,0)
# 增加isnewpay变量：0表示非新增首日付费用户，1表示新增首日付费用户
rawdata$isnewpay <- ifelse(rawdata$registration==rawdata$firstpaydate,
1,0)
rawdata[is.na(rawdata$isnewpay),'isnewpay'] <- 0
# 查看数据前10行
head(rawdata)

# 5.3.2 数据分箱
# 利用cut函数对数据进行分箱
# 对days(活跃天数)进行分箱操作
rawdata$days_interval <- cut(rawdata$days,
breaks=c(0,30,60,90,Inf),
labels=c('一个月内','31~60天','61~90天','三个月以上'))
# 对lifetime(生命周期)进行分箱操作
rawdata$lifetime_interval <- cut(rawdata$lifetime,
breaks=c(0,7,21,30,90,Inf),
labels=c('小于一周','小于两周','小于一个月',
'小于三个月','三个月以上'))
# 查看前六行
head(rawdata)

# 5.3.3 数据标准化变换
#采用(x-mu)/std的标准化方法，与scale()函数效果一样
standard <- preProcess(iris)
head(predict(standard,iris))
head(scale(iris[,1:4]))
#采用(x-min(x))/(max(x)-min(x))的标准化方法
standard <- preProcess(iris, method = 'range')
head(predict(standard,iris))
fun <- function(x) (x-min(x))/(max(x)-min(x))
head(sapply(iris[,1:4],fun))

# 5.4 数据哑变量处理
# 构建customers数据集
customers<-data.frame(id=c(10,20,30,40,50),
gender=c("male","female","female","male","female"),
mood=c("happy","sad","happy","sad","happy"),
outcome=c(1,1,0,0,0))
customers
# 对因子型变量进行哑变量处理
# 创建新数据框customers.new
customers.new <- customers[,c('id','outcome')]
# 对gender变量进行哑变量处理
customers.new$gender.male <- ifelse(customers$gender=='male',1,0)
customers.new$gender.female <- ifelse(customers$gender=='female',1,0)
# 对mood变量进行哑变量处理
customers.new$mood.happy <- ifelse(customers$mood=='happy',1,0)
customers.new$mood.sad <- ifelse(customers$mood=='sad',1,0)
customers.new

# 加载caret包到内存
library(caret)
# 查看customers的数据结构
str(customers)
# 利用dummyVars函数对customers数据进行哑变量处理
dmy<-dummyVars(~.,data=customers)
# 对自身变量进行预测，并转换成data.frame格式
trsf<-data.frame(predict(dmy,newdata=customers))
# 查看转换结果
trsf
# 将outcome变量转换成因子型变量
customers$outcome <- as.factor(customers$outcome)
# 利用dummyVars函数对customers数据进行哑变量处理
dmy<-dummyVars(~.,data=customers)
# 对自身变量进行预测，并转换成data.frame格式
trsf<-data.frame(predict(dmy,newdata=customers))
# 查看转换结果
trsf
# 只对gender变量进行哑变量转换
dmy.gender <- dummyVars(~gender,data=customers)
trsf.gender <- data.frame(predict(dmy.gender,newdata=customers))
trsf.gender
# 将levelsOnly和fullRank设置为TRUE
customers<-data.frame(id=c(10,20,30,40,50),
gender=c("male","female","female","male","female"),
mood=c("happy","sad","happy","sad","happy"),
outcome=c(1,1,0,0,0))
dmy<-dummyVars(~.,data=customers,levelsOnly=TRUE,fullRank=TRUE)
trsf<-data.frame(predict(dmy,newdata=customers))
trsf

# 导入用户活跃时间段数据
load("loginhour.RData")
dim(loginhour)
# 查看列名
colnames(loginhour)
# 利用dummyVars函数loginhour数据进行哑变量处理
library(caret)
dmy<-dummyVars(~.,data=loginhour)
# 对自身变量进行预测，并转换成data.frame格式
trsf<-data.frame(predict(dmy,newdata=loginhour))
# 查看转换后的维度
dim(trsf)
# 查看转换后的列名
colnames(trsf)

搜索此博客

xuefliang

数据预处理

评论

发表评论

此博客中的热门博文

windows 命令行下查看端口占用情况的方法

Android 7.0 开启Google Now

Rstudio 使用代理

数据预处理

评论

发表评论

此博客中的热门博文

windows 命令行下 查看端口占用情况的方法

Android 7.0 开启Google Now

Rstudio 使用代理

windows 命令行下查看端口占用情况的方法