博文

目前显示的是 五月, 2017的博文

Gedit中显示空格和换行符

1、sudo apt-get install gedit-plugins 2、打开Gedit,点击“edit”->"preferences"->"plugins"。 找到“Draw Spaces”选项,选中,并点击“preferences”,在弹出的窗口中选择“Draw new lines”和“Draw non-breaking spaces”。

MLR学习

发布于:http://rpubs.com/xuefliang/280104

缺失值处理

图片
缺失值概述 缺失数据主要有两种类型: 1.MCAR: 完全随机缺失,这是数据缺失的理想状况。 2.MNAR: 非随机缺失,在这种情况下,你可能需要去检查数据的收集过程并且试着理解数据为什么会丢失。例如,大多数人在一项调查中不回答某个问题,可能是因为问题敏感而特意回避不回答,就属于非随机缺失。 假设数据缺失的类型是 MCAR ,过多的数据丢失也是一个问题。通常,一个可靠的最大阈值是数据集总数的 5% 。如果某些特征或样本缺失的数据超过了 5% ,你可能需要忽略掉这些特征或样本。 缺失值的查看 我们可以通过 mice 包中的 md.pattern() 函数快速查看数据缺失值情况。首先让我们通过 R 中的 airquality 空气质量数据集为例,通过 Ozone 、 Solar.R 、 Wind 及时间预测温度水平。并对数据集做填充。 library (mice) data ( "airquality" ) data1 <- airquality data1[ 1 : 5 , 5 ] <- NA summary (data1) ## Ozone Solar.R Wind Temp ## Min. : 1.00 Min. : 7.0 Min. : 1.700 Min. :56.00 ## 1st Qu.: 18.00 1st Qu.:115.8 1st Qu.: 7.400 1st Qu.:72.00 ## Median : 31.50 Median :205.0 Median : 9.700 Median :79.00 ## Mean : 42.13 Mean :185.9 Mean : 9.958 Mean :77.88 ## 3rd Qu.: 63.25 3rd Qu.:258.8 3rd Qu.:11.500 3rd Qu.:85.00 ## Max. :168.00 Max. :334.0 Max. :20.700 Max. :97.00 ## NA'