descriptr包
---
title: "descriptr包"
author: "xuefliang"
date: "6/14/2019"
output:
html_document:
theme: readable
highlight: haddock
df_print: paged
code_folding: show
toc: true
number_sections: true
fig_width: 10.08
fig_height: 6
editor_options:
chunk_output_type: console
---
```{r setup, include=FALSE}
library(descriptr)
knitr::opts_chunk$set(echo = TRUE,warning = FALSE,message = FALSE,comment=">")
options(knitr.kable.NA = '',digits=2)
```
## 数据展示
通过ds_screener()函数进行静态数据集展示,替代函数原系统的str()函数。
```{r}
ds_screener(mtcarz)
```
## 统计概览
通过ds_summary_stats()函数,查看数据集中某个连续型变量的所有统计特征值。
```{r}
ds_summary_stats(mtcarz,mpg)
```
输出分成了3个部分:Univariate Analysis(单变量分析),Quantiles(分位数),Extreme Values(极值)。
Univariate Analysis(单变量分析),包括N(个数),Missing(缺失值),Mean(均值),Median(中位数),Mode(众数),Trimmed Mean(修正均值),Skewness(偏度),Kurtosis(峰度),Variance(方差),Std Deviation(标准差),Range(范围,最大-最小),Interquartile Range(四分位数范围),Uncorrected SS(未修正平方和),Corrected SS(修正平方和), Coeff Variation(变异系数,标准差/均值),Std Error Mean(标准误差均值)
Quantiles(分位数),从最小值到最小值,按顺序排列,对应的数值。
Extreme Values(极值),包括最小值前5个,最大值前5个。
## 统计特征快速查看
通过ds_tidy_stats()函数,查看数据集中各变量的统计特征,维度比较少。
```{r}
ds_tidy_stats(mtcarz, mpg, disp, hp)
```
## 频率表
通过ds_freq_table()函数,把数据集中某个连续型变量,进行等宽划分,形成频率表。
```{r}
# 划分成5个等宽的频率
ds_freq_table(mtcarz,mpg,5)
```
## 分组统计
通过ds_group_summary()函数,把数据集中变量进行分组,再分别计算统计特征。
```{r}
ds_group_summary(mtcarz,cyl,mpg)
```
## 分组分类统计
通过ds_auto_group_summary()函数,把数据集中变量进行分组,再分别两两计算统计特征。
```{r}
# 分组分类
ds_auto_group_summary(mtcarz, cyl, gear, mpg)
```
## 测量
通过ds_measures_xxx()的几个函数,把数据集中变量,分别进行不同维度的统计特征。如果您想要查看位置,变化,对称性,百分位数和极端观测值的度量,请使用以下函数。除了ds_extreme_obs()之外,所有这些都将使用单个或多个变量。如果未指定变量,则它们将返回数据集中所有连续变量的结果。
```{r}
#数据集变化分析:范围,四分位范围,方差,标准差,变异系数,标准误差
ds_measures_variation(mtcarz)
#数据集数值分析:均值,修正均值,中位数,众数
ds_measures_location(mtcarz)
#数据集分位数分析:从最小值到最大值排序
ds_percentiles(mtcarz)
#极值分析
ds_extreme_obs(mtcarz,mpg)
```
## 类别变量频率表
通过ds_cross_table()函数,查看数据集中类别变量的双向表。
```{r}
ds_cross_table(mtcarz, cyl, gear)
```
## 类别变量的双向表
通过ds_twoway_table()函数,查看数据集中类别变量的分组后的情况。
```{r}
ds_twoway_table(mtcarz, cyl, gear)
```
## 可视化连续型数据
分别以柱状图,密度图,分箱图,散点图,对连续型数据进行可视化,从左到右的4个图。
```{r}
ds_plot_histogram(mtcarz, mpg, disp)
ds_plot_density(mtcarz, mpg, disp)
ds_plot_box_single(mtcarz, mpg, disp)
ds_plot_scatter(mtcarz, mpg, disp)
```
##可视化类别型数据
分别以bar图对类别型数据可视化,从左到右的4个图。
```{r}
ds_plot_bar(mtcarz,cyl, gear)
ds_plot_bar_stacked(mtcarz, cyl, gear)
ds_plot_bar_grouped(mtcarz, cyl, gear)
ds_plot_box_group(mtcarz, cyl, gear, mpg)
```
##可视化分布图
5种统计分布的可视化效果,改为调用vistributions包的对应函数。
```{r}
library(vistributions)
#二项分布
#dist_binom_prob(10, 0.3, 4, type = 'exact')
vdist_binom_prob(10, 0.3, 4, type ='exact')
#卡方分布
#dist_chi_perc(0.22, 13, 'upper')
vdist_chisquare_perc(0.22, 13,'upper')
#F分布
#dist_f_perc(0.125, 9, 35, 'upper')
vdist_f_perc(0.95, 3, 30,'lower')
#正态分布
#dist_norm_perc(0.95, mean = 2, sd = 1.36, type = 'both')
vdist_normal_perc(0.95, mean = 2, sd = 1.36, type = 'both')
#T分布
#dist_t_prob(1.445, 7, 'interval')
vdist_t_perc(probs = 0.95, df = 4, type ='lower')
vdist_t_prob(0.945, 7,'upper')
```
评论
发表评论