descriptr包

--- title: "descriptr包" author: "xuefliang" date: "6/14/2019" output: html_document: theme: readable highlight: haddock df_print: paged code_folding: show toc: true number_sections: true fig_width: 10.08 fig_height: 6 editor_options: chunk_output_type: console --- ```{r setup, include=FALSE} library(descriptr) knitr::opts_chunk$set(echo = TRUE,warning = FALSE,message = FALSE,comment=">") options(knitr.kable.NA = '',digits=2) ``` ## 数据展示 通过ds_screener()函数进行静态数据集展示,替代函数原系统的str()函数。 ```{r} ds_screener(mtcarz) ``` ## 统计概览 通过ds_summary_stats()函数,查看数据集中某个连续型变量的所有统计特征值。 ```{r} ds_summary_stats(mtcarz,mpg) ``` 输出分成了3个部分:Univariate Analysis(单变量分析),Quantiles(分位数),Extreme Values(极值)。 Univariate Analysis(单变量分析),包括N(个数),Missing(缺失值),Mean(均值),Median(中位数),Mode(众数),Trimmed Mean(修正均值),Skewness(偏度),Kurtosis(峰度),Variance(方差),Std Deviation(标准差),Range(范围,最大-最小),Interquartile Range(四分位数范围),Uncorrected SS(未修正平方和),Corrected SS(修正平方和), Coeff Variation(变异系数,标准差/均值),Std Error Mean(标准误差均值) Quantiles(分位数),从最小值到最小值,按顺序排列,对应的数值。 Extreme Values(极值),包括最小值前5个,最大值前5个。 ## 统计特征快速查看 通过ds_tidy_stats()函数,查看数据集中各变量的统计特征,维度比较少。 ```{r} ds_tidy_stats(mtcarz, mpg, disp, hp) ``` ## 频率表 通过ds_freq_table()函数,把数据集中某个连续型变量,进行等宽划分,形成频率表。 ```{r} # 划分成5个等宽的频率 ds_freq_table(mtcarz,mpg,5) ``` ## 分组统计 通过ds_group_summary()函数,把数据集中变量进行分组,再分别计算统计特征。 ```{r} ds_group_summary(mtcarz,cyl,mpg) ``` ## 分组分类统计 通过ds_auto_group_summary()函数,把数据集中变量进行分组,再分别两两计算统计特征。 ```{r} # 分组分类 ds_auto_group_summary(mtcarz, cyl, gear, mpg) ``` ## 测量 通过ds_measures_xxx()的几个函数,把数据集中变量,分别进行不同维度的统计特征。如果您想要查看位置,变化,对称性,百分位数和极端观测值的度量,请使用以下函数。除了ds_extreme_obs()之外,所有这些都将使用单个或多个变量。如果未指定变量,则它们将返回数据集中所有连续变量的结果。 ```{r} #数据集变化分析:范围,四分位范围,方差,标准差,变异系数,标准误差 ds_measures_variation(mtcarz) #数据集数值分析:均值,修正均值,中位数,众数 ds_measures_location(mtcarz) #数据集分位数分析:从最小值到最大值排序 ds_percentiles(mtcarz) #极值分析 ds_extreme_obs(mtcarz,mpg) ``` ## 类别变量频率表 通过ds_cross_table()函数,查看数据集中类别变量的双向表。 ```{r} ds_cross_table(mtcarz, cyl, gear) ``` ## 类别变量的双向表 通过ds_twoway_table()函数,查看数据集中类别变量的分组后的情况。 ```{r} ds_twoway_table(mtcarz, cyl, gear) ``` ## 可视化连续型数据 分别以柱状图,密度图,分箱图,散点图,对连续型数据进行可视化,从左到右的4个图。 ```{r} ds_plot_histogram(mtcarz, mpg, disp) ds_plot_density(mtcarz, mpg, disp) ds_plot_box_single(mtcarz, mpg, disp) ds_plot_scatter(mtcarz, mpg, disp) ``` ##可视化类别型数据 分别以bar图对类别型数据可视化,从左到右的4个图。 ```{r} ds_plot_bar(mtcarz,cyl, gear) ds_plot_bar_stacked(mtcarz, cyl, gear) ds_plot_bar_grouped(mtcarz, cyl, gear) ds_plot_box_group(mtcarz, cyl, gear, mpg) ``` ##可视化分布图 5种统计分布的可视化效果,改为调用vistributions包的对应函数。 ```{r} library(vistributions) #二项分布 #dist_binom_prob(10, 0.3, 4, type = 'exact') vdist_binom_prob(10, 0.3, 4, type ='exact') #卡方分布 #dist_chi_perc(0.22, 13, 'upper') vdist_chisquare_perc(0.22, 13,'upper') #F分布 #dist_f_perc(0.125, 9, 35, 'upper') vdist_f_perc(0.95, 3, 30,'lower') #正态分布 #dist_norm_perc(0.95, mean = 2, sd = 1.36, type = 'both') vdist_normal_perc(0.95, mean = 2, sd = 1.36, type = 'both') #T分布 #dist_t_prob(1.445, 7, 'interval') vdist_t_perc(probs = 0.95, df = 4, type ='lower') vdist_t_prob(0.945, 7,'upper') ```

评论

此博客中的热门博文

V2ray websocket(ws)+tls+nginx分流

Rstudio 使用代理