博文

janitor学习

#devtools::install_github("sfirke/janitor") #http://sfirke.github.io/janitor/articles/janitor.html library(janitor) test_df <- as.data.frame(matrix(ncol = 6)) names(test_df) <- c("firstName", "ábc@!*", "% successful (2009)",                     "REPEAT VALUE", "REPEAT VALUE", "") #变量名清理 test_df %>%   clean_names() #列联表 mtcars %>%   tabyl(gear, cyl) %>%   adorn_totals(where = c('row','col')) %>%   adorn_percentages("row") %>%   adorn_pct_formatting(digits = 2) %>%   adorn_ns() %>%   adorn_title() #获得重复值 get_dupes(mtcars, wt, cyl) #缺失行列删除 q <- data.frame(v1 = c(1, NA, 3),                 v2 = c(NA, NA, NA),                 v3 = c("a", NA, "b")) q %>%   remove_empty(c("rows", "...

ggplot2 热图

m3 <- read.csv("C:\\Users\\liangxuefeng\\Desktop\\heatmap2.csv",header = T,stringsAsFactors = F) m3 %<>% #因子排序   mutate(County=factor(County,levels = unique(County))) %>%   mutate(IncidenceFactor=cut(Incidence,                              breaks = c(-1,0,0.1,0.5,1.0,5.0,10.0,                                         max(m3$Incidence,na.rm = T)),                              labels = c("0","0-0.1","0.1-0.5","0.5-1.0","1.0-5.0","5.0-10.0",                                         ">10.0"))) library(ggplot2) ggplot(m3,aes(x = factor(Year), y = County)) +   geom_tile(aes(fill = Incidence),colour = "white",...

pause 暂停 开始

#remotes::install_github("thebioengineer/pause") set.seed(42) library(tidyverse) library(pause) df<-data.frame(x=LETTERS,y=runif(26),z=sample(letters,26,replace = TRUE)) df2<-data.frame(x=LETTERS,w=sample(c(1,2),size = 26,replace = TRUE)) df %>%   mutate(vowel=LETTERS%in%c("A","E","I","O","U","Y")) %>%   filter(y>.5) %//%   df2 %>%   filter(w==1) %>>>%   left_join(by="x") %>%   filter(!is.na(w)) df %>%   mutate(vowel=LETTERS%in%c("A","E","I","O","U","Y")) %>%   filter(y>.5) %//%   filter(y>.75) %>>>%   bind_rows(.x1,.x2)

tidymodels

library(butcher) #在R中对流水线进行建模有时会导致拟合的模型对象占用太多内存。 # 为了充分利用您的内存,此软件包提供了五个S3泛型,您可以删除模型对象的一部分: # axe_call():删除调用对象。 # axe_ctrl():删除与训练相关的控件。 # axe_data():删除原始训练数据。 # axe_env():删除环境。 # axe_fitted():删除拟合值。 our_model <- function() {   some_junk_in_the_environment <- runif(1e6) # we didn't know about   lm(mpg ~ ., data = mtcars) } # 适合数据库内的模型。 modeldb适用于大多数数据库后端,因为它利用dplyr和dbplyr进行算法的最终SQL转换。 它目前支持: # K均值聚类 线性回归 library(modeldb) con <- DBI::dbConnect(RSQLite::SQLite(), path = ":memory:") RSQLite::initExtension(con) dplyr::copy_to(con, mtcars) library(dplyr) tbl(con, "mtcars") %>%   select(wt, mpg, qsec) %>%   linear_regression_db(wt) km <- tbl(con, "mtcars") %>%   simple_kmeans_db(mpg, wt) colnames(km) dbplyr::remote_query(km) # rsample包含一组函数,可以为其分析创建不同类型的重新采样和相应的类。目标是拥有一组模块化方法,可以在不同的R包中使用: # 用于估计统计量和采样分布的传统重采样技术 # 使用保持集估计模型性能 # rsample的范围是为创建和分析数据集的重采样提供基本构建块,但不包括用于建模或计算统计数据的代码。 “使用重新采样集”小插图演示了如何使用rsample工具。 library(rsample) library(mlben...

ymlthis包

#remotes::install_github("rstudio-education/ymlthis") library(ymlthis) yml() %>%   yml_author(c("Yihui Xie", "Hadley Wickham"), affiliation = "RStudio") %>%   yml_date(lubridate::today()) %>%   yml_title("Reproducible Research in R") %>%   yml_category(c("r", "reprodicibility")) %>%   yml_output(     pdf_document(keep_tex = TRUE,toc = TRUE, includes = includes2(after_body = "footer.tex")),     bookdown::html_document2()   ) %>%   yml_latex_opts(biblio_style = "apa-like") yml(author = FALSE, date = FALSE) %>%   yml_author("Yihui Xie") %>%   yml_date("02-02-2002") %>%   yml_title("R Markdown: An Introduction") %>%   yml_subtitle("Introducing ymlthis") %>%   yml_abstract("This paper will discuss a very important topic") %>%   yml_keywords(c("r", "reproducible research")) %>%   yml_subject(...

tidymodels包

library(broom) fit <- lm(Sepal.Width ~ Petal.Length + Petal.Width, iris) summary(fit) #tidy()生成一个tibble(),其中每一行都包含有关模型重要组件的信息。 #对于回归模型,这通常对应于回归系数。 如果要检查模型或创建自定义可视化,这可能很有用。 tidy(fit) #glance()返回一个恰好有一行模型自生的度量和相关统计数据的tibble。 #这对于检查模型错误指定和比较许多模型很有用。 glance(fit) #augment将数据列添加到数据集,其中包含拟合值,残差或群集分配等信息。 添加到数据集的所有列都有。 前缀以防止覆盖现有列。 augment(fit, data = iris) library(parsnip) #统一模型调用接口和参数 rand_forest(mtry = 12, trees = 2000) %>%   set_engine("ranger", importance = 'impurity') %>%   fit(y ~ ., data = dat) rand_forest(mtry = 12, trees = 2000) %>%   set_engine("spark") %>%   fit(y ~ ., data = dat) library(modeldb) #数据库中拟合模型 con <- DBI::dbConnect(RSQLite::SQLite(), path = ":memory:") RSQLite::initExtension(con) dplyr::copy_to(con, mtcars) tbl(con, "mtcars") %>%   select(wt, mpg, qsec) %>%   linear_regression_db(wt) km <- tbl(con, "mtcars") %>%   simple_kmeans_db(mpg, wt) library(recipes) #用于创建和预处理可用于建模或可视化的设计矩阵的替代方...

modelr模型

library(tidyverse) library(modelr) data("sim3") mod1 <- lm(y ~ x1 + x2, data = sim3) mod2 <- lm(y ~ x1 * x2, data = sim3) #分布均匀的数值网格,找出其中的唯一值,然后生成所有组合 grid <- sim3 %>%   data_grid(x1, x2) %>%   #两个模型同时生成预测   gather_predictions(mod1, mod2) ggplot(sim3, aes(x1, y, color = x2)) +   geom_point() +   geom_line(data = grid, aes(y = pred)) +   facet_wrap(~ model) sim3 <- sim3 %>%   gather_residuals(mod1, mod2) ggplot(sim3, aes(x1, resid, color = x2)) +   geom_point() +   facet_grid(model ~ x2)