xuefliang

博文

janitor学习

八月 09, 2019

#devtools::install_github("sfirke/janitor") #http://sfirke.github.io/janitor/articles/janitor.html library(janitor) test_df <- as.data.frame(matrix(ncol = 6)) names(test_df) <- c("firstName", "ábc@!*", "% successful (2009)", "REPEAT VALUE", "REPEAT VALUE", "") #变量名清理 test_df %>% clean_names() #列联表 mtcars %>% tabyl(gear, cyl) %>% adorn_totals(where = c('row','col')) %>% adorn_percentages("row") %>% adorn_pct_formatting(digits = 2) %>% adorn_ns() %>% adorn_title() #获得重复值 get_dupes(mtcars, wt, cyl) #缺失行列删除 q <- data.frame(v1 = c(1, NA, 3), v2 = c(NA, NA, NA), v3 = c("a", NA, "b")) q %>% remove_empty(c("rows", "...

阅读全文

ggplot2 热图

八月 05, 2019

m3 <- read.csv("C:\\Users\\liangxuefeng\\Desktop\\heatmap2.csv",header = T,stringsAsFactors = F) m3 %<>% #因子排序 mutate(County=factor(County,levels = unique(County))) %>% mutate(IncidenceFactor=cut(Incidence, breaks = c(-1,0,0.1,0.5,1.0,5.0,10.0, max(m3$Incidence,na.rm = T)), labels = c("0","0-0.1","0.1-0.5","0.5-1.0","1.0-5.0","5.0-10.0", ">10.0"))) library(ggplot2) ggplot(m3,aes(x = factor(Year), y = County)) + geom_tile(aes(fill = Incidence),colour = "white",...

阅读全文

pause 暂停开始

七月 29, 2019

#remotes::install_github("thebioengineer/pause") set.seed(42) library(tidyverse) library(pause) df<-data.frame(x=LETTERS,y=runif(26),z=sample(letters,26,replace = TRUE)) df2<-data.frame(x=LETTERS,w=sample(c(1,2),size = 26,replace = TRUE)) df %>% mutate(vowel=LETTERS%in%c("A","E","I","O","U","Y")) %>% filter(y>.5) %//% df2 %>% filter(w==1) %>>>% left_join(by="x") %>% filter(!is.na(w)) df %>% mutate(vowel=LETTERS%in%c("A","E","I","O","U","Y")) %>% filter(y>.5) %//% filter(y>.75) %>>>% bind_rows(.x1,.x2)

阅读全文

tidymodels

七月 28, 2019

library(butcher) #在R中对流水线进行建模有时会导致拟合的模型对象占用太多内存。 # 为了充分利用您的内存，此软件包提供了五个S3泛型，您可以删除模型对象的一部分： # axe_call（）：删除调用对象。 # axe_ctrl（）：删除与训练相关的控件。 # axe_data（）：删除原始训练数据。 # axe_env（）：删除环境。 # axe_fitted（）：删除拟合值。 our_model <- function() { some_junk_in_the_environment <- runif(1e6) # we didn't know about lm(mpg ~ ., data = mtcars) } # 适合数据库内的模型。 modeldb适用于大多数数据库后端，因为它利用dplyr和dbplyr进行算法的最终SQL转换。它目前支持： # K均值聚类线性回归 library(modeldb) con <- DBI::dbConnect(RSQLite::SQLite(), path = ":memory:") RSQLite::initExtension(con) dplyr::copy_to(con, mtcars) library(dplyr) tbl(con, "mtcars") %>% select(wt, mpg, qsec) %>% linear_regression_db(wt) km <- tbl(con, "mtcars") %>% simple_kmeans_db(mpg, wt) colnames(km) dbplyr::remote_query(km) # rsample包含一组函数，可以为其分析创建不同类型的重新采样和相应的类。目标是拥有一组模块化方法，可以在不同的R包中使用： # 用于估计统计量和采样分布的传统重采样技术 # 使用保持集估计模型性能 # rsample的范围是为创建和分析数据集的重采样提供基本构建块，但不包括用于建模或计算统计数据的代码。 “使用重新采样集”小插图演示了如何使用rsample工具。 library(rsample) library(mlben...

阅读全文

ymlthis包

七月 24, 2019

#remotes::install_github("rstudio-education/ymlthis") library(ymlthis) yml() %>% yml_author(c("Yihui Xie", "Hadley Wickham"), affiliation = "RStudio") %>% yml_date(lubridate::today()) %>% yml_title("Reproducible Research in R") %>% yml_category(c("r", "reprodicibility")) %>% yml_output( pdf_document(keep_tex = TRUE,toc = TRUE, includes = includes2(after_body = "footer.tex")), bookdown::html_document2() ) %>% yml_latex_opts(biblio_style = "apa-like") yml(author = FALSE, date = FALSE) %>% yml_author("Yihui Xie") %>% yml_date("02-02-2002") %>% yml_title("R Markdown: An Introduction") %>% yml_subtitle("Introducing ymlthis") %>% yml_abstract("This paper will discuss a very important topic") %>% yml_keywords(c("r", "reproducible research")) %>% yml_subject(...

阅读全文

tidymodels包

七月 22, 2019

library(broom) fit <- lm(Sepal.Width ~ Petal.Length + Petal.Width, iris) summary(fit) #tidy（）生成一个tibble（），其中每一行都包含有关模型重要组件的信息。 #对于回归模型，这通常对应于回归系数。如果要检查模型或创建自定义可视化，这可能很有用。 tidy(fit) #glance（）返回一个恰好有一行模型自生的度量和相关统计数据的tibble。 #这对于检查模型错误指定和比较许多模型很有用。 glance(fit) #augment将数据列添加到数据集，其中包含拟合值，残差或群集分配等信息。添加到数据集的所有列都有。前缀以防止覆盖现有列。 augment(fit, data = iris) library(parsnip) #统一模型调用接口和参数 rand_forest(mtry = 12, trees = 2000) %>% set_engine("ranger", importance = 'impurity') %>% fit(y ~ ., data = dat) rand_forest(mtry = 12, trees = 2000) %>% set_engine("spark") %>% fit(y ~ ., data = dat) library(modeldb) #数据库中拟合模型 con <- DBI::dbConnect(RSQLite::SQLite(), path = ":memory:") RSQLite::initExtension(con) dplyr::copy_to(con, mtcars) tbl(con, "mtcars") %>% select(wt, mpg, qsec) %>% linear_regression_db(wt) km <- tbl(con, "mtcars") %>% simple_kmeans_db(mpg, wt) library(recipes) #用于创建和预处理可用于建模或可视化的设计矩阵的替代方...

阅读全文

modelr模型

七月 22, 2019

library(tidyverse) library(modelr) data("sim3") mod1 <- lm(y ~ x1 + x2, data = sim3) mod2 <- lm(y ~ x1 * x2, data = sim3) #分布均匀的数值网格,找出其中的唯一值,然后生成所有组合 grid <- sim3 %>% data_grid(x1, x2) %>% #两个模型同时生成预测 gather_predictions(mod1, mod2) ggplot(sim3, aes(x1, y, color = x2)) + geom_point() + geom_line(data = grid, aes(y = pred)) + facet_wrap(~ model) sim3 <- sim3 %>% gather_residuals(mod1, mod2) ggplot(sim3, aes(x1, resid, color = x2)) + geom_point() + facet_grid(model ~ x2)

阅读全文