【R】broom
2020年12月31日
1. はじめに
broom
は、tibble型のモデルについての情報を要約してくれるパッケージです。tidymodels
にも含まれています。
以下の3つの関数があります。
・tidy()
:モデルの構造についての情報を要約します。
・glance()
:モデル全体についての情報の要約です。
・augment()
:観測変数に対するデータセット全体の情報。
2. インストール
CRANからインストールします。
install.packages("broom")
3. 使ってみる
library(broom) library(tidyverse) data(diamonds) fit <- lm(price ~ carat + cut + depth, diamonds) tidy(fit)
> tidy(fit)
# A tibble: 7 x 5
term estimate std.error statistic p.value
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) 435. 302. 1.44 1.50e- 1
2 carat 7873. 14.0 564. 0.
3 cut.L 1148. 27.5 41.7 0.
4 cut.Q -472. 23.8 -19.9 1.95e-87
5 cut.C 366. 20.2 18.1 3.05e-73
6 cut^4 87.6 16.3 5.38 7.38e- 8
7 depth -50.4 4.85 -10.4 2.60e-25
glance(fit)
> glance(fit)
# A tibble: 1 x 12
r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC deviance
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 0.857 0.857 1510. 53766. 0 6 -4.71e5 9.43e5 9.43e5 1.23e11
# ... with 2 more variables: df.residual <int>, nobs <int>
augment(fit, data = diamonds)
> glance(fit)
# A tibble: 1 x 12
r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC deviance
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 0.857 0.857 1510. 53766. 0 6 -4.71e5 9.43e5 9.43e5 1.23e11
# ... with 2 more variables: df.residual <int>, nobs <int>
> augment(fit, data = diamonds)
# A tibble: 53,940 x 16
carat cut color clarity depth table price x y z .fitted .resid
<dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43 -255. 581.
2 0.21 Prem~ E SI1 59.8 61 326 3.89 3.84 2.31 -711. 1037.
3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31 -671. 998.
4 0.290 Prem~ I VS2 62.4 58 334 4.2 4.23 2.63 -212. 546.
5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75 -363. 698.
6 0.24 Very~ J VVS2 62.8 57 336 3.94 3.96 2.48 -527. 863.
7 0.24 Very~ I VVS1 62.3 57 336 3.95 3.98 2.47 -502. 838.
8 0.26 Very~ H SI1 61.9 55 337 4.07 4.11 2.53 -324. 661.
9 0.22 Fair E VS2 65.1 61 337 3.87 3.78 2.49 -2199. 2536.
10 0.23 Very~ H VS1 59.4 61 338 4 4.05 2.39 -434. 772.
# ... with 53,930 more rows, and 4 more variables: .std.resid <dbl>, .hat <dbl>,
# .sigma <dbl>, .cooksd <dbl>
4. さいごに
実際に、モデルの評価でお世話になっております。