【R】elucidate
2020年12月10日
1. はじめに
elucidate
は、さまざまなデータをざっと俯瞰してみたいときに非常に役立つパッケージです。統計量を手軽に計算したり、プロットして可視化することができます。
2. インストール
Githubからインストールします。
remotes::install_github("bcgov/elucidate")
3. 使ってみる
データセットmtcars
の要約を見てみます。
library(tidyverse) library(elucidate) mtcars describe(data = mtcars, y = mpg)
> describe(data = mtcars, y = mpg)
# A tibble: 1 x 14
cases n na p_na mean sd se p0 p25 p50 p75 p100 skew kurt
<int> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 32 32 0 0 20.1 6.03 1.06 10.4 15.4 19.2 22.8 33.9 0.672 -0.022
全部の変数の統計量を見てみます。
describe_all(data = mtcars)
> describe(data = mtcars, y = mpg)
# A tibble: 1 x 14
cases n na p_na mean sd se p0 p25 p50 p75 p100 skew kurt
<int> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 32 32 0 0 20.1 6.03 1.06 10.4 15.4 19.2 22.8 33.9 0.672 -0.022
> describe_all(data = mtcars)
# A tibble: 11 x 15
variable cases n na p_na mean sd se p0 p25 p50 p75
<chr> <int> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 mpg 32 32 0 0 20.1 6.03 1.06 10.4 15.4 19.2 22.8
2 cyl 32 32 0 0 6.19 1.79 0.316 4 4 6 8
3 disp 32 32 0 0 231. 124. 21.9 71.1 121. 196. 326
4 hp 32 32 0 0 147. 68.6 12.1 52 96.5 123 180
5 drat 32 32 0 0 3.60 0.535 0.095 2.76 3.08 3.70 3.92
6 wt 32 32 0 0 3.22 0.978 0.173 1.51 2.58 3.32 3.61
7 qsec 32 32 0 0 17.8 1.79 0.316 14.5 16.9 17.7 18.9
8 vs 32 32 0 0 0.438 0.504 0.089 0 0 0 1
9 am 32 32 0 0 0.406 0.499 0.088 0 0 0 1
10 gear 32 32 0 0 3.69 0.738 0.13 3 3 4 4
11 carb 32 32 0 0 2.81 1.62 0.286 1 2 2 4
# ... with 3 more variables: p100 <dbl>, skew <dbl>, kurt <dbl>
*_ciで信頼区間を計算できます。
diamonds %>% describe_ci(carat, stat = mean)
> diamonds %>% describe_ci(carat, stat = mean)
# A tibble: 1 x 3
lower mean upper
<dbl> <dbl> <dbl>
1 0.794 0.798 0.802
プロットによる可視化も簡単にできます。ヒストグラムをかいてみます。
plot_histogram(diamonds, x = depth)
確率密度関数もこんな感じで。
diamonds %>% plot_density(x = price, colour_var = color, colour_var_title = "# colors")
4. さいごに
まだまだいろんな機能があるようですが、データ処理前にデータを俯瞰してみてみるには良いツールですね。