【R】elucidate

1. はじめに

elucidateは、さまざまなデータをざっと俯瞰してみたいときに非常に役立つパッケージです。統計量を手軽に計算したり、プロットして可視化することができます。

2. インストール

Githubからインストールします。

remotes::install_github("bcgov/elucidate")

3. 使ってみる

データセットmtcarsの要約を見てみます。

library(tidyverse)
library(elucidate)

mtcars

describe(data = mtcars, y = mpg) 
> describe(data = mtcars, y = mpg) 
# A tibble: 1 x 14
  cases     n    na  p_na  mean    sd    se    p0   p25   p50   p75  p100  skew   kurt
  <int> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>  <dbl>
1    32    32     0     0  20.1  6.03  1.06  10.4  15.4  19.2  22.8  33.9 0.672 -0.022

全部の変数の統計量を見てみます。

describe_all(data = mtcars) 
> describe(data = mtcars, y = mpg) 
# A tibble: 1 x 14
  cases     n    na  p_na  mean    sd    se    p0   p25   p50   p75  p100  skew   kurt
  <int> <int> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>  <dbl>
1    32    32     0     0  20.1  6.03  1.06  10.4  15.4  19.2  22.8  33.9 0.672 -0.022
> describe_all(data = mtcars) 
# A tibble: 11 x 15
   variable cases     n    na  p_na    mean      sd     se    p0    p25    p50    p75
   <chr>    <int> <int> <int> <dbl>   <dbl>   <dbl>  <dbl> <dbl>  <dbl>  <dbl>  <dbl>
 1 mpg         32    32     0     0  20.1     6.03   1.06  10.4   15.4   19.2   22.8 
 2 cyl         32    32     0     0   6.19    1.79   0.316  4      4      6      8   
 3 disp        32    32     0     0 231.    124.    21.9   71.1  121.   196.   326   
 4 hp          32    32     0     0 147.     68.6   12.1   52     96.5  123    180   
 5 drat        32    32     0     0   3.60    0.535  0.095  2.76   3.08   3.70   3.92
 6 wt          32    32     0     0   3.22    0.978  0.173  1.51   2.58   3.32   3.61
 7 qsec        32    32     0     0  17.8     1.79   0.316 14.5   16.9   17.7   18.9 
 8 vs          32    32     0     0   0.438   0.504  0.089  0      0      0      1   
 9 am          32    32     0     0   0.406   0.499  0.088  0      0      0      1   
10 gear        32    32     0     0   3.69    0.738  0.13   3      3      4      4   
11 carb        32    32     0     0   2.81    1.62   0.286  1      2      2      4   
# ... with 3 more variables: p100 <dbl>, skew <dbl>, kurt <dbl>

*_ciで信頼区間を計算できます。

diamonds %>% describe_ci(carat, stat = mean)
> diamonds %>% describe_ci(carat, stat = mean)
# A tibble: 1 x 3
  lower  mean upper
  <dbl> <dbl> <dbl>
1 0.794 0.798 0.802

プロットによる可視化も簡単にできます。ヒストグラムをかいてみます。

plot_histogram(diamonds, x = depth)

確率密度関数もこんな感じで。

diamonds %>% plot_density(x = price,
                        colour_var = color, 
                        colour_var_title = "# colors")

4. さいごに

まだまだいろんな機能があるようですが、データ処理前にデータを俯瞰してみてみるには良いツールですね。

Add a Comment

メールアドレスが公開されることはありません。