【R】ucidata

1. はじめに

Machine Learning Library at UC Irvineは、DeepLearningや機械学習で用いるデータセットが豊富にそろっており、たびたびお世話になっております。

このデータセットを、さらにクリーニングしてドキュメントを整えて使いやすくしてくれたパッケージがucidataです。

2. インストール

Githubからインストールします。

devtools::install_github("coatless/ucidata")

3. つかってみる

例にあるように、まずは、autompgのデータを見てみます。

# パッケージの読み込み
library("ucidata")

# autompgデータの最初10行を表示
head(autompg)

# ヘルプを見てみる。
?autompg
> head(autompg)
  mpg cylinders displacement horsepower weight acceleration model_year origin
1  18         8          307      130.0   3504         12.0         70      1
2  15         8          350      165.0   3693         11.5         70      1
3  18         8          318      150.0   3436         11.0         70      1
4  16         8          304      150.0   3433         12.0         70      1
5  17         8          302      140.0   3449         10.5         70      1
6  15         8          429      198.0   4341         10.0         70      1
                   car_name
1 chevrolet chevelle malibu
2         buick skylark 320
3        plymouth satellite
4             amc rebel sst
5               ford torino
6          ford galaxie 500
autompg {ucidata}	R Documentation
Autompg Data Set
Description
This dataset is a slightly modified version of the dataset provided in the StatLib library. In line with the use by Ross Quinlan (1993) in predicting the attribute "mpg", 8 of the original instances were removed because they had unknown values for the "mpg" attribute.

Usage
autompg
Format
A data frame with 398 observations on the following 9 variables.

mpg: continuous

cylinders: multi-valued discrete

簡単にデータを扱えるようになりそうですね。

今のとこr、以下のデータが含まれているようです。

4. さいごに

Machine Learning Library at UCIは、データが豊富なのですが、まず取得しにいく必要がありますし、データもRで使うには若干の修正が必要だったりします。このパッケージなら、データをすぐに使えて便利ですね。

Add a Comment

メールアドレスが公開されることはありません。