【R】ucidata
2020年9月29日
1. はじめに
Machine Learning Library at UC Irvineは、DeepLearningや機械学習で用いるデータセットが豊富にそろっており、たびたびお世話になっております。
このデータセットを、さらにクリーニングしてドキュメントを整えて使いやすくしてくれたパッケージがucidata
です。
2. インストール
Githubからインストールします。
devtools::install_github("coatless/ucidata")
3. つかってみる
例にあるように、まずは、autompg
のデータを見てみます。
# パッケージの読み込み library("ucidata") # autompgデータの最初10行を表示 head(autompg) # ヘルプを見てみる。 ?autompg
> head(autompg)
mpg cylinders displacement horsepower weight acceleration model_year origin
1 18 8 307 130.0 3504 12.0 70 1
2 15 8 350 165.0 3693 11.5 70 1
3 18 8 318 150.0 3436 11.0 70 1
4 16 8 304 150.0 3433 12.0 70 1
5 17 8 302 140.0 3449 10.5 70 1
6 15 8 429 198.0 4341 10.0 70 1
car_name
1 chevrolet chevelle malibu
2 buick skylark 320
3 plymouth satellite
4 amc rebel sst
5 ford torino
6 ford galaxie 500
autompg {ucidata} R Documentation
Autompg Data Set
Description
This dataset is a slightly modified version of the dataset provided in the StatLib library. In line with the use by Ross Quinlan (1993) in predicting the attribute "mpg", 8 of the original instances were removed because they had unknown values for the "mpg" attribute.
Usage
autompg
Format
A data frame with 398 observations on the following 9 variables.
mpg: continuous
cylinders: multi-valued discrete
簡単にデータを扱えるようになりそうですね。
今のとこr、以下のデータが含まれているようです。
abalone
adult
autoimports
autompg
- Breast Cancer Wisconsin:
- Heart Disease
bike_sharing_daily
bridges
car_eval
forest_fires
glass
hepatitis
wine
4. さいごに
Machine Learning Library at UCIは、データが豊富なのですが、まず取得しにいく必要がありますし、データもRで使うには若干の修正が必要だったりします。このパッケージなら、データをすぐに使えて便利ですね。