【R】大規模データの高速処理

1. はじめに

Rにて、大規模データを高速に処理するヒントはいくつかあります。

Code performance in R: Working with large datasets”に紹介されているいくつかを見てみます。

2. いくつかのヒント

2.1 使えるメモリを増やす

まずは使えるメモリを増やす。Rから

rm(data)

で不要なデータ”data”を削除できます。ガーベッジコレクションは、

gc()

で確認できます。

> gc()
           used  (Mb) gc trigger  (Mb) max used  (Mb)
Ncells  1863342  99.6    3772947 201.5  3772947 201.5
Vcells 16572171 126.5   49911044 380.8 49871438 380.5

2.2 data.tableをつかう。

data.table > dplyr > R-base の順に高速らしいです。

2.3 databaseをつかう

データを一度に読み込まないで、SQLデータベースをうまく活用すると良いそうです。

Add a Comment

メールアドレスが公開されることはありません。