【R】大規模データの高速処理
2021年8月16日
1. はじめに
Rにて、大規模データを高速に処理するヒントはいくつかあります。
”Code performance in R: Working with large datasets”に紹介されているいくつかを見てみます。
2. いくつかのヒント
2.1 使えるメモリを増やす
まずは使えるメモリを増やす。Rから
rm(data)
で不要なデータ”data”を削除できます。ガーベッジコレクションは、
gc()
で確認できます。
> gc()
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 1863342 99.6 3772947 201.5 3772947 201.5
Vcells 16572171 126.5 49911044 380.8 49871438 380.5
2.2 data.tableをつかう。
data.table > dplyr > R-base の順に高速らしいです。
2.3 databaseをつかう
データを一度に読み込まないで、SQLデータベースをうまく活用すると良いそうです。