【R】tabulizer
2020年10月18日
1. はじめに
PDFファイルの表を何とかR
で扱えるtableとかにできなかな?と思っていたら、ありました!tabulizer
というパッケージ!やはり考えることは誰もが同じ。調べると紹介しているサイトが様々ありますが、こんかいはこちらを参考にさせていただきました。
2. インストール
CRANからインストールできますが、Javaが必要なので、まずはJavaをインストールしておきます。ここでつまづきました。。。
で、CRANからインストール。
install.packages("tabilizer")
3. 使ってみる
本当に簡単に使えました。今回は、農林水産省のページから、平成30年の都道府県別食料自給率のPDFから表をRに読み込みます。
library(tabulizer) library(purrr) df_list <- tabulizer::extract_tables("zikyu_10-9.pdf", locale = locale(encoding = "shift-jis")) %>% purrr::map_df(as.data.frame)
すごーい!ちゃんと表になってます。が、どうしても日本語の文字化けがなおせず。。。。今後の課題です。
4. さいごに
本当に簡単にPDFの票を取り込めてびっくりです。本当に便利なパッケージです。