【R】tabulizer

1. はじめに

PDFファイルの表を何とかRで扱えるtableとかにできなかな?と思っていたら、ありました!tabulizerというパッケージ!やはり考えることは誰もが同じ。調べると紹介しているサイトが様々ありますが、こんかいはこちらを参考にさせていただきました。

2. インストール

CRANからインストールできますが、Javaが必要なので、まずはJavaをインストールしておきます。ここでつまづきました。。。

で、CRANからインストール。

install.packages("tabilizer")

3. 使ってみる

本当に簡単に使えました。今回は、農林水産省のページから、平成30年の都道府県別食料自給率のPDFから表をRに読み込みます。

library(tabulizer)
library(purrr)

df_list <- tabulizer::extract_tables("zikyu_10-9.pdf", locale = locale(encoding = "shift-jis")) %>%
  purrr::map_df(as.data.frame)

すごーい!ちゃんと表になってます。が、どうしても日本語の文字化けがなおせず。。。。今後の課題です。

4. さいごに

本当に簡単にPDFの票を取り込めてびっくりです。本当に便利なパッケージです。

Add a Comment

メールアドレスが公開されることはありません。