【R】tidywikidatar
2021年5月7日
1. はじめに
tidywikidatar
は、Wikipediaの情報を取得するパッケージです。
2. インストール
CRANからインストールできます。
install.packages("tidywikidatar")
3. つかってみる
使う前に、Wikipediaのコンセプトを知っておく必要があります。すべてのアイテムはidを持っており、様々に分類されています。こちらにあるような分類の概念を知っておく必要があります。
具体的に、喜劇王チャップリンの情報を取得してみます。
まず、キャッシュ等の設定です。
library("tidywikidatar") tw_enable_cache() tw_set_cache_folder(path = fs::path(fs::path_home_r(), "R", "tw_data")) tw_create_cache_folder(ask = FALSE)
名前で検索してみます。
tw_search(search = "Charles Spencer Chaplin")
> tw_search(search = "Charles Spencer Chaplin")
# A tibble: 3 x 3
id label description
<chr> <chr> <chr>
1 Q882 Charlie Chaplin British comic actor and filmmaker (1889-1977)
2 Q4391952 Charles Chaplin Sr. English music hall entertainer
3 Q729356 Charles Chaplin American actor (1925-1968)
人間(Q5)に分類(P31)されるデータのみフィルターで選択します。
tw_search(search = "Charles Spencer Chaplin") %>% tw_filter_first(p = "P31", q = "Q5")
# A tibble: 1 x 3
id label description
<chr> <chr> <chr>
1 Q882 Charlie Chaplin British comic actor and filmmaker (1889-1977)
P19で生誕地を調べます。
tw_get_property(id = "Q882", p = "P19")
# A tibble: 1 x 3
id property value
<chr> <chr> <chr>
1 Q882 P19 Q84
tw_get_label(id = "Q84")
> tw_get_label(id = "Q84")
[1] "London"
4. さいごに
柔軟にデータを取得できるので有用なパッケージだと思いますが、分類を調べたりと手間でもあります・・・。