【R】tidywikidatar

1. はじめに

tidywikidatarは、Wikipediaの情報を取得するパッケージです。

2. インストール

CRANからインストールできます。

install.packages("tidywikidatar")

3. つかってみる

使う前に、Wikipediaのコンセプトを知っておく必要があります。すべてのアイテムはidを持っており、様々に分類されています。こちらにあるような分類の概念を知っておく必要があります。

具体的に、喜劇王チャップリンの情報を取得してみます。

まず、キャッシュ等の設定です。

library("tidywikidatar")
tw_enable_cache()
tw_set_cache_folder(path = fs::path(fs::path_home_r(), "R", "tw_data"))
tw_create_cache_folder(ask = FALSE)

名前で検索してみます。

tw_search(search = "Charles Spencer Chaplin")
> tw_search(search = "Charles Spencer Chaplin")
# A tibble: 3 x 3
  id       label               description                                  
  <chr>    <chr>               <chr>                                        
1 Q882     Charlie Chaplin     British comic actor and filmmaker (1889-1977)
2 Q4391952 Charles Chaplin Sr. English music hall entertainer               
3 Q729356  Charles Chaplin     American actor (1925-1968)   

人間(Q5)に分類(P31)されるデータのみフィルターで選択します。

tw_search(search = "Charles Spencer Chaplin") %>%
  tw_filter_first(p = "P31", q = "Q5")
# A tibble: 1 x 3
  id    label           description                                  
  <chr> <chr>           <chr>                                        
1 Q882  Charlie Chaplin British comic actor and filmmaker (1889-1977)

P19で生誕地を調べます。

tw_get_property(id = "Q882", p = "P19")
# A tibble: 1 x 3
  id    property value
  <chr> <chr>    <chr>
1 Q882  P19      Q84 
tw_get_label(id = "Q84")
> tw_get_label(id = "Q84")
[1] "London"

4. さいごに

柔軟にデータを取得できるので有用なパッケージだと思いますが、分類を調べたりと手間でもあります・・・。

Add a Comment

メールアドレスが公開されることはありません。