【R】stopwords
2021年2月23日
1. はじめに
stopwords
は、その名の通り、自然言語やテキストマイニングを処理するにあたって一般的であるなどの理由で処理対象外とする単語ストップワードを表示するパッケージです。
2. インストール
CRANからインストールできます。
install.packages("stopwords")
3. 使ってみる。
ソースはこちらで調べられます。
stopwords::stopwords_getsources()
> stopwords::stopwords_getsources()
[1] "snowball" "stopwords-iso" "misc" "smart" "marimo"
[6] "ancient" "nltk" "perseus"
stopwords::stopwords_getlanguages("stopwords-iso")
> stopwords::stopwords_getlanguages("stopwords-iso")
[1] "af" "ar" "hy" "eu" "bn" "br" "bg" "ca" "zh" "hr" "cs" "da" "nl" "en" "eo" "et"
[17] "fi" "fr" "gl" "de" "el" "ha" "he" "hi" "hu" "id" "ga" "it" "ja" "ko" "ku" "la"
[33] "lt" "lv" "ms" "mr" "no" "fa" "pl" "pt" "ro" "ru" "sk" "sl" "so" "st" "es" "sw"
[49] "sv" "th" "tl" "tr" "uk" "ur" "vi" "yo" "zu"
かなりたくさんの言語に対応していますね。
使用できる言語はこちらです。
stopwords::stopwords_getlanguages("snowball")
> stopwords::stopwords_getlanguages("snowball")
[1] "da" "de" "en" "es" "fi" "fr" "hu" "ir" "it" "nl" "no" "pt" "ro" "ru" "sv"
実際に使ってみると・・・。日本語も扱えます。
head(stopwords::stopwords("ja", source = "stopwords-iso"), 20)
> head(stopwords::stopwords("ja", source = "stopwords-iso"), 20)
[1] "あそこ" "あっ" "あの" "あのかた" "あの人" "あり" "あります"
[8] "ある" "あれ" "い" "いう" "います" "いる" "う"
[15] "うち" "え" "お" "および" "おり" "おります"
ドイツ語の例。
head(stopwords::stopwords("de", source = "snowball"), 20)
> head(stopwords::stopwords("de", source = "snowball"), 20)
[1] "aber" "alle" "allem" "allen" "aller" "alles" "als" "also"
[9] "am" "an" "ander" "andere" "anderem" "anderen" "anderer" "anderes"
[17] "anderm" "andern" "anderr" "anders"
4. さいごに
実は、あまり言語処理はしないのですが、あるとよいかも。