Rで自然言語処理(の準備)
統計ソフトのRを使って自然言語処理をする際に必要な設定のメモです。(インストール方法などはよく忘れてしまうため。。)
手順は以下の通りです。なお、Windows7の場合を想定しています。
Rのインストール
以下にあるRのダウンロードサイトから インストーラをダウンロードできます。
Download R for Windows>baseの手順で最新版が手に入ります。なお、過去のバージョンを入手したい場合は「Previous releases」から入手可能です。
Rstudioのインストール
以下のRstudio公式ページから「Download」を選択してダウンロードできます。こちらもインストーラ形式なので苦労しないです。
MeCabのインストール
以下のサイトで「mecab-0.996.exe:ダウンロード」をクリックするとインストーラがダウンロードできます。
http://taku910.github.io/mecab/
なお、MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。 また、平均的に ChaSen, Juman, KAKASI (いずれも形態素解析エンジンの一種) より高速に動作します。 ちなみに和布蕪(めかぶ)は, 作者 (工藤拓) の好物です(ダウンロードサイトより一部引用)。
コマンドプロンプト上で動くので、システム環境変数のPathを通す必要があります。
マイコンピュータ>プロパティ>詳細設定>環境変数>Path で設定が可能です。自分のPCでインストールした場所を追加する (デフォルトではC:\Program Files\MeCab\bin)。
コマンドプロンプトを開き (スタートメニュー>ファイル名を指定>cmdと入力) 、mecabと打ち込んでMeCabが起動すれば正しく設定できています。試しに「すもももももももものうち」を入力すると、ちゃんと分解できます。
RMeCabのインストール
Rstudioを起動し、コンソール上で以下のコードを実行すればインストールできます。
install.packages("RMeCab", repos = "http://rmecab.jp/R")
これで準備完了です!