mecabは形態素解析を行ってくれるソフトウェアです。これをCentOSにインストールする手順です。
mecabは本体と辞書の2つの要素から成り立ってます。こちらの記事では、最新の言葉が利用できる強力なユーザ辞書【mecab-ipadic-neologd】を利用する方法を紹介しています。併せてインストールすると良いと思います。
ついでに、mecab_split関数をPHPで使えるようにもしてみます。
■Mecab本体のインストール
○ダウンロード
以下のコマンドでダウンロードします。例ではwgetを利用していますが、別にダウンロードできればなんでも構いません。
wget -O mecab-0.996.tar.gz "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE"
○展開する
以下のコマンドで展開をします。展開するとmecab-0.996というディレクトリができます。
tar -zxvf mecab-0.996.tar.gz
○展開したディレクトリに移動する
cdコマンドで展開したディレクトリへ移動します。
cd mecab-0.996
○コンパイルとインストール
普通のconfigureからmake make install の流れでインストールします。
./configure
make
su
make install
これで、一旦本体のインストールが完了します。
■辞書のインストール
○辞書のダウンロード
以下のコマンドでダウンロードを行います。例ではwgetを利用していますが、ダウンロードできれば何でも構いません。
wget -O mecab-ipadic-2.7.0-20070801.tar.gz "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7MWVlSDBCSXZMTXM"
○展開する
以下のコマンドで展開をします。展開するとmecab-ipadic-2.7.0-20070801というディレクトリができます。
tar -zxvf mecab-ipadic-2.7.0-20070801.tar.gz
○展開したディレクトリに移動する
cdコマンドで展開したディレクトリへ移動します。
cd mecab-ipadic-2.7.0-20070801
○コンパイルとインストール
あとは普通にconfigureからmake 、make installを行います。configureで文字コードを指定できます。ここで指定を間違えると文字化けの原因となります。
./configure --with-charset=utf8
make
su
make install
これで、コマンドライン上からmecabコマンドが使えるようになります。
■PHPで使えるようにする
さらに、PHPのスクリプト上からmecab_split関数を使えるようにします。これは、mecabをPHP上から使えるようにする関数です。Peclを使ってインストールします。
○g++をインストール
mecab_splitをコンパイルするために、g++コンパイラが必要です。以下のコマンドでインストールします
yum install gcc-c++
○mecab_splitをインストール
以下のコマンドでインストールします。インストールが完了するとmecab.soが出来上がります。
pear channel-discover pecl.opendogs.org
pear remote-list -c opendogs
sudo pear install opendogs/mecab-beta
○PHPに認識させる
mecab.soをphpの設定を変更して読み込みます。apacheに認識させるには、apacheを再起動します。
vi /etc/php.d/mecab.ini
extension=mecab.so
これで、php上でmecabが利用できるようになります。形態素解析が利用できるようになると、文章を取り扱う系のプログラムが実装しやすくなります。参考にしてみてください。