MixHost(レンタルサーバー)にMeCabをインストールする
更新日:2023/02/06
レンタルサーバのMixHostにMeCabをインストールしてみます。
Mecabのインストール
公式サイトからMecabのソースをダウンロードして、MixHostでバイナリを生成します。
- MeCab公式サイトからソースをダウンロード
次のリンク先から、ソースをダウンロードします。
■MeCab公式サイト:http://taku910.github.io/mecab/#download
最新版は2013年2月18日にリリースされているようですね。
ダウンロードするファイルは、mecab-0.996.tar.gzです。 - MixHostにアップロード
MixHostコントロールパネルのファイルマネージャ等で、ダウンロードしたファイルをアップロードします。
今回は mecabディレクトリを作成して、その中にアップロードしています。
- ターミナル起動
MixHostコントロールパネルの Terminal を起動します。
- ファイル解凍
アップロードしたディレクトリに移動して、ファイルを解凍します。
$ cd mecab $ tar xvfz ./mecab-0.996.tar.gz
- バイナリ生成
解凍したディレクトリに移動。
$ cd mecab-0.996
次のコマンドを実行。
$ ./configure --prefix=$HOME/mecab --with-charset=utf8 --enable-utf8-only
--prefixは、バイナリの生成先です。
$HOMEには、自分のホームディレクトリが設定されています。次のコマンドを実行。
$ make $ make install
これで、バイナリが $HOME/mecab/bin に生成されます。
- パスを通す
生成したバイナリを起動できるように、パスを通します。
ホーム直下の .bash_profile を編集する。
Terminalでの編集方法がわからない時は、MixHostコントロールパネルのファイルマネージャを使う。■ファイルマネージャで.bash_profileが表示されない場合右上の設定を押して、「非表示のファイルの表示」にチェックをいれてSave。
PATH= の行に $HOME/mecab/bin を追加する。
# .bash_profile # Get the aliases and functions if [ -f ~/.bashrc ]; then . ~/.bashrc fi # User specific environment and startup programs PATH=$PATH:$HOME/.local/bin:$HOME/bin:$HOME/mecab/bin export PATH
- $PATHの確認
Terminalを一度終了して、起動する。
次のコマンドを実行する。$ echo $PATH
結果の最後に、追加したパスが含まれていればOK
- MeCabの確認
次のコマンドを実行する。
$ mecab -v mecab of 0.996
バージョンが表示されればOK
辞書のインストール
次に辞書をインストールします。
辞書の使い勝手としては mecab-ipadic-NEologd がおススメです。
ただし2020年で更新が止まっているようなので、再開されなかったら別のものも視野に入れる必要がありそうです。
またインストール時にメモリが最低でも2Gバイト必要です。
MixHostはスタンダードでも8Gバイトあるので、他の作業でメモリを使っていなければ大丈夫ですね。
メモリが少ないレンタルサーバーは、READMEを参考にするとうまくいくかもしれません。
IPA辞書のインストール
IPA辞書はMeCab公式サイトで推奨されていますが、2007年で更新が止まっています。
古くて使えないですが、mecab-ipadic-NEologdのインストールに必要なので、入れておきます。
- MeCab公式サイトからIPA辞書をダウンロードしてアップロード
MeCab公式サイトから、IPA辞書をダウンロードします。
ダウンロード後、サーバーにアップロードします。 - 解凍する
Terminalで、アップロードしたファイルを解凍します。
$ cd mecab $ tar xvfz ./mecab-ipadic-2.7.0-20070801.tar.gz
- バイナリ生成
$ ./configure --with-charset=utf8 $ make $ make install
辞書のインストール先は、mecabの設定が参照されます。
今回は、$HOME/mecab/lib/mecab/dic/ipadicディレクトリが作成されます。 - テスト
mecabコマンドを実行すると、文字の入力待ちになります。
適当な文を入力して確認してみてください。$ mecab 2020年の東京オリンピックはいろいろありましたね 2020 名詞,数,*,*,*,*,* 年 名詞,接尾,助数詞,*,*,*,年,ネン,ネン の 助詞,連体化,*,*,*,*,の,ノ,ノ 東京 名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー オリンピック 名詞,一般,*,*,*,*,オリンピック,オリンピック,オリンピック は 助詞,係助詞,*,*,*,*,は,ハ,ワ いろいろ 副詞,助詞類接続,*,*,*,*,いろいろ,イロイロ,イロイロ あり 動詞,自立,*,*,五段・ラ行,連用形,ある,アリ,アリ まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ EOS
mecab-ipadic-NEologdのインストール
mecab-ipadic-NEologdのインストールは、unxzが必要です。
しかしMixHostにインストールされていない可能性があります。
(僕のときはインストールされていませんでした)
Terminalで unxzコマンドを実行して「bash: unxz: command not found」と表示されたら、unxzをインストールする必要があります。
次のページを参考にしてインストールしてみてください。
unxzコマンドを実行できるようになったら、次の手順でmecab-ipadic-NEologdをインストールします。
- ダウンロード
mecab-ipadic-NEologdは、gitコマンドでサーバーにダウンロードします。
Terminalで、次のコマンドを実行します。
$ cd mecab $ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
- インストール
次のコマンドを実行します。
$ cd mecab-ipadic-neologd $ ./bin/install-mecab-ipadic-neologd -n
途中で次のように聞いてくるので、yesと入力します。
[install-mecab-ipadic-NEologd] : Do you want to install mecab-ipadic-NEologd? Type yes or no.
次のように表示されたら終了です。
install-mecab-ipadic-NEologd] : Install completed. [install-mecab-ipadic-NEologd] : When you use MeCab, you can set '/home/ユーザー名/mecab/lib/mecab/dic/mecab-ipadic-neologd' as a value of '-d' option of MeCab. [install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here. Usage: $ mecab -d /home/ユーザー名/mecab/lib/mecab/dic/mecab-ipadic-neologd ... [install-mecab-ipadic-NEologd] : Finish.. [install-mecab-ipadic-NEologd] : Finish..
メモリリソースの使用量を確認したところ、2.53Gバイトでした。
- テスト
インストール時に表示されている Usage をコピペして、mecabを実行します。
$ mecab -d /home/ユーザー名/mecab/lib/mecab/dic/mecab-ipadic-neologd 2020年の東京オリンピックはいろいろありましたね 2020年 名詞,固有名詞,一般,*,*,*,2020年,ニセンニジュウネン,ニセンニジュウネン の 助詞,連体化,*,*,*,*,の,ノ,ノ 東京オリンピック 名詞,固有名詞,一般,*,*,*,東京オリンピック,トウキョウオリンピック,トーキョーオリンピック は 助詞,係助詞,*,*,*,*,は,ハ,ワ いろいろ 副詞,助詞類接続,*,*,*,*,いろいろ,イロイロ,イロイロ あり 動詞,自立,*,*,五段・ラ行,連用形,ある,アリ,アリ まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ EOS
IPA辞書と少し結果が異なりますね。
IPA辞書では、「2020」と「年」に分かれていますが、mecab-ipadic-neologdは「2020年」と連結されています。
「東京」と「オリンピック」は「東京オリンピック」になっています。
UniDicのインストール
UniDicは最新版が2022年9月(2022年11月現在)なので、更新が続いている安心感があります。
mecab-ipadic-neologdの代わりに、こちらを入れてみてもいいかもしれません。
注意する点は、年号等の一部の数字を除いて2桁以上のものが個別の数詞として判断される点です。
例えば 123 は、1と2と3の3行に分かれます。
IPA辞書とmecab-ipadic-NEologdは、一つの数と判断されます。
この点も、辞書選択の判断基準になるかもしれません。
次の手順でインストールします。
- 公式ページからダウンロードしてサーバーにアップロード
UniDicの公式ページから、zipファイルをダウンロードします。
バックナンバーから通常版と軽量版をダウンロードできますが、とりあえず軽量版でOKです。
ダウンロード後、サーバーにアップロードします。
- 解凍する
Terminalで、アップロードしたファイルを解凍します。
$ cd mecab $ unzip unidic-cwj-3.1.1.zip
解凍だけでインストール終了。
- テスト
解凍で作成されたフォルダを-dオプションで指定します。
$ mecab -d $HOME/mecab/unidic-cwj-3.1.1 2020年の東京オリンピックはいろいろありましたね 2020 名詞,数詞,,,, 年 名詞,普通名詞,助数詞可能,,,,ネン,年,年,ネン,年,ネン,漢,"","","","","","B4WW7G9G,B4WW",体,ネン,ネン,ネン,ネン,"1","C3","",7951401837797888,28927 の 助詞,格助詞,,,,,ノ,の,の,ノ,の,ノ,和,"","","","","","",格助,ノ,ノ,ノ,ノ,"","名詞%F1","",7968444268028416,28989 東京 名詞,固有名詞,地名,一般,,,トウキョウ,トウキョウ,東京,トーキョー,東京,トーキョー,固,"","","","","","",地名,トウキョウ,トウキョウ,トウキョウ,トウキョウ,"0","","",7129242085237248,25936 オリンピック 名詞,普通名詞,一般,,,,オリンピック,オリンピック-Olympic,オリンピック,オリンピック,オリンピック,オリンピック,外,"","","","","","",体,オリンピック,オリンピック,オリンピック,オリンピック,"4","C1","",1473079326941696,5359 は 助詞,係助詞,,,,,ハ,は,は,ワ,は,ワ,和,"","","","","","",係助,ハ,ハ,ハ,ハ,"","動詞%F2@0,名詞%F1,形容詞%F2@-1","",8059703733133824,29321 いろいろ 副詞,,,,,,イロイロ,色々,いろいろ,イロイロ,いろいろ,イロイロ,和,"","","","","","",相,イロイロ,イロイロ,イロイロ,イロイロ,"0","","",719364106101248,2617 あり 動詞,非自立可能,,,五段-ラ行,連用形-一般,アル,有る,あり,アリ,ある,アル,和,"","","","","","",用,アリ,アル,アリ,アル,"1","C3","",334260158472833,1216 まし 助動詞,,,,助動詞-マス,連用形-一般,マス,ます,まし,マシ,ます,マス,和,"","","","","","",助動,マシ,マス,マシ,マス,"","動詞%F4@1","",9812325267808897,35697 た 助動詞,,,,助動詞-タ,終止形-一般,タ,た,た,タ,た,タ,和,"","","","","","",助動,タ,タ,タ,タ,"","動詞%F2@1,形容詞%F4@-2","",5948916285711019,21642 ね 助詞,終助詞,,,,,ネ,ね,ね,ネ,ね,ネ,和,"","","","","","",終助,ネ,ネ,ネ,ネ,"","動詞%F1,名詞%F1,形容詞%F1","",7903847959896576,28754 EOS
東京オリンピックは、固有名詞になっていないようです。
更新日:2023/02/06
関連記事
スポンサーリンク
記事の内容について
こんにちはけーちゃんです。
説明するのって難しいですね。
「なんか言ってることおかしくない?」
たぶん、こんなご意見あると思います。
裏付けを取りながら記事を作成していますが、僕の勘違いだったり、そもそも情報源の内容が間違えていたりで、正確でないことが多いと思います。
そんなときは、ご意見もらえたら嬉しいです。
掲載コードについては事前に動作確認をしていますが、貼り付け後に体裁を整えるなどをした結果動作しないものになっていることがあります。
生暖かい視線でスルーするか、ご指摘ください。
ご意見、ご指摘はこちら。
https://note.affi-sapo-sv.com/info.php
このサイトは、リンクフリーです。大歓迎です。