MeCabmixhost

MixHost(レンタルサーバー)にMeCabをインストールする

更新日:2023/02/06

レンタルサーバのMixHostにMeCabをインストールしてみます。

 

Mecabのインストール

公式サイトからMecabのソースをダウンロードして、MixHostでバイナリを生成します。

  1. MeCab公式サイトからソースをダウンロード

    次のリンク先から、ソースをダウンロードします。

    最新版は2013年2月18日にリリースされているようですね。
    ダウンロードするファイルは、mecab-0.996.tar.gzです。

  2. MixHostにアップロード

    MixHostコントロールパネルのファイルマネージャ等で、ダウンロードしたファイルをアップロードします。

    今回は mecabディレクトリを作成して、その中にアップロードしています。

  3. ターミナル起動

    MixHostコントロールパネルの Terminal を起動します。

  4. ファイル解凍

    アップロードしたディレクトリに移動して、ファイルを解凍します。

    $ cd mecab
    $ tar xvfz ./mecab-0.996.tar.gz
    
  5. バイナリ生成

    解凍したディレクトリに移動。

    $ cd mecab-0.996
    

    次のコマンドを実行。

    $ ./configure --prefix=$HOME/mecab --with-charset=utf8 --enable-utf8-only
    

    --prefixは、バイナリの生成先です。
    $HOMEには、自分のホームディレクトリが設定されています。

    次のコマンドを実行。

    $ make
    $ make install
    

    これで、バイナリが $HOME/mecab/bin に生成されます。

  6. パスを通す

    生成したバイナリを起動できるように、パスを通します。

    ホーム直下の .bash_profile を編集する。
    Terminalでの編集方法がわからない時は、MixHostコントロールパネルのファイルマネージャを使う。

    ■ファイルマネージャで.bash_profileが表示されない場合

    右上の設定を押して、「非表示のファイルの表示」にチェックをいれてSave。

    PATH= の行に $HOME/mecab/bin を追加する。

    # .bash_profile
    
    # Get the aliases and functions
    if [ -f ~/.bashrc ]; then
            . ~/.bashrc
    fi
    
    # User specific environment and startup programs
    
    PATH=$PATH:$HOME/.local/bin:$HOME/bin:$HOME/mecab/bin
    
    export PATH
    
  7. $PATHの確認

    Terminalを一度終了して、起動する。
    次のコマンドを実行する。

    $ echo $PATH
    

    結果の最後に、追加したパスが含まれていればOK

  8. MeCabの確認

    次のコマンドを実行する。

    $ mecab -v
    mecab of 0.996
    

    バージョンが表示されればOK

 

辞書のインストール

次に辞書をインストールします。

辞書の使い勝手としては mecab-ipadic-NEologd がおススメです。
ただし2020年で更新が止まっているようなので、再開されなかったら別のものも視野に入れる必要がありそうです。

またインストール時にメモリが最低でも2Gバイト必要です。
MixHostはスタンダードでも8Gバイトあるので、他の作業でメモリを使っていなければ大丈夫ですね。

メモリが少ないレンタルサーバーは、READMEを参考にするとうまくいくかもしれません。

IPA辞書のインストール

IPA辞書はMeCab公式サイトで推奨されていますが、2007年で更新が止まっています。
古くて使えないですが、mecab-ipadic-NEologdのインストールに必要なので、入れておきます。

  1. MeCab公式サイトからIPA辞書をダウンロードしてアップロード

    MeCab公式サイトから、IPA辞書をダウンロードします。
    ダウンロード後、サーバーにアップロードします。

  2. 解凍する

    Terminalで、アップロードしたファイルを解凍します。

    $ cd mecab
    $ tar xvfz ./mecab-ipadic-2.7.0-20070801.tar.gz
    
  3. バイナリ生成
    $ ./configure --with-charset=utf8
    $ make
    $ make install
    

    辞書のインストール先は、mecabの設定が参照されます。
    今回は、$HOME/mecab/lib/mecab/dic/ipadicディレクトリが作成されます。

  4. テスト

    mecabコマンドを実行すると、文字の入力待ちになります。
    適当な文を入力して確認してみてください。

    $ mecab
    2020年の東京オリンピックはいろいろありましたね
    2020    名詞,数,*,*,*,*,*
    年      名詞,接尾,助数詞,*,*,*,年,ネン,ネン
    の      助詞,連体化,*,*,*,*,の,ノ,ノ
    東京    名詞,固有名詞,地域,一般,*,*,東京,トウキョウ,トーキョー
    オリンピック    名詞,一般,*,*,*,*,オリンピック,オリンピック,オリンピック
    は      助詞,係助詞,*,*,*,*,は,ハ,ワ
    いろいろ        副詞,助詞類接続,*,*,*,*,いろいろ,イロイロ,イロイロ
    あり    動詞,自立,*,*,五段・ラ行,連用形,ある,アリ,アリ
    まし    助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
    た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
    ね      助詞,終助詞,*,*,*,*,ね,ネ,ネ
    EOS
    

mecab-ipadic-NEologdのインストール

mecab-ipadic-NEologdのインストールは、unxzが必要です。
しかしMixHostにインストールされていない可能性があります。
(僕のときはインストールされていませんでした)

Terminalで unxzコマンドを実行して「bash: unxz: command not found」と表示されたら、unxzをインストールする必要があります。
次のページを参考にしてインストールしてみてください。

unxzコマンドを実行できるようになったら、次の手順でmecab-ipadic-NEologdをインストールします。

  1. ダウンロード

    mecab-ipadic-NEologdは、gitコマンドでサーバーにダウンロードします。

    Terminalで、次のコマンドを実行します。

    $ cd mecab
    $ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
    
  2. インストール

    次のコマンドを実行します。

    $ cd mecab-ipadic-neologd
    $ ./bin/install-mecab-ipadic-neologd -n
    

    途中で次のように聞いてくるので、yesと入力します。

    [install-mecab-ipadic-NEologd] : Do you want to install mecab-ipadic-NEologd? Type yes or no.
    

    次のように表示されたら終了です。

    install-mecab-ipadic-NEologd] : Install completed.
    [install-mecab-ipadic-NEologd] : When you use MeCab, you can set '/home/ユーザー名/mecab/lib/mecab/dic/mecab-ipadic-neologd' as a value of '-d' option of MeCab.
    [install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here.
    Usage:
        $ mecab -d /home/ユーザー名/mecab/lib/mecab/dic/mecab-ipadic-neologd ...
    
    [install-mecab-ipadic-NEologd] : Finish..
    [install-mecab-ipadic-NEologd] : Finish..
    

    メモリリソースの使用量を確認したところ、2.53Gバイトでした。

    mecab-ipadic-neologdインストールのメモリ使用量

  3. テスト

    インストール時に表示されている Usage をコピペして、mecabを実行します。

    $ mecab  -d /home/ユーザー名/mecab/lib/mecab/dic/mecab-ipadic-neologd
    2020年の東京オリンピックはいろいろありましたね
    2020年  名詞,固有名詞,一般,*,*,*,2020年,ニセンニジュウネン,ニセンニジュウネン
    の      助詞,連体化,*,*,*,*,の,ノ,ノ
    東京オリンピック        名詞,固有名詞,一般,*,*,*,東京オリンピック,トウキョウオリンピック,トーキョーオリンピック
    は      助詞,係助詞,*,*,*,*,は,ハ,ワ
    いろいろ        副詞,助詞類接続,*,*,*,*,いろいろ,イロイロ,イロイロ
    あり    動詞,自立,*,*,五段・ラ行,連用形,ある,アリ,アリ
    まし    助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
    た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
    ね      助詞,終助詞,*,*,*,*,ね,ネ,ネ
    EOS
    

    IPA辞書と少し結果が異なりますね。

    IPA辞書では、「2020」と「年」に分かれていますが、mecab-ipadic-neologdは「2020年」と連結されています。
    「東京」と「オリンピック」は「東京オリンピック」になっています。

UniDicのインストール

UniDicは最新版が2022年9月(2022年11月現在)なので、更新が続いている安心感があります。
mecab-ipadic-neologdの代わりに、こちらを入れてみてもいいかもしれません。

注意する点は、年号等の一部の数字を除いて2桁以上のものが個別の数詞として判断される点です。
例えば 123 は、1と2と3の3行に分かれます。
IPA辞書とmecab-ipadic-NEologdは、一つの数と判断されます。
この点も、辞書選択の判断基準になるかもしれません。

次の手順でインストールします。

  1. 公式ページからダウンロードしてサーバーにアップロード

    UniDicの公式ページから、zipファイルをダウンロードします。

    バックナンバーから通常版と軽量版をダウンロードできますが、とりあえず軽量版でOKです。

    ダウンロード後、サーバーにアップロードします。

  2. 解凍する

    Terminalで、アップロードしたファイルを解凍します。

    $ cd mecab
    $ unzip unidic-cwj-3.1.1.zip
    

    解凍だけでインストール終了。

  3. テスト

    解凍で作成されたフォルダを-dオプションで指定します。

    $ mecab -d $HOME/mecab/unidic-cwj-3.1.1
    2020年の東京オリンピックはいろいろありましたね
    2020    名詞,数詞,,,,
    年      名詞,普通名詞,助数詞可能,,,,ネン,年,年,ネン,年,ネン,漢,"","","","","","B4WW7G9G,B4WW",体,ネン,ネン,ネン,ネン,"1","C3","",7951401837797888,28927
    の      助詞,格助詞,,,,,ノ,の,の,ノ,の,ノ,和,"","","","","","",格助,ノ,ノ,ノ,ノ,"","名詞%F1","",7968444268028416,28989
    東京    名詞,固有名詞,地名,一般,,,トウキョウ,トウキョウ,東京,トーキョー,東京,トーキョー,固,"","","","","","",地名,トウキョウ,トウキョウ,トウキョウ,トウキョウ,"0","","",7129242085237248,25936
    オリンピック    名詞,普通名詞,一般,,,,オリンピック,オリンピック-Olympic,オリンピック,オリンピック,オリンピック,オリンピック,外,"","","","","","",体,オリンピック,オリンピック,オリンピック,オリンピック,"4","C1","",1473079326941696,5359
    は      助詞,係助詞,,,,,ハ,は,は,ワ,は,ワ,和,"","","","","","",係助,ハ,ハ,ハ,ハ,"","動詞%F2@0,名詞%F1,形容詞%F2@-1","",8059703733133824,29321
    いろいろ        副詞,,,,,,イロイロ,色々,いろいろ,イロイロ,いろいろ,イロイロ,和,"","","","","","",相,イロイロ,イロイロ,イロイロ,イロイロ,"0","","",719364106101248,2617
    あり    動詞,非自立可能,,,五段-ラ行,連用形-一般,アル,有る,あり,アリ,ある,アル,和,"","","","","","",用,アリ,アル,アリ,アル,"1","C3","",334260158472833,1216
    まし    助動詞,,,,助動詞-マス,連用形-一般,マス,ます,まし,マシ,ます,マス,和,"","","","","","",助動,マシ,マス,マシ,マス,"","動詞%F4@1","",9812325267808897,35697
    た      助動詞,,,,助動詞-タ,終止形-一般,タ,た,た,タ,た,タ,和,"","","","","","",助動,タ,タ,タ,タ,"","動詞%F2@1,形容詞%F4@-2","",5948916285711019,21642
    ね      助詞,終助詞,,,,,ネ,ね,ね,ネ,ね,ネ,和,"","","","","","",終助,ネ,ネ,ネ,ネ,"","動詞%F1,名詞%F1,形容詞%F1","",7903847959896576,28754
    EOS
    

    東京オリンピックは、固有名詞になっていないようです。

更新日:2023/02/06

書いた人(管理人):けーちゃん

スポンサーリンク

記事の内容について

null

こんにちはけーちゃんです。
説明するのって難しいですね。

「なんか言ってることおかしくない?」
たぶん、こんなご意見あると思います。

裏付けを取りながら記事を作成していますが、僕の勘違いだったり、そもそも情報源の内容が間違えていたりで、正確でないことが多いと思います。
そんなときは、ご意見もらえたら嬉しいです。

掲載コードについては事前に動作確認をしていますが、貼り付け後に体裁を整えるなどをした結果動作しないものになっていることがあります。
生暖かい視線でスルーするか、ご指摘ください。

ご意見、ご指摘はこちら。
https://note.affi-sapo-sv.com/info.php

 

このサイトは、リンクフリーです。大歓迎です。