mecabをインストールする方法

概要

mecabをインストールする方法です。
意外と詰まったので書き残しておきます。

環境

RockyLinux 8.6 (CentOS8系)

手順

mecab 本体のインストール

パッケージなどがありますが公式のソースコードからインストールしました。

パッケージからインストールする場合、mecab-config が無いため後述する mecab-ipadic-NEologd をインストールできなかったためです。対策はソースコードからインストールとのことでした。

ここでは0.996をインストールしていますが、最新バージョンは確認すること。

wget "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE" -O mecab-0.996.tar.gz

cd mecab-0.996/
tar zxfv mecab-0.996.tar.gz
./configure 
make
make check
sudo su
make install
MeCab: Yet Another Part-of-Speech and Morphological Analyzer

辞書 unidic のインストール

次に辞書をインストールします。

先行研究などからIPA辞書よりもunidicを使用した方が良いとのことです。

pythonのpipからインストールする方法を選択しました。

pip3 install mecab-python3
pip3 install unidic

辞書 mecab-ipadic-NEologd のインストール

新語辞書の「mecab-ipadic-NEologd」をインストールします。びっくりするほど容量が大きいので注意。

サーバースペックに注意する必要があります。メモリ2GBは必須。推奨6GB。

低容量オプションもあるので、サーバースペックが低い場合はそちらを使用した方が良いかも。

git clone --depth 1 git@github.com:neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n
mecab-ipadic-neologd/README.ja.md at master · neologd/mecab-ipadic-neologd
Neologism dictionary based on the language resources on the Web for mecab-ipadic - neologd/mecab-ipadic-neologd

動作確認

次のコードを使用して動作を確認しました。

import MeCab
import unidic

tagger = MeCab.Tagger()  # 「tagger = MeCab.Tagger('-d ' + unidic.DICDIR)」
sample_txt = '鬼滅の刃'
result = tagger.parse(sample_txt)
print(result)

参考サイト

[文章生成]MeCabをインストールして分かち書きを試してみよう
形態素解析エンジン「MeCab」をGoogle Colab上にインストールして、簡単なテキストを解析したり、分かち書きをしたりできるようにしてみる。

コメント

タイトルとURLをコピーしました