概要
mecabをインストールする方法です。
意外と詰まったので書き残しておきます。
環境
RockyLinux 8.6 (CentOS8系)
手順
mecab 本体のインストール
パッケージなどがありますが公式のソースコードからインストールしました。
パッケージからインストールする場合、mecab-config が無いため後述する mecab-ipadic-NEologd をインストールできなかったためです。対策はソースコードからインストールとのことでした。
ここでは0.996をインストールしていますが、最新バージョンは確認すること。
wget "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE" -O mecab-0.996.tar.gz
cd mecab-0.996/
tar zxfv mecab-0.996.tar.gz
./configure
make
make check
sudo su
make install
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
辞書 unidic のインストール
次に辞書をインストールします。
先行研究などからIPA辞書よりもunidicを使用した方が良いとのことです。
pythonのpipからインストールする方法を選択しました。
pip3 install mecab-python3
pip3 install unidic
辞書 mecab-ipadic-NEologd のインストール
新語辞書の「mecab-ipadic-NEologd」をインストールします。びっくりするほど容量が大きいので注意。
サーバースペックに注意する必要があります。メモリ2GBは必須。推奨6GB。
低容量オプションもあるので、サーバースペックが低い場合はそちらを使用した方が良いかも。
git clone --depth 1 git@github.com:neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n
mecab-ipadic-neologd/README.ja.md at master · neologd/mecab-ipadic-neologd
Neologism dictionary based on the language resources on the Web for mecab-ipadic - neologd/mecab-ipadic-neologd
動作確認
次のコードを使用して動作を確認しました。
import MeCab
import unidic
tagger = MeCab.Tagger() # 「tagger = MeCab.Tagger('-d ' + unidic.DICDIR)」
sample_txt = '鬼滅の刃'
result = tagger.parse(sample_txt)
print(result)
参考サイト
[文章生成]MeCabをインストールして分かち書きを試してみよう
形態素解析エンジン「MeCab」をGoogle Colab上にインストールして、簡単なテキストを解析したり、分かち書きをしたりできるようにしてみる。
コメント