こんにちは。sinyです。
この記事ではGoogle ColaboratoryまたはWindows10のUbuntu環境でJUMAN++を導入する手順についてまとめました。
JUMAN++とは?
JUMAN++とは形態素解析ライブラリーの1つです。
MeCabやJanomeなど様々な形態素解析ライブラリーがありますが、下記リンクの京都大学が作成したBERT日本語のPretrainedモデルではJUMAN++を使って学習されています。
2019年10月22日時点ではバージョン2.0.0-rc3が最新のようです。
この記事では、Google ColaboratoryまたはWindows10のUbuntu環境にJUMAN++を導入する手順について解説します。
※どちらの環境も同じ手順で導入できることを確認済みです。
JUMAN++の導入手順
JUMAN++の導入手順は以下の手順に従えば簡単に導入できます。
wget https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc3/jumanpp-2.0.0-rc3.tar.xz sudo apt install cmake tar xJvf jumanpp-2.0.0-rc3.tar.xz cd jumanpp-2.0.0-rc3/ mkdir bld cd bld cmake .. sudo make install
make installには数分~10分程度かかる場合があります。
続いてpythonでJUMAN++を利用できるようにするためにpyknpというモジュールをインストールします。
pip install pyknp
最後にJumanの動作確認をします。
# JUMANの動作確認 from pyknp import Juman text = "自然言語処理のBERTについて学習中です。" juman = Juman() result =juman.analysis(text) result = [mrph.midasi for mrph in result.mrph_list()] print(text) print(result)
以下のように形態素解析されればOKです。
入力文:自然言語処理のBERTについて学習中です。
形態素解析の結果:['自然', '言語', '処理', 'の', 'BERT', 'に', 'ついて', '学習', '中', 'です', '。']
ちなみに、Windows10+Ubuntu環境にてjumanpp-1.01.tar.xzを使ってインストールしたところ以下のようなエラーが発生して導入できませんでした。
Windows10環境の場合はUbuntuを使っていてもJUMANのリリースバージョンは2系を使わないとダメっぽいです。
Makefile:890: recipe for target 'jumanpp-resource/lang.mdl.direct' failed make[1]: *** [jumanpp-resource/lang.mdl.direct] Error 134 make[1]: Leaving directory '/mnt/c/Users/sinfo/Desktop/pytorch/pytorch_advanced-master/jumanpp-1.01' Makefile:472: recipe for target 'all-recursive' failed make: *** [all-recursive] Error 1
以上、JUMAN++の導入手順まとめでした。