JUMAN++の導入手順まとめ

スポンサードリンク



こんにちは。sinyです。

この記事ではGoogle ColaboratoryまたはWindows10のUbuntu環境JUMAN++を導入する手順についてまとめました。

JUMAN++とは?

JUMAN++とは形態素解析ライブラリーの1つです。

MeCabやJanomeなど様々な形態素解析ライブラリーがありますが、下記リンクの京都大学が作成したBERT日本語のPretrainedモデルではJUMAN++を使って学習されています。

2019年10月22日時点ではバージョン2.0.0-rc3が最新のようです。

この記事では、Google ColaboratoryまたはWindows10のUbuntu環境にJUMAN++を導入する手順について解説します。

※どちらの環境も同じ手順で導入できることを確認済みです。

 バージョン1系の古いバージョンではWindows10環境ではエラーで導入できなかったので最新版を入れたほうが無難です。

JUMAN++の導入手順

JUMAN++の導入手順は以下の手順に従えば簡単に導入できます。

wget https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc3/jumanpp-2.0.0-rc3.tar.xz
sudo apt install cmake
tar xJvf jumanpp-2.0.0-rc3.tar.xz
cd jumanpp-2.0.0-rc3/
mkdir bld
cd bld
cmake ..
sudo make install

 

 Google Colaboratory環境では実行コマンドの先頭に「!」をつけるのを忘れないようにしましょう。

make installには数分~10分程度かかる場合があります。

続いてpythonでJUMAN++を利用できるようにするためにpyknpというモジュールをインストールします。

pip install pyknp

 

最後にJumanの動作確認をします。

# JUMANの動作確認
from pyknp import Juman
text = "自然言語処理のBERTについて学習中です。"
juman = Juman()
result =juman.analysis(text)
result = [mrph.midasi for mrph in result.mrph_list()]
print(text)
print(result)

 

以下のように形態素解析されればOKです。

入力文:自然言語処理のBERTについて学習中です。

形態素解析の結果:['自然', '言語', '処理', 'の', 'BERT', 'に', 'ついて', '学習', '中', 'です', '。']

ちなみに、Windows10+Ubuntu環境にてjumanpp-1.01.tar.xzを使ってインストールしたところ以下のようなエラーが発生して導入できませんでした。
Windows10環境の場合はUbuntuを使っていてもJUMANのリリースバージョンは2系を使わないとダメっぽいです。

Makefile:890: recipe for target 'jumanpp-resource/lang.mdl.direct' failed
make[1]: *** [jumanpp-resource/lang.mdl.direct] Error 134
make[1]: Leaving directory '/mnt/c/Users/sinfo/Desktop/pytorch/pytorch_advanced-master/jumanpp-1.01'
Makefile:472: recipe for target 'all-recursive' failed
make: *** [all-recursive] Error 1 

 

以上、JUMAN++の導入手順まとめでした。

おすすめの記事