スポンサードリンク



こんにちは。sinyです。

この記事ではGoogle ColaboratoryまたはWindows10のUbuntu環境JUMAN++を導入する手順についてまとめました。

JUMAN++とは?

JUMAN++とは形態素解析ライブラリーの1つです。

MeCabやJanomeなど様々な形態素解析ライブラリーがありますが、下記リンクの京都大学が作成したBERT日本語のPretrainedモデルではJUMAN++を使って学習されています。

2019年10月22日時点ではバージョン2.0.0-rc3が最新のようです。

この記事では、Google ColaboratoryまたはWindows10のUbuntu環境にJUMAN++を導入する手順について解説します。

※どちらの環境も同じ手順で導入できることを確認済みです。

 バージョン1系の古いバージョンではWindows10環境ではエラーで導入できなかったので最新版を入れたほうが無難です。

JUMAN++の導入手順

JUMAN++の導入手順は以下の手順に従えば簡単に導入できます。

 

 Google Colaboratory環境では実行コマンドの先頭に「!」をつけるのを忘れないようにしましょう。

make installには数分~10分程度かかる場合があります。

続いてpythonでJUMAN++を利用できるようにするためにpyknpというモジュールをインストールします。

 

最後にJumanの動作確認をします。

 

以下のように形態素解析されればOKです。

入力文:自然言語処理のBERTについて学習中です。

形態素解析の結果:['自然', '言語', '処理', 'の', 'BERT', 'に', 'ついて', '学習', '中', 'です', '。']

ちなみに、Windows10+Ubuntu環境にてjumanpp-1.01.tar.xzを使ってインストールしたところ以下のようなエラーが発生して導入できませんでした。
Windows10環境の場合はUbuntuを使っていてもJUMANのリリースバージョンは2系を使わないとダメっぽいです。

 

以上、JUMAN++の導入手順まとめでした。

おすすめの記事