こんにちは。sinyです。
独学でディープラーニングの勉強をしていますが、自然言語処理あたりに来るとちょっと行き詰まり感があり、最近勉強が停滞気味でした。
そんな折、ネットサーフィンしてると「画像処理100本ノック」や「言語処理100本ノック」なる存在を知ったので、まずは言語処理100本ノックにチャレンジしてみようと思い立ち、早速1/12から開始しました。
言語処理100本ノックとは?
言語処理100本ノックについては、以下のような内容になっているようです。
※言語処理100本ノックより引用
言語処理100本ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です。
- 実用的でワクワクするような題材を厳選しました。
- 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます。
- 研究やデータ分析の進め方,作法,スキルを修得できます。
- 問題を解くのに必要なデータ・コーパスを配布しています。
- 言語はPythonを想定していますが,他の言語にも対応しています。
私のようにディープラーニングの自然言語処理(NLP)を勉強したいという人が、まずは基礎知識をしっかり身に着けるにはよい教材なのではないかなと思います。
実際に、まず第1章(準備運動)をやり終えてみましたが、言語処理に関わるようなPythonの基礎コーディングの知識から始まり、n-gramといった言語処理における基本理論をコード化するような内容になっています。
Python基礎知識がない人だと、第1章からちょっと厳しい感じはあります。
とりあえず、この記事に言語処理100本ノックの進捗と成果を継続的にアップしていきたいと思います。
また、躓いた部分やポイントなどの情報も随時更新していく予定です。
実際に作ったコードは以下のGITHUBにもUPしてあります。
※コマンドでpython <ファイル名>で実行結果が表示できるように作りこんであります。