こんにちは。sinyです。
本記事ではマサチューセッツ工科大学(MIT)が公開しているMIT Deep Learningの中からDeep Learning Basicsの内容を実際に試してみました。
Basicsと言うだけあって、その内容は例のごとくMNISTデータセットを用いた分類機の作成、学習となっていますが、シンプルかつアウトプットが他のチュートリアルではあまり見ない内容になっていて面白かったので日本語化してみました。
これからディープラーニングを学習する方にもお勧めです。
マサチューセッツ工科大学(MIT)とは?
まず最初にマサチューセッツ工科大学(MIT)についてですが、世界大学ランキング(2019年)で7年連続1位に君臨している名誉ある大学です。
そのMITがディープラーニングに関する基礎講座を行っており、2020年度の講義が1月から始まっています。
その内容はYutubeで動画として公開されています。
また、講座で公開しているGITHUBのコードも公開されています。
MIT Deep LearningのBASICチュートリアルはどんな内容か?
いくつかチュートリアルがありますが、最初のチュートリアルであるDeep Learning BasicsはMNIST(手書き数字)のデータセットを使って学習を行い、数画像に書かれている数字(0~9)が何かを予測するというものです。
よくあるディープラーニング入門のチュートリアルでは、単純に手書き数字の画像を学習モデルのインプットとして与え予測結果(0~9)を出力するという単純な構成になっていますが、MITが公開しているチュートリアルでは、以下のインプット動画を学習モデルに与えるとリアルタイムでアウトプットの動画(予測結果)が生成される内容になっています。
【インプット】
手書き数字が動的に変化する動画
【アウトプット】
インプットの動画から1フレームずつ画像に切り出し書かれている数字を予測し、予測結果を付与して再度動画に変換
※下記動画は結果を見やすくするためにMitが公開してる動画(予測結果)より速度を落としたバージョンにしています。
なかなか面白いですね。
チュートリアルの内容はgithubにjupyterNotebook形式で公開されていますが、当然MIT公開のものなのですべて英語です。
また、動画を生成する部分の説明はほとんど記載されていません。(コードは書いてあります)
そこで、動画を生成する部分のコードを解析しながら、勉強がてらチュートリアルの内容を日本語化してみました。
日本語化したチュートリアルは下記gitリポジトリにUPしてありますので、興味のある方はぜひ試してみてください。
個人的には動画から1フレームずつ切り出した画像を学習モデルに与え、予測結果の情報を付与したものを改めて動画に変換するという部分が新鮮だったので大変面白かったです。