[マインクラフトで深層強化学習ハンズオン]振り返り

[マインクラフトで深層強化学習ハンズオン]に行ってきたのでそれの振り返り

マインクラフトで深層強化学習 ハンズオン(改善版) (2019/01/25 18:30〜)
## 概要 Deep Learning Labとは、Chainerを提供するPreferred Networksと、Azure クラウドを提供するMicrosoft による、深層学習に関する「最新技術をビジネスで活用している事例」や「最新の技術動向」を共有することで、深層学習技術者の裾野を広げ、実社会での利用拡大を図...

当日

品川駅にて急流に逆らう鮭の気分になりつつMSへ到着。

とりあえずインスタンスを起動させ、IPを確認しつつ待機。

azure vm start --resource-group malmo --name ${USER}-vm
az vm list-ip-addresses --output table --name ${USER}-vm

スライド

ハンズオン部分

事前準備の段階ではマインクラフトの表示+実行?の部分まで上手くいっていたのだが
今回のNotebookで実施したところ、表示まではできても実行ができなかった
→何回かVMやAzure Notebookを再起動/再接続させたところできるようにはなったが、原因がよくわからずすっきりしない。

また、最終的に実行させてみることはできたが、所詮用意されていたPythonファイルを実行しただけなので
何をどうやってChainerで深層強化学習をしていたのか?ということはハンズオンの時間内ではさっぱりわからず。

※理想をいうと、前半で実行、後半でそれの説明(座学?)みたいになっていると「理解」できたのかもしれない。

振り返り

ということで、train_DQN.pyの中身を読み解いてみることにする。

いわゆるChainerのサンプルに近い形なのだろうか?

ChainerRLのサンプルを読んでみる(examples/ale/train_dqn_ale.py編) - Qiita
ChainerRLは、ドキュメントが未整備な部分が多い。例えば、(を見ても、サンプルコードに乗っているAPI...

make_env、parse_arch、parse_agentあたりはなんとなくわかる。
ただ、リワードはどこで設定しているのだろうか?
→Q値が最大になればいいのでリワードそのものは設定しないのか?
※それでも各行動/結果に対する評価値は必要だと思うのだが。

あとはmarloモジュールの中身がよくわからない
make_envの中で使用。
たぶんマインクラフト上で実行する動作の初期設定をやっているんだと思うが。
※ライブラリそのものはこちらの模様

crowdAI/marLo
Multi Agent Reinforcement Learning using MalmÖ. Contribute to crowdAI/marLo development by creating an account on GitHub.

読んでみてとりあえずわかったのは、一回Chainerを使って自分で書いてみないと細かいことはよくわからない
ってことかな。
Chainerを使って何かやってみようかな という気持ちにはなったので効果はあったのかもしれないが、
このハンズオン的には「Chainerで何かができるようになる」ってことではなかったのかもしれない。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

Bitnami