DeepRacerが反抗期を迎えた件について(WIP)

はじめに

DeepRacer Preview申請が通ったので試してます。
当初順調だったのですが、不可解な現象に遭遇していてその情報の共有となります。
残念ながら、現時点で原因わかっていないのであくまで現象の共有のみとなります。

ここではDeepRacerの入門的な話はとばしてます。触る分にはそんなに難しくないです。
DeepRacerの説明はAWSの開発者ガイドをみるとよいです。ただ、preview版なので記述が実際に追いついていない部分も多少あります。

書いている人について

AWSの基本はわかっている
機械学習についてはコーセラでまなんだが実践経験はなし
Deep learning、reinforcement learning の知識はなし
pythonは読めるがたいして書けない

経緯について

モデル作成 -> 3時間トレーニング -> うまく走る -> モデルクローン -> 5時間トレーニング ->　反抗期

という流れでした。以下順に説明していきます。

作成モデルについて

アクションと報酬関数を定義すればシミュレーション可能です。

報酬関数

スピードが欲しかったのでコース上存在すれば1でそれにスピードを足した数を報酬としています

def reward_function(params):

    reward = 1e-3  # likely crashed/ close to off track    

    on_track = params['all_wheels_on_track']
    speed = params['speed']
    steering_angle = params['steering_angle']

    if on_track :
        reward = 1.0 + speed

    return float(reward)

アクション

方向は5種類(3,5,7が選択可能)、速度も3種類を選択して15アクションで設定です

その他

Hyper parameterなどは変更していません。

3時間トレーニング

何回かためして経験で２時間以上トレーニングしたほうがいい結果がでる用に見えたので3時間トレーニングしました

グラフがあまり安定していませんが、結果できたモデルは25秒程度のラップで動きました。
ちなみにこんな感じではしってました
https://www.take00.com/dr/low_stering2_training.mp4 (1.8MB)

モデルクローン

できたモデルをクローンすることで、追加のトレーニングができます。その際には報酬関数を変更することもできます(アクションは変更できない）。

５時間トレーニング

長時間トレーニングすれば10秒台も余裕なんじゃないの？とあまく考え5時間トレーニングしました

開始から２時間頃すると評価がほぼ0になっています。

反抗期

開始後すぐに右に曲がりコースアウトをする、を永遠に続けるようになります。こうなるといくらトレーニングしても評価があがらないです。
動画はこちら。 https://www.take00.com/dr/failed.mp4 (576KB)

仮説

報酬のグラフが上下しすぎていて学習できない?
モデルのcloneはしてはいけない？

調べてること

Hyper parameter

変更することによる影響がよくわからないので学習が遅くなる方向で、パラメータを変更してみましたが状況変化はないです

cloduwatchで見える報酬グラフとログのつきあわせ

これから調査予定だが、きれいに走っているのにcloudwatchの報酬の値が低いという現象が結構な頻度でおきているようにみえる。

元記事はこちら

「DeepRacerが反抗期を迎えた件について(WIP)」

この記事を書いた人

たけかわ

クラウドインテグレーション事業部で AWS や Google Cloud の構築/運用エンジニアをしています。たけかわが書いた記事

DeepRacerが反抗期を迎えた件について(WIP)

はじめに

書いている人について