アイデミーが提供するAIプログラミング学習サービス「Aidemy」は、新コース「スクラッチ実装して理論を体得する強化学習コース」の提供を、9月28日に開始した。
「スクラッチ実装して理論を体得する強化学習コース」では、強化学習アルゴリズムをNumPyのみでスクラッチ実装しながら強化学習のアルゴリズム理論を会得することを目標としており、最終的には簡単な迷路を強化学習を使って解いていく。
同講座は「Aidemy」の他の講座とは異なり、アルゴリズム理論そのものを把握することに主眼を置いているため、大学数学レベルの確率(条件付き確率)の知識や、高校理系数学(数学III)の知識が前提となっている。
具体的な学習内容としては、強化学習におけるもっとも単純な「N腕バンディット問題」でよい報酬を得るための方策を探索しながら解説し、強化学習の基礎的な知識と、基本的なアルゴリズムを理解・実装する。
その後、時間ステップやエピソードの概念を追加し、マルコフ決定過程の構成を理解する。さらに、状態価値関数、行動価値関数による収益を定義した上で、最適な方策を選択する実装を行うとともに、最適な方策をとった時の価値関数、行動価値関数をベルマン方程式で定義していく。
最終的には、与えられたベルマン方程式を実際に解き、試行錯誤による経験によって解くための手法を解説し、SarsaとQ-learningについて学ぶ。
税込の受講価格は3980円。
この記事は参考になりましたか?
この記事をシェア