* . , % ' - 1 '/ ' 最適政策は最適な, より容易に得るこ おまけ 動的計画法である。 そこで, 近似動的計画法を 多期間の船舶スケジューリングに適用する方法 を開発した。 多くの既存研究は , 陸上輸送を想 定したものであるが, ここで開発した近似動的 計画法を用いたシミュレーション手法と組み合 (3) jp 2013-252247 a 2013.12.19 10 20 30 40 50 ムの攻略法算出プログラムを記録した記録媒体。 【請求項8】 前記最適政策算出手順は、前記制御期間におけるマルコフ決定過程問題を動的計画法で の有限マルコフ決定過程において,最適な決定的定 常政策が少なくとも 直接報酬より得られる情報も観測の中に明示的に含め つ存在し,以下のような最適 な, が つだけ存在する (0 # +. 今回 ここまでの話: マルコフ決定過程 =「状態はすべて観測できる」という前提 状態が部分的にしか観測できない場合は? 9 10. 動学的最適化(動学問題の最適化の定式化と解法) 2.1 変分法 2.2 最大値原理 2.3 動的計画法(動的離散選択モデル) 3. 強化学習は、マルコフ決定過程に従う学習主体が、行動選 択を行った結果として環境から受ける報酬値に応じて、最適な 行動方策を学習していくものである。本研究では、強化学習の 手法として、動的計画法を使用する。動的計画法は、学習主体 2. 動的離散選択モデルにおけるパラメータ推定 3.1 nfxp 3.2 npl (擬似最尤推定) 3.3 mpec型 4. 連続の状態、連続の行動を扱うの に適した方法として方策勾配法を解説し、 実際に実装して実験した。 8 9.