Q Learning Q learning 在做S2 action 分析时候, Q learn 会先假设action,但最终计算后不一定实施该actionSarsa 确实直接选择(S2,A2) Q Learning 过于激进,,选择最优,,看Maze 例子 就能很清楚的看到两个算法的实际不同。。人工智能技术文章list