이미 소장하고 있다면 판매해 보세요.
제1장 그림으로 이해하는 강화학습
PART I 강화학습 구성 요소 PART II 환경(env) 예제 PART III 에이전트(agent) 예제 제2장 벨만 방정식(Bellman equation) PART I 보상과 평균 보상 PART II 할인율(discount rate) PART III 정책 π PART IV 정책 π로 행동할 때, 상태 s에서 평균 보상 PART V 정책 π로 행동할 때, 상태 가치(state value) PART VI 정책 π로 행동을 선택할 때, 상태-행동 가치 PART VII 벨만 기대 방정식(Bellman expectation equation) PART VIII 벨만 최적 방정식(Bellman optimality equation) 제3장 강화학습에 사용하는 기본 코드 PART I 환경 코드 PART II 정책 코드 PART III 환경-정책 상호작용 코드 제4장 동적 계획법(Dynamic programming) PART I 벨만 기대 방정식의 해를 코딩으로 구하기 PART II 최적의 정책을 코딩으로 구하기: 정책 반복(policy iteration) PART III 최적의 정책을 코딩으로 구하기: 가치 반복(value iteration) 제5장 몬테카를로(Monte Carlo, MC) PART I 에피소드(episode) PART II 처음 방문(first-visit) MC와 모든 방문(every-visit) MC PART III 중요도 표본추출 MC(importance sampling MC) 부록 125 제6장 SARSA와 Q-learning PART I SARSA 개요 PART II Q-learning 개요 PART III SARSA 업데이트 그림부터 코딩까지의 과정 PART IV Q-learning 업데이트 그림부터 코딩까지의 과정 제7장 깊은 Q-네트워크(Deep Q-Network, DQN) PART I 환경 CartPole-v0 소개 PART II 학습데이터, 신경망 구조와 손실함수 소개 PART III 그림으로 이해하는 DQN(Deep Q-Network, DQN) PART IV DQN 의사 코드 PART V DQN 코드 설명 PART VI DQN 전체 코드 제8장 Double DQN 제9장 Dueling DQN PART I Advantage A(s,a)의 평균을 빼는 이유 제10장 Max-PER(Prioritized Experience Replay) PART I 정책 신경망의 첫 번째 업데이트(Max-PER-DQN) PART II 정책 신경망의 두 번째 업데이트(Max-PER-DQN) PART III 정책 신경망의 세 번째 업데이트(Max-PER-DQN) PART IV Max-PER-DQN 전체 코드 PART V Max-PER-DoubleDQN 전체 코드 PART VI Max-PER-DuelingDQN 전체 코드 제11장 SumTree-PER(Prioritized Experience Replay) PART I 정책 신경망의 첫 번째 업데이트(SumTree-PER-DQN) PART II 정책 신경망의 두 번째 업데이트(SumTree-PER-DQN) PART III 정책 신경망의 세 번째 업데이트(SumTree-PER-DQN) PART IV SumTree-PER-DQN 전체 코드 PART V SumTree-PER-DoubleDQN 전체 코드 PART VI SumTree-PER-DuelingDQN 전체 코드 |
추상목의 다른 상품