이미지 검색을 사용해 보세요
검색창 이전화면 이전화면
최근 검색어
인기 검색어

소득공제
강화학습 기본과 PyTorch
2024 세종도서 학술부문 선정도서
추상목
자유아카데미 2023.11.30.
베스트
공학계열 top100 3주
가격
22,000
22,000
YES포인트?
0원
5만원 이상 구매 시 2천원 추가 적립
결제혜택
카드/간편결제 혜택을 확인하세요
  • 2024년 세종도서 학술 부문 선정도서

이미 소장하고 있다면 판매해 보세요.

  •  국내배송만 가능
  •  문화비소득공제 신청가능

강화학습 시리즈

이 상품의 태그

상세 이미지

책소개

목차

제1장 그림으로 이해하는 강화학습
PART I 강화학습 구성 요소
PART II 환경(env) 예제
PART III 에이전트(agent) 예제

제2장 벨만 방정식(Bellman equation)
PART I 보상과 평균 보상
PART II 할인율(discount rate)
PART III 정책 π
PART IV 정책 π로 행동할 때, 상태 s에서 평균 보상
PART V 정책 π로 행동할 때, 상태 가치(state value)
PART VI 정책 π로 행동을 선택할 때, 상태-행동 가치
PART VII 벨만 기대 방정식(Bellman expectation equation)
PART VIII 벨만 최적 방정식(Bellman optimality equation)

제3장 강화학습에 사용하는 기본 코드
PART I 환경 코드
PART II 정책 코드
PART III 환경-정책 상호작용 코드

제4장 동적 계획법(Dynamic programming)
PART I 벨만 기대 방정식의 해를 코딩으로 구하기
PART II 최적의 정책을 코딩으로 구하기: 정책 반복(policy iteration)
PART III 최적의 정책을 코딩으로 구하기: 가치 반복(value iteration)

제5장 몬테카를로(Monte Carlo, MC)
PART I 에피소드(episode)
PART II 처음 방문(first-visit) MC와 모든 방문(every-visit) MC
PART III 중요도 표본추출 MC(importance sampling MC)
부록 125

제6장 SARSA와 Q-learning
PART I SARSA 개요
PART II Q-learning 개요
PART III SARSA 업데이트 그림부터 코딩까지의 과정
PART IV Q-learning 업데이트 그림부터 코딩까지의 과정

제7장 깊은 Q-네트워크(Deep Q-Network, DQN)
PART I 환경 CartPole-v0 소개
PART II 학습데이터, 신경망 구조와 손실함수 소개
PART III 그림으로 이해하는 DQN(Deep Q-Network, DQN)
PART IV DQN 의사 코드
PART V DQN 코드 설명
PART VI DQN 전체 코드

제8장 Double DQN

제9장 Dueling DQN
PART I Advantage A(s,a)의 평균을 빼는 이유

제10장 Max-PER(Prioritized Experience Replay)

PART I 정책 신경망의 첫 번째 업데이트(Max-PER-DQN)
PART II 정책 신경망의 두 번째 업데이트(Max-PER-DQN)
PART III 정책 신경망의 세 번째 업데이트(Max-PER-DQN)
PART IV Max-PER-DQN 전체 코드
PART V Max-PER-DoubleDQN 전체 코드
PART VI Max-PER-DuelingDQN 전체 코드

제11장 SumTree-PER(Prioritized Experience Replay)
PART I 정책 신경망의 첫 번째 업데이트(SumTree-PER-DQN)
PART II 정책 신경망의 두 번째 업데이트(SumTree-PER-DQN)
PART III 정책 신경망의 세 번째 업데이트(SumTree-PER-DQN)
PART IV SumTree-PER-DQN 전체 코드
PART V SumTree-PER-DoubleDQN 전체 코드
PART VI SumTree-PER-DuelingDQN 전체 코드

저자 소개1

서울대에서 이학사, 이학석사, 이학박사를 취득한 후, 울산대학교 수학과에 부임하여 현재까지 교수로 재임하면서 파이썬 프로그래밍, 수리 통계학, 수리인공지능(빅테이터 분석, 순방향신경망, 언어 처리에 사용하는 순환신경망, 이미지 처리에 사용하는 합성곱 신경망) 강의를 하고 있다.

추상목의 다른 상품

품목정보

발행일
2023년 11월 30일
쪽수, 무게, 크기
264쪽 | 188*257*20mm
ISBN13
9791158085599

리뷰/한줄평1

리뷰

첫번째 리뷰어가 되어주세요.

한줄평

10.0 한줄평 총점

클린봇이 부적절한 글을 감지 중입니다.

설정
22,000
1 22,000