이 상품은 구매 후 지원 기기에서 예스24 eBook앱 설치 후 바로 이용 가능한 상품입니다.
|
[1부] 강화학습 소개▣ 1장: 강화학습 개요___강화학습의 개념 ___스키너의 강화 연구___우리 주변에서의 강화 ___머신러닝과 강화학습 ___스스로 학습하는 컴퓨터, 에이전트 강화학습 문제 ___순차적 행동 결정 문제 ___순차적 행동 결정 문제의 구성 요소 ___방대한 상태를 가진 문제에서의 강화학습 강화학습의 예시: 브레이크아웃 ___딥마인드에 의해 다시 빛을 본 아타리 게임 ___브레이크아웃의 MDP와 학습 방법 정리 ___강화학습의 개념 ___강화학습 문제 ___강화학습의 예시: 브레이크아웃 [2부] 강화학습 기초▣ 2장: 강화학습 기초 1 - MDP와 벨만 방정식MDP ___상태 ___행동 ___보상함수 ___상태 변환 확률___할인율___정책가치함수___가치함수 큐함수벨만 방정식 ___벨만 기대 방정식___벨만 최적 방정식정리___MDP___가치함수___벨만 방정식▣ 3장: 강화학습 기초 2 - 그리드월드와 다이내믹 프로그래밍다이내믹 프로그래밍과 그리드월드___순차적 행동 결정 문제___다이내믹 프로그래밍 ___격자로 이뤄진 간단한 예제: 그리드월드다이내믹 프로그래밍 1: 정책 이터레이션___강화학습 알고리즘의 흐름___정책 이터레이션___정책 평가___정책 발전 ___정책 이터레이션 코드 설명___정책 이터레이션 코드 실행다이내믹 프로그래밍 2: 가치 이터레이션___명시적인 정책과 내재적인 정책___벨만 최적 방정식과 가치 이터레이션___가치 이터레이션 코드 설명___가치 이터레이션 코드 실행다이내믹 프로그래밍의 한계와 강화학습___다이내믹 프로그래밍의 한계 ___모델 없이 학습하는 강화학습 정리 ___다이내믹 프로그래밍과 그리드월드___다이내믹 프로그래밍 1: 정책 이터레이션___다이내믹 프로그래밍 2: 가치 이터레이션___다이내믹 프로그래밍의 한계와 강화학습 ▣ 4장: 강화학습 기초 3 - 그리드월드와 큐러닝강화학습과 정책 평가 1: 몬테카를로 예측___사람의 학습 방법과 강화학습의 학습 방법___강화학습의 예측과 제어___몬테카를로 근사의 예시 ___샘플링과 몬테카를로 예측 강화학습과 정책 평가 2: 시간차 예측___시간차 예측강화학습 알고리즘 1: 살사___살사___살사 코드 설명___살사 코드의 실행 및 결과 강화학습 알고리즘 2: 큐러닝___살사의 한계___큐러닝 이론___큐러닝 코드 설명___큐러닝 코드의 실행 결과 정리___강화학습과 정책 평가 1: 몬테카를로 예측___강화학습과 정책 평가 2: 시간차 예측___강화학습 알고리즘 1: 살사___강화학습 알고리즘 2: 큐러닝[3부] 강화학습 심화▣ 5장: 강화학습 심화 1 - 그리드월드와 근사함수근사함수___몬테카를로, 살사, 큐러닝의 한계___근사함수를 통한 가치함수의 매개변수화인공신경망___인공신경망 1: 인공신경망의 개념___인공신경망 2: 노드와 활성함수 ___인공신경망 3: 딥러닝___인공신경망 4: 신경망의 학습인공신경망 라이브러리: 케라스___텐서플로 2.0과 케라스 소개___간단한 케라스 예제 딥살사 ___딥살사 이론 ___딥살사 코드 설명___딥살사의 실행 및 결과 폴리시 그레이디언트 ___정책 기반 강화학습___폴리시 그레이디언트___REINFORCE 코드 설명___REINFORCE의 실행 및 결과정리___근사함수___인공신경망 ___인공신경망 라이브러리: 케라스___딥살사___폴리시 그레이디언트▣ 6장: 강화학습 심화 2 - 카트폴알고리즘 1: DQN___카트폴 예제의 정의___DQN 이론___DQN 코드 설명___DQN 실행 및 결과알고리즘 2: 액터-크리틱___액터-크리틱 이론 소개___액터-크리틱 코드 설명___액터-크리틱 실행 및 결과___연속적 액터-크리틱 이론 소개___연속적 액터-크리틱 코드 설명___연속적 액터-크리틱 실행 및 결과정리___알고리즘 1: DQN___알고리즘 2: 액터-크리틱▣ 7장: 강화학습 심화 3 - 아타리브레이크아웃 DQN___아타리: 브레이크아웃 ___컨볼루션 신경망(CNN)이란?___브레이크아웃의 컨볼루션 신경망 ___DQN 학습 전 준비 사항 ___DQN 코드 설명 ___텐서보드 사용법___브레이크아웃 DQN 실행 및 결과 브레이크아웃 A3C ___DQN의 한계 ___A3C란? ___멀티스레딩 소개___브레이크아웃 A3C 코드 설명___브레이크아웃 A3C 실행 결과 정리___브레이크아웃 DQN___브레이크아웃 A3C▣ 참고문헌
|
김건우의 다른 상품
이웅원의 다른 상품
|
★ 이 책에서 다루는 내용 ★◎ 강화학습의 배경과 개념◎ 강화학습의 기초 이론: MDP, 벨만 방정식, 다이내믹 프로그래밍◎ 고전 강화학습 알고리즘: 몬테카를로, 살사, 큐러닝◎ 인공신경망을 이용한 강화학습 알고리즘: 딥살사, REINFORCE, DQN, 액터-크리틱, A3C◎ 강화학습 알고리즘 구현: 그리드월드, 카트폴, 아타리게임
|