확장메뉴
주요메뉴


소득공제
미리보기 공유하기

단단한 강화학습

: 강화학습 기본 개념을 제대로 정리한 인공지능 교과서

I♥A.I.-27이동
리뷰 총점10.0 리뷰 1건 | 판매지수 7,578
베스트
IT 모바일 top100 9주
정가
35,000
판매가
31,500 (10% 할인)
YES포인트
배송비?
무료
신상품이 출시되면 알려드립니다. 시리즈 알림신청
서울특별시 영등포구 은행로 지역변경
  •  해외배송 가능
  •  최저가 보상
  •  분철옵션 선택 시, 영업일 기준 5일내 출고됩니다.
  •  문화비소득공제 신청가능
YES24 트윈링 분철 : 인서트라벨/스티커 택1 증정
1월 전사
1월 혜택모음
1 2 3 4 5

품목정보

품목정보
출간일 2020년 03월 31일
쪽수, 무게, 크기 664쪽 | 1290g | 188*245*33mm
ISBN13 9791190665179
ISBN10 1190665174

책소개 책소개 보이기/감추기

내용을 대폭 보강하여 20년 만에 개정된 강화학습 분야의 절대 바이블!

인공지능 분야에서 가장 활발하게 연구되고 있는 분야 중 하나인 강화학습은 복잡하고 불확실한 환경과 상호작용하는 학습자에게 주어지는 보상을 최대화하는 수치 계산적 학습 방법이다. 리처드 서튼과 앤드류 바르토는 이 책 『단단한 강화학습』을 통해 강화학습의 핵심적인 개념과 알고리즘을 분명하고 이해하기 쉽게 설명한다. 1판이 출간된 이후 새롭게 부각된 주제들을 추가하였고, 이미 다루었던 주제들도 최신 내용으로 업데이트하였다.

목차 목차 보이기/감추기

CHAPTER 01 소개 1
1.1 강화학습 2
1.2 예제 5
1.3 강화학습의 구성 요소 7
1.4 한계와 범위 9
1.5 확장된 예제: 틱택토 10
1.6 요약 16
1.7 강화학습의 초기 역사 17
참고문헌 27

PART I 표 형태의 해법
CHAPTER 02 다중 선택 31
2.1 다중 선택 문제 32
2.2 행동 가치 방법 34
2.3 10중 선택 테스트 35
2.4 점증적 구현 38
2.5 비정상 문제의 흔적 40
2.6 긍정적 초깃값 42
2.7 신뢰 상한 행동 선택 44
2.8 경사도 다중 선택 알고리즘 46
2.9 연관 탐색(맥락적 다중 선택) 50
2.10 요약 51
참고문헌 및 역사적 사실 54

CHAPTER 03 유한 마르코프 결정 과정 57
3.1 에이전트-환경 인터페이스 58
3.2 목표와 보상 64
3.3 보상과 에피소드 66
3.4 에피소딕 작업과 연속적인 작업을 위한 통합 표기법 69
3.5 정책과 가치 함수 70
3.6 최적 정책과 최적 가치 함수 76
3.7 최적성과 근사 82
3.8 요약 83
참고문헌 및 역사적 사실 84

CHAPTER 04 동적 프로그래밍 89
4.1 정책 평가(예측) 90
4.2 정책 향상 94
4.3 정책 반복 97
4.4 가치 반복 100
4.5 비동기 동적 프로그래밍 103
4.6 일반화된 정책 반복 104
4.7 동적 프로그래밍의 효율성 106
4.8 요약 107
참고문헌 및 역사적 사실 109

CHAPTER 05 몬테카를로 방법 111
5.1 몬테카를로 예측 112
5.2 몬테카를로 행동 가치 추정 118
5.3 몬테카를로 제어 119
5.4 시작 탐험 없는 몬테카를로 제어 123
5.5 중요도추출법을 통한 비활성 정책 예측 126
5.6 점증적 구현 133
5.7 비활성 몬테카를로 제어 135
5.8 할인을 고려한 중요도추출법 138
5.9 결정 단계별 중요도추출법 139
5.10 요약 141
참고문헌 및 역사적 사실 143

CHAPTER 06 시간차 학습 145
6.1 TD 예측 146
6.2 TD 예측 방법의 좋은점 150
6.3 TD(0)의 최적성 153
6.4 살사: 활성 정책 TD 제어 157
6.5 Q 학습: 비활성 정책 TD 제어 160
6.6 기댓값 살사 162
6.7 최대화 편차 및 이중 학습 163
6.8 게임, 이후상태, 그 밖의 특별한 경우들 166
6.9 요약 168
참고문헌 및 역사적 사실 169

CHAPTER 07 n단계 부트스트랩 171
7.1 n단계 TD 예측 172
7.2 n단계 살사 177
7.3 n단계 비활성 정책 학습 179
7.4 제어 변수가 있는 결정 단계별 방법 181
7.5 중요도추출법을 사용하지 않는 비활성 정책 학습: n단계 트리 보강 알고리즘 184
7.6 통합 알고리즘: n단계 Q(σ) 187
7.7 요약 189
참고문헌 및 역사적 사실 190

CHAPTER 08 표에 기반한 방법을 이용한 계획 및 학습 191
8.1 모델과 계획 192
8.2 다이나: 계획, 행동, 학습의 통합 194
8.3 모델이 틀렸을 때 199
8.4 우선순위가 있는 일괄처리 202
8.5 기댓값 갱신 대 표본 갱신 206
8.6 궤적 표본추출 210
8.7 실시간 동적 프로그래밍 213
8.8 결정 시점에서의 계획 217
8.9 경험적 탐색 219
8.10 주사위 던지기 알고리즘 221
8.11 몬테카를로 트리 탐색 223
8.12 요약 227
8.13 1부 요약: 차원 228
참고문헌 및 역사적 사실 231

PART II 근사적 해법
CHAPTER 09 근사를 이용한 활성 정책 예측 237
9.1 가치 함수 근사 238
9.2 예측 목적(VE) 239
9.3 확률론적 경사도와 준경사도 방법 241
9.4 선형 방법 246
9.5 선형 방법을 위한 특징 만들기 253
9.6 시간 간격 파라미터를 수동으로 선택하기 268
9.7 비선형 함수 근사: 인공 신경망 269
9.8 최소 제곱 TD 275
9.9 메모리 기반 함수 근사 278
9.10 커널 기반 함수 근사 280
9.11 활성 정책 학습에 대한 보다 깊은 관찰: 관심과 강조 282
9.12 요약 285
참고문헌 및 역사적 사실 286

CHAPTER 10 근사를 적용한 활성 정책 제어 293
10.1 에피소딕 준경사도 제어 294
10.2 준경사도 n단계 살사 297
10.3 평균 보상: 연속적 작업을 위한 새로운 문제 설정 300
10.4 할인된 설정에 대한 반대 304
10.5 미분 준경사도 n단계 살사 307
10.6 요약 308
참고문헌 및 역사적 사실 308

CHAPTER 11 근사를 활용한 비활성 정책 방법 311
11.1 준경사도 방법 312
11.2 비활성 정책 발산의 예제 315
11.3 치명적인 삼위일체 320
11.4 선형 가치 함수 기하 구조 322
11.5 벨만 오차에서의 경사도 강하 327
11.6 벨만 오차는 학습할 수 없다 332
11.7 경사도 TD 방법 337
11.8 강한 TD 방법 341
11.9 분산 줄이기 343
11.10 요약 345
참고문헌 및 역사적 사실 346

CHAPTER 12 적격 흔적 349
12.1 λ 이득 350
12.2 TD(λ) 355
12.3 중단된 n단계 λ 이득 방법 359
12.4 다시 갱신하기: 온라인 λ 이득 알고리즘 361
12.5 진정한 온라인 TD(λ) 363
12.6 몬테카를로 학습에서의 더치 흔적 366
12.7 살사(λ) 368
12.8 가변 λ 및 γ 372
12.9 제어 변수가 있는 비활성 정책 흔적 374
12.10 왓킨스의 Q(λ)에서 트리 보강(λ)로 378
12.11 흔적을 이용한 안정적인 비활성 정책 방법 381
12.12 구현 이슈 383
12.13 결론 384
참고문헌 및 역사적 사실 386

CHAPTER 13 정책 경사도 방법 389
13.1 정책 근사 및 정책 근사의 장점 390
13.2 정책 경사도 정리 393
13.3 REINFORCE: 몬테카를로 정책 경사도 395
13.4 기준값이 있는 REINFORCE 399
13.5 행동자-비평자 방법 401
13.6 연속적인 문제에 대한 정책 경사도 403
13.7 연속적 행동을 위한 정책 파라미터화 406
13.8 요약 408
참고문헌 및 역사적 사실 409

PART III 더 깊이 들여다보기
CHAPTER 14 심리학 413
14.1 예측과 제어 414
14.2 고전적 조건화 416
14.3 도구적 조건화 433
14.4 지연된 강화 438
14.5 인지 지도 440
14.6 습관적 행동과 목표 지향적 행동 442
14.7 요약 447
참고문헌 및 역사적 사실 449

CHAPTER 15 신경과학 457
15.1 신경과학 기본 458
15.2 보상 신호, 강화 신호, 가치, 예측 오차 460
15.3 보상 예측 오차 가설 463
15.4 도파민 465
15.5 보상 예측 오차 가설에 대한 실험적 근거 469
15.6 TD 오차/도파민 유사성 473
15.7 신경 행동자-비평자 479
15.8 행동자와 비평자 학습 규칙 482
15.9 쾌락주의 뉴런 488
15.10 집단적 강화학습 490
15.11 뇌에서의 모델 기반 방법 494
15.12 중독 496
15.13 요약 497
참고문헌 및 역사적 사실 501

CHAPTER 16 적용 및 사례 연구 511
16.1 TD-가몬 511
16.2 사무엘의 체커 선수 518
16.3 왓슨의 이중 내기 522
16.4 메모리 제어 최적화 526
16.5 인간 수준의 비디오 게임 실력 531
16.6 바둑 게임에 통달하다 539
16.7 개인화된 웹 서비스 550
16.8 열 상승 554

CHAPTER 17 프론티어 559
17.1 일반적인 가치 함수 및 보조 작업 559
17.2 옵션을 통한 시간적 추상화 562
17.3 관측과 상태 565
17.4 보상 신호의 설계 572
17.5 남아 있는 이슈들 576
17.6 인공지능의 미래 580
참고문헌 및 역사적 사실 584

참고문헌 588
찾아보기 626

저자 소개 (3명)

책 속으로 책속으로 보이기/감추기

이 책이 처음 출간된 1998년 이후로 20년 동안 인공지능 기술은 엄청나게 발전했다. 강화학습을 비롯한 기계학습 기술의 발전은 인공지능의 발전에 큰 동력을 제공해 주었다. 기계학습 기술의 발전에는 컴퓨터의 계산 능력이 눈부시게 향상된 것이 한몫을 했지만, 새로운 이론과 알고리즘의 개발 또한 중요한 역할을 했다. 이러한 변화가 있었음에도 이 책의 2판 작업이 오랜 시간 지체되어 2012년이 되어서야 작업을 시작할 수 있었다. 2판의 목적은 이 책을 처음 출간했을 때와 다르지 않다. 즉, 관련된 모든 분야의 독자들이 강화학습의 핵심 개념과 알고리즘을 쉽고 명료하게 이해할 수 있도록 하는 것이다.
--- 「머리말」 중에서

다음과 같은 학습 문제를 생각해 보자. k개의 서로 다른 옵션이나 행동 중 하나를 반복적으로 선택해야 한다. 매 선택 후에는 숫자로 된 보상이 주어진다. 이때 보상을 나타내는 값은 선택된 행동에 따라 결정되는 정상 확률 분포(stationary probability distribution, 시간에 따라 변하지 않는 확률 분포_옮긴이)로부터 얻어진다. 선택의 목적은 일정 기간, 예를 들면 행동을 1,000번 선택하는 기간 또는 1,000개의 시간 간격(time step) 동안 주어지는 보상의 총량에 대한 기댓값을 최대화하는 것이다.
--- p.32

또 다른 합리적인 답변은 상태 A를 한 번 마주쳤고 그에 따른 이득이 0이어서 V(A)의 값을 0으로 추정했다는 사실을 단순히 관찰하는 것이다. 이 답변은 일괄 몬테카를로 방법이 주는 답변이다. 이것이 훈련 데이터에 대한 최소 제곱 오차를 도출하는 답변이라는 점에 주목하라. 사실, 이 답변은 훈련 데이터에 대해 0의 오차를 도출한다.
--- p.155

과다 적합은 제한된 훈련 데이터에 기반하여 많은 자유도를 갖고 함수를 조정하는 모든 함수 근사 방법에서 문제가 된다. 제한된 훈련 데이터에 구속받지 않는 온라인 강화학습에서는 이러한 문제가 덜하지만, 효과적으로 일반화하는 것은 여전히 중요한 이슈다. 과다 적합은 일반적으로 ANN이 갖는 문제이지만, 아주 많은 수의 가중치를 갖는 경향성 때문에 심층 ANN의 경우에는 더 심각한 문제가 된다.
--- p.272

레스콜라-바그너 모델 같은 시행 단계 모델과는 반대로, TD 모델은 실시간real-time 모델이다. 레스콜라-바그너 모델에서 단일 단계 t는 전체 조건화 시도를 나타낸다. TD 모델은 조건화 시도가 발생하는 시간 도중에 어떤 일이 일어나는지 또는 조건화 시도 사이에 무엇이 발생하는지에 관한 자세한 사항들에 신경 쓰지 않는다. 각각의 조건화 시도 과정 중에 동물은 특정한 시각에 특정한 기간 동안 발생하는 다양한 자극을 경험할 수도 있다.
--- p.423

출판사 리뷰 출판사 리뷰 보이기/감추기

내용을 대폭 보강하여 20년 만에 개정된 강화학습 분야의 절대 바이블!
강화학습의 핵심 개념과 최신 알고리즘을 쉽고 명료하게 이해한다!


인공지능 분야에서 가장 활발하게 연구되고 있는 분야 중 하나인 강화학습은 복잡하고 불확실한 환경과 상호작용하는 학습자에게 주어지는 보상을 최대화하는 수치 계산적 학습 방법이다. 리처드 서튼과 앤드류 바르토는 이 책 『단단한 강화학습』을 통해 강화학습의 핵심적인 개념과 알고리즘을 분명하고 이해하기 쉽게 설명한다. 1판이 출간된 이후 새롭게 부각된 주제들을 추가하였고, 이미 다루었던 주제들도 최신 내용으로 업데이트하였다.

1판과 마찬가지로 2판에서도 핵심적인 온라인 학습 알고리즘을 집중적으로 다루었는데, 보다 많은 수학적 내용을 별도의 글 상자 안에 추가하였다. 이 책은 크게 다음과 같은 세 부분으로 나누어진다.

■ 첫 번째 부분에서는 정확한 해법을 찾을 수 있는 표 기반 방법만을 적용하여 가능한 한 많은 강화학습 방법을 다루었다. 첫 번째 부분에 제시되는 많은 알고리즘은 2판에서 새롭게 추가된 것인데, 여기에는 UCB, 기댓값 살사, 이중 학습이 포함된다.
■ 두 번째 부분에서는 인공 신경망이나 푸리에 기반과 같은 주제를 다루는 절이 새롭게 추가되면서 첫 번째 부분에서 제시된 방법들이 함수 근사 기반의 방법으로 확장되었고, 비활성 정책 학습과 정책 경사도 방법에 대한 내용이 더욱 풍부해졌다.
■ 세 번째 부분에서는 강화학습이 심리학 및 신경 과학과 어떤 관계인지를 다루는 새로운 장들이 추가되었고, 알파고와 알파고 제로, 아타리 게임, IBM 왓슨의 내기 전략과 같은 사례 연구를 다루는 장이 업데이트되었다. 마지막 장에서는 강화학습이 미래 사회에 미칠 영향에 대해 논의하였다.

회원리뷰 (1건) 리뷰 총점10.0

혜택 및 유의사항?
[리뷰] 단단한 강화학습 내용 평점5점   편집/디자인 평점5점 t******6 | 2020.05.04 | 추천8 | 댓글0 리뷰제목
인공지능은, 힌튼교수의 수많은 연구들과 흔히 이미지넷 챌린지라고 불리는 ILSVRC에서 딥러닝이라고 불리는 인공신경망 모델이 압도적인 성능을 보이며 많은 사람들에게 충격을 주었으며,한국에서는 알파고로 더 유명한, 구글에 소속된 딥마인드의 딥러닝 기반의 강화학습 방법으로 아타리게임을 정복하는 것으로 일반 대중들에게도 널리 알려지며 활발히 연구가 진행되고 있다.하지만,;
리뷰제목

인공지능은, 힌튼교수의 수많은 연구들과 흔히 이미지넷 챌린지라고 불리는 ILSVRC에서 딥러닝이라고 불리는 인공신경망 모델이 압도적인 성능을 보이며 많은 사람들에게 충격을 주었으며,

한국에서는 알파고로 더 유명한, 구글에 소속된 딥마인드의 딥러닝 기반의 강화학습 방법으로 아타리게임을 정복하는 것으로 일반 대중들에게도 널리 알려지며 활발히 연구가 진행되고 있다.

하지만, 딥러닝 이전의 기계학습방법론들이 그러하듯, 주로 지도학습을 중심으로 연구가 진행되어 왔고 최근들어서는 비지도학습이 주가 되어 기술이 발전되고 있다.

앞서 말한것 처럼, 강화학습을 이용한 딥마인드의 기술은 충분히 많은 관심을 받았지만, 어디까지나 딥러닝 관련한 기술에 모든 조명이 쏟아지며 강화학습 자체에 대한 관심은, 이전에 비해서는 높아졌지만, 지도학습과 비지도학습에 비해서는 한참 부족하며 관련 자료들도 상대적으로 적은것이 현실이다. 특히 한국에서는 알파고를 직접적으로 겪으며 강화학습에 대한 관심이 다른 나라들에 비해서도 높아질것이라고 예상하였지만, 해외에 비해서도 강화학습의 인기가 높지 않다.

물론, 강화학습에 대해 다루는 책이나 영상들이 없는것은 아니지만, 대체로 주식투자나 게임등의 응용분야에 한정한 경우가 많았으며, 역시나 강화학습 본질보다는 딥러닝 모델을 어떻게 구성할것인지에 대한 설명들이 주를 이었다. 이러한 응용분야의 중요성이야 당연히 중요하지만, 더 많은 연구를 진행하고 공부할수록 근본적인 이론이 더욱 필요하게 되게 된다.

이에 따라 대부분의 사람들이 강화학습의 바이블이라고 불리는 서튼 교수의 [Reinforcement Learning: An Introduction]를 읽으려고 도전하지만 역시 이만한 두꺼운 원서를 읽는다는것은 큰 모험이고 많은 시간과 노력을 필요로 하기에 쉽게 완독까지 이어지지는 못했다. 그래서 이번 제이펍에서의 [단단한 강화학습]은 강화학습을 공부하고 싶어하는 사람들에게 정말 큰 도움이 됬을것이라고 생각한다. 물론 기존 영어로 단어들을 배워왔던 사람들에게는 어색하지만, 번역의 퀄리티 또한 굉장히 높고 구성자체도 깔끔하게 되있어서 세세한 부분까지 많이 신경을 쓴것이 눈에 보였다.

[단단한 강화학습]이 다른 강화학습의 책들에 비해서 뛰어난 점은,

1. 탄탄한 이론적 배경

2. 적절한 최적화 및 확률론의 식

3. 심리학등과의 연결고리

에 있다고 생각한다.

MAB라고 불리우는 멀티암드밴딧(2장 다중선택)부터 시작하여, 다이나믹 프로그래밍(4장 동적 프로그래밍) 그리고 몬테카를로법(5장 몬테카를로방법)을 충분히 설명을 하고 넘어가기 때문에, 이후에 나오는 내용들이 당연히 잘 이해될뿐만 아니라, 더 나아가 알파고를 주제로한 다른 책들에서는 암기에 가까운 방법으로 넘어갔던 부분들의 원리를 이해하는데 도움이 될것이라고 생각한다.

또한 수식이 필요로한 만큼만 나와있고 대부분 말로써 충분히 풀어서 설명해주는다는것이 큰 장점이다. 원서 자체가 2판인것도 크지만, 강화학습의 대가답게 쉬운 설명들로 많은 사람들이 이해할 수 있도록 상세하지만 쉽게 알려주는곳에서 내공을 엿볼수 있었다. 물론 대학 1,2 학년정도의 수학지식은 필요로 하지만, 최적화나 확률론을 전공하지 않았다하더라도 책의 내용을 이해하는데에는 문제가 없다고 생각한다.

마지막으로, 개인적으로 이 책과 다른 책들과 비교하여 가장 큰 장점이라고 생각하는것은 부록에서 설명하는 심리학과 신경과학과의 연결고리이다. 강화학습 자체가 행동심리학에서 발전되어 왔음에도 불구하고 많은 다른 책들에서는 이러한 부분들을 많이 놓치고 넘어가는데, 분명 당장은 도움이 안될지언정 강화학습을 제대로 연구하고 공부하고 싶은 사람들에게는 그 무엇보다도 많은 영감을 줄 수 있는 부분이라고 생각한다. 혹여나 이 부분을 흥미있게 읽었다면, 같은 제이펍에서 나온 [브레인 이미테이션]도 읽어보는것을 추천한다. 강화학습과는 연관이 크지 않지만 인공신경망을 뇌과학과 연결지어 설명해놓은 정말 훌륭한 책이라고 생각한다.


제이펍의 이전 [단단한 머신러닝]도 훌륭한 책이라고 생각하고 재미있게 읽었지만, 이번 [단단한 강화학습]은 감히 비숍의 [패턴 인식과 머신 러닝]이나 굿펠로의 [심층 학습]에 버금갈정도로 많은 사람들에게 읽히고 도움이 될것이라고 생각한다.

댓글 0 8명이 이 리뷰를 추천합니다. 공감 8

한줄평 (2건) 한줄평 총점 10.0

혜택 및 유의사항 ?
구매 평점5점
기초지식을 쌓기 좋은 것 같습니다. 내용도 재밌어요
이 한줄평이 도움이 되었나요? 공감 0
외*인 | 2021.01.10
구매 평점5점
강화학습 이해가 잘 되는 책이에요.
1명이 이 한줄평을 추천합니다. 공감 1
n****1 | 2020.04.28
스프링분철 서비스를 선택하세요.
수량감소 수량증가 31,500
  •  다운받은 받은 쿠폰은 결제 페이지에서 적용해 주세요.
  •  분철옵션 선택 시, 영업일 기준 5일내 출고됩니다.
1   31,500

스프링분철 신청 가능

뒤로 앞으로 맨위로 aniAlarm