이미지 검색을 사용해 보세요
검색창 이전화면 이전화면
최근 검색어
인기 검색어

소득공제
의사결정 알고리듬
줄리아로 이해하는 에이전트와 강화학습
베스트
OS/데이터베이스 top100 7주
가격
55,000
10 49,500
YES포인트?
2,750원 (5%)
5만원 이상 구매 시 2천원 추가 적립
결제혜택
카드/간편결제 혜택을 확인하세요

이미 소장하고 있다면 판매해 보세요.

  •  국내배송만 가능
  •  문화비소득공제 신청가능

에이콘 데이터 과학 시리즈

이 상품의 태그

상세 이미지

책소개

목차

1장. 서론

1.1 의사결정
1.2 응용
1.2.1 항공기 충돌 회피
1.2.2 자율주행
1.2.3 유방암 검진
1.2.4 금융 소비 및 포트폴리오 배분
1.2.5 분산 산불 감시
1.2.6 화성 과학 탐사
1.3 방법
1.3.1 명시적 프로그래밍
1.3.2 지도 학습
1.3.3 최적화
1.3.4 계획
1.3.5 강화학습
1.4 연혁
1.4.1 경제학
1.4.2 심리학
1.4.3 신경과학
1.4.4 컴퓨터 과학
1.4.5 공학
1.4.6 수학
1.4.7 운용 과학
1.5 사회적 영향
1.6 개요
1.6.1 확률적 추론
1.6.2 순차적 문제
1.6.3 모델 불확실성
1.6.4 상태 불확실성
1.6.5 다중 에이전트 시스템

1부. 확률적 추론

2장. 표현식


2.1 신뢰와 확률의 정도
2.2 확률 분포
2.2.1 이산 확률 분포
2.2.2 연속 확률 분포
2.3 결합 분포
2.3.1 이산 결합 분포
2.3.2 연속 결합 분포
2.4 조건부 분포
2.4.1 이산 조건부 모델
2.4.2 조건부 가우스 모델
2.4.3 선형 가우스 모델
2.4.4 조건부 선형 가우스 모델
2.4.5 시그모이드 모델
2.4.6 결정론적 변수
2.5 베이즈 네트워크
2.6 조건부 독립
2.7 요약
2.8 연습 문제

3장. 추론

3.1 베이즈 네트워크에서의 추론
3.2 나이브 베이즈 모델에서의 추론
3.3 합-곱 변수 제거
3.4 신뢰 전파
3.5 계산 복잡도
3.6 직접 샘플링
3.7 우도 가중 샘플링
3.8 깁스 샘플링
3.9 가우시안 모델의 추론
3.10 요약
3.11 연습 문제

4장. 매개 변수 학습

4.1 최대 우도 매개 변수 학습
4.1.1 범주형 분포에 대한 최대 우도 추정
4.1.2 가우스 분포에 대한 최대 우도 추정
4.1.3 베이지안 네트워크에 대한 최대 우도 추정
4.2 베이지안 매개 변수 학습
4.2.1 이진 분포를 위한 베이지안 학습
4.2.2 범주형 분포에서 베이지안 학습
4.3 비매개 변수적 학습
4.4 누락된 데이터로 학습
4.4.1 결측치 처리
4.4.2 기댓값 최대화
4.5 요약
4.6 연습 문제

5장. 구조 학습

5.1 베이지안 네트워크 스코어링
5.2 방향성 그래프 검색
5.3 마르코프 등가 부류
5.4 부분 방향성 그래프 검색
5.5 요약
5.6 연습 문제

6장. 단순 결정

6.1 합리적 선호에 대한 제약
6.2 효용 함수
6.3 효용 도출
6.4 최대 기대 효용 원리
6.5 의사결정 네트워크
6.6 정보의 가치
6.7 비합리성
6.8 요약
6.9 연습 문제

2부. 순차 문제

7장. 정확한 해 방법


7.1 MDP
7.2 정책 평가
7.3 가치 함수 정책
7.4 정책 반복
7.5 가치 반복
7.6 비동기 가치 반복
7.7 선형 프로그램 공식화
7.8 2차 보상 선형 시스템
7.9 요약
7.10 연습 문제

8장. 근사 가치 함수

8.1 매개 변수적 표현
8.2 최근접 이웃
8.3 커널 평활화
8.4 선형 보간
8.5 심플렉스 보간
8.6 선형 회귀
8.7 신경망 회귀
8.8 요약
8.9 연습 문제

9장. 온라인 계획

9.1 후향적 기간 계획
9.2 롤아웃을 활용한 예측
9.3 순방향 검색
9.4 분기 및 제한
9.5 희소 샘플링
9.6 몬테 카를로 트리 검색
9.7 휴리스틱 검색
9.8 레이블된 휴리스틱 검색
9.9 개방 루프 계획
9.9.1 결정론적 모델 예측 제어
9.9.2 안정적 모델 예측 제어
9.9.3 다중 예상 모델 예측 제어
9.10 요약
9.11 연습 문제

10장. 정책 검색

10.1 근사 정책 평가
10.2 지역 검색
10.3 유전자 알고리듬
10.4 교차 엔트로피 방법
10.5 진화 전략
10.6 등방성 진화 전략
10.7 요약
10.8 연습 문제

11장. 정책 그래디언트 추정

11.1 유한 차분
11.2 회귀 그래디언트
11.3 우도 비율
11.4 리워드 투 고
11.5 기준선 차감
11.6 요약
11.7 연습 문제

12장. 정책 그래디언트 최적화

12.1 그래디언트 상승 갱신
12.2 제한된 그래디언트 갱신
12.3 자연 그래디언트 갱신
12.4 신뢰 영역 갱신
12.5 클램프된 대리 목적 함수
12.6 요약
12.7 연습 문제

13장. 액터-크리틱 기법

13.1 액터-크리틱
13.2 일반화된 어드밴티지 추정
13.3 결정론적 정책 그래디언트
13.4 몬테 카를로 트리 검색을 사용한 액터-크리틱
13.5 요약
13.6 연습 문제

14장. 정책 검증

14.1 성능 척도 평가
14.2 희귀 사건 시뮬레이션
14.3 견고성 분석
14.4 거래 분석
14.5 적대적 분석
14.6 요약
14.7 연습 문제

3부. 모델 불확실성

15장. 탐색과 활용


15.1 강도 문제
15.2 베이지안 모델 추정
15.3 무방향 탐색 전략
15.4 방향 탐색 전략
15.5 최적 탐색 전략
15.6 여러 상태로 탐색
15.7 요약
15.8 연습 문제

16장. 모델 기반 기법

16.1 최대 우도 모델
16.2 갱신 체계
16.2.1 전체 갱신
16.2.2 무작위 갱신
16.2.3 우선 갱신
16.3 탐색
16.4 베이지안 기법
16.5 베이즈-적응-마르코프 결정 프로세스
16.6 사후 샘플링
16.7 요약
16.8 연습 문제

17장. 비모델 기법

17.1 평균 증분 추정
17.2 Q-러닝
17.3 Sarsa
17.4 자격 추적
17.5 보상 형성
17.6 행동 가치 함수 근사
17.7 경험 재생
17.8 요약
17.9 연습 문제

18장. 모방 학습

18.1 행동 복제
18.2 데이터셋 집계
18.3 확률적 혼합 반복 학습
18.4 최대 마진 역강화학습
18.5 최대 엔트로피 역강화학습
18.6 생성적 적대 모방 학습
18.7 요약
18.8 연습 문제

4부. 상태 불확실성

19장. 신뢰


19.1 신뢰 초기화
19.2 이산 상태 필터
19.3 칼만 필터
19.4 확장 칼만 필터
19.5 무향 칼만 필터
19.6 입자 필터
19.7 입자 주입
19.8 요약
19.9 연습 문제

20장. 정확한 신뢰-상태 계획

20.1 신뢰-상태 마르코프 결정 프로세스
20.2 조건부 계획
20.3 알파 벡터
20.4 가지치기
20.5 가치 반복
20.6 선형 정책
20.7 요약
20.8 연습 문제

21장. 오프라인 신뢰-상태 계획

21.1 완전히 관찰 가능한 가치 근사
21.2 빠른 정보 범위
21.3 빠른 하한
21.4 점 기반 가치 반복
21.5 무작위 점 기반 가치 반복
21.6 톱니 상한
21.7 점 선택
21.8 톱니 휴리스틱 검색
21.9 삼각 분할 함수
21.10 요약
21.11 연습 문제

22장. 온라인 신뢰-상태 계획

22.1 롤아웃을 통한 예측
22.2 순방향 검색
22.3 분기 및 제한
22.4 희소 샘플링
22.5 몬테 카를로 트리 검색
22.6 결정된 희소 트리 검색
22.7 갭 휴리스틱 검색
22.8 요약
22.9 연습 문제

23장. 컨트롤러 추상화

23.1 컨트롤러
23.2 정책 반복
23.3 비선형 프로그래밍
23.4 그래디언트 상승
23.5 요약
23.6 연습 문제

5부. 다중 에이전트 시스템

24장. 다중 에이전트 추론


24.1 단순 게임
24.2 대응 모델
24.2.1 최선의 대응
24.2.2 소프트맥스 대응
24.3 우월 전략 균형
24.4 내시 균형
24.5 상관 균형
24.6 반복 최상 대응
24.7 계층적 소프트맥스
24.8 가상 플레이
24.9 그래디언트 상승
24.10 요약
24.11 연습 문제

25장. 순차적 문제

25.1 마르코프 게임
25.2 대응 모델
25.2.1 최상 대응
25.2.2 소프트맥스 대응
25.3 내시 균형
25.4 가상 플레이
25.5 그래디언트 상승
25.6 내시 Q-러닝
25.7 요약
25.8 연습 문제

26장. 상태 불확실성

26.1 부분 관찰 가능 마르코프 게임
26.2 정책 평가
26.2.1 조건부 계획 평가
26.2.2 확률적 컨트롤러 평가
26.3 내시 균형
26.4 동적 프로그래밍
26.5 요약
26.6 연습 문제

27장. 협업 에이전트

27.1 부분적으로 관찰 가능한 분산형 마르코프 결정 프로세스
27.2 하위 부류
27.3 동적 프로그래밍
27.4 반복 최상 응답
27.5 휴리스틱 검색
27.6 비선형 계획법
27.7 요약
27.8 연습 문제

부록

부록 A. 수학적 개념

A.1 측도 공간
A.2 확률 공간
A.3 측도 공간
A.4 노름 벡터 공간
A.5 양의 정부호
A.6 볼록성
A.7 정보 내용
A.8 엔트로피
A.9 교차 엔트로피
A.10 상대 엔트로피
A.11 그래디언트 상승
A.12 테일러 확장
A.13 몬테 카를로 추정
A.14 중요도 샘플링
A.15 수축 매핑
A.16 그래프

부록 B. 확률 분포

부록 C. 계산 복잡도


C.1 점근적 표기법
C.2 시간 복잡도 부류
C.3 공간 복잡도 부류
C.4 결정 가능성

부록 D. 신경 표현

D.1 신경망
D.2 피드포워드 네트워크
D.3 매개 변수 정규화
D.4 컨볼루션 신경망
D.5 순환 네트워크
D.6 오토인코더 네트워크
D.7 적대적 네트워크

부록 E. 검색 알고리듬

E.1 검색 문제
E.2 검색 그래프
E.3 순방향 검색
E.4 분기 및 제한
E.5 동적 프로그래밍
E.6 휴리스틱 검색

부록 F. 문제

F.1 육각 세계 문제
F.2 2048
F.3 카트-폴
F.4 산악 차량
F.5 단순 레귤레이터
F.6 항공기 충돌 회피
F.7 우는 아기
F.8 기계 교체
F.9 캐치볼
F.10 죄수의 딜레마
F.11 가위-바위-보
F.12 여행자의 딜레마
F.13 포식자-먹이 육각 세계
F.14 다중 보호자 우는 아기
F.15 협업 포식자-먹이 육각 세계

부록 G. 줄리아

G.1 유형
G.1.1 부울
G.1.2 숫자
G.1.3 문자열
G.1.4 기호
G.1.5 벡터
G.1.6 행렬
G.1.7 튜플
G.1.8 명명된 튜플
G.1.9 딕셔너리
G.1.10 복합 유형
G.1.11 추상 유형
G.1.12 모수적 유형
G.2 함수
G.2.1 명명된 함수
G.2.2 익명 함수
G.2.3 호출 가능 객체
G.2.4 선택적 인수
G.2.5 키워드 인수
G.2.6 디스패치
G.2.7 스플래팅
G.3 제어 흐름
G.3.1 조건부 평가
G.3.2 루프
G.3.3 반복자
G.4 패키지
G.4.1 그래프.jl
G.4.2 분포.jl
G.4.3 JuMP.jl
G.5 편의 함수

참고 문헌
찾아보기

저자 소개4

마이켈 J. 코첸더퍼

관심작가 알림신청
 

Mykel J. Kochenderfer

스탠퍼드 대학교의 부교수이며, 스탠퍼드 인텔리전트 시스템 연구실(SISL, Stanford Intelligent Systems Laboratory)의 임원이다. 『Decision Making Under Uncertainty』(MIT Press, 2015)의 저자이기도 하다.

마이켈 J. 코첸더퍼의 다른 상품

팀 A. 윌러

관심작가 알림신청
 

Tim A. Wheeler

베이 에어리어(Bay Area)에서 자율성, 제어, 의사결정 시스템에 관심을 갖고 소프트웨어 엔지니어로 일한다. 코첸더퍼와 윌러는 『실용 최적화 알고리즘』(에이콘, 2020)의 공동 저자다.

팀 A. 윌러의 다른 상품

카일 H. 레이

관심작가 알림신청
 

Kyle H. Wray

실제 세계 로봇에 대한 의사결정 시스템을 설계하고 구현하는 연구원이다.
서울과학종합대학원 AI첨단대학원 주임교수와 카이스트 겸직교수 그리고 한국금융연수원 겸임교수를 맡고 있으며, 인공지능연구원(AIRI)의 부사장으로도 재직 중이다. 카이스트(KAIST) 전산학과 계산 이론 연구실에서 학사 석사를 취득했고, 스위스플랭클린 대학에서 경영학 박사 학위를 받았다. 현재 기업을 대상으로 인공지능 기술 컨설팅과 교육을 제공하며, 성공적인 AI 기술 도입을 통한 디지털 전환(DT, Digital Transformation) 컨설팅도 진행하고 있다. 공학을 전공한 금융 전문가로, 세계 최초의 핸드헬드-PC(Handheld-PC) 개발에 참여해 한글 윈도우 C
서울과학종합대학원 AI첨단대학원 주임교수와 카이스트 겸직교수 그리고 한국금융연수원 겸임교수를 맡고 있으며, 인공지능연구원(AIRI)의 부사장으로도 재직 중이다. 카이스트(KAIST) 전산학과 계산 이론 연구실에서 학사 석사를 취득했고, 스위스플랭클린 대학에서 경영학 박사 학위를 받았다. 현재 기업을 대상으로 인공지능 기술 컨설팅과 교육을 제공하며, 성공적인 AI 기술 도입을 통한 디지털 전환(DT, Digital Transformation) 컨설팅도 진행하고 있다.

공학을 전공한 금융 전문가로, 세계 최초의 핸드헬드-PC(Handheld-PC) 개발에 참여해 한글 윈도우 CE 1.0과 2.0을 미국 마이크로소프트 본사에서 공동 개발했으며, 1999년에는 모든 보험사의 보험료를 실시간으로 비교 분석하는 서비스를 제공하는 핀테크 전문회사 ㈜보험넷을 창업했고, 이후 삼성생명을 비롯한 생명보험사 및 손해보험사에서 CMO(마케팅 총괄 상무), CSMO(영업 및 마케팅 총괄 전무) 등을 역임하면서 혁신적인 상품과 서비스를 개발, 총괄했다. 인공지능연구원에서 머신러닝 기반의 금융 솔루션 개발과 관련된 다양한 활동을 하고, 금융위원회, 금융정보분석원 등에 다양한 자문을 하고 있다. 2021년 혁신금융부문 대통령 표창을 수상한 바 있다.

저서로는 『비트코인과 블록체인, 탐욕이 삼켜버린 기술』(에이콘, 2018)과 대한민국학술원이 2019 교육부 우수학술도서로 선정한 『블록체인 해설서』(에이콘, 2019)와 2022년 문체부의 세종도서로 선정된 『돈의 정체』(에이콘, 2019) 그리고 한국금융연수원의 핀테크 전문 교재인 『헬로, 핀테크!』(공저, 2020), 『헬로핀테크-인공지능편』(2021) 등이 있다.

이병욱의 다른 상품

품목정보

발행일
2024년 07월 31일
쪽수, 무게, 크기
826쪽 | 205*227*40mm
ISBN13
9791161758596

출판사 리뷰

◈ 이 책에서 다루는 내용 ◈

◆ 운영 연구, 컴퓨터 과학, 제어 알고리듬 연결
◆ 복잡하고 급변하는 분야의 기본 사항
◆ 모든 알고리듬에 대해 학생이 직접 실행할 수 있는 줄리아(Julia) 코드 제공

◈ 이 책의 구성 ◈

자동화된 의사결정 시스템 또는 의사결정 지원 시스템은 항공기 충돌 회피부터 유방암 스크리닝까지 다양한 응용 분야에서 사용되며, 다양한 불확실성 요소를 고려해 신중하게 여러 목표의 균형을 잡아야 한다. 이 교재는 불확실성하에서의 의사결정을 위한 알고리듬을 광범위하게 소개하고, 기본적인 수학적 문제 정의와 이를 해결하는 알고리듬에 대해 다룬다.

◈ 지은이의 말 ◈

불확실성하에서 의사결정을 위한 다양한 알고리듬에 대해 포괄적으로 소개하는 책이다. 의사결정과 관련된 다양한 주제를 다루며, 이에 대한 기본적인 수학적 문제 정의와 이를 해결하는 알고리듬을 살펴본다. 그림, 예시, 연습 문제를 제공해 다양한 접근 방법의 직관을 전달한다.

고급 레벨의 학부생, 대학원생, 전문가들을 대상으로 한다. 수학적 지식이 필요하며, 다변수 미적분, 선형 대수, 확률 개념을 이미 안다고 가정한다. 일부 복습 자료는 부록에서 제공된다. 수학, 통계, 컴퓨터 과학, 항공우주 공학, 전기 공학, 운영 연구 등의 학문 분야에 특히 유용할 수 있다.

이 교재의 핵심은 알고리듬이 모두 줄리아 프로그래밍 언어로 구현됐다는 것이다. 우리는 이 언어가 인간이 이해하기 쉬운 형태로 알고리듬을 명시하는 데 이상적이라고 판단했다. 알고리듬 구현의 설계 우선순위는 효율성보다는 해석 가능성이었다. 예를 들어, 산업 응용에서는 대체적인 구현이 유용할 수 있다.

이 책과 관련된 코드를 무료로 사용할 수 있으며, 코드의 출처가 인용되는 조건 하에 사용이 허가된다.

◈ 옮긴이의 말 ◈

‘불확실(uncertain)’한 환경에서 최대한 ‘옳은’ 결정을 내리기 위한 다양한 방법론을 소개하는 책이다. 많은 의사결정은 불확실한 상황에서 이뤄진다. 이 책은 계산 관점에서 이러한 문제를 바라보고 이 문제를 해결하는 다양한 의사결정 모델의 이론을 살펴본다. 에이전트가 행동을 취하고 그로 인해 환경에 영향을 미치는 상호 작용을 여러 가지 방법론에 의한 강화학습 프레임워크로 설명한다. 초기 신뢰 분포로부터 이를 갱신해나가는 기본 과정은 물론, 전체적인 강화학습의 프레임워크를 제대로 설명해주는 책을 찾고 있었다면 이 교재는 대부분의 의문에 대해 답변을 해줄 것이다. 특히 항공기 충돌과 우는 아기 문제 등의 몇 가지 예제는 반복적으로 등장하면서, 각각 다른 기법에 적용돼 각 전략의 장단점이 어떻게 되는지 쉽게 비교하면서 살펴볼 수 있다. 이를 통해 보다 효율적이면서도 심도 있는 이해를 할 수 있게 배려했다. 모든 예제는 효율적인 언어인 줄리아(Julia)를 사용해 제시하고 있으며 풍부한 예제와 알고리듬을 제공해 각 단원에서 설명하는 개념의 이해를 돕는다.

각 장의 끝에는 연습 문제가 있으며, 이를 통해 각 장에서 설명한 기본 개념을 다시금 다질 수 있도록 배려했다. 또한 풍부한 예제를 통해 특정 전략을 다면으로 이해할 수 있도록 했다.

추천평

그 놀라운 명확성, 범위, 깊이로 인해 이 책은 배울 때와 가르칠 때 모두 훌륭한 책이다. 여러 현대 기법의 문을 열면서도 통계적 및 수학적 이론에 견고하게 뿌리를 두고 있어 참으로 특출나다. - 토마스 J. 사전트(Thomas J. Sargent) (뉴욕 대학교 경제학과, 스탠포드 대학교 후버 연구소 선임 연구원)
다루는 주제들이 좋다. 고전적 접근 방식과 최근 동향을 훌륭하게 조합했다. 강화 학습을 가르치는 데 주요 교재가 될 것이다. - 마이클 L. 리트만(Michael L. Littman) (브라운 대학교 컴퓨터과학과 교수)

리뷰/한줄평0

리뷰

첫번째 리뷰어가 되어주세요.

한줄평

첫번째 한줄평을 남겨주세요.

49,500
1 49,500