확장메뉴
주요메뉴


소득공제
미리보기 공유하기

실전 예측 분석 모델링 Applied Predictive Modeling

: 예측 모델 과정을 여행하는 데이터 분석가를 위한 안내서

[ 2018년 대한민국학술원 우수학술도서 선정도서, 양장 ] ACORN ADVANCED 시리즈이동
첫번째 리뷰어가 되어주세요 | 판매지수 396
베스트
IT 모바일 top100 3주
정가
50,000
판매가
45,000 (10% 할인)
YES포인트
eBook이 출간되면 알려드립니다. eBook 출간 알림 신청
시원한 여름을 위한 7월의 선물 - 동물 이중 유리컵/문학 아크릴 화병/썸머 보냉백/이육사 여름담요
박해선 저자의 머신러닝/딥러닝 패스
7월 얼리리더 주목신간 : FIND YOUR WAVE 북서핑 배지 증정
[단독]『혼자 공부하는 파이썬』 개정판 출간
내일은 개발자! 코딩테스트 대비 도서전
YES24 트윈링 분철 : 인서트라벨/스티커 택1 증정
7월 전사
쇼핑혜택
1 2 3 4 5

품목정보

품목정보
출간일 2017년 12월 20일
쪽수, 무게, 크기 676쪽 | 1108g | 155*235*32mm
ISBN13 9791161750903
ISBN10 1161750908

이 상품의 태그

책소개 책소개 보이기/감추기

데이터 전처리, 데이터 분할 등의 분석에 있어서 필수적으로 필요한 단계부터 모델 튜닝의 기초에 이르기까지, 전반적인 예측 모델 과정을 다룬다. 다양한 일반적인 회귀 및 분류 기법 대해 직관적으로 설명하고, 이에 대한 실제 데이터 문제를 예제로 들어 이해를 돕는다. 이를 통해 클래스 불균형, 예측 변수 선택, 모델 성능 원인 파악 등 실제 모델을 적용할 때 종종 맞닥뜨리게 되는 문제들에 대해서도 살펴볼 수 있다. 또한 각 예제에 대한 상세한 R 코드가 같이 실려 있어서 책의 내용을 실제로 실행해 보면서 학습할 수 있다. 이 책은 학부 및 석사과정의 예측 모델 수업용 교과서부터 실제 현업에서의 참고자료까지 예측 모델을 활용하고자 하는 여러 사람들이 다양하게 활용할 수 있을 것이다.

목차 목차 보이기/감추기

1장. 시작하며

__1.1 예측 대 해석
__1.2 예측 모델의 주 요소
__1.3 용어
__1.4 예제 데이터 세트와 일반적 데이터 시나리오
____음악 장르
____장학금 신청
____간 손상
____투과성
____화학 물질 제조 절차
____부정 재무 재표
____데이터 세트 비교
__1.5 개요
__1.6 표기법


2장. 예측 모델링 과정 훑어보기

__2.1 사례 연구: 연비 예측
__2.2 테마
____데이터 분할
____예측 데이터
____성능 추정
____여러 모델을 평가하기
____모델 선정
__2.3 요약


3장. 데이터 전처리

__3.1 사례 연구: 하이콘텐츠 스크리닝에서의 세포 분할
__3.2 개별 예측 변수에 대한 데이터 변형
____중심화와 척도화
____왜도 해결을 위한 변형
__3.3 여러 예측 변수 변형
____이상치 제거를 위한 데이터 변형
____데이터 축소와 특징 추출
__3.4 결측치 처리
__3.5 예측 변수 제거
____예측 변수 간의 상관관계3.6 예측 변수 추가
__3.7 예측 변수 구간화
__3.8 컴퓨팅
____변환
____필터링
____가변수 생성
____연습 문제


4장. 과적합과 모델 튜닝

__4.1 과적합 문제
__4.2 모델 튜닝
__4.3 데이터 분할
__4.4 리샘플링 기법
____K -겹 교차 검증
____일반화 교차 검증
____반복적 훈련/테스트 세트 분할
____부트스트랩
__4.5 사례 연구: 신용 평가
__4.6 최종 튜닝 변수 선정
__4.7 추천하는 데이터 분할 방식
__4.8 모델 선택
__4.9 컴퓨팅
____데이터 분할
____리샘플링
____R로 하는 기본적 모델 구축
____튜닝 변수 판단
____모델 간 비교
____연습 문제


5장. 회귀 모델 성능 측정

__5.1 성능의 정량적 측정
__5.2 분산-편향성 트레이드 오프
__5.3 컴퓨팅


6장. 선형 회귀와 이웃 모델들

__6.1 사례 연구 구조적 정량 활성 관계 모델링
__6.2 선형 회귀
____용해도 데이터에 대한 선형 회귀
__6.3 부분 최소 제곱
____용해도 데이터에 대한 PCR과 PLSR
____PLS의 알고리즘 분산
__6.4 벌점 모델
__6.5 컴퓨팅
____일반 선형 회귀
____부분 최소 제곱
____벌점 회귀 모델
____연습 문제


7장 비선형 회귀 모델

__7.1 신경망 모델
__7.2 다변량 가법 회귀 스플라인 모델
__7.3 서포트 벡터 머신
__7.4 K -최근접 이웃
__7.5 컴퓨팅
____신경망 모델
____다변량 가법 회귀 스플라인서포트 벡터 머신
____K-최근접 이웃
____연습 문제


8장. 회귀 트리와 규칙 기반 모델

__8.1 기본 회귀 트리
__8.2 회귀 모델 트리
__8.3 규칙 기반 모델
__8.4 배깅 트리
__8.5 랜덤 포레스트
__8.6 부스팅
__8.7 큐비스트
__8.8 컴퓨팅
____단일 트리
____모델 트리
____배깅 트리
____랜덤 포레스트
____부스티드 트리
____큐비스트
____연습 문제


9장. 용해도 모델 정리


10장. 사례 연구: 콘크리트 혼합물의 압축 강도

__10.1 모델 구축 전략
__10.2 모델 성능
__10.3 압축 강도 최적화
__10.4 컴퓨팅


11장. 분류 모델에서의 성능 측정

__11.1 클래스 분류
____잘 보정된 확률
____클래스 확률 나타내기
____중간 지대
__11.2 분류 예측 평가
____이종 문제
____비정확도 기반 기준
__11.3 클래스 확률 평가
____시스템 동작 특성(ROC) 곡선
____리프트 도표
__11.4 컴퓨팅
____민감도와 특이도
____혼동 행렬
____시스템 동작 특성 곡선
____리프트 도표
____확률 보정


12장. 판별 분석 및 기타 선형 분류 모델

__12.1 사례 연구: 성공적인 지원금 신청 예측
__12.2 로지스틱 회귀
__12.3 선형 판별 분석
__12.4 부분 최소 제곱 판별 분석
__12.5 벌점 모델
__12.6 최근접 축소 중심 모델
__12.7 컴퓨팅
____로지스틱 회귀
____선형 판별 분석
____부분 최소 제곱 판별 분석
____벌점 모델
____최근접 축소 중심법
____연습 문제


13장. 비선형 분류 모델

__13.1 비선형 판별 분석
____이차 판별 분석과 정규 판별 분석
____혼합 판별 분석
__13.2 신경망
__13.3 유연 판별 분석
__13.4 서포트 벡터 머신
__13.5 K -최근접 이웃 모델
__13.6 나이브 베이즈 모델
__13.7 컴퓨팅
____비선형 판별 분석
____신경망
____유연 판별 분석
____서포트 벡터 머신
____K-최근접 이웃 분석
____나이브 베이즈 분석
____연습 문제


14장. 분류 트리와 규칙 기반 모델

__14.1 기본 분류 트리
__14.2 규칙 기반 모델
____C4.5 규칙
____PART
__14.3 배깅 트리
__14.4 랜덤 포레스트
__14.5 부스팅
____에이다부스트
____확률 경사 부스팅
__14.6 C5.0
____분류 트리
____분류 규칙
____부스팅
____모델의 다른 측면
____보조금 데이터
__14.7 범주형 변수의 두 가지 변조 방식 비교
__14.8 컴퓨팅
____분류 트리
____규칙배깅 트리
____랜덤 포레스트
____부스티드 트리
____연습 문제


15장. 보조금 지원 모델 살펴보기


16장. 심각한 클래스 불균형 처리하기

__16.1 사례 연구: 이동식 주택 보험 가입 예측
__16.2 클래스 불균형의 영향
__16.3 모델 튜닝
__16.4 대체 한도
__16.5 사전 확률 보정
__16.6 다른 경우별 가중치
__16.7 샘플링 기법
__16.8 비용 민감 훈련
__16.9 컴퓨팅
____대체 한도
____샘플링 기법
____비용 민감 훈련
____연습 문제


17장. 사례 연구: 작업 스케줄링

__17.1 데이터 분할과 모델 전략
__17.2 결과
__17.3 컴퓨팅


18장. 예측 변수 중요도 측정하기

__18.1 수치형 결과
__18.2 범주형 결과
__18.3 다른 방법
__18.4 컴퓨팅
____수치형 결과
____변수형 결과
____모델 기반 중요도
____연습 문제


19장. 특징 선택 입문

__19.1 비정보성 예측 변수 사용의 결과
__19.2 변수 수를 줄이는 방식
__19.3 래퍼 방법
____전진, 후진, 단계적 선택법
____담금질 기법
____유전 알고리즘
__19.4 필터 방법
__19.5 선택 편향
__19.6 사례 연구: 인지 장애 예측
__19.7 컴퓨팅
____전진, 후진, 단계적 선택법
____반복 특징 제거
____필터 방법
____연습 문제


20장. 모델 성능에 영향을 미치는 요인

__20.1 삼종 오류
__20.2 결과의 측정 오차
__20.3 예측 변수에서의 측정 오차
____사례 연구: 원치 않는 부작용 예측
__20.4 연속형 결과를 이산화하기
__20.5 언제 모델의 예측값을 믿어야 할까?
__20.6 샘플이 클 때의 영향
__20.7 컴퓨팅
____연습 문제


부록 A. 여러 모델에 대한 요약


부록 B. R에 대한 소개

__1B.1 시작 및 도움말
__1B.2 패키지
__1B.3 객체 생성
__1B.4 데이터 유형과 기본 구조
__1B.5 2차원 데이터 세트로 작업하기
__1B.6 객체와 클래스
__1B.7 R 함수
__1B.8 =의 3개 얼굴
__1B.9 AppliedPredictiveModeling 패키지
__B.10 caret 패키지
__B.11 이 책에서 사용된 소프트웨어


부록 C. 유용한 웹 사이트

____소프트웨어
____대회
____데이터 세트
1장. 시작하며

__1.1 예측 대 해석
__1.2 예측 모델의 주 요소
__1.3 용어
__1.4 예제 데이터 세트와 일반적 데이터 시나리오
____음악 장르
____장학금 신청
____간 손상
____투과성
____화학 물질 제조 절차
____부정 재무 재표
____데이터 세트 비교
__1.5 개요
__1.6 표기법


2장. 예측 모델링 과정 훑어보기

__2.1 사례 연구: 연비 예측
__2.2 테마
____데이터 분할
____예측 데이터
____성능 추정
____여러 모델을 평가하기
____모델 선정
__2.3 요약


3장. 데이터 전처리

__3.1 사례 연구: 하이콘텐츠 스크리닝에서의 세포 분할
__3.2 개별 예측 변수에 대한 데이터 변형
____중심화와 척도화
____왜도 해결을 위한 변형
__3.3 여러 예측 변수 변형
____이상치 제거를 위한 데이터 변형
____데이터 축소와 특징 추출
__3.4 결측치 처리
__3.5 예측 변수 제거
____예측 변수 간의 상관관계3.6 예측 변수 추가
__3.7 예측 변수 구간화
__3.8 컴퓨팅
____변환
____필터링
____가변수 생성
____연습 문제


4장. 과적합과 모델 튜닝

__4.1 과적합 문제
__4.2 모델 튜닝
__4.3 데이터 분할
__4.4 리샘플링 기법
____K -겹 교차 검증
____일반화 교차 검증
____반복적 훈련/테스트 세트 분할
____부트스트랩
__4.5 사례 연구: 신용 평가
__4.6 최종 튜닝 변수 선정
__4.7 추천하는 데이터 분할 방식
__4.8 모델 선택
__4.9 컴퓨팅
____데이터 분할
____리샘플링
____R로 하는 기본적 모델 구축
____튜닝 변수 판단
____모델 간 비교
____연습 문제


5장. 회귀 모델 성능 측정

__5.1 성능의 정량적 측정
__5.2 분산-편향성 트레이드 오프
__5.3 컴퓨팅


6장. 선형 회귀와 이웃 모델들

__6.1 사례 연구 구조적 정량 활성 관계 모델링
__6.2 선형 회귀
____용해도 데이터에 대한 선형 회귀
__6.3 부분 최소 제곱
____용해도 데이터에 대한 PCR과 PLSR
____PLS의 알고리즘 분산
__6.4 벌점 모델
__6.5 컴퓨팅
____일반 선형 회귀
____부분 최소 제곱
____벌점 회귀 모델
____연습 문제


7장 비선형 회귀 모델

__7.1 신경망 모델
__7.2 다변량 가법 회귀 스플라인 모델
__7.3 서포트 벡터 머신
__7.4 K -최근접 이웃
__7.5 컴퓨팅
____신경망 모델
____다변량 가법 회귀 스플라인서포트 벡터 머신
____K-최근접 이웃
____연습 문제


8장. 회귀 트리와 규칙 기반 모델

__8.1 기본 회귀 트리
__8.2 회귀 모델 트리
__8.3 규칙 기반 모델
__8.4 배깅 트리
__8.5 랜덤 포레스트
__8.6 부스팅
__8.7 큐비스트
__8.8 컴퓨팅
____단일 트리
____모델 트리
____배깅 트리
____랜덤 포레스트
____부스티드 트리
____큐비스트
____연습 문제


9장. 용해도 모델 정리


10장. 사례 연구: 콘크리트 혼합물의 압축 강도

__10.1 모델 구축 전략
__10.2 모델 성능
__10.3 압축 강도 최적화
__10.4 컴퓨팅


11장. 분류 모델에서의 성능 측정

__11.1 클래스 분류
____잘 보정된 확률
____클래스 확률 나타내기
____중간 지대
__11.2 분류 예측 평가
____이종 문제
____비정확도 기반 기준
__11.3 클래스 확률 평가
____시스템 동작 특성(ROC) 곡선
____리프트 도표
__11.4 컴퓨팅
____민감도와 특이도
____혼동 행렬
____시스템 동작 특성 곡선
____리프트 도표
____확률 보정


12장. 판별 분석 및 기타 선형 분류 모델

__12.1 사례 연구: 성공적인 지원금 신청 예측
__12.2 로지스틱 회귀
__12.3 선형 판별 분석
__12.4 부분 최소 제곱 판별 분석
__12.5 벌점 모델
__12.6 최근접 축소 중심 모델
__12.7 컴퓨팅
____로지스틱 회귀
____선형 판별 분석
____부분 최소 제곱 판별 분석
____벌점 모델
____최근접 축소 중심법
____연습 문제


13장. 비선형 분류 모델

__13.1 비선형 판별 분석
____이차 판별 분석과 정규 판별 분석
____혼합 판별 분석
__13.2 신경망
__13.3 유연 판별 분석
__13.4 서포트 벡터 머신
__13.5 K -최근접 이웃 모델
__13.6 나이브 베이즈 모델
__13.7 컴퓨팅
____비선형 판별 분석
____신경망
____유연 판별 분석
____서포트 벡터 머신
____K-최근접 이웃 분석
____나이브 베이즈 분석
____연습 문제


14장. 분류 트리와 규칙 기반 모델

__14.1 기본 분류 트리
__14.2 규칙 기반 모델
____C4.5 규칙
____PART
__14.3 배깅 트리
__14.4 랜덤 포레스트
__14.5 부스팅
____에이다부스트
____확률 경사 부스팅
__14.6 C5.0
____분류 트리
____분류 규칙
____부스팅
____모델의 다른 측면
____보조금 데이터
__14.7 범주형 변수의 두 가지 변조 방식 비교
__14.8 컴퓨팅
____분류 트리
____규칙배깅 트리
____랜덤 포레스트
____부스티드 트리
____연습 문제


15장. 보조금 지원 모델 살펴보기


16장. 심각한 클래스 불균형 처리하기

__16.1 사례 연구: 이동식 주택 보험 가입 예측
__16.2 클래스 불균형의 영향
__16.3 모델 튜닝
__16.4 대체 한도
__16.5 사전 확률 보정
__16.6 다른 경우별 가중치
__16.7 샘플링 기법
__16.8 비용 민감 훈련
__16.9 컴퓨팅
____대체 한도
____샘플링 기법
____비용 민감 훈련
____연습 문제


17장. 사례 연구: 작업 스케줄링

__17.1 데이터 분할과 모델 전략
__17.2 결과
__17.3 컴퓨팅


18장. 예측 변수 중요도 측정하기

__18.1 수치형 결과
__18.2 범주형 결과
__18.3 다른 방법
__18.4 컴퓨팅
____수치형 결과
____변수형 결과
____모델 기반 중요도
____연습 문제


19장. 특징 선택 입문

__19.1 비정보성 예측 변수 사용의 결과
__19.2 변수 수를 줄이는 방식
__19.3 래퍼 방법
____전진, 후진, 단계적 선택법
____담금질 기법
____유전 알고리즘
__19.4 필터 방법
__19.5 선택 편향
__19.6 사례 연구: 인지 장애 예측
__19.7 컴퓨팅
____전진, 후진, 단계적 선택법
____반복 특징 제거
____필터 방법
____연습 문제


20장. 모델 성능에 영향을 미치는 요인

__20.1 삼종 오류
__20.2 결과의 측정 오차
__20.3 예측 변수에서의 측정 오차
____사례 연구: 원치 않는 부작용 예측
__20.4 연속형 결과를 이산화하기
__20.5 언제 모델의 예측값을 믿어야 할까?
__20.6 샘플이 클 때의 영향
__20.7 컴퓨팅
____연습 문제


부록 A. 여러 모델에 대한 요약


부록 B. R에 대한 소개

__1B.1 시작 및 도움말
__1B.2 패키지
__1B.3 객체 생성
__1B.4 데이터 유형과 기본 구조
__1B.5 2차원 데이터 세트로 작업하기
__1B.6 객체와 클래스
__1B.7 R 함수
__1B.8 =의 3개 얼굴
__1B.9 AppliedPredictiveModeling 패키지
__B.10 caret 패키지
__B.11 이 책에서 사용된 소프트웨어


부록 C. 유용한 웹 사이트

____소프트웨어
____대회
____데이터 세트
1장. 시작하며

__1.1 예측 대 해석
__1.2 예측 모델의 주 요소
__1.3 용어
__1.4 예제 데이터 세트와 일반적 데이터 시나리오
____음악 장르
____장학금 신청
____간 손상
____투과성
____화학 물질 제조 절차
____부정 재무 재표
____데이터 세트 비교
__1.5 개요
__1.6 표기법


2장. 예측 모델링 과정 훑어보기

__2.1 사례 연구: 연비 예측
__2.2 테마
____데이터 분할
____예측 데이터
____성능 추정
____여러 모델을 평가하기
____모델 선정
__2.3 요약


3장. 데이터 전처리

__3.1 사례 연구: 하이콘텐츠 스크리닝에서의 세포 분할
__3.2 개별 예측 변수에 대한 데이터 변형
____중심화와 척도화
____왜도 해결을 위한 변형
__3.3 여러 예측 변수 변형
____이상치 제거를 위한 데이터 변형
____데이터 축소와 특징 추출
__3.4 결측치 처리
__3.5 예측 변수 제거
____예측 변수 간의 상관관계3.6 예측 변수 추가
__3.7 예측 변수 구간화
__3.8 컴퓨팅
____변환
____필터링
____가변수 생성
____연습 문제


4장. 과적합과 모델 튜닝

__4.1 과적합 문제
__4.2 모델 튜닝
__4.3 데이터 분할
__4.4 리샘플링 기법
____K -겹 교차 검증
____일반화 교차 검증
____반복적 훈련/테스트 세트 분할
____부트스트랩
__4.5 사례 연구: 신용 평가
__4.6 최종 튜닝 변수 선정
__4.7 추천하는 데이터 분할 방식
__4.8 모델 선택
__4.9 컴퓨팅
____데이터 분할
____리샘플링
____R로 하는 기본적 모델 구축
____튜닝 변수 판단
____모델 간 비교
____연습 문제


5장. 회귀 모델 성능 측정

__5.1 성능의 정량적 측정
__5.2 분산-편향성 트레이드 오프
__5.3 컴퓨팅


6장. 선형 회귀와 이웃 모델들

__6.1 사례 연구 구조적 정량 활성 관계 모델링
__6.2 선형 회귀
____용해도 데이터에 대한 선형 회귀
__6.3 부분 최소 제곱
____용해도 데이터에 대한 PCR과 PLSR
____PLS의 알고리즘 분산
__6.4 벌점 모델
__6.5 컴퓨팅
____일반 선형 회귀
____부분 최소 제곱
____벌점 회귀 모델
____연습 문제


7장 비선형 회귀 모델

__7.1 신경망 모델
__7.2 다변량 가법 회귀 스플라인 모델
__7.3 서포트 벡터 머신
__7.4 K -최근접 이웃
__7.5 컴퓨팅
____신경망 모델
____다변량 가법 회귀 스플라인서포트 벡터 머신
____K-최근접 이웃
____연습 문제


8장. 회귀 트리와 규칙 기반 모델

__8.1 기본 회귀 트리
__8.2 회귀 모델 트리
__8.3 규칙 기반 모델
__8.4 배깅 트리
__8.5 랜덤 포레스트
__8.6 부스팅
__8.7 큐비스트
__8.8 컴퓨팅
____단일 트리
____모델 트리
____배깅 트리
____랜덤 포레스트
____부스티드 트리
____큐비스트
____연습 문제


9장. 용해도 모델 정리


10장. 사례 연구: 콘크리트 혼합물의 압축 강도

__10.1 모델 구축 전략
__10.2 모델 성능
__10.3 압축 강도 최적화
__10.4 컴퓨팅


11장. 분류 모델에서의 성능 측정

__11.1 클래스 분류
____잘 보정된 확률
____클래스 확률 나타내기
____중간 지대
__11.2 분류 예측 평가
____이종 문제
____비정확도 기반 기준
__11.3 클래스 확률 평가
____시스템 동작 특성(ROC) 곡선
____리프트 도표
__11.4 컴퓨팅
____민감도와 특이도
____혼동 행렬
____시스템 동작 특성 곡선
____리프트 도표
____확률 보정


12장. 판별 분석 및 기타 선형 분류 모델

__12.1 사례 연구: 성공적인 지원금 신청 예측
__12.2 로지스틱 회귀
__12.3 선형 판별 분석
__12.4 부분 최소 제곱 판별 분석
__12.5 벌점 모델
__12.6 최근접 축소 중심 모델
__12.7 컴퓨팅
____로지스틱 회귀
____선형 판별 분석
____부분 최소 제곱 판별 분석
____벌점 모델
____최근접 축소 중심법
____연습 문제


13장. 비선형 분류 모델

__13.1 비선형 판별 분석
____이차 판별 분석과 정규 판별 분석
____혼합 판별 분석
__13.2 신경망
__13.3 유연 판별 분석
__13.4 서포트 벡터 머신
__13.5 K -최근접 이웃 모델
__13.6 나이브 베이즈 모델
__13.7 컴퓨팅
____비선형 판별 분석
____신경망
____유연 판별 분석
____서포트 벡터 머신
____K-최근접 이웃 분석
____나이브 베이즈 분석
____연습 문제


14장. 분류 트리와 규칙 기반 모델

__14.1 기본 분류 트리
__14.2 규칙 기반 모델
____C4.5 규칙
____PART
__14.3 배깅 트리
__14.4 랜덤 포레스트
__14.5 부스팅
____에이다부스트
____확률 경사 부스팅
__14.6 C5.0
____분류 트리
____분류 규칙
____부스팅
____모델의 다른 측면
____보조금 데이터
__14.7 범주형 변수의 두 가지 변조 방식 비교
__14.8 컴퓨팅
____분류 트리
____규칙배깅 트리
____랜덤 포레스트
____부스티드 트리
____연습 문제


15장. 보조금 지원 모델 살펴보기


16장. 심각한 클래스 불균형 처리하기

__16.1 사례 연구: 이동식 주택 보험 가입 예측
__16.2 클래스 불균형의 영향
__16.3 모델 튜닝
__16.4 대체 한도
__16.5 사전 확률 보정
__16.6 다른 경우별 가중치
__16.7 샘플링 기법
__16.8 비용 민감 훈련
__16.9 컴퓨팅
____대체 한도
____샘플링 기법
____비용 민감 훈련
____연습 문제


17장. 사례 연구: 작업 스케줄링

__17.1 데이터 분할과 모델 전략
__17.2 결과
__17.3 컴퓨팅


18장. 예측 변수 중요도 측정하기

__18.1 수치형 결과
__18.2 범주형 결과
__18.3 다른 방법
__18.4 컴퓨팅
____수치형 결과
____변수형 결과
____모델 기반 중요도
____연습 문제


19장. 특징 선택 입문

__19.1 비정보성 예측 변수 사용의 결과
__19.2 변수 수를 줄이는 방식
__19.3 래퍼 방법
____전진, 후진, 단계적 선택법
____담금질 기법
____유전 알고리즘
__19.4 필터 방법
__19.5 선택 편향
__19.6 사례 연구: 인지 장애 예측
__19.7 컴퓨팅
____전진, 후진, 단계적 선택법
____반복 특징 제거
____필터 방법
____연습 문제


20장. 모델 성능에 영향을 미치는 요인

__20.1 삼종 오류
__20.2 결과의 측정 오차
__20.3 예측 변수에서의 측정 오차
____사례 연구: 원치 않는 부작용 예측
__20.4 연속형 결과를 이산화하기
__20.5 언제 모델의 예측값을 믿어야 할까?
__20.6 샘플이 클 때의 영향
__20.7 컴퓨팅
____연습 문제


부록 A. 여러 모델에 대한 요약


부록 B. R에 대한 소개

__1B.1 시작 및 도움말
__1B.2 패키지
__1B.3 객체 생성
__1B.4 데이터 유형과 기본 구조
__1B.5 2차원 데이터 세트로 작업하기
__1B.6 객체와 클래스
__1B.7 R 함수
__1B.8 =의 3개 얼굴
__1B.9 AppliedPredictiveModeling 패키지
__B.10 caret 패키지
__B.11 이 책에서 사용된 소프트웨어


부록 C. 유용한 웹 사이트

____소프트웨어
____대회
____데이터 세트

저자 소개 (3명)

출판사 리뷰 출판사 리뷰 보이기/감추기

이 책의 대상 독자

예측 모델에 대한 소개와 모델 적용 가이드로서 광범위한 사용자를 대상으로 한다. 수학에 친숙하지 않은 독자는 기법에 대한 직관적인 설명을 반길 수 있을 것이고, 다양한 애플리케이션에서 실제 데이터로 문제를 해결하는 데 중점을 둔 내용은 전문 지식을 확장하려는 실무자에게 도움이 될 것이다. 독자는 상관 관계 및 선형 회귀 분석과 같은 기본 통계 개념에 대한 지식을 갖고 있어야 한다. 일부 복잡한 방정식을 다루며 고급 주제의 경우 수학적 배경이 필요하다.


지은이의 말

이 책은 예측 모델링을 실제로 활용하는 데에 특별히 초점을 맞춰 쓴 데이터 분석에 대한 책이다. '예측 모델링'이란 용어에는 머신 러닝과 패턴 인식, 데이터 마이닝 같은 개념이 뒤섞여 있으며 실제로 이런 융화는 적절하다. 이 용어들이 포함하는 기법은 예측 모델링 과정에서 반드시 필요한 부분이다. 하지만 예측 모델에는 데이터의 숨겨진 패턴을 찾기 위한 도구나 기술보다 훨씬 중요한 것들이 들어 있다. 예측 모델을 활용한다는 것은 이해할 수 있는 형태로 모델을 개발하고 아직 나타나지 않은 미래의 데이터에 대한 예측 정확성을 계측하는 과정을 말하는 것이다. 이 책에서 초점을 맞추고 있는 부분은 이런 전 과정을 말한다.
이 책이 모델을 실제 활용하고자 하는 사람들에게 예측 모델링 과정에 대한 가이드이자, 주로 사용되고 최근 나온 강력한 모델에 대한 접근 방법을 배우고 통찰을 얻을 수 있는 장소가 되게 하고자 했다. 예측 모델링을 위해 통계 및 수학 능력이 필요하다는 것은 이미 알려져 있지만, 대부분의 경우에 이런 기법의 수학적 기원이나 기반에 대해 말하는 대신 강점 및 약점을 파악해 이에 대한 통찰력을 기를 수 있는 방식으로 나타내고자 했다. 대부분의 경우 복잡한 연산을 사용하는 것은 배제하려고 노력했지만, 일부 필요한 예외의 경우도 있었다. 예측 모델링에 대해 좀 더 이론적인 내용이 필요하다면 헤이스티(Hastie) 등이 집필한 책(2008)이나 비숍(Bishop)의 책(2006)을 추천한다. 이 책을 이해하기 위해서는 분산, 상관관계, 간단한 선형 회귀, 기본 가설 검정(p-값 및 검정 통계) 등의 기본 통계 지식을 사전에 가지고 있어야 한다


옮긴이의 말

데이터 분석의 최종 목적은 결국 기존의 데이터를 활용해 잘 모르는 것을 ‘예측’하는 것에 있어 왔다. 흔히 ‘고급 분석’이라는 머신 러닝 알고리즘을 활용한 데이터 분석은 크게 추이를 통해 명확하지 않은 변동 상황이나 알 수 없는 미래를 ‘예측’하고, 분류를 통해 정확하지 않거나 알 수 없는 것의 성격을 ‘예측’하는 것에 초점이 맞춰져 있다. 이런 분석 기법은 흔히 ‘예측 분석’이라고 불려왔고, 데이터 분석을 하는 많은 사람들이 이 ‘예측 분석’ 기법을 실제 상황에 직접 사용해보려고 시도하고 있다. 특히 예전과 달리 학계 및 산업계에서 전반적으로 데이터에 대한 인식이 자연스러워지고, ‘머신 러닝’이나 ‘인공 지능’이라는 단어도 더 이상 생소하지 않은 시대가 되면서 머신 러닝 알고리즘과 유사한 ‘예측 분석’에도 좀 더 많은 사람들이 관심을 갖게 됐다.
이런 때에 맞춰 이 책을 번역하게 돼 매우 기쁘게 생각한다. 이 책은 실제로 충분한 지식을 갖고 예측 분석을 업계에서 직접 사용하면서, 실제로 사람들이 많이 사용할 만한 기능을 R패키지로 구현하기도 했던 훌륭한 저자들이 자신들의 지식과 노하우, 실제 분석에서 얻은 통찰까지 골고루 담아낸 책이다. 학교에서 교과서로 사용해도 될 정도로 풍부한 지식이 꼼꼼하게 들어 있으면서도, 현업에서 일을 하면서도 간간히 참고 자료로 찾아볼 수 있을 정도의 실질적인 팁이나 실무에서 접하게 되는 요소들도 놀라울 정도로 풍부하게 들어 있다. 계속 데이터를 접하는 사람이라면 이 책을 오랜 기간 옆에 두며 도움을 받을 수 있을 거라고 확신한다.
솔직히 데이터 분석에 처음 입문하는 사람이 접하기에는 난이도가 어느 정도 있는 책이다. 하지만 그만큼 배울 것이 매우 많다고 생각한다. 나 역시도 어느 정도 실무로 데이터 분석을 해왔음에도 불구하고, 이 책의 번역을 진행하면서 많은 것을 배웠고, 많은 부분에서 감탄하기도 했으며, 여러 부분에서 감동하기도 했고, 한없이 겸손해지기도 하는 등 즐거운 경험을 했다. 이 책을 접하게 되는 독자들도 나와 같은 경험을 하실 수 있기를 바라고, 아마도 충분히 그럴 수 있을 거라고 생각한다.


한줄평 (1건) 한줄평 총점 10.0

혜택 및 유의사항 ?
구매 평점5점
코드 설명보다는 개념을 확실히 설명하고 코드를 통해 이해하는 구성이네요. 대만족
이 한줄평이 도움이 되었나요? 공감 0
YES마니아 : 플래티넘 s******8 | 2018.02.13
  •  쿠폰은 결제 시 적용해 주세요.
1   45,000
뒤로 앞으로 맨위로 aniAlarm