CHAPTER 0 코딩 환경 설정0.1 아나콘다0.2 주피터 노트북 사용하기0.3 XGBoost0.4 버전PART 1 배깅과 부스팅CHAPTER 1 머신러닝 개요1.1 XGBoost 소개1.2 데이터 랭글링1.3 회귀 모델 만들기1.4 분류 모델 만들기1.5 마치며CHAPTER 2 결정 트리2.1 결정 트리 소개2.2 결정 트리 알고리즘2.3 분산과 편향2.4 결정 트리 하이퍼파라미터 튜닝2.5 심장 질환 예측하기 - 사례 연구2.6 마치며CHAPTER 3 배깅과 랜덤 포레스트3.1 배깅 앙상블3.2 랜덤 포레스트 살펴보기3.3 랜덤 포레스트 매개변수3.4 랜덤 포레스트 성능 높이기 - 사례 연구3.5 마치며CHAPTER 4 그레이디언트 부스팅에서 XGBoost까지4.1 배깅에서 부스팅까지4.2 그레이디언트 부스팅 작동 방식4.3 그레이디언트 부스팅 매개변수 튜닝4.4 빅 데이터 다루기 - 그레이디언트 부스팅 vs XGBoost4.5 마치며PART 2 XGBoostCHAPTER 5 XGBoost 소개5.1 XGBoost 구조5.2 XGBoost 파라미터 최적화5.3 XGBoost 모델 만들기5.4 힉스 보손 찾기 - 사례 연구5.5 마치며CHAPTER 6 XGBoost 하이퍼파라미터6.1 데이터와 기준 모델 준비6.2 XGBoost 하이퍼파라미터 튜닝6.3 조기 종료 적용6.4 하이퍼파라미터 결합6.5 하이퍼파라미터 조정6.6 마치며CHAPTER 7 XGBoost로 외계 행성 찾기7.1 외계 행성 찾기7.2 오차 행렬 분석하기7.3 불균형 데이터 리샘플링7.4 XGBClassifier 튜닝7.5 마치며PART 3 고급 XGBoostCHAPTER 8 XGBoost 기본 학습기8.1 여러 가지 기본 학습기8.2 gblinear 적용하기8.3 dart 비교하기8.4 XGBoost 랜덤 포레스트8.5 마치며CHAPTER 9 캐글 마스터에게 배우기9.1 캐글 대회 둘러보기9.2 특성 공학9.3 상관관계가 낮은 앙상블 만들기9.4 스태킹9.5 마치며CHAPTER 10 XGBoost 모델 배포10.1 혼합 데이터 인코딩10.2 사용자 정의 사이킷런 변환기10.3 XGBoost 모델 만들기10.4 머신러닝 파이프라인 구성하기10.5 마치며APPENDIX A (한국어판 부록) 다른 그레이디언트 부스팅 라이브러리A.1 LightGBMA.2 사이킷런의 히스토그램 기반 그레이디언트 부스팅A.3 CatBoost
데이터 과학 전문가를 위한 XGBoost와 사이킷런 활용법XGBoost는 빠르고 효율적으로 수십억 개의 데이터 포인트에 적용하기 위한 그레이디언트 부스팅 프레임워크로, 업계에서 입증된 오픈 소스 소프트웨어 라이브러리입니다. 이 책은 그레이디언트 부스팅에 대한 이론을 설명하기 전에 사이킷런으로 머신러닝과 XGBoost를 소개합니다. 결정 트리를 다루고 머신러닝 관점에서 배깅을 분석하며 XGBoost까지 확장되는 하이퍼파라미터를 배우겠습니다. 밑바닥부터 그레이디언트 부스팅 모델을 구축해보고 그레이디언트 부스팅을 빅 데이터로 확장하면서 속도의 중요성을 설명합니다. 그리고 속도 향상 및 수학적인 이론에 초점을 두고 XGBoost의 세부 사항을 알아봅니다. 자세한 사례 연구를 이용하여 사이킷런 API와 원본 파이썬 API 방식으로 XGBoost 분류 모델과 회귀 모델을 만들고 튜닝하는 방법을 연습합니다. 또한, XGBoost 하이퍼파라미터를 활용하여 성능 개선, 누락된 값 수정 및 불균형 데이터 세트 적용, 그리고 다른 기본 학습기를 튜닝합니다. 마지막으로 상관관계가 낮은 앙상블과 스태킹 모델을 만들어보고, 모델 배포를 위해 희소 행렬과 사용자 정의 변환기, 파이프라인과 같은 고급 XGBoost 기술을 적용합니다.주요 내용● 그레이디언트 부스팅 모델 구축● 정확하고 빠른 XGBoost 회귀 및 분류 모델 개발● XGBoost 하이퍼파라미터 미세 조정 측면에서 분산 및 편향 분석● 상관관계가 없는 앙상블을 구축하고 XGBoost 모델을 스태킹하여 정확성 향상● 다트, 선형 모델 및 XGBoost 랜덤 포레스트와 같은 기본 학습기 적용● 사용자 정의 변환기와 파이프라인을 사용한 XGBoost 모델 배포● 누락된 값 자동 수정 및 불균형 데이터 조정