확장메뉴
주요메뉴


소득공제
미리보기 공유하기

쉽게 시작하는 캐글 데이터 분석

: 캐글 대회 참여 방법부터 캐글 그랜드마스터 인터뷰까지!

리뷰 총점10.0 리뷰 5건 | 판매지수 768
정가
22,000
판매가
19,800 (10% 할인)
YES포인트
배송안내
서울특별시 영등포구 은행로
지역변경
  • 배송비 : 무료 ?
  •  국내배송만 가능
  •  최저가 보상
  •  문화비소득공제 신청가능
[대학생X취준생] 지치지 않는 자, 점수를 잡는다! - 리유저블텀블러/한국문학 담요/슬라이드 파일 증정
월간 개발자 2022년 1월호
길벗 IT 전문서 브랜드전
1월 전사
현대카드
1 2 3 4 5

품목정보

품목정보
출간일 2021년 09월 08일
쪽수, 무게, 크기 332쪽 | 183*235*14mm
ISBN13 9791165216726
ISBN10 1165216728

책소개 책소개 보이기/감추기

캐글 대회 참여 방법부터 캐글 그랜드마스터 인터뷰까지!

캐글은 세계적인 데이터 분석 경진대회 플랫폼으로, 전 세계의 데이터 분석가들이 많이 즐겨 사용한다. 캐글 경진대회에 참여하여 자신의 실력을 뽐낼 수 있으며, 캐글 마스터, 그랜드마스터 등 타이틀을 얻어 인지도를 쌓을 수도 있다. 더불어 개인적인 성취감도 느낄 수 있다.

이 책은 캐글 개요와 경진대회 참여 방법, 데이터 분석을 위한 기초 이론과 실습 환경 구축부터 설명한다. 초보자용 튜토리얼 경진대회인 타이타닉 생존자 예측하기, 주택 가격 예측하기 과제를 직접 해결하면서 데이터 분석 과정과 머신 러닝을 익히고, 실력을 향상시킬 수 있다. 마지막으로 캐글 마스터와 그랜드마스터의 경험과 조언을 들으며 캐글에 성공적으로 입문할 수 있다.

목차 목차 보이기/감추기

0장 캐글에서 실용적인 기술을 체험해 보자!

0.1 캐글 세계로 뛰어들어 보자!
__0.1.1 데이터, 데이터 분석으로 알 수 있는 것
__0.1.2 캐글: 세계 각국에서 이용하는 데이터 분석 경진대회 플랫폼
__0.1.3 이 책의 활용 방법

1장 캐글이란

1.1 전 세계 데이터 과학자가 경쟁하는 플랫폼
1.2 캐글의 메달과 등급
1.3 캐글 경진대회 참여 흐름
1.4 경진대회 종류
1.5 캐글 커뮤니티

2장 데이터 분석 절차, 데이터 분석 환경 구축

2.1 데이터 분석의 순서 및 개요
2.2 데이터 분석 환경
__2.2.1 파이썬을 이용한 데이터 분석 환경
__2.2.2 로컬 또는 클라우드에서 데이터 분석 환경
2.3 주피터 노트북을 이용한 대화형 데이터 분석 환경
__2.3.1 로컬 컴퓨터에서 데이터 분석 환경 구축
2.4 아나콘다의 가상 환경 이용(윈도)
2.5 pyenv 환경 이용(맥)
2.6 캐글 분석 도구 사용

3장 캐글 경진대회 도전 ①: 타이타닉 생존자 예측

3.1 캐글을 이용하여 실제 데이터 분석
3.2 타이타닉 생존자 예측 경진대회란
3.3 데이터 내려받기
3.4 데이터 분석을 위한 준비 작업
__3.4.1 [순서 1] 데이터 분석 환경 준비
__3.4.2 [순서 2] 새로운 파일 작성
__3.4.3 [순서 3] 디렉터리 구성 확인
__3.4.4 [순서 4] 라이브러리를 설치하고 가져오기
__3.4.5 [순서 5] 데이터 읽어 보기
__3.4.6 [순서 6] 랜덤 시드 설정
3.5 데이터 개요 파악
3.6 데이터의 시각화
__3.6.1 목적 변수 관련 데이터의 시각화
3.7 데이터 전처리와 특징 값 생성
3.8 머신 러닝 모델링
__3.8.1 검증 데이터로 예측 정확도 확인
__3.8.2 교차 검증을 이용한 학습
3.9 캐글에 결과 제출
3.10 정확도 이외의 여러 가지 분석
__3.10.1 추가 분석 ①: 타이타닉에는 어떤 사람이 승선하고 있었는가?
__3.10.2 추가 분석 ②: 특정 클러스터에 주목

4장 캐글 경진대회 도전 ②: 주택 가격 예측

4.1 더 상세하게 알아보는 데이터 분석
4.2 주택 가격 예측하기 경진대회란
4.3 데이터 내려받기
4.4 벤치마크용 베이스라인 작성
__4.4.1 LightGBM으로 예측
__4.4.2 교차 검증으로 모델 학습과 예측
__4.4.3 각 변수의 중요도 확인
4.5 목적 변수의 전처리: 목적 변수의 분포 확인
__4.5.1 SalePrice 데이터의 분포 확인
4.6 설명 변수의 전처리: 결측치 확인
__4.6.1 각 설명 변수의 결측치 확인
4.7 이상치 제외
__4.7.1 이상치란
__4.7.2 각 설명 변수의 데이터 분포 확인
4.8 설명 변수 확인: 특징 값 생성
4.9 하이퍼파라미터 최적화
__4.9.1 Optuna 구현
__4.9.2 캐글에 결과 제출
4.10 여러 가지 머신 러닝 방법을 이용한 앙상블
__4.10.1 랜덤 포레스트로 학습
__4.10.2 LotFrontage의 결측치 삭제
__4.10.3 XGBoost로 학습
__4.10.4 XGBoost와 LightGBM 결과 조합
4.11 추가 분석 ①: 통계 기법을 이용한 클러스터 분석
__4.11.1 통계 기법을 써서 주택 분류
__4.11.2 주성분 분석
4.12 추가 분석 ②: 고급 주택의 조건을 분석하고 시각화
__4.12.1 결정 트리로 시각화

5장 새로운 데이터 과학 능력 향상을 위한 팁

5.1 캐글 마스터와 특별 인터뷰
5.2 캐글에서 권장하는 스타터 노트북
__5.2.1 판매량 예측하기 경진대회
__5.2.2 PUBG 최종 순위 예측하기(커널만 해당) 경진대회
__5.2.3 IEEE- CIS 부정 거래 탐지하기 경진대회
5.3 GCP의 AI 플랫폼 분석 절차
__5.3.1 GCP의 AI 플랫폼에 관하여
__5.3.2 GCP 이용
__5.3.3 GCP에 데이터 업로드
__5.3.4 GCP의 AI 플랫폼 이용
__5.3.5 GCP의 AI 플랫폼에서 Storage 데이터 사용
__5.3.6 새로운 라이브러리 추가
__5.3.7 인스턴스 이용 중지

부록 A 캐글 마스터가 되다: 전업 캐글러로서 삶과 지진 예측 3위 솔루션
A.1 자기 소개
A.2 전업 캐글러로서 1년 반
__A.2.1 전업 캐글러가 된 이유
__A.2.2 전업 캐글러가 되고 난 후 1년간
__A.2.3 캐글 그랜드마스터를 목표로 한 반년
__A.2.4 전업 캐글러로서 1년 반을 회고하며
A.3 LANL 지진 예측 3위 솔루션
__A.3.1 경진대회의 개요
__A.3.2 학습 데이터
__A.3.3 테스트 데이터
__A.3.4 학습 방법
__A.3.5 상위 입상 열쇠
__A.3.6 리더보드 프로빙
__A.3.7 점수 변화
__A.3.8 공개 리더보드의 베스트 모델
__A.3.9 개최자 논문
__A.3.10 논문에 사용한 데이터와 대회 데이터는 동일한가?
__A.3.11 개최자의 논문 정보와 리더보드 프로빙 정보를 조합하다

부록 B 국내 캐글 그랜드마스터 인터뷰: 이유한
B.1 인터뷰 소개
B.2 인터뷰 내용

저자 소개 (2명)

책 속으로 책속으로 보이기/감추기

데이터 분석의 기초 지식을 배우고 나면 그동안 활용 사례 등을 보며 ‘와 대단하네’라고 막연히 생각하던 수준에서, ‘지금 기술로 할 수 있는 것이 무엇인지, 혁신적인 부분이 무엇인지’를 어느 정도 구체적으로 알고 고민하는 수준으로 나아가게 될 것입니다. 그리고 자신이 아직 모르고 배우지 못한 것이 무엇인지를 명확하게 알면 향후 데이터 분석을 공부하는 방향을 세우기 쉬울 것입니다.
이 책은 실제 데이터와 코드를 사용하여 데이터 분석의 단계를 차근차근 설명합니다. 데이터 분석을 이제 막 시작하려고 할 때 이 책으로 조금이라도 데이터 분석을 가깝게 느끼거나 ‘나도 한번 해볼까’라는 생각을 하게 된다면 감사할 것 같습니다.
--- 「시작하며」 중에서

출판사 리뷰 출판사 리뷰 보이기/감추기

파이썬으로 세계적인 데이터 분석 경진대회 캐글에 성공적으로 입문하는 법!

캐글을 시작하는 데 필요한 모든 것을 다룬다!

캐글은 세계적인 데이터 분석 경진대회 플랫폼으로, 자신의 데이터 분석 능력을 측정하고 이를 향상시킬 수 있는 공간이면서 서로 논의하고 자신의 코드를 공유할 수 있는 커뮤니티의 장이기도 하다. 책에서는 캐글이 무엇인지 알아보고, 캐글 경진대회의 종류, 메달과 등급, 경진대회에 참가하는 방법 등을 소개한다. 또한, 경진대회 참가 전 데이터 분석을 어떻게 할 것인지 순서를 알아보고, 데이터 분석에 알맞은 환경을 구축한다. 입문자도 경진대회에 참가할 수 있도록 캐글 경진대회의 기본적인 절차와 데이터 분석에 필요한 지식을 모두 설명한다.

경진대회 과제를 해결하며 데이터 분석 과정을 익힌다!

캐글의 대표적인 초보자용 튜토리얼 경진대회에 참여하여 정확도가 높은 모델을 단계별로 구축하고, 같은 데이터에 다른 방법을 적용하여 문제에 접근하기도 한다. 실제 경진대회 과제를 해결하면서 데이터 분석 과정과 머신 러닝을 직접 체험하며 익힐 수 있다. 또한, 이 과정에서 데이터 분석 스킬을 습득해 업무에 활용하거나 캐글 상위권을 목표로 할 수 있는 밑바탕도 다질 수 있다.

캐글 마스터와 그랜드마스터의 경험담에서 평소 궁금했던 내용도 알아보자!

일본 캐글 마스터 2명과 국내 캐글 그랜드마스터 1명의 경험담을 실었다. 어떻게 캐글을 시작했으며, 캐글 마스터/그랜드마스터가 되기 위해 어떻게 공부했는지, 캐글과 업무를 연관시킬 수 있는지 등 캐글 마스터/그랜드마스터가 되기까지의 여정을 소개한다. 이들의 생생한 경험담을 통해 평소 캐글과 관련해 궁금했던 내용들과 다양한 팁도 알아보자.

회원리뷰 (5건) 리뷰 총점10.0

혜택 및 유의사항?
포토리뷰 쉽게 시작하는 캐글 데이터 분석 내용 평점5점   편집/디자인 평점5점 j*****6 | 2021.10.31 | 추천0 | 댓글0 리뷰제목
머신러닝, 딥러닝 이론을 공부하고 실전 연습을 해보고 싶다면 추천하는 책! 캐글을 시작하고 싶은데 어떻게 해야할지 막막할 때 마치 설명서의 역할을 하듯 쉽게 풀어쓴 책입니다. 유명한 '타이타닉 생존자 예측'과 '주택가격 예측' 예제가 있는데 초보자들도 이해하기 쉽게 코드마다 설명이 잘 되어 있어 따라하기 쉽고 분석능력도 높이기 좋을 것 같습니다. 가장 인상깊었던;
리뷰제목

머신러닝, 딥러닝 이론을 공부하고 실전 연습을 해보고 싶다면 추천하는 책!

캐글을 시작하고 싶은데 어떻게 해야할지 막막할 때 마치 설명서의 역할을 하듯 쉽게 풀어쓴 책입니다.

유명한 '타이타닉 생존자 예측'과 '주택가격 예측' 예제가 있는데 초보자들도 이해하기 쉽게 코드마다 설명이 잘 되어 있어 따라하기 쉽고 분석능력도 높이기 좋을 것 같습니다.

가장 인상깊었던 부분은 캐글 마스터와 그랜드 마스터의 인터뷰가 있었는데 이 값진 경험담이 다른 책들과의 차별점이라고 생각합니다.

저처럼 데이터 분석 초보자, 캐글에 처음 도전하고 싶은 분들에게 추천하고 싶은 책입니다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
포토리뷰 [리뷰] 쉽게 시작하는 캐글 데이터 분석 내용 평점5점   편집/디자인 평점5점 코**키 | 2021.10.31 | 추천0 | 댓글0 리뷰제목
목차 0장 캐글에서 실용적인 기술을 체험해 보자! 0.1 캐글 세계로 뛰어들어 보자! 1장 캐글이란 1.1 전 세계 데이터 과학자가 경쟁하는 플랫폼 1.2 캐글의 메달과 등급 1.3 캐글 경진대회 참여 흐름 1.4 경진대회 종류 1.5 캐글 커뮤니티 2장 데이터 분석 절차, 데이터 분석 환경 구축 2.1 데이터 분석의 순서 및 개요 2.2 데이터 분석 환경 2.3 주피터 노트북;
리뷰제목

목차

0장 캐글에서 실용적인 기술을 체험해 보자!

0.1 캐글 세계로 뛰어들어 보자!

1장 캐글이란

1.1 전 세계 데이터 과학자가 경쟁하는 플랫폼

1.2 캐글의 메달과 등급

1.3 캐글 경진대회 참여 흐름

1.4 경진대회 종류

1.5 캐글 커뮤니티

2장 데이터 분석 절차, 데이터 분석 환경 구축

2.1 데이터 분석의 순서 및 개요

2.2 데이터 분석 환경

2.3 주피터 노트북을 이용한 대화형 데이터 분석 환경

2.4 아나콘다의 가상 환경 이용(윈도)

2.5 pyenv 환경 이용(맥)

2.6 캐글 분석 도구 사용

3장 캐글 경진대회 도전 ①: 타이타닉 생존자 예측

3.1 캐글을 이용하여 실제 데이터 분석

3.2 타이타닉 생존자 예측 경진대회란

3.3 데이터 내려받기

3.4 데이터 분석을 위한 준비 작업

3.5 데이터 개요 파악

3.6 데이터의 시각화

3.7 데이터 전처리와 특징 값 생성

3.8 머신 러닝 모델링

3.9 캐글에 결과 제출

3.10 정확도 이외의 여러 가지 분석

4장 캐글 경진대회 도전 ②: 주택 가격 예측

4.1 더 상세하게 알아보는 데이터 분석

4.2 주택 가격 예측하기 경진대회란

4.3 데이터 내려받기

4.4 벤치마크용 베이스라인 작성

4.5 목적 변수의 전처리: 목적 변수의 분포 확인

4.6 설명 변수의 전처리: 결측치 확인

4.7 이상치 제외

4.8 설명 변수 확인: 특징 값 생성

4.9 하이퍼파라미터 최적화

4.10 여러 가지 머신 러닝 방법을 이용한 앙상블

4.11 추가 분석 ①: 통계 기법을 이용한 클러스터 분석

4.12 추가 분석 ②: 고급 주택의 조건을 분석하고 시각화

5장 새로운 데이터 과학 능력 향상을 위한 팁

5.1 캐글 마스터와 특별 인터뷰

5.2 캐글에서 권장하는 스타터 노트북

5.3 GCP의 AI 플랫폼 분석 절차

부록 A 캐글 마스터가 되다: 전업 캐글러로서 삶과 지진 예측 3위 솔루션

A.1 자기 소개

A.2 전업 캐글러로서 1년 반

A.3 LANL 지진 예측 3위 솔루션

부록 B 국내 캐글 그랜드마스터 인터뷰: 이유한

B.1 인터뷰 소개

B.2 인터뷰 내용

 



대상 독자

- 데이터 분석을 시작하려는 사람

- 캐글(Kaggle)에 관심 있는 데이터 분석 초보자

- 데이터 과학자를 목표로 하는 학생

- 데이터 분석에 관심은 있지만, 그다지 경험이나 지식이 없는 데이터 분석 초심자

주요 특징

캐글의 초보자 튜토리얼 주제 2개를 다루며, 사전 준비 과정부터 정확도를 높이는 프로세스까지

코드와 함꼐 알기 쉽게 설명

- 주제1. 타이타닉 생존자 예측

- 주제2. 주택 가격 예측

캐글 대회 관련하여 초보자가 알아두어야 할 정보를 잘 수록해 놓았다.

특히 대회 종류나 등급, 캐글 커뮤니티(캐글 코리아)등 초보자들이 놓치기 쉬운 정보를 넣었다고 생각한다.

데이터 관련 정보는 표를 사용하여 관계를 잘 나타내었고, 위와 같이 무엇이 원인이고 결과인

지도 기호를 사용하여 쉽게 알수 있도록 구성하였다.


2장에서는 로컬 환경과 캐글에서 제공하는 클라우드 환경, 5장에서는 GCP의 AI 플랫폼 같은 유로 클라우드 환경을 다루어, 독자의 환경에 따라 다양한 플랫폼을 통해 데이터 분석을 진행 할 수 있도록 알기 쉽게 구성되었다.

3장 부터 본격적으로 캐글대회에 참여하는데, 위와 같이 모든 과정의 순서가 알기 쉽게 적혀

있어, 초보자도 따라 하기 쉽다는 느낌이 들었다.


특이하게 위 책은 Input 과 Output을 이런식으로 표현하였다.


주요 용어의 경우, 위와 같이 자세히 설명하는 모습 또한 위 책의 특징이라 생각한다.


 

오류 상황 대처법같이 초보자에게 필요한 정보를 따로 'Note' 란 코너로 정리한 모습이다.

그 뒤로는 캐글 마스터와 그랜드 마스터 인터뷰를 수록해 놓았다.

 

위 책을 보며 아쉬웠던 점으로는 캐글과 GCP에 대한 설명은 있는데 정작 Colab에 대한

설명은 없다는 점이었다.

아무래도 보통 초보자나 학생의 경우 사용금액이나 편의성으로 인해 Colab을 사용 할 가능성이 높은데, 이 부분이 없다는게 아쉬웠고, 인터뷰에서도 마스터나 그랜드 마스터 같이 초보자와 매우 큰 차이가 있는 분들과의 인터뷰를 수록 하다보니, 아쉬운 부분이 있었다

(차라리 더 낮은 등급을 가졌더라도, 은메달 딴 경험이 있는 학생이 대학을 병행하면서 대회 참여한 경험이나 혹은 개인적으로 여러 커뮤니티에 활발히 참여하시는 '안수빈'님이나 '김찬란'님의 인터뷰를 수록해 놓았으면 더 좋지 않았을까? 라는 생각이 들었다.)

 

그래도 캐글에 대한 양질의 정보를 수록해 놓았고 2 종류의 대회를 처음부터 끝까지 수록해 놓았다는 점에서 캐글에 입문 하시는 분들께 위 책을 추천 드리고 싶다.

 

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
포토리뷰 정말 쉽게 시작하는 캐글 + 데이터 분석 내용 평점5점   편집/디자인 평점5점 늘* | 2021.10.31 | 추천0 | 댓글0 리뷰제목
  캐글은 한번도 해보지 않았지만 관련된 업무를 하고 있습니다. 전부터 주변 동료분들 중 캐글을 사용하는 사람들을 꽤나 볼 수 있었지만 시간을 들여 시작해보기가 쉽지 않았습니다. 아마 이 책을 둘러보고 있는 분들도 캐글을 시작하는 분들이 아닐까 싶네요. 캐글에 관련된 서적은 처음이라는 점에서 다른 캐글 책들과 객관적인 비교는 불가능하지만 처음 캐글을 시작하는 사;
리뷰제목


 

캐글은 한번도 해보지 않았지만 관련된 업무를 하고 있습니다.
전부터 주변 동료분들 중 캐글을 사용하는 사람들을 꽤나 볼 수 있었지만 시간을 들여 시작해보기가 쉽지 않았습니다.
아마 이 책을 둘러보고 있는 분들도 캐글을 시작하는 분들이 아닐까 싶네요.
캐글에 관련된 서적은 처음이라는 점에서 다른 캐글 책들과 객관적인 비교는 불가능하지만 처음 캐글을 시작하는 사람으로써 후기를 공유해보겠습니다.

 책의 첫 시작은 캐글에 대한 목표, 캐글 대회의 설명 이후에 이 문제들을 같이 풀어나가면서 어떤 순서로 문제를 접근해야하는지, 문제를 해결하기 위한 대표적인 기술들(분석 기술 뿐만 아니라 코드면에서도 자주 쓰는 문법들)을 배울 수 있습니다. 그래서 만약, 데이터 분석 및 모델을 만들어 보는게 익숙하지 않으신 분이더라도 -아니면 데이터 분석을 위한 기술이 부족한 분이더라도- 이 책을 통해서 쉽게 시작할 수 있을 것 같습니다. 필요한 코드도 같이 나와있어서 책을 차례로 따라가면 되거든요. (책의 흐름은 문제 제기, 데이터 및 해결 방법 설명과 실제로 구현을 어떻게 하는지 순차적으로 진행) 추가로 의문이 생기는 부분에 대해서는 충분히 검색으로 커버 가능하다고 생각합니다. 하지만 설명이 충분히 되어있어서 개인적으로 왜 이런 방법을 썼는지 더 궁금한 경우에만 찾아보면 될 것 같습니다.

 캐글의 Competition에 캐글 시작의 바이블이라고도 불리는 연습문제가 존재하는데, 그 중  '타이타닉 생존자 예측 문제', '주택 가격 예측' 문제로 시작을 하는 것도 무척 좋은 방법이라고 생각합니다. 몰론, 다른 Competition들은 더 어렵고, 복잡한 문제들이 있지만 대표 문제부터 스스로 캐글 문제를 해결하는 방법을 터득시켜주기 위해 많은 노력을 한 책 같습니다. 
 책의 초중반부로 기초를 다지고, 이후 더 깊게 해보고 싶은 분이라면 책의 뒷부분에 포함된 캐글 마스터, 그랜드 마스터들과의 인터뷰가 많은 도움이 될 것 같습니다. 잘하는 사람들이 어떻게 문제를 해결해나갔는지 참고를 하는것은 중요한 부분이기 때문에, 이 외에도 초반에 잠깐 소개했듯이 캐글 커뮤니티도 좋은 방법 같습니다.

  정리하자면, 처음으로 캐글을 시작하는 분에게 좋은 책이라고 생각이 듭니다. 책을 차근차근 따라가다 보면 어느새 캐글에 친숙해지고, 더 높은 기술을 쌓을 준비가 되어있으실 겁니다. 인터뷰 내용은 현실적이기도 했고 팁도 포함되어 있어서 재미도 있었습니다. :)
 꼭 캐글이 아니더라도 데이터 접근방법 및 분석방법-시각화 포함-으로부터 많은 기본 기술들을 얻어가는 느낌이라, 데이터를 보면서 문제를 해결해야 하는 업무를 하신다면 읽어보시는 것을 권하고 싶네요.

*길벗 출판사로부터 지원받아 읽어본 후 작성한 리뷰입니다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0

한줄평 (1건) 한줄평 총점 10.0

혜택 및 유의사항 ?
평점5점
초보자를 위한 디테일한 배려가 돋보입니다!
1명이 이 한줄평을 추천합니다. 공감 1
아***인 | 2021.10.31
  •  쿠폰은 결제 시 적용해 주세요.
1   19,800
뒤로 앞으로 맨위로 aniAlarm