확장메뉴
주요메뉴


소득공제 베스트셀러
미리보기 공유하기

데이터 과학을 위한 통계

: 데이터 분석에서 머신러닝까지 파이썬과 R로 살펴보는 50가지 핵심 개념

리뷰 총점9.6 리뷰 12건 | 판매지수 6,495
베스트
OS/데이터베이스 74위 | IT 모바일 top100 1주
정가
34,000
판매가
30,600 (10% 할인)
YES포인트
배송안내
서울특별시 영등포구 은행로
지역변경
  • 배송비 : 무료 ?
  •  국내배송만 가능
  •  최저가 보상
  •  문화비소득공제 신청가능
[대학생X취준생] 지치지 않는 자, 점수를 잡는다! - 리유저블텀블러/한국문학 담요/슬라이드 파일 증정
오라일리 2022 스티커 캘린더북 이벤트
월간 개발자 2022년 2월호
월간 개발자 2022년 1월호
1월 전사
현대카드
1 2 3 4 5

품목정보

품목정보
출간일 2021년 05월 07일
쪽수, 무게, 크기 380쪽 | 183*235*30mm
ISBN13 9791162244180
ISBN10 1162244186

책소개 책소개 보이기/감추기

파이썬과 R로 필요한 만큼만 배우는 실용주의 통계학

통계 기법은 데이터 과학의 핵심이지만, 데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 이 책은 데이터 과학의 관점에서 통계 핵심 개념과 기법을 필요한 것만 골라 소개한다. 50가지 개념을 차근차근 정리하고 코드를 실행해보면, 필수 통계 지식을 빠르게 흡수할 수 있다. 2판에는 기존 R 코드와 호응하는 파이썬 코드를 새롭게 추가했다. 『데이터 과학을 위한 통계』로 필요한 이론을 적재적소에 잘 활용하는 실력 있는 데이터 과학자로 거듭나길 바란다.

목차 목차 보이기/감추기

CHAPTER 1 탐색적 데이터 분석

1.1 정형화된 데이터의 요소
1.2 테이블 데이터
1.3 위치 추정
1.4 변이 추정
1.5 데이터 분포 탐색하기
1.6 이진 데이터와 범주 데이터 탐색하기
1.7 상관관계
1.8 두 개 이상의 변수 탐색하기
1.9 마치며

CHAPTER 2 데이터와 표본분포

2.1 임의표본추출과 표본편향
2.2 선택편향
2.3 통계학에서의 표본분포
2.4 부트스트랩
2.5 신뢰구간
2.6 정규분포
2.7 긴 꼬리 분포
2.8 스튜던트의 t 분포
2.9 이항분포
2.10 카이제곱분포
2.11 F 분포
2.12 푸아송 분포와 그 외 관련 분포들
2.13 마치며

CHAPTER 3 통계적 실험과 유의성검정

3.1 A/B 검정
3.2 가설검정
3.3 재표본추출
3.4 통계적 유의성과 p 값
3.5 t 검정
3.6 다중검정
3.7 자유도
3.8 분산분석
3.9 카이제곱검정
3.10 멀티암드 밴딧 알고리즘
3.11 검정력과 표본크기
3.12 마치며

CHAPTER 4 회귀와 예측

4.1 단순선형회귀
4.2 다중선형회귀
4.3 회귀를 이용한 예측
4.4 회귀에서의 요인변수
4.5 회귀방정식 해석
4.6 회귀진단
4.7 다항회귀와 스플라인 회귀
4.8 마치며

CHAPTER 5 분류

5.1 나이브 베이즈
5.2 판별분석
5.3 로지스틱 회귀
5.4 분류 모델 평가하기
5.5 불균형 데이터 다루기
5.6 마치며

CHAPTER 6 통계적 머신러닝

6.1 k-최근접 이웃
6.2 트리 모델
6.3 배깅과 랜덤 포레스트
6.4 부스팅
6.5 마치며

CHAPTER 7 비지도 학습

7.1 주성분분석
7.2 k-평균 클러스터링
7.3 계층적 클러스터링
7.4 모델 기반 클러스터링
7.5 스케일링과 범주형 변수
7.6 마치며

저자 소개 (4명)

출판사 리뷰 출판사 리뷰 보이기/감추기

데이터 분석에서 머신러닝까지 50가지 핵심 개념
파이썬과 R 코드를 실행해보며, 필요한 만큼만 배운다!


많은 데이터 과학자가 통계 개념을 이해하지 못해 한계에 부딪힌다. 문제가 조금만 복잡해도 어디서부터 어떻게 해결해야 할지 몰라 당황하거나, 출력한 결과를 이해하지 못해 난감해하기 일쑤다. 이 책은 통계 지식에 목마른 현업 데이터 과학자와 인공지능 개발자를 위해 쓰였다. 목표는 다음 두 가지다. 첫째, 데이터 과학과 관련된 통계의 핵심 개념을 소화하기 쉽고 따라 하기 쉽게 소개한다. 둘째, 데이터 과학의 관점에서 어떤 개념이 정말 중요하고 유용한지, 어떤 개념이 덜 중요한지 구분해 알게 한다.

EDA, 표본분포, 유의성 검정, 회귀분석, 분류, 통계적 머신러닝, 비지도 학습 등 오늘날 데이터 분석과 머신러닝 분야에서 널리 사용하는 주제로 구성했고, 데이터 과학자가 꼭 알아야 하는 개념을 50여 가지만 ‘콕’ 집어 정리했다. 자유도, p 값, 상관계수 등 고전 통계에서 중요하게 생각하는 개념 중, 빅데이터를 다루는 데이터 과학자가 세부 사항까지 자세히 알 필요가 없는 것은 그에 맞게 안내한다. 주요 절마다 ‘용어 정리’와 ‘주요 개념’을 정리해 학습 편의를 높이고, 같은 용어라도 통계학, 데이터 과학, 컴퓨터 과학에서 저마다 다르게 쓰는 경우에는 그 차이점을 정리했다.

2판의 가장 큰 특징은 새로 제공하는 파이썬 코드다. 파이썬 코드를 싣기 위해 과학 계산과 데이터 과학 분야에서 30년 이상의 경력을 갖춘 저자가 새로 투입됐다. 파이썬이나 R, 둘 중 하나만 다룰 줄 알아도 책의 내용을 이해하고 코드를 실행해볼 수 있다. 모두 다룰 줄 안다면 두 언어 간의 구현 차이를 비교하는 재미가 쏠쏠할 것이다.

일반인 대상의 통계책은 시시하고 전공 수준의 통계학 교과서는 어려워 엄두가 안 난다면, 이 책을 징검다리 삼아 통계 지식과 통계적 사고력을 키워보길 바란다. 누구든 이 책을 끝까지 잘 마치면, 필요한 이론을 적재적소에 잘 활용하는 실력 있는 데이터 과학자로 거듭날 수 있다.

주요 내용

-데이터 과학의 초석인 탐색적 데이터 분석 시작하기
-임의표본추출로 편향을 줄이고 고품질 데이터셋을 얻는 방법
-실험설계 원칙을 적용해 타당한 결론을 도출하고 명확한 답을 찾는 방법
-회귀분석으로 결과를 추정하고 이상을 탐지하는 방법
-범주를 예측하고 찾아내는 주요 분류 기법
-데이터로 학습하는 통계적 머신러닝 기법
-레이블 없는 데이터에서 의미를 추출하는 비지도 학습 기법

추천평 추천평 보이기/감추기

다른 통계 교과서나 머신러닝 매뉴얼과는 차별되는 책이다. 통계 용어와 오늘날 데이터 마이닝 용어를 연결해 설명한다는 점에서 훨씬 낫다. 설명은 간명하고 예제도 많다. 데이터 과학 입문자와 숙련자 모두에게 권할 만한 레퍼런스다.
- 갈리트 시뮤엘리 (『비즈니스 애널리틱스를 위한 데이터마이닝』 주 저자)

회원리뷰 (12건) 리뷰 총점9.6

혜택 및 유의사항?
포토리뷰 데이터 과학을 위한 통계 리뷰 내용 평점5점   편집/디자인 평점5점 d***6 | 2021.06.13 | 추천0 | 댓글0 리뷰제목
YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다. 한빛미디어에서 프로그래밍 관련 서적들이 많다고 해서 관심가졌던 출판사인데 이번에 서평단이 되어 데이터과학에 관련된 책을 서평할 수 있게 되었다. 책의 앞페이지에서 이 서적은 어떤 독자들에게 알맞은지 또 관통하는 주제가 무엇인지를 간략하게 설명해주고 있다. 데이터과학과 소프트웨어 엔지니어링 중에 전;
리뷰제목

YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.

한빛미디어에서 프로그래밍 관련 서적들이 많다고 해서 관심가졌던 출판사인데 이번에 서평단이 되어 데이터과학에 관련된 책을 서평할 수 있게 되었다. 책의 앞페이지에서 이 서적은 어떤 독자들에게 알맞은지 또 관통하는 주제가 무엇인지를 간략하게 설명해주고 있다.

데이터과학과 소프트웨어 엔지니어링 중에 전공을 고민하고 있는 사람이다보니 기본적인 프로그래밍 언어가 데이터과학 분야에서 어떻게 쓰이고 있는지를 알아야 한다는 생각이 항상 있었고 또 진로결정을 위해 이 책을 꼭 읽어보고 싶었다. 기본적인 통계는 너무 오래전에 배웠던 거라 평균이나 standard deviation 같이 얕은 개념만 얼핏기억하고있어서 책을 훑어보면서 많인 복습이 됬다.

 

책의 내용

책은 크게 7챕터로 나뉘어 있다:

1. 탐색적 데이터 분석
2. 데이터와 표본 분포
3. 통계적 실험과 유의성검정
4. 회귀와 예측
5. 분류
6. 통계적 머신러닝
7. 비지도 학습

각 챕터또한 서브챕터로 분류되어있다. 서브챕터안에는 중요한 용어들을 한눈에 볼 수 있게 정리되어있고, 용어들을 영어로 표시해놓았다. 

첫 장은 데이터에 필요한 용어와 기본적인 분류법, 정보정리가 나와있다. 습득한 데이터를 분류하고 정리하는 일을 R이나 파이썬에서 어떻게 구현할 수 있는지 코딩과함께 설명되어있다. 아무래도 통계학에서 빠질 수 없는게 그래프이다보니 뒷장으로 넘어갈수록 설명 중간중간 그래프나 분포도의 빈도가 높아진다. 또한 각장의 마지막에는 더 읽을거리로 참고서적들을 알려주어 독자가 흥미를 더 느끼거나 더 깊은 이해가 필요하다고 느낄 때 참고할 수 있는 서적을 가이드 해주는게 좋았다.

이 책의 가장 큰 장점은 코딩과 통계를 함께 입문할 수 있다는 점이다. 정말 기본적인 통계 개념으로 시작해서 심화로 차근차근, 충분한 설명과 예시로 독자들에게 이해시키려고 하고 그 후 R이나 python으로 데이터를 어떻게 시각화 혹은 데이터추출을 할 수 있는지를 보여주는 예시들이 아주 많다.  


실제로 데이터과학 워크샵을 우연히 듣게 되었는데 거기서 타겟(target)이라는 용어를 쓰면서 통계학에서는 dependent variable로 불리지만 데이터과학에서는 타겟이라는 용어를 쓴다는 말을 했었다. 그 워크샵을 듣기전 책에서 한번 읽어봤던 부분이라 신기하고 재밌었다. 본문보다도 큰 부분을 차지하는 용어정리와 추가설명들이 왜 중요한지 알게되는 부분이었다.


책의 7쪽에 나와있듯이 책은 R이나 python에서 첫시작에 대한 가이드는 없다. 어떠한 데이터를 어떻게 불러올 것인가 혹은 어떤 라이브러리를 사용할 것인가에 대한 코딩의 시작부분은 건너뛰고 바로 데이터 출력으로 넘어간다. 그래서 책에 나오는 모든 코딩은 기본적인 세팅을 하고난 후에만 직접 응용해 볼 수 있어 이 책은 독자들에게 통계개념->코딩응용으로 넘어가는 느낌이 강하다. 그치만 기본적인 세팅은 사실 인터넷에 검색만하면 충분히 할 수 있기때문에 코딩에 대한 욕심이 있거나 관심이 있는 사람이라면 충분히 이 책을 읽으며 직접 해 볼 수 있다. 

5장까지는 통상적인 통계를 다뤘다면 6장에서는 머신러닝을, 7장에서는 비지도학습을 다룬다. 통계적 머신러닝에 대해 설명하고 통계와 머신러닝의 차이점도 다룬다. 1장부터 5장까지는 그냥 페이지를 넘기며 훑어보는 정도로 스캔했다면 6장을 좀 더 꼼꼼히 읽어보았다. k근접이웃에 대한 설명을 쭉 읽고 파이썬으로 KNN구현 방법을 이해하고 그 다음쪽에 있는 시각화한 KNN을 보며 저 원과 도형들이 의미하는 바를 이해하고 나니 훨씬 이해하기 쉬웠다. 배깅, 랜덤포레스트 등의 다양한 머신러닝 방법들을 소개한다. 

7장 또한 다양한 방법의 클러스터링을 통해 최소한의 차원을 이용해 예측모델을 만드는 방법을 설명한다. 

 

책의 구성

다소 복잡할 수 있는 내용의 책이다 보니 너무 밀도가 높지 않게 문단간의 간격도 넓고 그래프와 테이블도 시원시원하게 나와있다. 코딩예문들도 가독성이 좋다. 부동산, 주식, 마케팅등 실제로 응용이 가장많이되는 분야면서도 너무 전문적이지 않은 데이터들로 예시를 넣어 이해하기 쉬웠다. 

 

리뷰를 마치며

책을 읽으며 느꼈던 점은 응용 해볼 수 있는 데이터 하나만 있어도 이 책의 대부분을 실제로 연습해보고 응용할 수 있게 해 두었다는 점이다. 책의 뒤에 설명되어 있듯이 "필수 통계 지식을 빠르게 흡수할 수 있다"는 장점을 최대한 살린 책이다. 

코딩을 어느정도 알고있고 데이터과학으로 입문하려는 독자에게 큰 도움이 될 책 같다. 그리고 각각의 서브토픽이 끝날 때 그 토픽을 더 깊이 다루는 사이트들과 서적들을 알려주기 때문에 기본적인 핸디북의 개념으로 이 책을 소장하기 좋은 것 같다. 

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
파워문화리뷰 R과 파이썬으로 배우는 통계 분석/머신 러닝 내용 평점5점   편집/디자인 평점5점 스타블로거 : 수퍼스타 사**기 | 2021.06.08 | 추천7 | 댓글0 리뷰제목
  통계를 분석하는 툴에는 여러 가지가 있다. 대학원생이나 통계학자라면 주로 엑셀이나 SPSS, SAS와 같은 통계 패키지를 활용할 것이다. 그렇다면 프로그래밍 언어로 코딩하는 방법은 무엇일까    이 책은 바로 여기에 관한 것이다. R과 파이썬 프로그래밍 언어를 사용하여 통계 분석을 자유자재로 다루는 기법에 대해 설명한다. 책이 아우르는 범주도;
리뷰제목



 

통계를 분석하는 툴에는 여러 가지가 있다. 대학원생이나 통계학자라면 주로 엑셀이나 SPSS, SAS와 같은 통계 패키지를 활용할 것이다. 그렇다면 프로그래밍 언어로 코딩하는 방법은 무엇일까 

 

이 책은 바로 여기에 관한 것이다. R과 파이썬 프로그래밍 언어를 사용하여 통계 분석을 자유자재로 다루는 기법에 대해 설명한다. 책이 아우르는 범주도 고전 통계학에서 머신 러닝까지 광범위하다. 이번 개정판에서는 R 이외 파이썬 언어와 코드를 추가했다.

 

책의 특징은 다음과 같이 두 가지다.

 

1. 데이터 과학과 관련된 통계의 핵심 개념들을 소화하기 쉽고, 따라하기 쉽게 소개하며, 참조할 만한 읽을거리를 정리한다.

2. 데이터 과학의 관점에서 어떤 개념들이 정말 중요하고 유용한지, 어떤 개념들이 덜 중요하고 그 이유는 무엇인지 설명한다.

 

집필에는 모두 세 사람이 참여했다. 먼저 피터 브루스(Peter Bruce)는 스태티스틱스닷컴(Statistics.com)을 설립해 100여 개 통계 전문 강의를 제공하고 있다. 데이터 과학에 대한 노하우가 상당하다.

 

앤드루 브루스(Andrew Bruce)30년 이상 학계·정부·기업에서 통계학과 데이터 과학을 연구했다. 이에 업계에서 발생하는 폭넓은 문제에 대한 통계기반 솔루션을 개발했다. 그 역시 데이터 과학 전문가로 인정받고 있다.

 

피터 게데크(Peter Gedeck)는 대학에서 화학과 수학을 전공했다. 현재 IT 회사 컬래버레이티브 드럭 디스커버리(Collaborative Drug Discovery)’에서 근무하며 약물 후보 물질의 생물학적, 물리화학적 특성을 예측하기 위한 머신러닝 알고리즘을 개발하고 있다.

 

책 구성을 보면 759항목으로 돼 있다.

 

1장은 데이터 과학의 첫걸음이라고 할 수 있는 탐색적 데이터 분석(Exploratory Data Analysis, EDA)’에 대해 설명한다. 2장은 데이터와 표본분포에 관해 알아본다. 표본분포는 정규분포, t분포, 이항분포, 카이제곱분포, F분포, 푸아송 분포 등 통계학에서 다루는 영역을 대부분 포함한다. 3통계적 실험과 유의성 검정에서 가설검정, 표본추출, p, t검정, 다중검정, 분산분석, 카이제곱검정, 표본크기와 자유도 등을 다룬다.

 

4회귀와 예측에서 단순·다중 선형 회귀분석, 회귀방정식과 회귀를 이용한 예측 그리고, 다형회귀·스플라인 회귀 등을 다룬다. 5장은 판별분석, 로지스틱회귀, 분류모델 평가 등 분류를 설명한다. 6통계적 머신 러닝에서 k-최근접 이웃, 트리 모델, 배깅과 랜덤 포레스트, 부스팅 등을 알아본다.

 

이상 4~6장은 예측변수로부터 어떤 응답변수(목표값)를 예측하는 모델을 만드는 지도 학습(Supervised Learning)에 속한다. 회귀 방정식이 대표적이다.

 

이에 반해 7장은 비지도 학습(Unsupervised Learning)을 다룬다. 비지도 학습은 목표값을 찾는 것이 아니라 주어진 데이터가 어떻게 구성되었는지와 같이 데이터로부터 의미를 끌어내는 통계적 기법을 말한다. 7장에서는 주성분분석, k-평균 클러스터링, 계층적 클러스터링, 모델 기반 클러스터링과 이와 관련된 변수 등을 설명한다.

 

책의 개요를 한 마디로 요약하면 ‘R과 파이썬을 활용한 데이터 과학이다. 데이터 과학은 통계학, 컴퓨터 과학, 정보 기술, 도메인 특화 영역 등 여러 분야가 융합된 학문이다.

 

책에 나오는 데이터 집합과 프로그래밍 코드는 다음 누리집에서 다운받을 수 있다.

https://github.com/gedeck/practical-statistics-for-data-scientists

 

한글로 옮긴 이준용 선생은 한국과학기술원(KAIST)에서 전자공학을 전공하고, 일본과 미국에서 연수했다. 현재 미국 퍼시픽 노스웨스트 국립연구소에서 재직 중이다. 그간 R과 파이썬에 대한 책을 여러 권 번역했다.


우리는 이 책을 통해 R과 파이썬이라는 프로그래밍 언어를 활용하여 통계를 분석하고, 머신 러닝 알고리즘을 짤 수 있다. 이는 곧 통계와 데이터를 다루는 스킬을 한층 더 업그레이드한다는 뜻이다.

 

*YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.

댓글 0 7명이 이 리뷰를 추천합니다. 공감 7
데이터 과학을 위한 통계 내용 평점5점   편집/디자인 평점5점 스타블로거 : 블루스타 아***인 | 2021.06.07 | 추천0 | 댓글0 리뷰제목
통계의 관점에서, 통계를 중심으로 데이터 과학의 핵심을 정리한 책이다. 통계 중심이라는 특성 덕분에 다른 데이터 과학 도서와는 달리 몇 가지 도드라진 특징을 가지고 있어 이를 중심으로 책을 리뷰해보겠다. 통계와 머신러닝의 미묘한 경계 예를 들면 머신러닝으로 데이터 과학을 접한 컴퓨터 공학 출신의 연구자 혹은 개발자들이 잘 알지 못하는 혹은 관심 없는 영역에;
리뷰제목

통계의 관점에서, 통계를 중심으로 데이터 과학의 핵심을 정리한 책이다. 통계 중심이라는 특성 덕분에 다른 데이터 과학 도서와는 달리 몇 가지 도드라진 특징을 가지고 있어 이를 중심으로 책을 리뷰해보겠다.통계중심


  • 통계와 머신러닝의 미묘한 경계

예를 들면 머신러닝으로 데이터 과학을 접한 컴퓨터 공학 출신의 연구자 혹은 개발자들이 잘 알지 못하는 혹은 관심 없는 영역에 대해 살펴볼 수 있는 기회를 제공한다. 카이제곱 검정이나 피셔의 검정은 사실 예측 중심의 머신러닝 모델에선 관심 있게 바라보는 스킬이 아니다.

하지만 본 도서를 읽으며 이런 통계적 지식이 데이터 과학에 어떤 기여를 하는지 명확히 이해할 수 있다는 것이 장점이 된다. 위 두 검정은 어떤 효과가 실제인지 우연인지 가려내기에 유용하다. 대표적 예로 웹 실험에 적합한 표본크기를 판별하기에 유용하게 활용될 수 있다.

이런 류의 실험은 클릭률이 낮기 때문에 집계 비율이 낮아 실험으로 확실한 결론을 내리기 어렵다. 위 두 검정을 활용하면 검정력이나 표본크기를 계산하는데 유용할 수 있다. 작은 부분이지만 대세가 아니라는 이유로 무작정 옛 통계 기술을 바라보지 않고 다른 방법을 찾기 보다는 통계의 핵심 특성과 필요성을 잘 이해해 두었다가 적시에 활용한다면 보다 정확한 예측에 한발 다가갈 수 있을 것이다. 바로 이런 점이 통계 중심의 데이터 과학을 다룬 본 도서 최고의 장점이라고 할 수 있겠다.

그 외에도 이 책은 통계와 데이터 과학의 미묘한 경계선을 명확히 이해하는 데 많은 도움을 준다. 빅데이터 시대가 오며 모집단과 표본집단의 경계선은 예전만큼 중요하지 않은 것 같다. 모집단에 가까운 데이터가 현실에 축적되고 있기 때문이다.

비록 내가 얕은 수준이긴 하지만 확실히 경험해보니 특히 추정이나 검정은 상대적으로 덜 중요해졌다. 큰수의 법칙이라는 시원한 그늘에 숨어 데이터 양으로 밀어 붙이고 그 안에 가져야 할 통계 모델링의 전제 조건을 눈감아 주기도 한다. 그렇다보니 추정, 검정을 활용할 일도 적어진다.

하지만 위의 웹 클릭 실험의 예시 처럼 정확도를 끌어올리기 위해 부분 부분마다 통계 지식을 활용할 일이 반드시 존재한다. 통계를 활용하여 새로운 것을 얻어내지 못할지는 몰라도 적어도 부정확성에 대한 근거와 방어 자료를 갖출 수 있으며 때로는 데이터 분포 및 샘플링에 대한 가설의 확신을 얻을 수도 있기 때문에 개인적으로 통계는 아주 유용한 학문이라고 생각한다.

특히 컴퓨터 공학 출신인 나로써는 화려한 프로그래밍 스킬과 수많은 기여자들이 쌓아온 편리한 통계, 머신러닝 라이브러리 혹은 플랫폼 뒤에 숨어 모르는 것을 관심없는 척 포장하는 것은 아닌지 늘 경계하고 있다.

통계의 핵심 개념을 어떻게든 상황에 따라 이해해보고 나아가 수리통계학적 학문까지 길게 연결해보곤 하는데 그런 점이 확실히 다음 프로젝트에 도움이 될 뿐만 아니라 다른 데이터 분석과와의 차별화된 내공을 향상시켜 준다고 믿는다.

이런 주제의 연장선으로 몇가지 더 언급하자면 데이터 분포를 확실히 아는 것은 정말 중요하다. 지금도 고수라고 할 수 없지만 머신러닝 초보시절 특히 늘 어려웠던 진입장벽이기도 하다. 또, 자유도 n-1의 명확한 개념도 그렇다.

소위 빅데이터의 특성상 n이 크다. n이 너무 커지면 n-1과 큰 차이가 없기에 사실 자유도가 가지는 중요성이 많이 퇴색했다. 하지만 n-1이 아닌 n을 택할 경우 분산 과소평가로 편향 추정이 될 수 있음은 늘 알아둬야 한다. 상황별로 어떤 시나리오와 모델은 n이 작을 수 있기 때문이다.

이런 기초적인 통계 지식을 모른채 스스로의 경력년수만 믿고 머신러닝의 지식만 소화하려고 노력했다가 답을 빠른 시간 내에 찾지 못하게 되는 실수를 범할 수 있다. 늘 겸손하고 데이터 과학의 영역 특성 상 타 영역의 지식을 흡수하고 본받을 수 있도록 노력해야 한다고 생각하며 그런 점에서 통계와 머신러닝의 차이를 분명하게 비교 설명해주는 이 책은 상당히 가치가 있다 할 수 있다.


  • 통계 중심이기에 부족할 수 있는 부분들

이번엔 통계 중심으로 데이터 과학을 바라보는데서 발생하는 몇가지 트레이트 오프를 살펴보겠다. 먼저 신경망은 다루지 않는다. 신경망은 컴퓨터 공학 위주로 발전해왔고 설명 불가능 등의 이유로 수학 중심적인 학문에서 변방 취급을 받아왔기 때문이다.

또한 다루는 예제 데이터는 주로 정형데이터이다. 테이블 데이터를 위주로 다루기에 그래프 혹은 공간 정보 데이터 등은 다루지 않는다.

또 통계 중심의 책들의 공통점 중 하나가 이론 중심의 서술이다. 이 책은 그럼에도 핵심 주제별로 코드를 실고 있어 통계 중심의 책 중에는 가장 컴퓨터 공학의 영역에 가까운 책이다. 그럼에도 핵심코드만 담겨 있기에 하나의 솔루션을 눈으로 확인하기 까지의 전 과정을 구현하는 식의 예제는 없다. 물론 경험이 어느 정도 있는 사람들이 완전판 코드를 구성하기 용이할 것이다.

이는 구성상의 트레이드 오프일 뿐 단점은 아니다. 하지만 본 도서가 본인이 찾고 있는 도서가 맞는지 독자가 확인하는데 도움을 주기 위해 언급해 보았다.


이 책은 2판이자 개정판이다. 독자층이 넓지 않은 AI, 컴퓨터 분야의 서적이 일단 2판까지 나왔다는 것은 어느 정도는 믿고 볼만한 책이라는 의미이기도 하다. 입소문을 타고 수요층이 많다는 의미이기 때문이다. 집단지성은 항상 완벽하진 않지만 대체로 늘 쓸만하다.

2판이 되고 나서 눈에 띄는 특징은 무엇보다 R, Python 코드를 병기한 구성이다. R, Python을 비교한 책은 결코 흔치 않다. 책을 좋아해 많이 읽어온 나로써도 “머신러닝과 통계(에이콘)”라는 책을 제외하고는 이 책이 처음이다.python병기

두 언어를 함께 습득하고 싶은 이라면 두 언어간 미묘한 차이를 빠르게 비교하여 두 언어를 흡수할 수 있다는 점에서 좋은 책이라 할 수 있다. 때로는 한쪽 진영만 갖고 있는 여집합에 속하는 멋진 라이브러리들이 있기 때문에 개인적으로 두 언어를 모두 익히는 것이 보다 차별화 된 데이터 분석가가 되는 지름길이라 생각한다.

또 하나 언급하고 싶은 책의 장점은 저자들의 내공이다. 저자들은 통계 분야에서 머신러닝으로 선회한 이력이 있으며 30년 이상 경력을 지니고 있어 전체적인 시야에서의 접근을 시도한다. 책을 읽다보면 체계적으로 정리되는 느낌을 받을 수 있으며 당연해 보이는 것에도 지속적인 물음표를 던진다.

심지어 A/B test는 왜 C/D test로 명명하지 않았을까에 대한 의문을 던질 정도이다. 별 것 아닌것 처럼 보일지는 몰라도 데이터 과학 분야에서 새로운 시각과 비판적인 사고의 생활화는 매우 중요하다고 생각하기에 이런 저자들의 사고법이나 접근법은 많은 영감을 준다.

이런 의문문에 이어 위에서 언급했듯 머신러닝과의 경계를 명확히 짚어보고 핵심 주제별 덜 중요한 것들과 더 중요한 것이 무엇인지 또 그렇게 나눈 이유는 무엇인지 알려주고 있기에 데이터 과학을 접하는 모든 이에게 꼭 추천하고 싶은 도서이다. 특히, 머신러닝에 비해 통계 분야에 취약한 데이터 과학 분야 종사자에게 가장 추천하고 싶다.


YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0

한줄평 (3건) 한줄평 총점 9.4

혜택 및 유의사항 ?
구매 평점5점
진심이다 이책은
이 한줄평이 도움이 되었나요? 공감 0
3* | 2021.11.10
평점5점
머신러닝과의 경계를 명확히 짚어보고 덜 중요한 것들과 더 중요한 것이 무엇인지 알려준다.
이 한줄평이 도움이 되었나요? 공감 0
아***인 | 2021.06.07
평점4점
통계와 함께 데이터 과학을 맛볼 수 있는 책입니다. R과 Python을 활용하기 좋습니다.
이 한줄평이 도움이 되었나요? 공감 0
d*******r | 2021.05.23
  •  쿠폰은 결제 시 적용해 주세요.
1   30,600
뒤로 앞으로 맨위로 aniAlarm