품목정보
발행일 | 2017년 08월 04일 |
---|---|
쪽수, 무게, 크기 | 364쪽 | 188*245*17mm |
ISBN13 | 9791185890869 |
ISBN10 | 1185890866 |
발행일 | 2017년 08월 04일 |
---|---|
쪽수, 무게, 크기 | 364쪽 | 188*245*17mm |
ISBN13 | 9791185890869 |
ISBN10 | 1185890866 |
1장 데이터 과학이란? _ 1 1.1 데이터 과학의 정의 1 1.2 데이터 과학 프로세스 8 1.3 데이터 과학자가 갖춰야 할 능력 11 2장 데이터 분석 환경 구성하기 _ 15 2.1 데이터 과학의 연장, 컴퓨터, 기타 도구들 15 2.2 R 설치와 팁 18 2.3 R 스튜디오 설치와 팁 18 2.4 R 라이브러리 설치 20 2.5 파이썬 24 2.6 서브라임 텍스트 26 2.7 깃 버전 관리 소프트웨어와 깃허브 26 2.8 유닉스 활용하기 28 2.9 구글 독스/스프레드시트/슬라이드 31 3장 데이터 취득과 데이터 가공: SQL과 dplyr _ 33 3.1 데이터 취득과 데이터 가공이란 무엇이며, 왜 중요한가? 33 3.2 데이터 취득 34 3.3 데이터 출력 44 3.4 데이터 가공 44 3.5 데이터 가공을 위한 도구 46 3.6 R의 dplyr 패키지 51 4장 데이터 시각화 I: ggplot2 _ 63 4.1 시각화의 중요성 63 4.2 베이스 R 그래픽과 ggplot2 69 4.3 변수의 종류에 따른 시각화 기법 74 4.4 시각화 과정의 몇 가지 유용한 원칙 87 5장 코딩 스타일 _ 91 5.1 스타일 가이드와 협업 91 5.2 R 코딩 스타일 94 5.3 파이썬 스타일 가이드와 도구 98 5.4 SQL 코딩 스타일 100 5.5 코딩 스타일 이외의 베스트 프랙티스 100 6반 통계의 기본 개념 복습 _ 102 6.1 통계, 올바른 분석을 위한 틀 102 6.2 첫째, 통계학은 숨겨진 진실을 추구한다 105 6.3 둘째, 통계학은 불확실성을 인정한다 107 6.4 셋째, 통계학은 관측된 데이터가 가능한 여러 값 중 하나라고 생각한다 107 6.5 스튜던트 t-분포와 t-검정이란? 111 6.6 P-값을 이해하면 통계가 보인다 113 6.7 P-값의 오해와 남용 114 6.8 신뢰구간의 의미 119 6.9 넷째, 통계학은 어렵다 122 6.10 모집단, 모수, 표본 123 6.11 모수추정의 정확도는 sqrt(n)에 비례한다 126 6.12 모든 모형은 틀리지만 일부는 쓸모가 있다 128 6.13 이 장을 마치며 129 7장 데이터 종류에 따른 분석 기법 _ 131 7.1 데이터형, 분석 기법, R 함수 131 7.2 모든 데이터에 행해야 할 분석 133 7.3 수량형 변수의 분석 134 7.4 성공-실패값 범주형 변수의 분석 138 7.5 설명변수와 반응변수 142 7.6 수량형 X, 수량형 Y 의 분석 142 7.7 범주형 x , 수량형 y 154 7.8 수량형 x, 범주형 y (성공-실패) 159 7.9 더 복잡한 데이터의 분석, 머신러닝, 데이터 마이닝 167 8장 빅데이터 분류분석 I: 기본 개념과 로지스틱 모형 _ 170 8.1 분류분석이란? 170 8.2 환경 준비 179 8.3 분류분석 예제: 중산층 여부 예측하기 180 8.4 훈련, 검증, 테스트세트의 구분 185 8.5 시각화 186 8.6 로지스틱 회귀분석 188 8.7 이 장을 마치며 195 9장 빅데이터 분류분석 II: 라쏘와 랜덤 포레스트 _ 197 9.1 glmnet 함수를 통한 라쏘 모형, 능형회귀, 변수 선택 197 9.2 나무 모형 205 9.3 랜덤 포레스트 209 9.4 부스팅 214 9.5 모형 비교, 최종 모형 선택, 일반화 능력 평가 218 9.6 우리가 다루지 않은 것들 220 10장 빅데이터 분류분석 III: 암 예측 _ 225 10.1 위스콘신 유방암 데이터 225 10.2 환경 준비와 기초 분석 226 10.3 데이터의 시각화 229 10.4 훈련, 검증, 테스트세트의 구분 231 10.5 로지스틱 회귀분석 232 10.6 라쏘 모형 적합 234 10.7 나무 모형 236 10.8 랜덤 포레스트 238 10.9 부스팅 239 10.10 최종 모형 선택과 테스트세트 오차 계산 240 11장 빅데이터 분류분석 IV: 스팸 메일 예측 _ 244 11.1 스팸 메일 데이터 244 11.2 환경 준비와 기초 분석 247 11.3 데이터의 시각화 250 11.4 훈련, 검증, 테스트세트의 구분 254 11.5 로지스틱 회귀분석 255 11.6 라쏘 모형 적합 258 11.7 나무 모형 260 11.8 랜덤 포레스트 262 11.9 부스팅 263 11.10 최종 모형 선택과 테스트세트 오차 계산 264 12장 분석 결과 정리와 공유, R 마크다운 _ 268 12.1 의미 있는 분석과 시각화 268 12.2 분석의 타당성 271 12.3 보고서 작성과 구성 272 12.4 분석 결과의 공유 275 12.5 R 마크다운 278 13장 빅데이터 회귀분석 I: 부동산 가격 예측 _ 281 13.1 회귀분석이란? 281 13.2 회귀분석 예제: 부동산 가격 예측 283 13.3 환경 준비와 기초 분석 284 13.4 훈련, 검증, 테스트 세트의 구분 286 13.5 선형회귀 모형 286 13.6 라쏘 모형 적합 291 13.7 나무 모형 293 13.8 랜덤 포레스트 295 13.9 부스팅 296 13.10 최종 모형 선택과 테스트세트 오차 계산 297 14장 빅데이터 회귀분석 II: 와인 품질 예측 _ 300 14.1 와인 품질 데이터 소개 300 14.2 환경 준비와 기초 분석 301 14.3 데이터의 시각화 302 14.4 훈련, 검증, 테스트세트의 구분 304 14.5 선형회귀 모형 305 14.6 라쏘 모형 적합 309 14.7 나무 모형 311 14.8 랜덤 포레스트 313 14.9 부스팅 314 14.10 최종 모형 선택과 테스트세트 오차 계산 315 15장 데이터 시각화 II: 단어 구름을 사용한 텍스트 데이터의 시각화 _ 318 15.1 제퍼디! 질문 데이터 318 15.2 자연어 처리와 텍스트 마이닝 환경 준비 320 15.3 단어 구름 그리기 320 15.4 자연어 처리 예 323 15.5 고급 텍스트 마이닝을 향하여 323 15.6 한국어 자연어 처리 324 16장 실리콘밸리에서 데이터 과학자 되기 _ 326 16.1 데이터 과학자에게 요구되는 자질들 326 16.2 데이터 과학자 고용 과정 327 16.3 인터뷰 준비 329 16.4 행동질문과 상황질문 330 16.5 취업의 패러독스 332 찾아보기 334 |
"따라하며 배우는 데이터 과학"은 책 이름 그대로 데이터 사이언스를 간단한 예제를 통해 직접 해보며 익히는 입문서의 역할입니다.
간단하게 설명을 하려고 노력을 하고 있으며 데이터 사이언스라는 분야가 어떤 일을 하는지를 체험시켜 주기 위한 구성을 갖추고 있습니다.
하지만 책의 초점은 데이터 사이언스이기 때문에 그에 필요한 기초 통계와 응용 통계의 일부 (회귀 분석 등), 컴퓨터 프로그래밍에 대한 기본 사전 지식을 갖추고 학습하는 것을 추천합니다.