품목정보
발행일 | 2019년 05월 20일 |
---|---|
쪽수, 무게, 크기 | 664쪽 | 1166g | 183*235*27mm |
ISBN13 | 9791162241905 |
ISBN10 | 116224190X |
발행일 | 2019년 05월 20일 |
---|---|
쪽수, 무게, 크기 | 664쪽 | 1166g | 183*235*27mm |
ISBN13 | 9791162241905 |
ISBN10 | 116224190X |
CHAPTER 1 시작하기 전에 __1.1 이 책에서 다루는 내용 __1.2 왜 데이터 분석에 파이썬을 사용하나 __1.3 필수 파이썬 라이브러리 __1.4 설치 및 설정 __1.5 커뮤니티와 컨퍼런스 __1.6 이 책을 살펴보는 방법 CHAPTER 2 파이썬 언어의 기본, IPython, 주피터 노트북 __2.1 파이썬 인터프리터 __2.2 IPython 기초 __2.3 파이썬 기초 CHAPTER 3 내장 자료구조, 함수, 파일 __3.1 자료구조와 순차 자료형 __3.2 함수 __3.3 파일과 운영체제 __3.4 마치며 CHAPTER 4 NumPy 기본: 배열과 벡터 연산 __4.1 NumPy ndarray: 다차원 배열 객체 __4.2 유니버설 함수: 배열의 각 원소를 빠르게 처리하는 함수 __4.3 배열을 이용한 배열지향 프로그래밍 __4.4 배열 데이터의 파일 입출력 __4.5 선형대수 __4.6 난수 생성 __4.7 계단 오르내리기 예제 __4.8 마치며 CHAPTER 5 pandas 시작하기 __5.1 pandas 자료구조 소개 __5.2 핵심 기능 __5.3 기술 통계 계산과 요약 __5.4 마치며 CHAPTER 6 데이터 로딩과 저장, 파일 형식 __6.1 텍스트 파일에서 데이터를 읽고 쓰는 법 __6.2 이진 데이터 형식 __6.3 웹 API와 함께 사용하기 __6.4 데이터베이스와 함께 사용하기 __6.5 마치며 CHAPTER 7 데이터 정제 및 준비 __7.1 누락된 데이터 처리하기 __7.2 데이터 변형 __7.3 문자열 다루기 __7.4 마치며 CHAPTER 8 데이터 준비하기: 조인, 병합, 변형 __8.1 계층적 색인 __8.2 데이터 합치기 __8.3 재형성과 피벗 __8.4 마치며 CHAPTER 9 그래프와 시각화 __9.1 matplotlib API 간략하게 살펴보기 __9.2 pandas에서 seaborn으로 그래프 그리기 __9.3 다른 파이썬 시각화 도구 __9.4 마치며 CHAPTER 10 데이터 집계와 그룹 연산 __10.1 GroupBy 메카닉 __10.2 데이터 집계 __10.3 Apply: 일반적인 분리-적용-병합 __10.4 피벗테이블과 교차일람표 __10.5 마치며 CHAPTER 11 시계열 __11.1 날짜, 시간 자료형, 도구 __11.2 시계열 기초 __11.3 날짜 범위, 빈도, 이동 __11.4 시간대 다루기 __11.5 기간과 기간 연산 __11.6 리샘플링과 빈도 변환 __11.7 이동창 함수 __11.8 마치며 CHAPTER 12 고급 pandas __12.1 Categorical 데이터 __12.2 고급 GroupBy 사용 __12.3 메서드 연결 기법 __12.4 마치며 CHAPTER 13 파이썬 모델링 라이브러리 __13.1 pandas와 모델 코드의 인터페이스 __13.2 Patsy를 이용해서 모델 생성하기 __13.3 statsmodels 소개 __13.4 scikit-learn 소개 __13.5 더 공부하기 CHAPTER 14 데이터 분석 예제 __14.1 Bit.ly의 1.USA.gov 데이터 __14.2 MovieLens의 영화 평점 데이터 __14.3 신생아 이름 __14.4 미국농무부 영양소 정보 __14.5 2012년 연방선거관리위원회 데이터베이스 __14.6 마치며 APPENDIX A 고급 NumPy __A.1 ndarray 객체 구조 __A.2 고급 배열 조작 기법 __A.3 브로드캐스팅 __A.4 고급 ufunc 사용법 . __A.5 구조화된 배열과 레코드 배열 __A.6 정렬에 관하여 __A.7 umba를 이용하여 빠른 NumPy 함수 작성하기 __A.8 고급 배열 입출력 __A.9 성능 팁 APPENDIX B IPython 시스템 더 알아보기 __B.1 명령어 히스토리 사용하기 __B.2 운영체제와 함께 사용하기 __B.3 소프트웨어 개발 도구 __B.4 IPython을 이용한 생산적인 코드 개발에 관한 팁 __B.5 IPython 고급 기능 __B.6 마치며 |
한 줄 요약 : 데이터 분석 이론이 아니라 파이썬과 라이브러리를 활용해서 실습 경험을 쌓을 때 도움되는 책
시중에 출간된 데이터 분석 책을 크게 두 가지로 분류된다.
1. 이론 중심으로 데이터 분석에 대해 정리한 책
2. 프로그래밍 언어로 간단한 예제들을 실행해보는 책
[파이썬 라이브러리를 활용한 데이터 분석]은 이 두 가지를 적정선에서 잘 조합되어 있다.
NumPy, Pandas, Matplotlib, IPython, Jupyter 등 다양한 파이썬 라이브러리를 사용하여 실습을 진행하도록 되어 있다.
데이터 분석 책을 보면 복잡한 수식과 그 수식을 설명하는 긴 설명때문에 금방 포기했었다.
라면을 끓이는 것에 비유할 수 있겠다.
라면을 끓일 때는 냄비에 물을 붓고, 끓이고, 면과 스프를 넣고 3분 기다렸다가 먹으면 된다.
라면의 면발을 어떻게 튀겨야 하고, 스프에 들어가는 재료의 구성 비율은 어떻게 맞추고... 이런 것들을 알면 좋겠지만 내가 필요한 건 그게 아니라는 점이다.
이 책이 그렇다.
데이터 분석을 하려면 파이썬과 라이브러리를 활용해서 어떤 결과를 내야 한다.
복잡한 수식과 그 이유를 알면 좋겠지만 일단 실습을 끝내고 나서 심화학습하면 된다.
이런 점에서 실습 위주로 되어 있어서 이 고민은 내려놓을 수 있었다.
주요 실습 내용은 아래와 같다.
하지만 파이썬 언어의 사용법과 같은 최소한의 지식은 있어야 한다.
파이썬은 매력적인 언어입니다, 1991년 처음 발표된 이래 펄, 루비 같은 인기있는 언어가 되었습니다. 특히 최근 몇년사이에 레일즈(루비), 장고(파이썬) 같은 다양한 웹 프레임워크로 웹사이트를 만들면서 파이썬과 루비는 큰 인기를 얻었습니다. 이처럼 파이썬은 다양한 역사적, 문화적 이유로 인해 방대하고 활동적인 과학 계산 컴퓨팅 커뮤니티에서 사용되고 있습니다. 파이썬은 데이터 분석과 대화형(인터랙티브) 컴퓨팅, 데이터 시각화에서 자주 사용하는 R, 매트랩, SAS, stata같은 오픈소스나 사용 언어, 도구와 비교해도 뒤지지 않습니다. 최근에는 파이썬 라이브러리 지원이 개선되어 데이터 처리 업무에 두각을 나타내고 있을 정도로 파이썬은 범용적인 프로그램밍 언어일뿐만 아니라 과학 계산용으로도 손색이 없기에 데이터 애플리케이션 개발을 위한 최고의 언어라고도 할 수 있습니다.
제가 이 책을 선택한 이유는 데이터 분석을 평소에 학습하고 싶었으며 파이썬을 자주 접했었기 때문에 데이터 분석 학습을 시작할때 좀더 이해하기 편하게 파이썬으로 접할 수 있기 때문입니다.
이 책의 특성은 파이썬을 처음 접하는 초보자를 위해 딱 필요한 만큼의 파이썬 언어의 기본을 포함하고 있으며 파이썬 데이터 분석 라이브러리인 pandas 외에도 주피터, NumPy, matplotlib, 등 파이썬으로 데이터 분석 작업을 한다면 반드시 마주치게 되는 다양한 도구도 차근차근 안내하고 있기 때문입니다.
요즘 대기업에서는 바이러스 프로그램이나 보안사고 사후관리를 위해 데이터 분석을 할 수 있는 인원을 자체적으로 보유하고 있으며 많이 채용하고 있는 추세입니다. 바이러스 프로그램을 분석함으로써 어떠한 기능을 하는지, 어떠한 피해가 발생했는지, 발생할 수 있는지 분석하고 추측하여 보안사고 피해규모를 줄일 수 있습니다. 그렇기 때문에 대기업 뿐만 아니라 사이버 수사대, 한국인터넷진흥원같은 공공기관에서도 많이 선호하고 채용하고 있습니다. 따라서 데이터 분석을 학습할 수 있다면 개발자라면 개발하는 것에 큰 도움이 될것이고 그외에도 IT관련 직종인 사람들도 알고 있으면은 자신의 직무에 많은 도움이 될것입니다.
구성
Chapter 1: 시작하기 전에
Chapter 2: 파이썬 언어의기본, IPython, 주피터 노트북
Chapter 3: 내장 자료구조, 함수, 파일
Chapter 4: NumPy 기본: 배열과 벡터 연산
Chapter 5: pandas
Chapter 6: 데이터 로딩과 저장, 파일 형식
Chapter 7: 데이터 정체 및 준비
Chapter 8: 데이터 준비하기: 조인, 병합, 변형
Chapter 9: 그래프와 시각화
Chapter 10: 데이터 집계와 그룹 연산
Chapter 11: 시계열
Chapter 12: 고급 pandas
Chapter 13: 파이썬 모델링 라이브러리
Chapter 14: 데이터 분석 예제
APPENDIX A: 고급 NumPy
APPENDIX B: IPython 시스템 더 알아보기
파트별로 나누어 봤을때 1장은 파이썬 필수 라이브러리 소개와 기본 환경 세팅방법에 대해 설명하고 있고 2~5장은 내장 자료구조 및 함수와 각 필수 라이브러리에 대해, 6~11장은 각종 데이터 분석 방법에 대해, 12~13장은 pandas를이용하여 데이터 분석을 하는방법에 대해, 14장은 각종 예제를 통해 실습하는 방법에 대해 설명하고 있습니다.
개인적인 생각으로 학습은 파이썬 또는 데이터 분석을 1부터 시작해야하는 시니어이신 분들께서는 1장부터 시작하시면 좋을것 같고 어느정도 경험이 있으신 분들(파이썬을 사용하여 개발 2년차~)은 5장까지는 가볍게 읽으시면서 자료구조, 함수, 파일등을 학습하신 다음 6장부터 시작하시면 좋을듯 싶습니다. 그리고 현재 파이썬에 대해 지식이 어느정도 풍부하시거나 현직에서 사용하시면서 데이터 분석을 학습하시는 분들(3년차~) 역시 6장부터 시작하시면 좋을듯 싶습니다.(6장부터 핵심적인 내용이네요) 그리고 APPENDIX A, B는 다들 한번씩은 읽는것을 추천합니다.
그리고 개인적으로 약간의 단점이 내용구성부분에서 기초적인 자료구조 부분이 구성의 40%정도를 차지하고 실습부분이 1장으로 구성되어 있는데 자료구조 부분을 핵심내용 부분만 추려서 2장정도로 내용을 좀더 간단히 구성하고 실습 부분이 좀더 많았으면 더 좋았을것 같다는 아쉬움이 있습니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
이 책을 본 순간 처음 드는 느낌, '와 두껍다'. 무려 700 페이지에 육박하는 도서였습니다. 책 두께가 두꺼운 만큼, 내용도 많다는 의미겠지요. 반면에 어려운 내용을 잘 풀어서 설명해서 처음 접근하는 사람이 그나마 덜 부담스럽게 느낄 수 있는 책이라고도 볼 수 있습니다. 이 책은 바로 그런 책이라는 생각이 듭니다.
책의 작가인 웨스 맥키니는 pandas 프로젝트를 시작한 사람입니다. 데이터 분석에 관한 책이면서, 파이썬 라이브러리를 활용하는 것이라고 제목에 나타나있지만, 실은 책의 대부분의 내용은 pandas 에 대한 내용으로, pandas 설명서라고 불러도 과언이 아닐 듯 합니다. 어느 책에서나 대체로 그러하듯이, 초반에는 예제를 사용하기 위한 환경과 기초 개념에 대한 설명이 있습니다. 4장에 이르러서 numpy에 대한 기본 내용을 다룹니다. 이후 5장부터 12장까지는 pandas 사용법에 대한 내용입니다. 데이터 분석에 pandas 라이브러리가 얼마나 큰 비중을 차지하고 있는지 알 수 있는 단적인 내용입니다. 하지만, 그 뒤에 13장에서는 Patsy, statsmodels, scikit-learn 과 같은 모델링 라이브러리를 사용하는 방법과 14장에서 데이터 분석도 다루고 있기 떼문에, 데이터 분석이라는 분야에서 필요한 부분을 폭넓게 다루고 있다고도 생각합니다. 또 appendix에서는 앞에서 기본만 다룬 numpy를 좀 더 심층있게 다루고 있고, IPython 사용법도 다루고 있기 때문에 데이터 분야의 개발을 담당하는 사람에게는 실용적인 책일 것입니다.
개인적으로는 파이썬을 접할 기회가 적어서, 다른 기술 문서의 코드를 보면서, 대략 이러하게 진행되는구나 정도만 파악했는데, 파이썬 기초를 다루고 있고, 개념을 간단 명료하게 잘 설명해줘서, 그 뒤에 이어지는 numpy나 pandas 사용 코드를 보는데도 상당히 도움이 되었습니다. 특히 슬라이싱과 값 분리하기 등과 같은 개념은 pandas의 기본 자료형인 Series와 DataFrame을 이용하는 코드에서는 필수적으로 이해해야 하는 내용인데, 미리 잘 파악하게 해둬서 도움이 많이 되었습니다.
pandas 는 알아갈수록 놀라운 라이브러리인 것 같습니다. 복잡한 데이터 형태를 많이 다뤄보지 않은 이유도 있겠지만, 테이블 형태의 데이터를 이렇게 다양한 방식으로 처리할 수 있는지, 또 이렇게 간단히 해낼 수 있는지 경이롭습니다. 데이터을 생성하고, 검색하고, 연산하고, 필터링하고, ... 그것도 좋은 성능으로 해내니, 인기가 많은 이유겠지요.
데이터를 다루는 외부 자료나 툴과의 연동도 간단하게 할 수 있는 것도 마음에 듭니다. csv이나 JSON 같은 형태는 많이 사용하고 있어서 기본일 수는 있겠지만, 엑셀이나 외부의 데이터베이스, 웹 API까지 연동이 된다니 지원하는 편의성이 감탄스럽습니다.
압도하는 책의 내용량으로 아직 완독을 하진 못했지만, 앞으로 이어질 흥미롭고 놀라울 내용이 기대가 됩니다. 진입 장벽을 느낄 수 있는 데이터 분석이라는 분야에 시발점으로 삼을 수 있는 좋은 책을 만난 것 같습니다. 그리고, 이제는 너무나 인기 분야가 되어 버린 AI 에서도 소양이 될 지식을 전달해 줄 수 있는 훌륭한 책입니다.
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.