품목정보
발행일 | 2022년 10월 10일 |
---|---|
이용안내 ? |
|
지원기기 | 크레마, PC(윈도우), 아이폰, 아이패드, 안드로이드폰, 안드로이드패드, 전자책단말기(일부 기기 사용 불가), PC(Mac) |
파일/용량 | PDF(DRM) | 12.02MB ? |
글자 수/ 페이지 수 | 약 413쪽? |
ISBN13 | 9791169216180 |
발행일 | 2022년 10월 10일 |
---|---|
이용안내 ? |
|
지원기기 | 크레마, PC(윈도우), 아이폰, 아이패드, 안드로이드폰, 안드로이드패드, 전자책단말기(일부 기기 사용 불가), PC(Mac) |
파일/용량 | PDF(DRM) | 12.02MB ? |
글자 수/ 페이지 수 | 약 413쪽? |
ISBN13 | 9791169216180 |
개발 환경 준비 + 판다스 핵심 기능 + 데이터 시각화 + EDA 실습 판다스는 파이썬 환경에서 데이터를 분석하기에 최적화 된 오픈소스 라이브러리이다. 이 책은 파이썬 데이터 분석을 위한 준비 과정과 알아야 하는 개념 그리고 판다스 핵심 기능과 데이터 시각화 기초까지 다룬다. 또한 파이썬 데이터 분석에 필요한 핵심 레시피를 익힌 뒤 넷플릭스 데이터셋으로 실무도 경험해본다. 현업에 적용할 수 있는 EDA를 실습하고 데이터 간 유의미한 상관관계를 분석하며 데이터 분석 역량을 기를 수 있도록 도와준다. ★ 이 책의 구성 STEP1 데이터 분석 준비 & 기본 개발 환경 구축하기 파이썬 기본 내용 파이썬 핵심 라이브러리 소개 및 기능 설명 STEP2 데이터 정제와 응용 데이터 필터링/정렬 테크닉 결측값/이상값 확인 및 처리 STEP3 데이터 병합/그룹 연산 데이터 병합 테이블 형식 데이터 재배치/피벗 groupby를 활용한 그룹별 요약 및 집계 피벗 테이블과 크로스탭 활용 STEP4 시계열 데이터 처리 날짜시간 데이터 타입 날짜시간 데이터 인덱스 STEP5 데이터 시각화 맷플롯립 기본 핵심 많이 활용되는 시본의 주요 그래프 STEP6 실전 연습 EDA 실습: 넷플릭스 데이터셋 데이터 전처리 기법 적용 및 데이터 시각화 작업 1장_데이터 분석 준비 데이터 분석이 무엇이고 어떻게 진행되며 어떤 역량이 필요한지 살펴본다. 그리고 파이썬 데이터 분석을 실행하기 위한 개발 환경을 구축한 뒤 이 책을 읽는 데 필요한 파이썬 기본 내용과 핵심 라이브러리에 대해 알아본다. 2장_데이터 분석 기본 파이썬에서 데이터 분석을 하기 위해 가장 필수적으로 알아야 할 라이브러리인 넘파이 와 판다스의 기본 사용법을 학습한다. 데이터를 불러오고, 생성하고, 선택하고, 골라내고, 삭제하고 새로운 모양으로 변경하는 등 기초적인 데이터 처리 방법을 배운다. 3장_데이터 정제와 응용 데이터를 처리하고 가공하는 다양한 방법을 몇 가지 카테고리로 분류해서 배운다. 먼저 상세한 조건으로 데이터를 추출하거나 다른 함수를 활용하여 데이터를 필터링하는 기법과 정렬 테크닉을 알아본다. 그다음 결측값이 생기는 원인과 판다스로 결측값을 확인하고 처리하는 방법에 대해 익힌 뒤 이상값을 확인하고 처리하는 방법을 살펴본다. 4장_데이터 병합과 재형성 서로 다른 데이터프레임을 연결하고, 합쳐진 데이터프레임을 다시 다른 모양으로 변경하는 학습을 한다. 판다스의 함수를 통해 흩어져 있는 데이터를 연결하고 병합하는 방법을 익힌다. 그리고 테이블 형식의 데이터를 다양한 방식과 기준으로 데이터를 재배치하거나 피벗하는 방법을 학습한다. 마지막으로 데이터 병합이나 재형성 후의 처리 방법에 대해 다룬다. 5장_데이터 집계와 그룹 연산 판다스의 groupby 개념과 활용법을 배우고 데이터를 그룹별로 나누어 요약 및 집계를 해본다. 또한 판다스에서 피벗 테이블과 그룹 빈도를 계산하는 크로스탭을 활용한 분석에 대해서 알아본다. 6장_날짜시간 데이터 처리 판다스에서 사용하는 시계열 데이터 종류인 datetime과 관련하여 날짜와 시간에 대한 기초 지식을 학습한다. 날짜시간 데이터를 다룰 때 기초적으로 알고 있어야 할 데이터 타입에 대해 배우고 인덱스와 관련있는 몇 가지 주요 처리 방법에 대해 익힌다. 7장_데이터 시각화 대표적인 파이썬 데이터 시각화 라이브러리인 맷플롯립과 시본을 알아본다. 먼저 파이썬으로 데이터 시각화를 할 때 필수적으로 알아야 할 맷플롯립의 핵심을 학습한다. 그다음 많이 활용되는 시본의 주요 그래프에 대해 배워본다. 8장_데이터 분석: EDA 실습 앞에서 배운 기술을 어떻게 사용하고 응용되는지 익히기 위해 데이터 분석 실습 과정을 진행한다. 분석하려는 데이터의 특징을 파악하여 적합한 전처리 기법을 적용한 후 데이터를 더 잘 이해할 수 있도록 다양한 시각화 작업을 해본다. ★ 대상 독자 이 책은 파이썬을 이용한 데이터 분석에 대해 관심 있는 입문자를 대상으로 한다. 기본적으로 파이썬 기초를 알고 있다는 전제하에 설명하고 있으나 파이썬을 접해보지 못한 독자를 위해 파이썬 핵심 기본 내용을 수록했다. ★ 예제 소스 https://github.com/claryk0520/bumping-into-data-analysis 추천사 요즘은 데이터 분석 전문가가 아니더라도 자기 분야의 데이터 분석을 스스로 하는 시대이다. 다만 일반인도 처음부터 따라 하기만 하면 데이터 분석의 기초를 갖출 수 있는 책이 많지 않아 아쉬움이 있었다. 이 책은 파이썬과 데이터 분석을 처음 접하는 입문자가 기본서로 삼아 공부하기에 적합한 내용으로 구성되어 있으며 비전문가의 눈높이에 맞는 적절한 예제로 쉽게 설명하고 있다. 특히 공식 문서에는 나오지 않지만 알아두면 좋은 팁과 초보자가 하기 쉬운 실수에 대한 조언이 가득 담겨 있다는 것이 이 책의 가장 큰 장점이다. 김정용 - SK하이닉스 | AI 엔지니어 개발, 마케팅 등의 업무를 담당하는 사람뿐 아니라 일반인도 데이터를 다뤄야 하는 시대이다. 이 책은 초보자도 쉽게 데이터 분석에 입문할 수 있도록 도와주는 백과사전이다. 데이터 분석을 위한 환경 구성부터 기초 및 고급 지식을 습득할 수 있는 다양한 예제가 마련되어 있으며, 마지막 장의 EDA 실습을 통해 실전에 빠르게 적용할 수 있도록 도와준다. 데이터 분석의 기초를 최대한 빠르게 습득함과 동시에 실전에 적용하고자 하는 독자에게 이 책을 강력히 추천한다. 남상구 - 인텔 | 소프트웨어 엔지니어 파이썬을 이용한 데이터 분석과 머신러닝을 배우기 시작하면 어렵게 느껴지는 고비가 몇 군데 있다. 그중 하나가 판다스를 사용해 데이터를 다룰 때이다. 처음엔 판다스를 사용해 데이터를 읽고 쓰면서 그 편리함과 예쁜 표로 시각화된 모습을 보며 신세계를 만난 기분이 들지만 본격적으로 데이터를 가공하고 집계하다 보면 데이터 앞에서 작아지는 자신을 보게 된다. 판다스는 짧은 시간 동안 집중해서 익히는 라이브러리가 아니다. 다루는 데이터에 따라 각기 다른 대응법을 끊임없이 배워야 하는 존재이다. 이 책은 판다스의 중요한 기능이 적절한 예제에 함께 간결하게 정리되어 있다. 판다스를 빨리 익혀야 한다는 조바심은 잠시 내려두고 이 책을 통해 판다스의 필요한 기능을 하나씩 배워보기 바란다. 이제현 - 한국에너지기술원 플랫폼연구센터 | 선임연구원 데이터 분석, 어디서부터 어떻게 무엇을 배워야 할지 참 막막하게 느껴질 것이다. 이런 고민을 가지고 있는 독자에게 알맞은 설루션으로 이 책을 추천한다. 입문자에게 파이썬 핵심 라이브러리 사용법을 비롯하여 필요한 것만 알려주어 학습 시간을 아껴주고, 쉽게 설명하고 있어 데이터 분석의 진입 장벽을 조금이나마 낮춰준다. 책을 덮을 즈음에는 데이터 분석에 대한 자신감이 생기게 될 것이며, 이 책이 데이터 분석가라는 초행길의 믿음직스러운 길잡이가 되어줄 것이다. 하송미 - (주)네피리티 | 데이터 분석 엔지니어 프런트엔드 개발자로 성장하고자 하는 독자라면 한 권쯤 꼭 가지고 있으면 좋을 안내서이다. 개발자라는 긴 여정을 시작하는 초심자를 위해 개발 환경 설정부터 현업에서 주로 사용하는 데이터 형태와 타입 그리고 분석 기법을 군더더기 없이 단계별로 예제와 함께 풀어주고 있다. 이 책에서 안내하는 단계별 여정대로 잘 따라간다면 길을 잃을 일 없이 어느새 자연스럽게 데이터 분석을 하고 있는 자신을 볼 수 있을 것이다. 조준호 - 한국고용정보원 | 데이터 분석가 이 책은 한 마디로 판다스 기초 백과사전이라고 할 수 있다. 상세한 설명과 다양한 예제를 통해 데이터 분석 초심자가 데이터프레임을 활용한 분석 과정에서 막힐 수 있는 부분을 자세하게 설명해주고 있기 때문에 처음 데이터 분석을 시작하려는 독자에게 추천한다. 또한 다양한 데이터프레임 사용 방법을 숙지할 수 있고 다시 한번 기초를 다지는 기회가 될 수 있기 때문에 데이터 분석을 경험한 독자에게도 많은 도움이 될 것이다. 이단비 - (주)이팝콘 | 데이터 분석가 |
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
지금 우리는 그야말로 데이터가 넘치는 시대에 살고 있다. 핸드폰이나 태블릿, 스마트 워치와 같은 전자기기들은 우리의 정보를 실시간으로 기록하고 있고, 인터넷은 우리가 선택한 모든 것을 '로그'로 수집하고 있다. 대체로 이런 데이터들은 매우 단순한 몇 가지 정보만 담고 있어 하나의 데이터는 전혀 가치가 없어 보인다. 하지만, 이런 기록들이 쌓여가기 시작해 통계적인 의미를 갖기 시작한다면 쓸모없어 보이던 데이터 저장소는 그야말로 금광이 되어 버린다. 최신 아이폰에선 실시간으로 관측되는 데이터를 통해 차량 사고를 감지하기도 하고, 수 많은 온라인 쇼핑몰은 몇 번 클릭을 하지도 않은 것 같은데 나의 취향에 맞는 수많은 상품들을 진열해 놓기도 한다.
데이터의 가치를 정확히 발견하기 위해서는 당연히 데이터를 다룰 수 있어야 한다. 심지어 데이터가 내포하고 있는 특별한 정보를 잘 찾아내는 것 뿐만이 아니라 결과를 시각적으로 돋보일 수 있게 만들어 다른 사람을 설득하는데 힘을 실어줄 수 있어야 한다. 이 모든 것을 해내기 위해선 적절한 도구가 필요한데, 개인적으로 아주 유용하다고 생각하는 것은 프로그래밍 언어 중 하나인 파이썬(Python)과 파이썬의 라이브러리인 판다스(Pandas)와 맷플롯립(Matplotlib)을 함께 활용하는 것이다.
지금까지도 본격적으로 업무의 영역에서 데이터 분석을 다룰일이 없어 겉핥기식으로 판다스와 맷플롯립을 사용해보고 있었다. 이 라이브러리들은 기본적인 기능은 단순하고 익히기 쉬워 몇 가지 함수만 사용하여 데이터 분석에 발을 들이는 것은 가능하다. 하지만, 모든 고인물의 세계가 그렇듯이 "진짜"가 되기 위해 가야 할 길은 너무나 멀다. 만약 발을 들이는 것에는 성공했다면, 김유지 작가님의 <어쩌다 데이터 분석 with 파이썬>이라는 책은 파이썬을 활용한 데이터 분석에 기초를 다지기 아주 좋을 것이다. 심지어 파이썬을 전혀 모르는 상태에서 데이터 분석을 시작한다 하더라도 아주 좋은 선택이다. 8개의 챕터 중 무려 2개의 챕터에 걸쳐 기본적인 파이썬의 활용법이나 라이브러리의 기초 내용에 대해 핵심만 짚어주고 넘어간다.
본격적인 데이터 분석의 이론은 4개의 챕터를 통해 설명한다. 데이터를 처음 마주하였을 때 쓸데없이 하드 디스크의 용량만 차지하는 비트 덩어리를 어떻게 처리하면 쓸모있는 정보가 될 수 있는지 설명해 준다. 특히 판다스에서 사용하기는 어렵지만 아주 강력한 기능들이라 생각되는 병합이나 그룹화 같은 것들을 상세히 다룬다.
마지막으로 남은 두개의 챕터에서는 각각 데이터 시각화 방법과 앞서 배운 내용을 총망라하는 실습이 들어 있다. 데이터 시각화에서는 이전 챕터에서부터 책의 마지막까지 사용하고 있는 다양한 시각화 그래프들을 만드는 방법들을 상세히 다루어 주고 있다. 마지막 실습에서는 하나의 데이터 셋을 통해 "탐험적 데이터 분석(Exploratory Data Analysis)"을 수행한다. EDA를 한 단계씩 수행할 때마다 실습 데이터 셋에 숨어 있던 정보들을 하나씩 찾아가는 재미도 나름 쏠쏠하다.
<어쩌다 데이터 분석 with 파이썬>은 책 전반에 걸쳐 글이 전혀 부담으로 다가오지 않고, 다양한 코드와 결과물 예시 이미지 등을 적극 활용하여 활자 알러지가 있더라도 안심할 수 있다. 특히 코드와 결과물을 보여줄 때는 한 번에 많은 코드를 붙여 놓고 설명하는 방식이 아니라 정성스럽게 최소 의미 단위로 나누어 설명한다. 이를 통해 책을 읽으면서 직접 실습을 못해보는 상황이더라도 주피터 노트북을 통해 직접 실습해보는 듯한 경험을 할 수 있었다.
이 책의 제목 처럼 '어쩌다 데이터 분석'을 해야 하는 상황이 생긴다면, 서점에 가서 이 책 한 권을 들고 나오면 파이썬의 기초, 라이브러리의 활용법, 데이터 분석의 방법들, 그리고 실전 적용 예제까지 폭넓은 (하지만 얕은..?) 데이터 분석에 대해 익힐 수 있을 것이다.
우리는 직관을 믿고 싶어 하지만, 직관이 완전히 잘못되는 경우가 많다는 것은 널리 알려진 사실이다.
<실험의 힘>