확장메뉴
주요메뉴


소득공제 베스트셀러 강력추천
미리보기 공유하기

파이썬 머신러닝 판다스 데이터 분석

리뷰 총점9.2 리뷰 15건 | 판매지수 8,649
베스트
OS/데이터베이스 31위 | IT 모바일 top100 8주
정가
25,000
판매가
22,500 (10% 할인)
YES포인트
내 주변 사물들 - 탁상시계/러그/규조토발매트/데스크정리함/트레이/유리머그컵
[단독]『혼자 공부하는 파이썬』 개정판 출간
키워드로 읽는 2022 상반기 베스트셀러 100
월간 개발자 2022년 6월호
내일은 개발자! 코딩테스트 대비 도서전
정보문화사 브랜드전, 2022 아트 캘린더 증정
파이썬 시리즈 기획전 - 퍼퓸 핸드크림 증정
6월 전사
6월 쇼핑혜택
1 2 3 4 5

품목정보

품목정보
출간일 2019년 06월 15일
쪽수, 무게, 크기 392쪽 | 940g | 187*235*21mm
ISBN13 9788956748337
ISBN10 8956748330

책소개 책소개 보이기/감추기

데이터 과학자가 되기 위한 첫걸음!

파이썬 초급자나 중급자가 데이터 분석과 머신러닝을 배우고자 마음먹었다면 이 책을 선택해야 한다. 필수 라이브러리를 소개하고 설치부터 예제 코드를 따라 하면서 자연스럽게 익숙해지도록 안내하고 있기 때문이다. 어려울 것 같은 수학과 통계학적 이론은 가능한 한 낮추고 실습하며 최소한의 설명으로 결과값과 확인할 수 있도록 하였다. 또한 방대한 텍스트보다는 다이어그램 등과 같은 도식화에 신경을 기울여 한눈에 이해할 수 있도록 구성하였다. 누구나 데이터 과학자가 될 수 있다. 그 출발 선상에 섰다면 이 책과 함께 예제코드를 하나씩 실행해보면, 파이썬 데이터 분석을 즐기고 있는 본인을 발견할 것이다.

목차 목차 보이기/감추기

PART 1. 판다스 입문
1. 데이터과학자가 판다스를 배우는 이유
2. 판다스 자료구조
2-1. 시리즈
2-2. 데이터프레임
3. 인덱스 활용
4. 산술연산
4-1. 시리즈 연산
4-2. 데이터프레임 연산

PART 2. 데이터 입출력
1. 외부 파일 읽어오기
1-1. CSV 파일
1-2. Excel 파일
1-3. JSON 파일
2. 웹(web)에서 가져오기
2-1. HTML 웹 페이지에서 표 속성 가져오기
2-2. 웹 스크래핑
3. API 활용하여 데이터 수집하기
4. 데이터 저장하기
4-1. CSV 파일로 저장
4-2. JSON 파일로 저장
4-3. Excel 파일로 저장
4-4. 여러 개의 데이터프레임을 하나의 Excel 파일로 저장

PART 3. 데이터 살펴보기
1. 데이터프레임의 구조
1-1. 데이터 내용 미리보기
1-2. 데이터 요약 정보 확인하기
1-3. 데이터 개수 확인
2. 통계 함수 적용
2-1. 평균값
2-2. 중간값
2-3. 최대값
2-4. 최소값
2-5. 표준편차
2-6. 상관계수
3. 판다스 내장 그래프 도구 활용

PART 4. 시각화 도구
1. Matplotlib - 기본 그래프 도구
1-1. 선 그래프
1-2. 면적 그래프
1-3. 막대 그래프
1-4. 히스토그램
1-5. 산점도
1-6. 파이 차트
1-7. 박스 플롯
2. Seaborn 라이브러리 - 고급 그래프 도구
3. Folium 라이브러리 - 지도 활용

PART 5. 데이터 사전 처리
1. 누락 데이터 처리
2. 중복 데이터 처리
3. 데이터 표준화
3-1. 단위 환산
3-2. 자료형 변환
4. 범주형(카테고리) 데이터 처리
4-1. 구간 분할
4-2. 더미 변수
5. 정규화
6. 시계열 데이터
6-1. 다른 자료형을 시계열 객체로 변환
6-2. 시계열 데이터 만들기
6-3. 시계열 데이터 활용

PART 6. 데이터프레임의 다양한 응용
1. 함수 매핑
1-1. 개별 원소에 함수 매핑
1-2. 시리즈 객체에 함수 매핑
1-3. 데이터프레임 객체에 함수 매핑
2. 열 재구성
2-1. 열 순서 변경
2-2. 열 분리
3. 필터링
3-1. 불린 인덱싱
3-2. isin( ) 메소드 활용
4. 데이터프레임 합치기
4-1. 데이터프레임 연결
4-2. 데이터프레임 병합
4-3. 데이터프레임 결합
5. 그룹 연산
5-1. 그룹 객체 만들기(분할 단계)
5-2. 그룹 연산 메소드(적용-결합 단계)
6. 멀티 인덱스
7. 피벗

PART 7. 머신러닝 데이터 분석
1. 머신러닝 개요
1-1. 머신러닝이란?
1-2. 지도 학습 vs 비지도 학습
1-3. 머신러닝 프로세스
2. 회귀분석
2-1. 단순회귀분석
2-2. 다항회귀분석
2-3, 다중회귀분석
3. 분류
3-1. KNN
3-2. SVM
3-3. Decision Tree
4. 군집
4-1. k-Means
4-2. DBSCAN

저자 소개 (1명)

만든이 코멘트 만든이 코멘트 보이기/감추기

안녕하세요. 이책의 저자 입니다.
2019-06-03
판다스는 머신러닝, 인공지능 모델에 입력하기 위한 데이터를 가공, 저장하는데 사용한다. 우리가 학교에서 그리고 회사에서 엑셀을 이용하여 복잡한 데이터를 수집, 정리하는 과정과 비슷하다. 한편, 데이터 개수가 많아지면 엑셀이 버거워하는 것을 느껴본 적이 있을 것이다. 셀의 개수가 많아지면 한눈에 파악하기도 어려워지고 입력 오류도 많아지게 된다. 하지만, 파이썬과 판다스를 이용하면 수십만, 수백만 개의 데이터마저도 어렵지 않게 처리할 수 있다. 엑셀을 배운다는 마음으로 판다스를 이해하면 쉽게 다가갈 수 있다. 파이썬 코드에 익숙해지는 데는 시간이 다소 필요하겠지만, 판다스의 자료구조인 시리즈(series)와 데이터프레임(dataframe)을 이해하는 것은 어렵지 않을 것이다. 자료구조를 이해하였다면, 예제코드를 조금씩 변형하면서 실행해 보자. 다음 단계로는 예제 밖의 데이터를 가져와서 예제코드의 여러 함수와 명령을 적용해 보기를 권한다. 간단한 코드라도 조금씩 변화를 주면서 실행 결과의 차이를 비교하다 보면, 판다스 자료구조에 기반한 데이터 분석에 대한 개념을 조금씩 잡아나갈 수 있을 것이다. 이 책은 판다스를 이용한 데이터 수집, 가공, 저장을 주로 다루고, 부가적으로 그래프를 이용한 시각화와 간단한 머신러닝 알고리즘을 소개하고 있다. 머신러닝은 방대한 데이터로부터 인간이 인지하지 못하는 통찰(insight)을 구하는 과정이고, 그 핵심은 데이터에 있다. 판다스는 데이터를 다루는 가장 기본적이고 중요한 도구라는 점에서 데이터 분석을 시작하는 분들이 익혀두면 좋다.

출판사 리뷰 출판사 리뷰 보이기/감추기

너도 할 수 있어, 판다스!

사회적으로 데이터 분석에 대한 관심이 커지면서 머신러닝에 입문하려는 사용자들도 늘어났다. 하지만 복잡하고 어려운 고급적인 수학과 통계학 이론 도서들로는 금방 포기하게 된다. 이 책의 저자는 독학으로 공부한 만큼 여러 시행착오를 겪으며 초보자의 입장을 제일 잘 이해하므로 쉽게 알려주는 방식으로 안내하고 있다.

판다스 라이브러리는 데이터를 수집하고 정리하는데 최적화된 도구인데, 오픈소스라는 장점도 갖고 있다. 또한 배우기 쉬운 파이썬을 기반으로 하기 때문에 전공자가 아니라도 쉽게 따라하며 배우는 것이 가능하다. 판다스는 데이터 분석에 필요한 두 가지 종류의 기본 데이터 시리즈와 데이터프레임을 제공한다. 이를 활용하여 데이터의 입출력부터 머신러닝 데이터 분석까지 직접 응용하며 실력향상을 할 수 있기 바란다.

※ 학습에 필요한 예제 코드와 자료 파일은 정보문화사 홈페이지(infopub.co.kr) 자료실에서 다운로드할 수 있다. 또한 저자의 블로그(okkam76.blog.me)에 질의응답 게시판을 운영하고 있으니 궁금한 점이나 책과 관련된 요청사항은 피드백할 수 있다.

회원리뷰 (15건) 리뷰 총점9.2

혜택 및 유의사항?
파이썬 머신러닝 판다스 데이터 분석 내용 평점5점   편집/디자인 평점5점 m****3 | 2019.11.06 | 추천0 | 댓글0 리뷰제목
지금은 빅데이터 시대에 살고 있습니다. 그리고 데이터과학자가 유망한 직종으로 뜨고 있습니다.데이터 과학자는 데이터를 연구하는 분야이고 데이터를 수집해서 정리하는 일을 합니다. 그중에서 판다스(pandas)가 최적화된 도구라고 보면 됩니다.특히, Python 프로그래밍 언어로 숫자 테이블 및 시계열 조작을 위한 데이터 구조 및 조작을 제공합니다. 판다스는 내장 그래프 도구를 활용;
리뷰제목

지금은 빅데이터 시대에 살고 있습니다. 그리고 데이터과학자가 유망한 직종으로 뜨고 있습니다.

데이터 과학자는 데이터를 연구하는 분야이고 데이터를 수집해서 정리하는 일을 합니다. 그중에서 판다스(pandas)가 최적화된 도구라고 보면 됩니다.

특히, Python 프로그래밍 언어로 숫자 테이블 및 시계열 조작을 위한 데이터 구조 및 조작을 제공합니다.

판다스는 내장 그래프 도구를 활용해서 시각적으로 표현할 수 있습니다.

판다스는 Matplotlib(파이썬에서 자료를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지) 라이브러리를 통해 간단한 그래프를 손쉽게 그릴 수 있습니다.

line

선그래프

kde

커널 밀도 그래프

bar

수직막대그래프

area

면적 그래프

barh

수평막대그래프

pie

파이 그래프

his

히스토그램

scatter

산점도 그래프

box

박스 플롯

hexbin

고밀도 산점도 그래프

그리고 요즘은 머신러닝 영역 쪽에 분석을 많이 합니다.

인간이 하나부터 열까지 직접 가르치는 것이 아니라, 학습할 거리를 일단 던져놓으면 이걸 가지고 스스로 학습하는 기계를 의미합니다.

예를 들면 주가, 환율 등 경제지표 예측을 해서 미래 대비할수 있는 정책들을 준비한다던지, 비슷한 소비패턴을 가진 고객 유형을 군집으로 묶어서 마케팅에 활용할 수 있는 방법도 생기게 됩니다.

머신러닝 알고리즘 중에서도 비교적 이해하기 쉽고, 널리 활용되는 있는 회귀분석을 많이 이용합니다.

가격,매출,주가,환율,수량 등 연속적인 값을 갖는 연속 변수를 예측하는데 주로 쓰입니다.

우선 데이터 준비를 하고 다음은 데이터에 대한 기본적인 정보를 확인합니다. 데이터의 자료형과 개수를 확인합니다.

다음으로 속성을 선택합니다. 변수로 사용될 후보 열을 선택하며 됩니다.

다음으로 훈련/검증 데이터를 분할합니다. 훈련 데이터와 검증 데이터로 나눠서 모형을 구축합니다.

다음으로 모형 학습 및 검증을 합니다. 그 과정이 마치면 결과값을 볼 수 있습니다.


댓글 0 이 리뷰가 도움이 되었나요? 공감 0
포토리뷰 Python 라이브러리를 활용한 data 분석과 시각화 내용 평점4점   편집/디자인 평점4점 m****y | 2019.08.14 | 추천0 | 댓글0 리뷰제목
이 책은 파이썬(Python) 프로그래밍 언어와 공개 라이브러리(Library)를 사용하여 다양한 데이터 분석과 머신러닝 관련 프로그래밍을 학습할 수 있는 책이다. 책의 내용과 구성은, 2가지 주요 주제인 데이터 분석과 머신 러닝에 관해 7개 부분에 걸쳐 다루고 있다: 판다스 입문; 데이터 입출력; 데이터 살펴보기; 시각화 도구; 데이터 사전 처리; 데이터 프레임의 다양한 응용; 머신 러;
리뷰제목




이 책은 파이썬(Python) 프로그래밍 언어와 공개 라이브러리(Library)를 사용하여 다양한 데이터 분석과 머신러닝 관련 프로그래밍을 학습할 수 있는 책이다.

책의 내용과 구성은, 2가지 주요 주제인 데이터 분석과 머신 러닝에 관해 7개 부분에 걸쳐 다루고 있다: 판다스 입문; 데이터 입출력; 데이터 살펴보기; 시각화 도구; 데이터 사전 처리; 데이터 프레임의 다양한 응용; 머신 러닝 데이터 분석.

참고로, 이 책에서 사용하는 프로그램 예제는 파이썬 3.7 기반이고, 사용하는 파이썬 기반 라이브러리는 예를 들면 아나콘다와 판다스처럼 대부분이 공개 무료 버전이다. 책 속에서 사용되는 데이터 파일과 예제 파일들은 출판사 홈페이지나 저자의 블로그에서 다운로드 받을 수 있도록 공개되어 있다.

 

 

먼저, 저자도 서문에서 밝혔듯이 이 책의 구독자 대상은 파이썬 언어의 사용 경험자를 대상으로 하고 있다. 왜냐하면 이 책의 주된 내용은 파이썬 언어 자체가 아니라 파이썬 언어 기반 라이브러리 함수를 활용하여 다양한 데이터 분석을 수행하는 프로그램 코드를 작성하는 방법에 초점이 맞춰져 있기 때문이다: 어떻게 보면 독자 대상을 한정하고 있지만 이것이 이 책의 장점이자 강점이라고 볼 수 있다.

만약 라이브러리 함수를 이용하지 않고 순전히 독자적으로 함수를 제작하여 사용한다면, 시간과 비용, 노력이 상당히 소모될 것이다: 대표적인 것이 외부 데이터 입출력과 시각화 기능이다. 특히 엑셀(excel) 파일로부터 텍스트 데이터를 읽어 들이거나 가공하여 저장한다든지, 지도 데이터 파일을 조작하는 기법은, 오피스 도구인 엑셀의 본래 기능을 뛰어넘어 확장하는 역할을 할 정도로 강력하다.

, 액셀 도구의 일부 기능을 거의 유사하게 구현하는 프로그램을 만들어 낼 수 있게 된다: 예를 들어, 액셀 데이터 형태로 주어지면, 얼마든지 데이터를 가공 처리하여 그래프나 도형의 다양한 시각적 형태로 변환시키는 것이 가능해진다. 더 나아가 중간에 생략된 데이터 값이 있는 경우, 액셀에서는 오류로 처리되는데, 이를 라이브러리 함수로써 보정하고 일괄 처리하여 통계 자료로 만드는 방법도 소개하고 있다.

기계 학습의 경우, 신경망까지는 아니더라도 데이터 집합을 활용하여 패턴을 구축하고 분류 모형을 만들어 볼 수 있는 내용을 다루고 있어서 기본적인 기계학습 개념을 이해하는데 도움이 될 수 있다.

전반적으로, 파이썬과 공개 라이브러리를 사용하여 데이터 분석을 수행하는 데 필요하면서도 유용한 기법들을 다루고 소개하는 책이라는 생각이 든다



*** 이 글은 리뷰어스 클럽의 소개로 출판사로부터 도서를 제공받아 주관적으로 작성한 리뷰입니다. *** 

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
포토리뷰 파이썬 머신러닝 판다스 데이터 분석 내용 평점5점   편집/디자인 평점5점 고* | 2019.08.12 | 추천0 | 댓글0 리뷰제목
세상을 움직이고 변화시키는 원동력은 다양하지만 21세기의 4차 산업혁명의 중심에는 IT가 있습니다. 과거에는 오피스 프로그램이나 자신의 업무와 관련된 시스템 정도만 이해해도 충분히 버틸 만 했지만, 오늘날 비즈니스 현업 사용자는 IT를 모르고서는 할 수 있는 업무는 그리 많지 않습니다. 특히 지난 7월 4일, 3년 만에 한국을 방문한 손정의 소프트뱅크 회장이 문재인 대통령;
리뷰제목

세상을 움직이고 변화시키는 원동력은 다양하지만 21세기의 4차 산업혁명의 중심에는 IT가 있습니다. 과거에는 오피스 프로그램이나 자신의 업무와 관련된 시스템 정도만 이해해도 충분히 버틸 만 했지만, 오늘날 비즈니스 현업 사용자는 IT를 모르고서는 할 수 있는 업무는 그리 많지 않습니다. 


특히 지난 7월 4일, 3년 만에 한국을 방문한 손정의 소프트뱅크 회장이 문재인 대통령을 만나 “앞으로 한국이 집중해야 할 것은 첫째도 인공지능(AI), 둘째도 인공지능, 셋째도 인공지능”라고 강조했다는 것에서 알 수 있듯이 앞으로 인공지능 기술이 정보의 전달 체계를 비롯한 우리 삶의 패러다임을 바꿀 것이 분명합니다. 이처럼 4차 산업혁명의 핵심이자 차세대를 이끌 인공지능은 애플리케이션 개발자에게 새롭게 열리는 가능성의 세계이기도 합니다.


머신러닝 또는 딥러닝을 활용함으로써 훨씬 더 정밀한 사용자 프로필과 개인화, 추천이 가능하며, 스마트 검색, 음성 인터페이스 또는 지능적인 가상비서를 구현하거나 그 외의 다양한 방법으로 앱을 개선할 수 있다. 심지어 보고 듣고 반응하는 애플리케이션도 만들 수 있습니다. 이에 필요한 대표적인 프로그래밍 언어는 요즘 뜨는 언어인 파이썬(Python)입니다. 




특히 파이썬은 인공지능에 있어 탁월한 언어이며, 특히 파이썬의 라이브러리는 다른 언어에서는 따라올 수 없을 정도로 독보적이라 합니다. 실제로 개발자들의 지식인이라 불리는 '스택오버플로(StackOverflow)'는 2019년 개발자 대상 설문조사를 통해 파이썬이 가장 인기있는 프로그래밍 언어라는 조사 결과를 내놓았고, 앱테스팅 업체 글로벌앱테스팅이 유튜브에 게재한 영상을 보면 스택오버플로 전체 질문가운데 10년 전인 2008년 11월 당시 자바스크립트의 비중은 4.7%였고 파이썬은 3.5%이었지만, 10년만인 2018년 11월 파이썬이 태그된 질문이 11.3%를 차지하면서 자바스크립트가 태그된 질문 10.2% 비중을 처음 넘어섰다고 합니다.


그렇다면 파이썬이 왜 이렇게 각광 받는 것일까요? 한마디로 대부분의 프로그래밍 언어가 하는 일을 파이썬은 쉽고 깔끔하게 처리하기 때문입니다. 대표적인 몇 가지 예를 들어 보면, 먼저 파이썬은 운영체제(윈도우, 리눅스 등)의 시스템 명령어를 사용할 수 있는 각종 도구를 갖추고 있기 때문에 이를 바탕으로 갖가지 시스템 유틸리티를 만드는 데 유리합니다. 파이썬은 GUI 프로그래밍을 위한 도구들이 잘 갖추어져 있어 GUI 프로그램을 만들기 쉽다고 합니다. 또 파이썬은  다른 언어와 잘 어울려 결합해서 사용할 수 있는 접착(glue) 언어로 C나 C++로 만든 프로그램을 파이썬에서 사용할 수 있으며, 파이썬으로 만든 프로그램 역시 C나 C++에서 사용할 수 있습니다.


특히 이 책에서는 파이썬으로 만든 판다스(Pandas) 모듈을 사용하여 데이터 분석을 더 쉽고 효과적으로 할 수 있게 설명하고 있습니다. 데이터 분석을 할 때 아직까지는 데이터 분석에 특화된 ‘R’이라는 언어를 많이 사용하고 있지만, 판다스가 등장한 이후로 파이썬을 사용하는 경우가 점점 증가하고 있다고 합니다.


판다스 라이브러리는 데이터를 수집하고 정리하는데 최적화된 도구로, 데이터 분석에 필요한 두 가지 종류의 기본 데이터 시리즈와 데이터프레임을 제공합니다. 오픈소스라는 장점도 갖고 있습니다. 또한 배우기 쉬운 파이썬을 기반으로 하기 때문에 전공자가 아니라도 쉽게 따라하며 배우는 것이 가능합니다. 이 책에서는 파이썬과 판다스를 활용하여 데이터의 입출력부터 머신러닝 데이터 분석까지, 필수 라이브러리를 소개하고 설치부터 예제 코드를 따라 하면서 자연스럽게 익숙해지도록 안내하고 있는 책입니다.




여기서 머신러닝은 1959년 아서 사무엘에 의해 “컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야”라고 정의된, 데이터를 사용해 컴퓨터가 스스로 학습하여 새로운 지식을 얻어내는 것을 의미합니다. 최근 인터넷을 통하여 엄청난 양의 데이터가 쏟아지게 되자 그 활용이 가속화되었습니다. 사실 이 책의 이 책의 발행 1년 전에 파이썬을 배우기 시작한 저자는 독학으로 공부한 만큼 여러 시행착오를 겪으며 초보자의 입장을 이해해서 말 그대로 이 책에서 제시하는 대로 따라만 하면 쉽게 프로그램에 익숙해 주는 방식으로 설명하고 있습니다. 


특히 이 책에 실린 학습에 필요한 예제 코드와 자료 파일은 정보문화사 홈페이지(INFOPUB.CO.KR) 자료실에서 다운로드할 수 있고, 저자의 블로그(OKKAM76.BLOG.ME)에 질의응답 게시판을 운영하고 있어서 궁금한 점이나 책과 관련된 요청사항을 피드백할 수 있다고 합니다. 4차 혁명시대의 필수 도구인 파이썬과 판다스를 쉽게 정복할 수 있는 좋은 기회를 주는 책입니다.


리뷰어스클럽으로부터 도서만을 제공받아 주관적으로 작성한 서평입니다


댓글 0 이 리뷰가 도움이 되었나요? 공감 0

한줄평 (5건) 한줄평 총점 9.2

혜택 및 유의사항 ?
구매 평점3점
뒤로 갈 수록 코딩 부분에서 똑같이 따라 해도 오류 뜨거나 실행 안 되거나 오탈자가 있네요
1명이 이 한줄평을 추천합니다. 공감 1
YES마니아 : 로얄 v**********5 | 2022.04.16
구매 평점5점
혼자 공부하기 좋은 책인것 같습니다
이 한줄평이 도움이 되었나요? 공감 0
w******1 | 2021.08.26
구매 평점5점
파이썬 공부에 많은 도움이 될 것 같습니다.
이 한줄평이 도움이 되었나요? 공감 0
YES마니아 : 로얄 l*******7 | 2021.03.22
  •  쿠폰은 결제 시 적용해 주세요.
1   22,500
뒤로 앞으로 맨위로 aniAlarm