품목정보
출간일 | 2019년 06월 15일 |
---|---|
쪽수, 무게, 크기 | 392쪽 | 940g | 187*235*21mm |
ISBN13 | 9788956748337 |
ISBN10 | 8956748330 |
출간일 | 2019년 06월 15일 |
---|---|
쪽수, 무게, 크기 | 392쪽 | 940g | 187*235*21mm |
ISBN13 | 9788956748337 |
ISBN10 | 8956748330 |
데이터 과학자가 되기 위한 첫걸음! 파이썬 초급자나 중급자가 데이터 분석과 머신러닝을 배우고자 마음먹었다면 이 책을 선택해야 한다. 필수 라이브러리를 소개하고 설치부터 예제 코드를 따라 하면서 자연스럽게 익숙해지도록 안내하고 있기 때문이다. 어려울 것 같은 수학과 통계학적 이론은 가능한 한 낮추고 실습하며 최소한의 설명으로 결과값과 확인할 수 있도록 하였다. 또한 방대한 텍스트보다는 다이어그램 등과 같은 도식화에 신경을 기울여 한눈에 이해할 수 있도록 구성하였다. 누구나 데이터 과학자가 될 수 있다. 그 출발 선상에 섰다면 이 책과 함께 예제코드를 하나씩 실행해보면, 파이썬 데이터 분석을 즐기고 있는 본인을 발견할 것이다. |
PART 1. 판다스 입문 1. 데이터과학자가 판다스를 배우는 이유 2. 판다스 자료구조 2-1. 시리즈 2-2. 데이터프레임 3. 인덱스 활용 4. 산술연산 4-1. 시리즈 연산 4-2. 데이터프레임 연산 PART 2. 데이터 입출력 1. 외부 파일 읽어오기 1-1. CSV 파일 1-2. Excel 파일 1-3. JSON 파일 2. 웹(web)에서 가져오기 2-1. HTML 웹 페이지에서 표 속성 가져오기 2-2. 웹 스크래핑 3. API 활용하여 데이터 수집하기 4. 데이터 저장하기 4-1. CSV 파일로 저장 4-2. JSON 파일로 저장 4-3. Excel 파일로 저장 4-4. 여러 개의 데이터프레임을 하나의 Excel 파일로 저장 PART 3. 데이터 살펴보기 1. 데이터프레임의 구조 1-1. 데이터 내용 미리보기 1-2. 데이터 요약 정보 확인하기 1-3. 데이터 개수 확인 2. 통계 함수 적용 2-1. 평균값 2-2. 중간값 2-3. 최대값 2-4. 최소값 2-5. 표준편차 2-6. 상관계수 3. 판다스 내장 그래프 도구 활용 PART 4. 시각화 도구 1. Matplotlib - 기본 그래프 도구 1-1. 선 그래프 1-2. 면적 그래프 1-3. 막대 그래프 1-4. 히스토그램 1-5. 산점도 1-6. 파이 차트 1-7. 박스 플롯 2. Seaborn 라이브러리 - 고급 그래프 도구 3. Folium 라이브러리 - 지도 활용 PART 5. 데이터 사전 처리 1. 누락 데이터 처리 2. 중복 데이터 처리 3. 데이터 표준화 3-1. 단위 환산 3-2. 자료형 변환 4. 범주형(카테고리) 데이터 처리 4-1. 구간 분할 4-2. 더미 변수 5. 정규화 6. 시계열 데이터 6-1. 다른 자료형을 시계열 객체로 변환 6-2. 시계열 데이터 만들기 6-3. 시계열 데이터 활용 PART 6. 데이터프레임의 다양한 응용 1. 함수 매핑 1-1. 개별 원소에 함수 매핑 1-2. 시리즈 객체에 함수 매핑 1-3. 데이터프레임 객체에 함수 매핑 2. 열 재구성 2-1. 열 순서 변경 2-2. 열 분리 3. 필터링 3-1. 불린 인덱싱 3-2. isin( ) 메소드 활용 4. 데이터프레임 합치기 4-1. 데이터프레임 연결 4-2. 데이터프레임 병합 4-3. 데이터프레임 결합 5. 그룹 연산 5-1. 그룹 객체 만들기(분할 단계) 5-2. 그룹 연산 메소드(적용-결합 단계) 6. 멀티 인덱스 7. 피벗 PART 7. 머신러닝 데이터 분석 1. 머신러닝 개요 1-1. 머신러닝이란? 1-2. 지도 학습 vs 비지도 학습 1-3. 머신러닝 프로세스 2. 회귀분석 2-1. 단순회귀분석 2-2. 다항회귀분석 2-3, 다중회귀분석 3. 분류 3-1. KNN 3-2. SVM 3-3. Decision Tree 4. 군집 4-1. k-Means 4-2. DBSCAN |
지금은 빅데이터 시대에 살고 있습니다. 그리고 데이터과학자가 유망한 직종으로 뜨고 있습니다.
데이터 과학자는 데이터를 연구하는 분야이고 데이터를 수집해서 정리하는 일을 합니다. 그중에서 판다스(pandas)가 최적화된 도구라고 보면 됩니다.
특히, Python 프로그래밍 언어로 숫자 테이블 및 시계열 조작을 위한 데이터 구조 및 조작을 제공합니다.
판다스는 내장 그래프 도구를 활용해서 시각적으로 표현할 수 있습니다.
판다스는 Matplotlib(파이썬에서 자료를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지) 라이브러리를 통해 간단한 그래프를 손쉽게 그릴 수 있습니다.
그리고 요즘은 머신러닝 영역 쪽에 분석을 많이 합니다.
인간이 하나부터 열까지 직접 가르치는 것이 아니라, 학습할 거리를 일단 던져놓으면 이걸 가지고 스스로 학습하는 기계를 의미합니다.
예를 들면 주가, 환율 등 경제지표 예측을 해서 미래 대비할수 있는 정책들을 준비한다던지, 비슷한 소비패턴을 가진 고객 유형을 군집으로 묶어서 마케팅에 활용할 수 있는 방법도 생기게 됩니다.
머신러닝 알고리즘 중에서도 비교적 이해하기 쉽고, 널리 활용되는 있는 회귀분석을 많이 이용합니다.
가격,매출,주가,환율,수량 등 연속적인 값을 갖는 연속 변수를 예측하는데 주로 쓰입니다.
우선 데이터 준비를 하고 다음은 데이터에 대한 기본적인 정보를 확인합니다. 데이터의 자료형과 개수를 확인합니다.
다음으로 속성을 선택합니다. 변수로 사용될 후보 열을 선택하며 됩니다.
다음으로 훈련/검증 데이터를 분할합니다. 훈련 데이터와 검증 데이터로 나눠서 모형을 구축합니다.
다음으로 모형 학습 및 검증을 합니다. 그 과정이 마치면 결과값을 볼 수 있습니다.
이 책은 파이썬(Python) 프로그래밍 언어와 공개 라이브러리(Library)를 사용하여 다양한 데이터 분석과 머신러닝 관련 프로그래밍을 학습할 수 있는 책이다.
책의 내용과 구성은, 2가지 주요 주제인 데이터 분석과 머신 러닝에 관해 7개 부분에 걸쳐 다루고 있다: 판다스 입문; 데이터 입출력; 데이터 살펴보기; 시각화 도구; 데이터 사전 처리; 데이터 프레임의 다양한 응용; 머신 러닝 데이터 분석.
참고로, 이 책에서 사용하는 프로그램 예제는 파이썬 3.7 기반이고, 사용하는 파이썬 기반 라이브러리는 예를 들면 아나콘다와 판다스처럼 대부분이 공개 무료 버전이다. 책 속에서 사용되는 데이터 파일과 예제 파일들은 출판사 홈페이지나 저자의 블로그에서 다운로드 받을 수 있도록 공개되어 있다.
먼저, 저자도 서문에서 밝혔듯이 이 책의 구독자 대상은 파이썬 언어의 사용 경험자를 대상으로 하고 있다. 왜냐하면 이 책의 주된 내용은 파이썬 언어 자체가 아니라 파이썬 언어 기반 라이브러리 함수를 활용하여 다양한 데이터 분석을 수행하는 프로그램 코드를 작성하는 방법에 초점이 맞춰져 있기 때문이다: 어떻게 보면 독자 대상을 한정하고 있지만 이것이 이 책의 장점이자 강점이라고 볼 수 있다.
만약 라이브러리 함수를 이용하지 않고 순전히 독자적으로 함수를 제작하여 사용한다면, 시간과 비용, 노력이 상당히 소모될 것이다: 대표적인 것이 외부 데이터 입출력과 시각화 기능이다. 특히 엑셀(excel) 파일로부터 텍스트 데이터를 읽어 들이거나 가공하여 저장한다든지, 지도 데이터 파일을 조작하는 기법은, 오피스 도구인 엑셀의 본래 기능을 뛰어넘어 확장하는 역할을 할 정도로 강력하다.
즉, 액셀 도구의 일부 기능을 거의 유사하게 구현하는 프로그램을 만들어 낼 수 있게 된다: 예를 들어, 액셀 데이터 형태로 주어지면, 얼마든지 데이터를 가공 처리하여 그래프나 도형의 다양한 시각적 형태로 변환시키는 것이 가능해진다. 더 나아가 중간에 생략된 데이터 값이 있는 경우, 액셀에서는 오류로 처리되는데, 이를 라이브러리 함수로써 보정하고 일괄 처리하여 통계 자료로 만드는 방법도 소개하고 있다.
기계 학습의 경우, 신경망까지는 아니더라도 데이터 집합을 활용하여 패턴을 구축하고 분류 모형을 만들어 볼 수 있는 내용을 다루고 있어서 기본적인 기계학습 개념을 이해하는데 도움이 될 수 있다.
전반적으로, 파이썬과 공개 라이브러리를 사용하여 데이터 분석을 수행하는 데 필요하면서도 유용한 기법들을 다루고 소개하는 책이라는 생각이 든다.
*** 이 글은 리뷰어스 클럽의 소개로 출판사로부터 도서를 제공받아 주관적으로 작성한 리뷰입니다. ***
세상을 움직이고 변화시키는 원동력은 다양하지만 21세기의 4차 산업혁명의 중심에는 IT가 있습니다. 과거에는 오피스 프로그램이나 자신의 업무와 관련된 시스템 정도만 이해해도 충분히 버틸 만 했지만, 오늘날 비즈니스 현업 사용자는 IT를 모르고서는 할 수 있는 업무는 그리 많지 않습니다.
특히 지난 7월 4일, 3년 만에 한국을 방문한 손정의 소프트뱅크 회장이 문재인 대통령을 만나 “앞으로 한국이 집중해야 할 것은 첫째도 인공지능(AI), 둘째도 인공지능, 셋째도 인공지능”라고 강조했다는 것에서 알 수 있듯이 앞으로 인공지능 기술이 정보의 전달 체계를 비롯한 우리 삶의 패러다임을 바꿀 것이 분명합니다. 이처럼 4차 산업혁명의 핵심이자 차세대를 이끌 인공지능은 애플리케이션 개발자에게 새롭게 열리는 가능성의 세계이기도 합니다.
머신러닝 또는 딥러닝을 활용함으로써 훨씬 더 정밀한 사용자 프로필과 개인화, 추천이 가능하며, 스마트 검색, 음성 인터페이스 또는 지능적인 가상비서를 구현하거나 그 외의 다양한 방법으로 앱을 개선할 수 있다. 심지어 보고 듣고 반응하는 애플리케이션도 만들 수 있습니다. 이에 필요한 대표적인 프로그래밍 언어는 요즘 뜨는 언어인 파이썬(Python)입니다.
특히 파이썬은 인공지능에 있어 탁월한 언어이며, 특히 파이썬의 라이브러리는 다른 언어에서는 따라올 수 없을 정도로 독보적이라 합니다. 실제로 개발자들의 지식인이라 불리는 '스택오버플로(StackOverflow)'는 2019년 개발자 대상 설문조사를 통해 파이썬이 가장 인기있는 프로그래밍 언어라는 조사 결과를 내놓았고, 앱테스팅 업체 글로벌앱테스팅이 유튜브에 게재한 영상을 보면 스택오버플로 전체 질문가운데 10년 전인 2008년 11월 당시 자바스크립트의 비중은 4.7%였고 파이썬은 3.5%이었지만, 10년만인 2018년 11월 파이썬이 태그된 질문이 11.3%를 차지하면서 자바스크립트가 태그된 질문 10.2% 비중을 처음 넘어섰다고 합니다.
그렇다면 파이썬이 왜 이렇게 각광 받는 것일까요? 한마디로 대부분의 프로그래밍 언어가 하는 일을 파이썬은 쉽고 깔끔하게 처리하기 때문입니다. 대표적인 몇 가지 예를 들어 보면, 먼저 파이썬은 운영체제(윈도우, 리눅스 등)의 시스템 명령어를 사용할 수 있는 각종 도구를 갖추고 있기 때문에 이를 바탕으로 갖가지 시스템 유틸리티를 만드는 데 유리합니다. 파이썬은 GUI 프로그래밍을 위한 도구들이 잘 갖추어져 있어 GUI 프로그램을 만들기 쉽다고 합니다. 또 파이썬은 다른 언어와 잘 어울려 결합해서 사용할 수 있는 접착(glue) 언어로 C나 C++로 만든 프로그램을 파이썬에서 사용할 수 있으며, 파이썬으로 만든 프로그램 역시 C나 C++에서 사용할 수 있습니다.
특히 이 책에서는 파이썬으로 만든 판다스(Pandas) 모듈을 사용하여 데이터 분석을 더 쉽고 효과적으로 할 수 있게 설명하고 있습니다. 데이터 분석을 할 때 아직까지는 데이터 분석에 특화된 ‘R’이라는 언어를 많이 사용하고 있지만, 판다스가 등장한 이후로 파이썬을 사용하는 경우가 점점 증가하고 있다고 합니다.
판다스 라이브러리는 데이터를 수집하고 정리하는데 최적화된 도구로, 데이터 분석에 필요한 두 가지 종류의 기본 데이터 시리즈와 데이터프레임을 제공합니다. 오픈소스라는 장점도 갖고 있습니다. 또한 배우기 쉬운 파이썬을 기반으로 하기 때문에 전공자가 아니라도 쉽게 따라하며 배우는 것이 가능합니다. 이 책에서는 파이썬과 판다스를 활용하여 데이터의 입출력부터 머신러닝 데이터 분석까지, 필수 라이브러리를 소개하고 설치부터 예제 코드를 따라 하면서 자연스럽게 익숙해지도록 안내하고 있는 책입니다.
여기서 머신러닝은 1959년 아서 사무엘에 의해 “컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야”라고 정의된, 데이터를 사용해 컴퓨터가 스스로 학습하여 새로운 지식을 얻어내는 것을 의미합니다. 최근 인터넷을 통하여 엄청난 양의 데이터가 쏟아지게 되자 그 활용이 가속화되었습니다. 사실 이 책의 이 책의 발행 1년 전에 파이썬을 배우기 시작한 저자는 독학으로 공부한 만큼 여러 시행착오를 겪으며 초보자의 입장을 이해해서 말 그대로 이 책에서 제시하는 대로 따라만 하면 쉽게 프로그램에 익숙해 주는 방식으로 설명하고 있습니다.
특히 이 책에 실린 학습에 필요한 예제 코드와 자료 파일은 정보문화사 홈페이지(INFOPUB.CO.KR) 자료실에서 다운로드할 수 있고, 저자의 블로그(OKKAM76.BLOG.ME)에 질의응답 게시판을 운영하고 있어서 궁금한 점이나 책과 관련된 요청사항을 피드백할 수 있다고 합니다. 4차 혁명시대의 필수 도구인 파이썬과 판다스를 쉽게 정복할 수 있는 좋은 기회를 주는 책입니다.
리뷰어스클럽으로부터 도서만을 제공받아 주관적으로 작성한 서평입니다