이미 소장하고 있다면 판매해 보세요.
|
1부. pandas 시작하기
1장 데이터 분석 소개 __1장 교재 __데이터 분석 기초 ____데이터 수집 ____데이터 랭글링 ____탐색적 데이터 분석 ____결론 도출 __통계 기초 ____표본 추출 ____기술통계학 ____추론통계학 __가상 환경 설정하기 ____가상 환경 ____필수 파이썬 패키지 설치하기 ____왜 pandas인가? ____주피터 노트북 __요약 __연습 문제 __참고 자료 2장. pandas DataFrame으로 작업하기 __2장 교재 __pandas 데이터 구조 ____시리즈 ____인덱스 ____DataFrame __pandas DataFrame 만들기 ____파이썬 객체로 DataFrame 만들기 ____파일로 DataFrame 만들기 ____데이터베이스로 DataFrame 만들기 ____API에서 DataFrame 만들기 __DataFrame 객체 확인하기 ____데이터 검사하기 ____데이터 설명 및 요약하기 __데이터의 부분집합 선택하기 ____열 선택하기 ____슬라이싱 ____인덱싱 ____필터링 __데이터 추가하고 제거하기 ____새로운 데이터 만들기 ____원하지 않는 데이터 삭제하기 __요약 __연습 문제 __참고 자료 __데이터 2부. pandas로 데이터분석하기 3장. pandas로 데이터 랭글링하기 __3장 교재 __데이터 랭글링 이해하기 ____데이터 정제 ____데이터 변환 ____데이터 강화 __기온 데이터를 찾고 수집하고자 API 사용하기 __데이터 정제 ____열 이름 바꾸기 ____유형 변환 ____데이터 재정렬, 재인덱싱, 정렬 __데이터 재구성하기 ____DataFrame 전치 ____DataFrame 피보팅 ____DataFrame 멜팅 __중복, 결측, 유효하지 않은 데이터 다루기 ____문제가 있는 데이터 찾기 ____문제 완화하기 __요약 __연습 문제 __참고 자료 4장. pandas DataFrame 집계하기 __4장 교재 __DataFrame을 데이터베이스처럼 작업하기 ____DataFrame 질의하기 ____DataFrame 병합하기 __데이터 강화를 위한 DataFrame 연산 ____산술과 통계 ____데이터 이산화 ____함수 적용하기 ____윈도우 계산 __파이프 __데이터 집계 ____DataFrame 요약하기 ____그룹으로 집계하기 ____피봇 테이블과 교차표 __시계열 데이터로 작업하기 ____시간을 기준으로 선택하고 필터링하기 ____시차 데이터 이동하기 ____차분 데이터 ____재표본추출 ____시계열 데이터 병합하기 __요약 __연습 문제 __참고 자료 5장. pandas와 matplotlib를 사용한 데이터 시각화 __5장 교재 __matplotlib 소개 ____기초 ____그림 구성 요소 ____추가 옵션 __pandas로 그림 그리기 ____시간의 경과에 따른 변화 ____변수 간의 관계 ____분포 ____개수와 빈도수 __pandas.plotting 모듈 ____산포행렬 ____시차 그림 ____자기상관 그림 ____붓스트랩 그림 __요약 __연습 문제 __참고 자료 6장. seaborn과 사용자 정의 기술로 그림 그리기 __6장 교재 __seaborn으로 고급 그림 그리기 ____범주형 데이터 ____상관관계와 히트맵 ____회귀그림 ____패시팅 __matplotlib로 그림 형식 지정하기 ____제목과 축 이름 ____범례 ____축 형식 지정하기 __시각화 사용자 정의하기 ____참조선 추가하기 ____음영 영역 ____주석 ____색상 ____질감 __요약 __연습 문제 __참고 자료 3부. pandas를 이용한 실제 분석 7장. 금융 분석-비트코인과 주식 시장 __7장 교재 __파이썬 패키지 만들기 ____패키지 구조 ____stock_analysis 패키지 개요 ____UML 다이어그램 __금융 데이터 수집하기 ____StockReader 클래스 ____야후! 금융에서 과거 데이터 수집하기 __탐색적 데이터 분석 ____Visualizer 클래스 패밀리 ____주가 시각화하기 ____다중 자산 시각화하기 __금융 상품의 기술적 분석 ____StockAnalyzer 클래스 ____AssetGroupAnalyzer 클래스 ____자산 비교하기 __과거 데이터를 사용한 수익률 모델링 ____StockModeler 클래스 ____시계열 분해 ____ARIMA ____statsmodels의 선형회귀 ____모델 비교 __요약 __연습 문제 __참고 자료 8장. 규칙 기반 비정상 행위 탐지 __8장 교재 __로그인 시도 시뮬레이션 ____가정 ____login_attempt_simulator 패키지 ____터미널에서 시뮬레이션하기 __탐색적 데이터 분석 __규칙 기반 이상 탐지 구현 ____백분율 차 ____튜키 울타리 ____Z-점수 ____성능 평가 __요약 __연습 문제 __참고 자료 4부. scikit-learn을 이용한 머신러닝 소개 9장. 파이썬에서 머신러닝 시작하기 __9장 교재 __머신러닝 개요 ____머신러닝의 종류 ____일반적인 작업 ____파이썬으로 머신러닝하기 __탐색적 데이터 분석 ____레드 와인 품질 데이터 __화이트 와인과 레드 와인의 화학 성분 데이터 ____행성과 외계 행성 데이터 __데이터 전처리 ____학습 데이터와 평가 데이터 ____데이터 척도화 및 중심화 ____데이터 부호화 ____대치 ____추가 변환기 ____데이터 파이프라인 구축 __군집화 ____k-평균 ____군집 결과 평가 __회귀 ____선형회귀 ____회귀 결과 분석 __분류 ____로지스틱 회귀 ____분류 결과 평가 __요약 __연습 문제 __참고 자료 10장. 예측 더 잘하기-모델 최적화 __10장 교재 __격자검색을 통한 초매개변수 튜닝 __특성 공학 ____상호작용 항과 다항식 특성 ____차원축소 ____특성 합집합 ____특성 중요도 __앙상블 방법 ____확률숲 ____경사부스팅 ____투표 __분류 예측 신뢰도 검사 __계급불균형 해결 ____과소표본추출 ____과대표본추출 __정칙화 __요약 __연습 문제 __참고 자료 11장. 머신러닝 기반 비정상 행위 탐지 __11장 교재 __시뮬레이션 로그인 시도 데이터 탐색 __비정상 행위 탐지에 비지도학습 모델 활용 ____고립숲 ____국소특이점인자 ____모델 비교 __지도학습 비정상 행위 탐지 구현 ____기준 설정 ____로지스틱 회귀 __피드백 되돌림과 온라인학습 통합 ____PartialFitPipeline 하위 클래스 만들기 ____확률적 경사하강 분류기 __요약 __연습 문제 __참고 자료 5부. 추가 자료 12장. 나아갈 길 __데이터 출처 ____파이썬 패키지 ____데이터 검색 ____API ____웹사이트 __데이터 작업 연습 __파이썬 연습 __요약 __연습 문제 __참고 자료 해답 부록 |
김경환의 다른 상품
장기식의 다른 상품
|
◈ 이 책에서 다루는 내용 ◈
◆ 데이터 분석가와 과학자가 데이터를 수집하고 분석하는 방법 이해 ◆ 파이썬으로 데이터 분석과 데이터 랭글링 ◆ 여러 출처의 데이터를 결합, 그룹화 그리고 집계 ◆ pandas와 matplotlib, seaborn으로 데이터 시각화 ◆ 머신러닝 알고리듬으로 패턴을 식별, 예측 ◆ 파이썬 데이터 과학 라이브러리를 사용해 실제 데이터세트 분석 ◆ pandas로 일반적인 데이터 표현과 분석 문제 해결 ◆ 분석 코드를 재사용할 수 있도록 파이썬 스크립트와 모듈, 그리고 패키지 생성 ◈ 이 책의 대상 독자 ◈ 이 책은 데이터 과학을 프로젝트에 적용하고 데이터 과학자와 협업하거나 소프트웨어 엔지니어와 함께 머신러닝 제품 코드 작업을 진행하고자 파이썬으로 데이터 과학을 배우려는 다양한 수준의 경험을 가진 사람들을 대상으로 한다. 다음과 같은 경험이 있다면 이 책을 최대로 활용할 수 있을 것이다. R이나 SAS 또는 MATLAB과 같은 다른 언어로 데이터 과학을 경험하고 여러분의 작업을 파이썬으로 전환하고자 pandas를 배우려는 사람, 그리고 파이썬 경험이 있으며 파이썬을 사용해 데이터 과학을 배우려는 사람 모두가 읽기에 적합하다. ◈ 이 책의 구성 ◈ 1장, ‘데이터 분석 소개 데이터 분석과 통계학의 기초’에서는 파이썬에서의 데이터 작업과 주피터 노트북(Jupyter Notebook) 사용을 위한 환경 설정 과정을 안내한다. 2장, ‘pandas 데이터프레임으로 작업하기’에서는 pandas 라이브러리를 소개하고 데이터프레임으로 작업하기 위한 기본 지식을 설명한다. 3장, ‘pandas로 데이터 랭글링하기’에서는 데이터 조작(data manipulation) 과정을 설명하고 API로 통한 데이터 수집 방법을 소개하며 pandas로 데이터 정제(data cleaning)와 재구성(reshaping)을 안내한다. 4장, ‘pandas로 데이터프레임 집계하기’에서는 데이터프레임에 질의(query)하고 병합하는 방법과 데이터프레임에서 이동 평균과 집계를 포함해 복잡한 계산을 하는 방법, 시계열 데이터를 효율적으로 다루는 방법을 다룬다. 5장, ‘pandas와 matplotlib로 데이터 시각화하기’에서는 파이썬에서 matplotlib 라이브러리를 사용해 데이터를 시각화하는 방법과 pandas 객체에서 직접 시각화하는 방법을 소개한다. 6장, ‘seaborn과 사용자 정의 기술로 그림 그리기’에서는 seaborn 라이브러리를 사용해 긴 형식의 데이터를 시각화하는 방법과 발표에 사용할 수 있도록 시각화를 사용자에게 맞게 수정할 수 있는 도구를 소개하면서 데이터 시각화에 관해 설명을 이어간다. 7장, ‘금융 분석-비트코인과 주식시장’에서는 주가 분석을 위한 파이썬 패키지를 만들고자 1장부터 6장까지 배운 모든 내용을 다룬다. 8장, ‘규칙 기반 이상 탐지’에서는 데이터를 시뮬레이션한 다음, 이상 탐지를 위한 규칙 기반 전략을 사용해서 웹 사이트에 인증을 시도하려는 해커를 잡고자 1장부터 6장까지 배운 모든 내용을 다룬다. 9장, ‘파이썬으로 머신러닝 시작하기’에서는 머신러닝과 Scikit-learn 라이브러리를 사용해 머신러닝 모델을 구축하는 방법을 소개한다. 10장, ‘예측 더 잘하기-모델 최적화’에서는 머신러닝 모델의 성능을 조정하고 개선하기 위한 전략을 알아본다. ◈ 지은이의 말 ◈ 데이터 과학은 종종 프로그래밍 기술과 통계적 기법(statistical know-how) 그리고 특정 분야의 지식(domain knowledge)이 서로 어우러지는 학제간 분야로 묘사된다. 데이터 과학은 빠르게 우리 사회에서 가장 주목받는 분야 중의 하나가 됐으며, 데이터로 작업하는 방법을 아는 것은 오늘날의 직장생활에서 꼭 필요한 것이 됐다. 산업이나 역할, 또는 프로젝트에 상관없이 데이터 기술은 수요가 많으며 데이터 분석을 배우는 것이 영향력을 행사할 수 있는 중요한 요소다. 데이터 과학 분야는 영역 전반에 걸쳐 다른 많은 측면을 다룬다. 데이터 분석가(data analyst)는 비즈니스 인사이트(business insight)를 도출하는 데 더 중점을 두지만, 데이터 과학자는 기업의 문제에 머신러닝 기술을 적용하는 데 더 중점을 둔다. 데이터 엔지니어는 데이터 분석가와 데이터 과학자가 사용하는 데이터 파이프라인 설계와 구축, 유지 관리에 집중한다. 머신러닝 엔지니어 는 데이터 엔지니어와 마찬가지로 데이터 과학자의 많은 기술을 사용하는 능숙한 소프트웨어 엔지니어다. 데이터 과학은 많은 분야를 아우르지만 모든 분야에 있어서 데이터 분석은 기본 구성 요소 다. 이 책은 여러분이 어느 분야에서든 시작할 수 있는 기술을 제공한다. 데이터 과학의 전통적인 기술은 데이터베이스, API와 같이 다양한 출처에서 데이터를 수집하고 처리하는 방법을 포함한다. 파이썬은 데이터를 수집하고 처리할 뿐만 아니라 데이터 제품의 생산 품질을 구축할 수 있는 수단을 제공해 데이터 과학 분야에서 인기 있는 언어 중의 하나다. 또한 오픈 소스로 다른 사람이 작성한 라이브러리를 활용해 일반적인 데이터 작업이나 문제를 해결하기 위한 데이터 과학을 시작하는 데 적합하다. ◈ 옮긴이의 말 ◈ 이 책을 번역하면서 데이터 분석을 처음 공부했을 때가 생각났다. 학교에서 배웠던 기본 통계학을 다시 공부하면서 관련 내용을 코드로 구현하고, 그 과정 및 결과를 그래프로 시각화하면서 개념을 다시 잡으면서 고생했었다. 이런 책이 있었더라면 많은 사람이 역자처럼 고생하지 않고 쉽게 데이터 분석에 입문하지 않을까 생각하면서 번역을 시작했다. 그러나 번역을 다 끝내고 편집된 원고를 다시 읽어보면서 이 책에 담겨있는 많은 내용을 제대로 번역하지 못한 것 같아 다소 아쉬운 생각이 든다. 기본적인 내용이 많이 담겨있지만, 더 필요한 통계학과 코딩 기본 지식을 더 보충했더라면 더 좋은 책이 되었을 것으로 생각한다. 하지만 이는 번역서로의 범위를 넘어설 뿐만 아니라 데이터 분석 입문을 위한 이 책의 목적에도 부합하지 않는다. 저자도 강조했듯이 역자들 또한 데이터 분석에서 가장 중요하다고 생각하는 것은 ‘왜 데이터 분석해야 하는가?’이다. 많은 데이터 분석 관련 정보는 데이터를 읽고, 시각화를 위해 전처리하고 시각화를 하는 과정에만 집중하고 있다. 그러나 데이터 분석은 데이터를 시각화하는 것이 목적이 아니라는 것을 재차 강조하고 싶다. 데이터 분석은 데이터분석가를 위한 것이 아니라 기업활동에서 의사결정권자에게 필요한 정보를 데이터분석가가 데이터를 가공해 전달하기 위한 도구라는 것을 명심해야 한다. 단순히 데이터를 시각화하는 것에 사로잡히지 말고, 우리가 하려는 ‘목적’을 정확히 알고, 목적 달성에 필요한 데이터를 수집해야 하며, ‘목적’을 위해 데이터를 어떻게 가공하고 시각화해야만 의사결정권자가 필요한 정보를 한눈에 알아보고 이해할 수 있는가는 고민해야 한다. 이것이 역자들이 생각하는 데이터 분석의 목적이다. 이 책을 읽고 실습하면서 필요한 배경지식은 이 책에 각 장의 보충 자료 외에 통계학 등의 관련 서적이나 MOOC 등의 강의를 통해 습득하길 바란다. 또한 데이터 시각화를 위해서는 동적으로 시각화를 할 수 있도록 Tableau나 Plotly 등의 오픈소스 시각화 도구를 활용하는 방법을 추가로 익히길 바란다. |
|
교육자들은 자신이 선호하는 매체를 사용해 가르치는 경향이 있다. 개인적으로 경력을 시작할 즈음의 나는 비디오 콘텐츠에 매료됐다. 온라인 콘텐츠를 제작하면서 자주 듣는 질문 중 하나는 놀랍게도 ‘데이터 과학을 시작하는 사람들에게 추천할 만한 책이 있나요?’라는 질문이었다.
온라인에 좋은 자료가 많이 있는데도 책을 찾는 것에 처음에는 당황했으나 이 책을 읽은 후에는 데이터 과학 학습을 위한 책에 대한 내 인식이 바뀌었다. 이 책에서 가장 마음에 들었던 것은 책의 구성이었다. 적절한 양의 정보를 제때에 제공해 여러분이 자연스럽게 진도를 나갈 수 있도록 하고 있다. 본서를 통해 통계와 관련 개념에 관한 기초 지식부터 시작해 실습을 바탕으로 이론을 배울 수 있을 것이다. 기초를 배우고 나면 이 책의 핵심인 pandas를 만나게 된다. 저자는 (이전에 여러분들이 사용했던 것과 같은 오래된 데이터가 아닌) 최신 실제 데이터를 사용해 모듈(module)에 생명을 불어넣는다. 나 역시 이 책을 통해 몇 가지 기술을 배웠다. 이 책의 후반부에서는 pandas의 강력한 기능을 바탕으로 무엇을 할 수 있는지 배운다. 저자는 머신러닝의 고급 개념도 자세히 소개하지만 지나치게 기술적인 전문 용어를 사용하지 않으면서 진도를 나가는 데 필요한 정보를 충분히 제공한다. 나는 저자와 대화하면서 이 책에 대한 그녀의 자부심을 느낄 수 있었다. 이 책은 데이터 과학의 도구를 배우려는 사람들에게 좋은 자료이자 저자 자신의 지식을 확고히 하면서 본인의 영역을 확장할 수 있는 방법이기도 하다. 여러분은 커뮤니티뿐만 아니라 자신의 학습을 위해 창조하는 사람들로부터 배우고 싶을 것이다. 내재적 동기를 가진 사람들은 추가로 수정하거나 표현을 정확하게 하고자 더 많은 노력을 한다. 여러분도 나처럼 이 책에서 많은 것을 배울 수 있길 바란다. 위에서 내게 ‘데이터 과학을 시작하는 사람들에게 추천할 만한 책이 있나요?’ 라는 질문을 한 분들에 대한 대답은 바로 이 책이다. 호놀룰루, 2021년 3월 9일 - 켄 지 (Ken Jee, 유튜버이자 스카우트 컨설팅 그룹(Scouts Consulting Group)의 데이터 과학 책임자) |