이미 소장하고 있다면 판매해 보세요.
Chapter 01. 데이터 과학과 Kaggle 활용
1.1 데이터 과학과 왜 Kaggle인가? 1.2 빅데이터 전문가들의 플랫폼, Kaggle 탐색 1.2.1 Competition 1.2.2 Code 1.2.3 Discussion 1.2.4 Datasets 1.2.5 Courses Chapter 02. Kaggle(telco churn data) 활용 실습 사례 2.1 데이터 분석 프로세스 2.2 Kaggle 데이터를 중심으로 상황 가정과 외?내부 환경 분석 2.3 데이터 탐색을 위한 기초통계 및 시각화 2.4 통신사 고객 이탈 인과관계 파악 2.5 통신사 고객 이탈 예측 2.6 데이터 분석을 통한 전략 도출 2.7 데이터 분석 실습 구성 Chapter 03. Kaggle 데이터를 활용한 이진 분류 예측 3.1 통신사 고객 이탈 예측 3.1.1 데이터 분석 개요 3.1.2 데이터 탐색 3.1.3 연관성 분석 3.1.4 통신사 고객 이탈 데이터 인과관계분석 3.1.5 예측 모델 설계 3.1.6 데이터 저장하기 3.2 퇴직 가능성 예측 3.2.1 데이터 분석 개요 3.2.2 데이터 전처리 3.2.3 데이터 탐색 3.2.4 종속변수와의 연관성 분석 3.2.5 예측 모델 구축 3.3 개인 신용 위험 예측 3.3.1 데이터 분석 개요 3.3.2 데이터 파악 및 전처리 3.3.3 데이터 탐색 3.3.4 종속변수와의 관계 분석 3.3.5 예측 모델 3.4 마케팅 캠페인 반응 데이터 분석 3.4.1 데이터 분석 개요 3.4.2 데이터 전처리 3.4.3 데이터 탐색 3.4.4 반응 예측 모델 3.4.5 분석 결과 활용 전략 수립 Chapter 04. Kaggle 데이터를 활용한 연속변수 예측 4.1 고객생애가치 데이터 분석 4.1.1 데이터 분석 개요 4.1.2 데이터 전처리 4.1.3 데이터 탐색 4.1.4 고객생애가치 예측 모델 4.1.5 분석 결과 활용 4.2 부동산 가격 예측 4.2.1 데이터 분석 개요 4.2.2 데이터 전처리 4.2.3 데이터 탐색 4.2.4 부동산 가격과의 관계 분석 4.2.5 가격예측 모델 구축 Chapter 05. Kaggle 데이터를 활용한 현황 분석 5.1 서울시 유동인구 데이터 기반 상권 분석 5.1.1 데이터 분석 개요 5.1.2 데이터 전처리 5.1.3 데이터 탐색 및 시각화 5.1.4 서울시 유동인구 분석을 위한 모델링 5.2 서울시 지하철 탑승객 데이터 기반 상권 분석 5.2.1 데이터 분석 개요 5.2.2 데이터 전처리 5.2.3 데이터 탐색 및 시각화 5.2.4 지하철 탑승객 분석을 위한 군집화 모델링 5.3 서울시 대기질 분석 5.3.1 데이터 분석 개요 5.3.2 데이터 전처리 5.3.3 데이터 탐색 및 시각화 5.3.4 미세먼지 예측을 위한 모델링 Chapter 06. Kaggle 데이터를 활용한 이상탐지 6.1 의료보험 이상탐지 6.1.1 데이터 분석 개요 6.1.2 데이터 전처리 6.1.3 데이터 탐색 6.1.4 특이 케이스 식별 6.1.5 이상치 결과 평가 6.1.6 분석 결과 활용 6.2 신용카드 부정거래 탐지 6.2.1 데이터 분석 개요 6.2.2 부정 사용 탐지를 위한 파생변수 생성 6.2.3 데이터 탐색 6.2.4 종속변수와의 관계 분석 6.2.5 카드 부정 사용 예측 모델 |
김광용의 다른 상품
임은택 의 다른 상품
저자 서문
2018년 정보화진흥원의 보고서에서는 데이터 수집, 저장, 가공, 분석 및 활용하는 과정에서 데이터를 활용함으로써 기업의 새로운 시장 확보, 새로운 고객 확보, 기업내ㆍ외부 프로세스 최적화와 공공에서의 사회적 서비스 비용 감소, 시민 맞춤형 공공서비스 개발 등 사회 전반에 걸친 분야에 영향을 미칠 것으로 보았다. 기존 경제 시스템을 주도하던 자원은 점차 고갈되고 거래를 통해 부가가치를 창출하는 과정에서 점차 소진되는 특성을 가지고 있는 것과 달리, 4차 산업혁명의 핵심 자원인 데이터는 수집을 통한 생산 이후에도 고갈의 염려 없이 생산이 가능할 뿐만 아니라 데이터의 거래, 데이터를 활용한 부가가치를 창출하는 과정에서 소진의 염려가 없이 지속적으로 사용할 수 있다는 장점을 가지고 있다. 그렇기 때문에 자원의 보유(데이터의 수집과 저장)도 중요하지만 더 중요한 것은 보유한 데이터를 활용하여 새로운 기술과 서비스, 창의적 비즈니스 모델을 창출해낼 수 있는 전략적인 경험과 창의적 사고능력이 중요해진 것이다. 데이터를 이용하여 혁신적인 가치를 창출하는 데이터 과학자는 4차 산업혁명의 중요한 인력으로 평가받고 있다. 이러한 데이터 과학자가 보유해야 하는 역량에는 조금씩 차이가 존재할 수 있겠지만 데이터 수집 및 관리와 같은 컴퓨팅 능력, 통계 및 데이터 분석 알고리즘 이해 및 시각화와 같은 데이터 분석 능력, 데이터를 활용하고자 하는 분야의 도메인 지식이 필요하며, 기업에서는 또한 이러한 능력을 갖춘 인재를 영입하기 위해 많은 비용을 사용하고 있다. 이러한 분위기 속에서 시중의 많은 데이터 분석과 데이터 과학에 대한 교재는 주로 데이터 분석 코드와 알고리즘에 관한 책을 쏟아내고 있다. 그러나 이러한 변화에도 불구하고 21년 정보통신정책연구원이 국내의 152개의 기업을 대상으로 AI 수요에 대한 설문조사를 한 결과, 기업은 사업 구체화, 문제정의, AI에 대한 이해, 도메인과 AI 기술의 결합, 모델 고도화를 위한 인재의 부족으로 인해 AI 도입을 꺼릴 뿐만 아니라 도입 후에도 많은 어려움을 겪고 있다는 결과를 보여주고 있다. 이에 대한 대응으로 클릭만으로 머신러닝(Machine Learning: ML) 모델을 활용하여 분석이 가능한 Auto ML 서비스뿐만 아니라, AI 기술을 기반으로 데이터의 수집과 관리, 운영 및 활용을 원활하게 할 수 있는 데이터플랫폼 서비스들이 등장함으로써 점차 범용적인 데이터 분석과 AI 모델의 활용이 가능할 것으로 예상하고 있다. 따라서 향후 비즈니스 환경에서 점차 보편적인 데이터 분석이 가능해진다면 도메인 지식과 전략적으로 데이터를 바라볼 수 있는 창의적인 사고를 바탕으로 문제를 정의하고 해결해가는 과정에 대해 이해하고 연습할 필요가 있다. 그러나 앞서 말한 것과 같이 시중의 많은 교재들은 데이터 분석을 위한 코드에 집중하고 있다. 본 교재에서는 코딩에 대하여 데이터 분석을 하는 첫 페이지에 QR코드를 통해서 R 또는 Python을 활용하여 교재의 분석내용을 구현한 코드를 제공하긴 하지만 데이터 분석을 위한 코딩에 대해서는 이야기하지 않는다. 가장 중요한 것은 데이터가 주어졌을 때 어떻게 문제를 정의하고, 문제를 해결하기 위한 과정을 연습해보고 경험을 하는 것이라고 보기 때문이다. 본 교재에서는 데이터 분석 경험이 많지 않은 독자들을 대상으로 R 또는 Python이 아닌 통계분석 소프트웨어인 SPSS를 활용하여 분석을 실시한다. SPSS는 클릭을 통해 빈도분석, 통계적 검증을 위한 t검정, 교차분석, 상관분석, 회귀분석뿐만 아니라 의사결정나무, 단층 신경망 등의 ML 기법까지 사용 가능하기 때문에 코딩을 사용한 데이터 분석이 낯선 학생들에게 가장 적합한 툴이라고 판단하였다. 데이터 분석을 위해서는 어떻게 문제를 정의하고, 문제를 해결하기 위해 어떠한 데이터를 수집하고 사용해야 할지 판단하는 것이 시작점이지만, 교재를 통해 데이터 수집까지 다루기엔 한계가 있기 때문에 본 교재에서는 Kaggle이라는 빅데이터 분석 커뮤니티에서 공개된 데이터를 활용한다. 2장에서는 Kaggle에서 공개된 데이터를 통해 어떻게 문제에 접근하고 분석이 가능한지 예제를 보여줌으로써 교재의 방향성을 설명하고자 하였다. 3~6장까지는 이진분류, 연속변수 예측, 현황분석, 이상탐지라는 큰 주제하에서 Kaggle에서 수집한 데이터를 분석 목적에 맞춰 분리하여 비슷한 문제를 해결하기 위해 어떻게 데이터를 바라보았는지, 어떤 분석을 사용하고 어떻게 결론을 내리고 있는지 보여주고자 하였다. 본 교재를 활용하여 코딩에 대하여 겁내지 않고 자신의 경영학적 또는 다양한 도메인 지식을 활용하여 문제를 파악하고, 문제를 해결하기 위해 데이터를 어떻게 분석하고 결론을 내는지에 대한 체험하는 과정을 통하여, 데이터 활용에 대한 전략적 사고와 창의적 사고 능력을 겸비한 많은 인재들이 양성될 수 있기를 희망한다. |