품목정보
발행일 | 2021년 09월 07일 |
---|---|
쪽수, 무게, 크기 | 344쪽 | 173*230*30mm |
ISBN13 | 9791165920883 |
ISBN10 | 1165920883 |
발행일 | 2021년 09월 07일 |
---|---|
쪽수, 무게, 크기 | 344쪽 | 173*230*30mm |
ISBN13 | 9791165920883 |
ISBN10 | 1165920883 |
l Chapter 01 l 현장의 데이터 분석 과정 이해하기 1장. 왜 분석을 하는가? 1.1 데이터 이야기 1.2 문제 정의 육하원칙 1.3 데이터 분석에 필요한 기술 1.4 데이터 분석 적용 사례 2장. 분석 주제에 맞는 데이터 가져오기 2.1 데이터 수집이란? 2.2 데이터 전처리(Data Pre-processing)란? 2.3 데이터 확인하기 2.4 결측치 처리하기 ____ 2.4.1 결측치 확인하기 ____ 2.4.2 결측치 제거하기 ____ 2.4.3 결측치 대체하기 2.5 이상치 처리하기 ____ 2.5.1 논리적으로 존재할 수 없는 이상치 처리하기 ____ 2.5.1 논리적으로 존재할 수 있는 이상치 처리하기 2.6 피처 엔지니어링(Feature Engineering) 3장. 분석 주제 구체화하기 3.1 탐색적 데이터 분석(Exploratory Data Analysis)이란? 3.2 탐색적 데이터 분석 프로세스 4장. 데이터 분석 수행하기 4.1 통계적 가설 검정(Statistical Hypothesis Testing) 4.2 기계 학습(Machine Learning) 4.3 시각화(Visualization) 4.4 결론 도출 l Chapter 02 l 데이터 분석 프로젝트(1) - 정형 데이터에서 보물 찾기 5장. 지난 1년간 카페에는 어떤 일이 있었을까? 5.1 readxl 패키지를 이용하여 엑셀 데이터 불러오기 5.2 카페에서 가장 많이 판매한 메뉴 확인하기 5.3 요일별로 판매한 메뉴 확인하기 5.4 계절별로 판매한 메뉴 확인하기 5.5 R에서 시각화하기 ____ 5.5.1 R 그래프, 무엇이 있는가? ____ 5.5.2 R 시각화 대표 패키지 ggplot2 ____ 5.5.3 ggplot2 패키지를 이용한 시각화 예시 5.6 매출 현황 그래프로 분석하기 ____ 5.6.1 카테고리별 판매 건수 시각화하기 ____ 5.6.2 월별 판매 건수 시각화하기 ____ 5.6.3 요일별 판매 건수 시각화하기 6장. 광고, 정말 효과가 있을까? 6.1 엑셀 데이터 불러오기 6.2 광고 효과 분석을 위한 목표 설정하기 6.3 raster 패키지를 이용하여 대한민국 지도 그리기 6.4 stats 패키지 기반 통계적 검정하기 6.5 ggplot1 패키지를 이용하여 광고 효과가 없는 지역 표현하기 7장. KOSPI 예측이 가능할까? 7.1 KOSPI 데이터 불러오기 7.2 ggplot2 패키지를 이용하여 KOSPI 지수 시각화하기 7.3 시계열 데이터 이해하기 ____ 7.3.1 시계열 데이터 분석을 위한 예측 변수 ____ 7.3.2 시계열의 구성 요소 ____ 7.3.3 시도표 이해하기 7.4 stats 패키지로 KOSPI 지수 분해하기 7.5 forecast 패키지로 시계열 회귀 모형 만들기 ____ 7.5.1 단순 선형 회귀 ____ 7.5.2 다중 선형 회귀 ____ 7.5.3 적절한 독립 변수 7.6 auto.arima를 이용하여 KOSPI 지수 예측하기 ____ 7.6.1 정상성과 차분 ____ 7.6.2 auto.arima 활용하기 l Chapter 03 l 데이터 분석 프로젝트(2) - 비정형 데이터에서 보물 찾기 8장. 오늘의 뉴스 키워드 분석하기 8.1 뉴스 데이터를 수집하기 위한 네이버 검색 API 준비하기 8.2 httr 패키지를 이용하여 뉴스 데이터 수집하기 8.3 자연어 처리 이해하기 8.4 KoNLP 패키지를 이용하여 한글 자연어 처리하기 ____ 8.4.1 KoNLP 패키지 설치하기 ____ 8.4.2 전기자동차 관련 뉴스 수집하기 ____ 8.4.3 뉴스 데이터 분석하기 8.5 wordcloud 패키지를 이용한 워드클라우드 ____ 8.5.1 wordcloud 패키지를 이용한 시각화 ____ 8.5.2 wordcloud2 패키지를 이용한 시각화 8.6 오늘의 뉴스 그래프로 분석하기 9장. YouTube 댓글 키워드를 활용하여 감성 분석하기 9.1 YouTube 댓글을 수집하기 위한 YouTube API 준비하기 ____ 9.1.1 구글 API 프로젝트 생성하기 ____ 9.1.2 구글 OAuth 동의 화면 활성화하기 ____ 9.1.3 YouTube Data API 사용 신청하기 9.2 YouTube 댓글 수집하기 ____ 9.2.1 OAuth 권한 연동하기 ____ 9.2.2 YouTube 채널 및 영상 통계 정보 수집·분석하기 ____ 9.2.3 YouTube 채널 및 영상 댓글 수집하기 9.3 RcppMeCap 패키지를 이용하여 한글 자연어 처리하기 ____ 9.3.1 RcppMeCap 패키지 설치하기 ____ 9.3.2 RcppMeCap 패키지를 이용하여 형태소 분석하기 9.4 긍·부정 사전 구축하기 9.5 긍·부정 사전을 이용하여 감성 분석하기 l Chapter 04 l 데이터 분석 기획부터 시각화까지 10장. R 패키지를 활용한 논문 분석 시스템 구축하기 10.1 분석 서비스 기획하기 10.2 논문 분석 시스템 설계하기 10.3 공공 API를 이용하여 학위 논문 수집하기 _____ 10.3.1 공공 데이터 API 인증키 발급하기 _____ 10.3.2 오픈 API 호출하기 _____ 10.3.3 오픈 API 호출 결과 파싱하기 10.4 논문 정형 데이터 분석하기 _____ 10.4.1 자료 구분별 논문 데이터 분석하기 _____ 10.4.2 학술 출판사에 따라 논문 데이터 분석하기 _____ 10.4.3 정규 표현식을 이용한 정형 데이터 분석 10.5 논문 비정형 데이터 분석하기 _____ 10.5.1 논문 제목 분석하기 _____ 10.5.2 논문 초록 분석하기 10.6 tm 패키지를 이용하여 Term Document Matrix 생성하기 _____ 10.6.1 Bag-of-words _____ 10.6.2 문서 단어 행렬(Document-Term Matrix) _____ 10.6.3 TF-IDF(Term Frequency-Inverse Document Frequency) 10.7 LDA Topic modeling을 이용하여 논문 주제 도출하기 10.8 shiny 패키지를 이용하여 논문 분석 시스템 웹 화면 구축하기 _____ 10.8.1 shiny란 _____ 10.8.2 논문 분석 시스템 구축하기 |
빅데이터 시대의 핵심 인재, ‘데이터 사이언티스트’가 되려는 당신에게 꼭 필요한 책! R은 통계에 최적화된 프로그래밍 언어이자, 성공적인 데이터 분석을 위한 오픈소스 프로그램이다. 데이터 분석이 시대의 키워드이자 흐름인 만큼 많은 패키지와 테스트 셋을 제공하는 R의 인기가 갈수록 높아지고 있다. 현업에서는 R을 활용한 데이터 분석 업무 수행 시 프로세스 자체를 이해하는 것이 중요한데, 이 책은 데이터 분석 프로젝트가 진행되는 전반적인 과정에서 실제 수행하는 액션(Action)에 초점을 맞추었기 때문에 실전 프로젝트에 적용 가능한 스킬을 익히고자 하는 데이터 분석가(Data Analyst)에게 많은 도움이 될 것이다. 이 책을 통해 데이터로부터 숨겨진 보물을 발굴하는 것을 넘어, 데이터 분석을 통해 인사이트까지 도출해내는 실전형 데이터 사이언티스트(Data Scientist)로 거듭나길 바란다. 소스코드 다운로드: https://github.com/bjpublic/R_data |
최근 데이터분석이 중요성이 날로 더해지고 있습니다. 금융에서는 마이데이터라고 해서
내 금융패턴을 분석하여 서비스를 제공/추천해주고, 모 기업에서는 DS(Data Scientist)시험
을 사내시험으로 진행을 하고 있음을 보면 얼마나 중요하게 생각하는지 알 수 있는 것 같습니다.
이 책은 크게 데이터분석 과정, 정형/비정형 데이터 분석, 데이터분석 기획부터 시각화까지
이렇게 크게 4가지의 내용으로 다루어 집니다.
데이터분석에 필요한 이론을 어렵거나 지루하지 않게 설명을 해주어서 좋았고, 데이터 분석 실습은
카페 매출 데이터, 광고데이터, 코스피 예측 등 다양한 흥미로운 주제를 다뤄서 재미있었습니다.
이런 실습을 통해 나아가 편의점 매출/상품 분석을 통해 요일별 어떤 제품을 주문할지 주문시스템 추천 서비스 이런것도 아마 다 이미 되어 있지 않을까란 생각을 해봤습니다.
또한 오늘의 뉴스 키워드분석, 구글 API를 사용하여 Youtube 댓글을 수집하여 감성 분석하기
등을 하는데, 데이터 분석을 공부하다 보면 자연어 처리가 어떤 역할을 하는지 알 수 있었습니다.
책은 320Page정도의 분량이지만, 어렵지 않고 흥미로운 주제로 데이터분석을 다루다 보니
실생활에서 쓰이는 데이터들이 어떻게 다뤄지는지 알 수 있어 좋았고, 초보자에게도 어렵지
았았습니다.
최근 여러 공공 및 오픈 API로 데이터를 제공하는 서비스들이 많기 때문에 이 책을 시작으로
여러가지 데이터를 분석해서 의미있는 데이터를 뽑아보는 연습을 해보면 재미있지 않을까 싶습니다.
다만 심화내용은 다루고 있지 않기 때문에 실제 데이터분석이 어떻게 쓰이는지 알고 싶거나 입문 하시는 분들에게 추천드립니다.
책 제목을 통해서 알 수 있듯이 이 책은 실무 예제를 통해서 구체적인 분석을 체험하는 데에 초점을 맞추고 있으므로, 기본적인 통계학 지식을 지니고 있으며 Hadley Wickham의 R for Data Science 같은 기본 교과서를 학습한 사람들이 읽으면 더 많은 도움을 받을 수 있을 것 같다. 물론 이 책에서도 기본적인 내용들을 간략히 다루고 있지만, 초점은 프로젝트 작업을 통해서 실무에서 필요한 지식들을 체험하는 것에 맞춰져 있다.
이 책에서 다루고 있는 프로젝트들은 크게 (1) 정형데이터를 이용한 프로젝트 그리고 (2) 비정형 데이터를 이용한 프로젝트로 나눠진다. 먼저 정형데이터를 이용한 프로젝트들은 보통 흔히 다른 교재들에서도 접할 수 있는 탐색적 자료분석, ggplot2 패키지를 이용한 그래프 작성, A/B 테스트, 시계열 분석들이다. 프로젝트들에서 다루고 있는 각각의 개별주제들만 해도 자세히 알기 위해서는 따로 여러권의 개별 서적들을 학습해야 할 내용들이지만, 이 책에서는 그 주제들을 적절한 수준에서 흥미로운 현실의 사례들을 이용해 적절하게 잘 소개하고 있다고 생각한다. 이 책에서 나오는 내용을 충분히 학습한다면 이후 자신의 실제 프로젝트에서 관련 주제들을 다뤄야할 경우 어디에서부터 시작해야 하는지 방향감각을 얻을 수 있으리라 생각한다.
다음으로 비정형 데이터를 이용한 프로젝트들에 대해서도 다양한 사례를 통해서 다루고 있다. 특히 이 부분은 개인적으로 이 책을 읽게 된 계기이기도 하다. 이 책에서는 비정형데이터의 사례로 네이버 뉴스 키워드 분석, youtube 댓글 키워드 분석, 학위논문 분석 시스템 구축 등을 다루고 있는데, 이 내용들을 읽고 따라 하면서 “텍스트 분석”을 어떤 방식으로 시작할 수 있는지에 대해서 감을 잡을 수 있었다. 또 비정형 데이터를 수집하는 과정에서 네이버 open API, 구글 API, 공공데이터 API 등을 사용하는 방법들도 자세히 다루고 있는데, 이를 통해서 해당 API들의 사용방법 뿐만 아니라 API 자체에 대한 이해도도 넗힐 수 있었다.
마지막으로 개인적으로 생각하는 이 책의 장점은, 현업에서 종사하는 데이터 분석가가 쓴 책이라서 그런지 “기업에서 요구”하는 실전형 데이터 분석은 어떻게 이뤄져야 하는지에 대해서 그 시각을 배울 수 있다는 점이다. 이는 특히 앞에서 다른 내용들을 종합해서 분석을 진행하는 “Chapter4: 데이터분석 기획부터 시각화까지”에서 많이 느껴지는 측면인데, 다른 책들에서는 아무래도 비지니스적인 측면보다는 학술적인 측면으로 데이터 분석에 접근하는 경향이 많으므로 이러한 점도 몹시 흥미로운 부분이었다. 이 책에서 한 가지 아쉬운 점은 관련 프로젝트들에 사용된 다양한 분석들에 대해서 좀더 심화해서 배우고 싶을 경우 필요한 정보를 얻을 수 있는, “심화학습”에 필요한 참고문헌에 대한 정보들이 충분히 제공되지 않는다는 점이다. 다만 이점은 이 책에서 제공하는 실전사례들을 학습한다면, 검색을 통해서 독자들이 직접 보완하는 것이 가능하리라 생각한다.
이 도서는 실제 R데이터를 분석하여 어떤 의미를 부여할 수 있는지를 알게 합니다.
R을 처음 접한 사람에게 여러가지 예제로 설명을 하지만, 실무와 연관 지어보기는 쉽지 않을 것입니다. 하지만, 이 도서는 실무에서 사용한 예제들을 토대로 이런 방식으로 R을 이용한 데이터 분석이 일어난다는 것을 알게 할 것이라 생각합니다.
다만, 처음 R을 배우거나 한적이 없는 분들에게는 쉽지 않을 내용이라고 봅니다. 데이터 분석이라는 것을 해봤거나 R을 배워서 알고 있는 분들에게는 최고의 실무 적용 도서라고 생각합니다. 특히 처음 R을 배우고 사용하는 분들의 경우에 예제를 통해서 이전에 배운 내용을 복습하면서 이해를 높일 수 있는 교재입니다.
저자의 경험과 내용이 담겨있어서 더욱 가치가 있는 도서입니다.
이 도서를 선택하신 분들은 후회하지 않을 것이라 생각합니다.