품목정보
발행일 | 2022년 02월 07일 |
---|---|
쪽수, 무게, 크기 | 340쪽 | 170*232*30mm |
ISBN13 | 9791186710715 |
ISBN10 | 1186710713 |
발행일 | 2022년 02월 07일 |
---|---|
쪽수, 무게, 크기 | 340쪽 | 170*232*30mm |
ISBN13 | 9791186710715 |
ISBN10 | 1186710713 |
Chapter 01 데이터 분석의 이해 _1.1 데이터는 무엇일까요? _1.2 데이터와 개발 _1.3 데이터 분석 _1.4 데이터 분석 도구 __1.4.1 SQL __1.4.2 엑셀 __1.4.3 R _1.5 디지털 트랜스포메이션과 인공지능 Chapter 02 데이터 분석 준비하기 _2.1 R 설치 _2.2 RStudio 설치 _2.3 R과 RStudio 실행 __2.3.1 RStudio 화면 설정 _2.4 기본 명령어와 규칙 __2.4.1 =을 활용한 저장 __2.4.2 따옴표를 활용한 문자 표현 __2.4.3 c() 함수로 값 나열 __2.4.4 다양한 문자열과 수열 __2.4.5 문자 관련 함수 __2.4.6 인덱스를 활용한 부분 선택 __2.4.7 공백과 주석 처리 _2.5 실습 데이터 소개 _2.6 실습자료 다운로드 _2.7 패키지 설치 _2.8 함수 도움말 확인 Chapter 03 데이터 불러와서 살펴보기 _3.1 CSV 파일 불러오기 _3.2 XLSX 파일 불러오기 _3.3 데이터 살펴보기 __3.3.1 View() 함수 __3.3.2 head(), tail() 함수 __3.3.3 names() 함수 __3.3.4 dim(), nrow(), ncol() 함수 _3.4 데이터 결합하기 __3.4.1 rbind() 함수 __3.4.2 merge() 함수 Chapter 04 패키지를 활용한 요약과 시각화 _4.1 실습 데이터 불러오기 __4.1.1 결제 내역 데이터 __4.1.2 고객 상세 데이터 __4.1.3 가맹점 상세 데이터 _4.2 magrittr 패키지의 %〉% _4.3 tibble 패키지의 tibble() 함수 _4.4 dplyr 패키지의 함수 __4.4.1 summarise() 함수를 활용한 요약값 계산 __4.4.2 filter() 함수를 활용한 부분 관측치 선택 __4.4.3 group_by() 함수를 활용한 그룹별 처리와 요약 __4.4.4 arrange() 함수를 활용한 관측치 정렬 __4.4.5 파이프라인의 순서 _4.5 ggplot2 패키지를 활용한 시각화 __4.5.1 수치형 변수의 히스토그램과 상자그림 __4.5.2 범주형 변수의 막대그래프 Chapter 05 다양한 데이터 요약과 시각화 _5.1 변수를 몇 개만 보거나 숨기고 싶어요 _5.2 연령대 변수를 만들어서 분석하고 싶어요 _5.3 비어 있는 결측치를 채우고 싶어요 _5.4 다양한 조건으로 그룹 변수를 만들어볼까요? _5.5 고객별로 결제 금액이 가장 큰 업종을 찾고 싶어요 __5.5.1 고객별 최근 결제 건을 찾고 싶어요 __5.5.2 업종별로 매출액이 가장 높은 가맹점을 찾고 싶어요 _5.6 업종별로 돈을 제일 많이 쓴 고객을 살펴봅시다 _5.7 결제 금액이 가장 큰 고객의 정보를 확인하고 싶어요 _5.8 주소를 쪼개서 지역별로 분석해봅시다 __5.8.1 n번째 글자를 추출하고 싶어요 __5.8.2 공백을 기준으로 주소를 나누고 싶어요 __5.8.3 일부 문자만 추출하고 싶어요 _5.9 1, 2 대신 남, 여로 바꿔야 이해하기 편합니다 _5.10 그룹에 따라 결제 금액 분포가 어떻게 다를까요? _5.11 두 개 그룹을 활용한 요약을 그래프로 표현해봅시다 _5.12 연령대별 선호 업종을 찾고 히트맵으로 표현해봅시다 _5.13 일별 매출 추이를 그리고 요일별로 분석합시다 __5.13.1 날짜와 시간을 표현해봅시다 _5.14 가맹점의 매출 건수와 매출 금액의 관계를 살펴봅시다 _5.15 관측치를 나눠서 그래프를 그리면 뭔가 보입니다 _5.16 밥 먹고 두 시간 안에 어떤 업종에서 결제를 많이 할까요? __5.16.1 고객 실적을 구분해봅시다 __5.16.2 식후 두 시간 안에 어떤 가게를 많이 이용할까요? Chapter 06 분석 결과 공유하기 _6.1 CSV 파일로 데이터 내보내기 _6.2 이미지 파일로 그래프 내보내기 부록 _A.1 데이터베이스와 SQL에 관한 간단한 설명 _A.2 RStudio의 프로젝트 기능 활용 _A.3 tidyr 패키지를 활용한 전처리 __A.3.1 complete()를 활용한 조합 생성 __A.3.2 replace_na()와 fill()을 활용한 결측치 대체 __A.3.3 spread()와 gather()를 활용한 형태 변환 _A.4 파이프 연산자의 추가적인 활용 _A.5 ggplot2 패키지의 주요 그래프 속성 변경 함수 __A.5.1 qplot()을 활용한 단순한 그래프 작성 __A.5.2 reorder()를 활용한 범주형 축의 수준 순서 변경 __A.5.3 축 바꾸기 __A.5.4 수치형 축의 척도, 이름, 범위 지정하기 __A.5.5 색상 조합 바꾸기 __A.5.6 그래프에 제목 달기 __A.5.7 그래프 테마 변경하기 __A.5.8 그래프 폰트 설정하기 _A.6 간단한 정규 표현식 __A.6.1 grep()과 grepl()을 활용한 문자열에서 패턴 찾기 __A.6.2 정규표현식의 활용 __A.6.3 gsub()를 활용한 찾아 바꾸기와 부분 추출 _A.7 변수 형식 __A.7.1 변수 형식 확인 __A.7.2 변수 형식 변환 |
데이터 분석을 위한 언어로 가장 많이 사용되고 있는 것이 파이썬과 R이다. 일반적으로
통계를 중점적으로 하려고 하면 R을 많이 사용하고 인공지능 쪽으로 분석을 하려고 하면 파이썬을 많이 사용한다.
이 책은 이러한 데이터 분석 언어중 통계쪽에 적합한 R 언어를 사용하여 데이터를 어떻게 분석하는 것이 좋은지 차근차근 쉽게 알려주고 있다.
R에 대해서 문법을 나열하기 보다는 ‘데이터 요약 및 시각화’에 초점을 두었고, 실무적으로 알게 된 개념을 다루고 있다.
이책은 1장 데이터 분석의 이해, 2장 데이터 분석 준비하기, 3장 데이터 불러와서 살펴보기, 4장 패키지를 활용한 요약과 시각화, 5장 다양한 데이터 요약과 시각화, 6장 분석결과 공유하기 ,부록으로 구성되어 있다.
각장 마다 초보자가 이해하기 쉽게 서술되어 있으며 실습이 가능하도록 R코드를 제시하고 그결과도 보여주고 있다. 그리고 실제 코드에 대한 자세한 살명도 해주고 있어서 이해하기 쉽다.
특히 4장에서 패키지를 활용한 다양한 분석 함수에 대해서 알려주고 있고 이를 활용하여 5장에서는 각 주제에 따라 데이터 분석을 어떻게 하는 것이 효율적인지를 사례별로 자세히 알려주고 있다. 예를 들어 변수를 몇개만 보거나 숨기고 싶을때, 고객별로 결제금액이 가능 큰 업종을 찾고 싶을때 등 실무에서 발생할 수 있는 이러한 사례를 나눠서 분석하는 방법을 알려주고 있습니다.
R을 활용하여 데이터 분석을 해야하는 사람들에게 처음 R을 접하는 사람들에게 가장 적합한 데이터 분석 책이라고 생각됩니다. 적극 추천합니다.
컴퓨터, 인공지능, 데이터 과학에 관심은 많지만, 전공자가 아니어서 이것저것 다양한 책을 읽어보고, 관심이 있는 직장인입니다. 2022년에는 실무적으로 접근하거나, 유의미한 데이터 분석에 관심이 생겨서 데이터 분석 및 데이터 과학책들을 접하고 있습니다. 이번에 접하게 된 이 ‘데이터 요약과 시각화 with R’ 은 데이터 분석 언어인 R에 대해서 구체적으로 다루는 책이라기보다는 ‘데이터 요약 및 시각화’에 초점을 둔 책이라고 할 수 있습니다. 또한 데이터 분석이라는 개념을 여느 대학 교재처럼 이론으로 정리한 것이 아니고, 저자의 관점에서 실무적으로 알게 된 개념을 다루고 있다는 것이 일반적인 데이터 분석 분야의 책과 다른 부분입니다.
비전공자, 일반 직장인의 관점에서 보면 R에 대해서 간단히 알아야 하며(실무 사용), R을 활용한 데이터 분석이 업무인 사람들에게 필요한 책이라고 할 수 있습니다. R 자체에 대한 설명은 최소화하고, R을 활용한 데이터 분석 예제에 집중하고 있다고 할 수 있습니다. 따라서 빠른 시일 내 R과 관련된 데이터 분석 사례가 필요한 분들께 필요한 책이라고 생각합니다. 책의 내용을 읽고 따라 해 보면 R을 활용한 데이터 분석이 어떤 것인지 알 수 있으리라 생각합니다.
<데이터 요약과 시각화 with R>를 읽고
프로그래밍 분야는 완성되거나 정체된 분야가 아닙니다.
빠른 속도로 발전해갑니다.
계속해서 새로운 데이터와 패키지가 나오고 또 다른
분석기법이 제시됩니다.
이런 점에서 방대한 액셀작업에 시달리는 업무를 하는 이를
위해 <데이터 요약과 시각화 with R>은 실전에서 사용 가능한
중급자 이상의 길로 인도해줍니다.
학습에는 몇 가지 방법이 있습니다.
한 가지 주제를 깊게 파는 방법과
여러 주제를 다루면서 깨닫는 방법이 있죠.
사실, 학습은 두 경우가 복합적으로 작용합니다.
이 책에서는 특정 기간의 카드사 매출이라는
한 가지 데이터를 가지고 목적에 따라 어떤 분석이
가능한지를 파헤쳐 줍니다. 한 가지 주제를 마스터함으로써
데이터를 보는 눈을 틔워줍니다.
실전에서 만나는 데이터는 언제나 이쁘게 정돈되어 있지 않습니다.
여러 노이즈가 섞여있고 가공하는 과정에서 예상치 못한
에러가 발생하기도 합니다. 그럴 때 중요한 것은 항상 기본에서
다시 생각하기입니다. 데이터의 속성을 잘 이해하고 라이브러리와
함수를 잘 이해하고 있으면 답은 가까운 곳에 있습니다.
이 책은 한가지 주제를 마스터하는 과정에서 기본기를 확실히
잡아 줍니다.
여러 실전적인 조언과 더불어 기억에 남는 것은
system.time()를 이용해서 코드의 실행시간을 보여준 대목이었습니다.
중고급자들이 쓰는 이 함수는
같은 목적을 달성하는 여러 코드 중에서 가장 빠른
방법을 선별하는 법을 알려줍니다.
초중급자 뿐만 아니라 최신 트랜드 분석 및 다른 고수의 작업을
훝어보는 측면에서 일독을 권합니다. 모두의 프로그램 실력을 향상시켜
좀 더 효율적인 작업을 하는데 도움 된다고 생각합니다.
R을 사용하여 의학 데이터 분석하는 저에게도 많은 조언을 주는
책이었습니다.