확장메뉴
주요메뉴


소득공제
미리보기 공유하기

스파크 완벽 가이드

: 스파크를 활용한 빅데이터 처리와 분석의 모든 것

리뷰 총점9.5 리뷰 9건 | 판매지수 2,436
베스트
IT 모바일 top100 10주
정가
48,000
판매가
43,200 (10% 할인)
YES포인트
소중한 당신에게 5월의 선물 - 산리오 3단 우산/디즈니 우산 파우치/간식 접시 머그/하트 이중 머그컵
월간 개발자 2022년 5월호
내일은 개발자! 코딩테스트 대비 도서전
YES24 트윈링 분철 : 인서트라벨/스티커 택1 증정
5월 전사
5월 쇼핑혜택
1 2 3 4 5

품목정보

품목정보
출간일 2018년 12월 10일
쪽수, 무게, 크기 796쪽 | 1383g | 183*235*30mm
ISBN13 9791162241288
ISBN10 1162241284

이 상품의 태그

책소개 책소개 보이기/감추기

스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것

오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서이다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있으며, 스파크 2의 개선점과 새로운 기능을 자세히 설명하고 있다. 구조화된 스파크 API의 특징과 공통 기능은 물론이고, 엔드 투 엔드 스트리밍 애플리케이션을 구축하는 새로운 고수준 API인 구조적 스트리밍을 살펴본다. 이 책을 읽으면 스파크를 모니터링, 튜닝, 디버깅하는 데 필요한 기본 지식을 습득할 수 있고 나아가 스파크의 확장 머신러닝 라이브러리인 MLlib을 사용하는 방법과 시나리오를 익힐 수 있다.

목차 목차 보이기/감추기

[ Part 1 빅데이터와 스파크 간단히 살펴보기 ]

CHAPTER 1 아파치 스파크란
1.1 아파치 스파크의 철학
1.2 스파크의 등장 배경
1.3 스파크의 역사
1.4 스파크의 현재와 미래
1.5 스파크 실행하기
1.6 정리

CHAPTER 2 스파크 간단히 살펴보기
2.1 스파크의 기본 아키텍처
2.2 스파크의 다양한 언어 API
2.3 스파크 API
2.4 스파크 시작하기
2.5 SparkSession
2.6 DataFrame
2.7 트랜스포메이션
2.8 액션
2.9 스파크 UI
2.10 종합 예제
2.11 정리

CHAPTER 3 스파크 기능 둘러보기
3.1 운영용 애플리케이션 실행하기
3.2 Dataset: 타입 안정성을 제공하는 구조적 API
3.3 구조적 스트리밍
3.4 머신러닝과 고급 분석
3.5 저수준 API
3.6 SparkR
3.7 스파크의 에코시스템과 패키지
3.8 정리

[ Part 2 구조적 API: DataFrame, SQL, Part 2Dataset ]

CHAPTER 4 구조적 API 개요
4.1 DataFrame과 Dataset
4.2 스키마
4.3 스파크의 구조적 데이터 타입 개요
4.4 구조적 API의 실행 과정
4.5 정리

CHAPTER 5 구조적 API 기본 연산
5.1 스키마
5.2 컬럼과 표현식
5.3 레코드와 로우
5.4 DataFrame의 트랜스포메이션
5.5 정리

CHAPTER 6 다양한 데이터 타입 다루기
6.1 API는 어디서 찾을까
6.2 스파크 데이터 타입으로 변환하기
6.3 불리언 데이터 타입 다루기
6.4 수치형 데이터 타입 다루기
6.5 문자열 데이터 타입 다루기
6.6 날짜와 타임스탬프 데이터 타입 다루기
6.7 null 값 다루기
6.8 정렬하기
6.9 복합 데이터 타입 다루기
6.10 JSON 다루기
6.11 사용자 정의 함수
6.12 Hive UDF
6.13 정리

CHAPTER 7 집계 연산
7.1 집계 함수
7.2 그룹화
7.3 윈도우 함수
7.4 그룹화 셋
7.5 사용자 정의 집계 함수
7.6 정리

CHAPTER 8 조인
8.1 조인 표현식
8.2 조인 타입
8.3 내부 조인
8.4 외부 조인
8.5 왼쪽 외부 조인
8.6 오른쪽 외부 조인
8.7 왼쪽 세미 조인
8.8 왼쪽 안티 조인
8.9 자연 조인
8.10 교차 조인(카테시안 조인)
8.11 조인 사용 시 문제점
8.12 스파크의 조인 수행 방식
8.13 정리

CHAPTER 9 데이터소스
9.1 데이터소스 API의 구조
9.2 CSV 파일
9.3 JSON 파일
9.4 파케이 파일
9.5 ORC 파일
9.6 SQL 데이터베이스
9.7 텍스트 파일
9.8 고급 I/O 개념
9.9 정리

CHAPTER 10 스파크 SQL
10.1 SQL이란
10.2 빅데이터와 SQL: 아파치 하이브
10.3 빅데이터와 SQL: 스파크 SQL
10.4 스파크 SQL 쿼리 실행 방법
10.5 카탈로그
10.6 테이블
10.7 뷰
10.8 데이터베이스
10.9 select 구문
10.10 고급 주제
10.11 다양한 기능
10.12 정리

CHAPTER 11 Dataset
11.1 Dataset을 사용할 시기
11.2 Dataset 생성
11.3 액션
11.4 트랜스포메이션
11.5 조인
11.6 그룹화와 집계
11.7 정리

[ Part 3 저수준 API ]

CHAPTER 12 RDD
12.1 저수준 API란
12.2 RDD 개요
12.3 RDD 생성하기
12.4 RDD 다루기
12.5 트랜스포메이션
12.6 액션
12.7 파일 저장하기
12.8 캐싱
12.9 체크포인팅
12.10 RDD를 시스템 명령으로 전송하기
12.11 정리

CHAPTER 13 RDD 고급 개념
13.1 키-값 형태의 기초(키-값 형태의 RDD)
13.2 집계
13.3 cogroup
13.4 조인
13.5 파티션 제어하기
13.6 사용자 정의 직렬화
13.7 정리

CHAPTER 14 분산형 공유 변수
14.1 브로드캐스트 변수
14.2 어큐뮬레이터
14.3 정리

[ Part 4 운영용 애플리케이션 ]

CHAPTER 15 클러스터에서 스파크 실행하기
15.1 스파크 애플리케이션의 아키텍처
15.2 스파크 애플리케이션의 생애주기(스파크 외부)
15.3 스파크 애플리케이션의 생애주기(스파크 내부)
15.4 세부 실행 과정
15.5 정리

CHAPTER 16 스파크 애플리케이션 개발하기
16.1 스파크 애플리케이션 작성하기
16.2 스파크 애플리케이션 테스트
16.3 개발 프로세스
16.4 애플리케이션 시작하기
16.5 애플리케이션 환경 설정하기
16.6 정리

CHAPTER 17 스파크 배포 환경
17.1 스파크 애플리케이션 실행을 위한 클러스터 환경
17.2 클러스터 매니저
17.3 기타 고려사항
17.4 정리

CHAPTER 18 모니터링과 디버깅
18.1 모니터링 범위
18.2 모니터링 대상
18.3 스파크 로그
18.4 스파크 UI
18.5 디버깅 및 스파크 응급 처치
18.6 정리

CHAPTER 19 성능 튜닝
19.1 간접적인 성능 향상 기법
19.2 직접적인 성능 향상 기법
19.3 정리

[ Part 5 스트리밍 ]

CHAPTER 20 스트림 처리의 기초
20.1 스트림 처리란
20.2 스트림 처리의 핵심 설계 개념
20.3 스파크의 스트리밍 API
20.4 정리

CHAPTER 21 구조적 스트리밍의 기초
21.1 구조적 스트리밍의 기초
21.2 핵심 개념
21.3 구조적 스트리밍 활용
21.4 스트림 트랜스포메이션
21.5 입력과 출력
21.6 스트리밍 Dataset API
21.7 정리

CHAPTER 22 이벤트 시간과 상태 기반 처리
22.1 이벤트 시간 처리
22.2 상태 기반 처리
22.3 임의적인 상태 기반 처리
22.4 이벤트 시간 처리의 기본
22.5 이벤트 시간 윈도우
22.6 스트림에서 중복 데이터 제거하기
22.7 임의적인 상태 기반 처리
22.8 정리

CHAPTER 23 운영 환경에서의 구조적 스트리밍
23.1 내고장성과 체크포인팅
23.2 애플리케이션 변경하기
23.3 메트릭과 모니터링
23.4 알림
23.5 스트리밍 리스너를 사용한 고급 모니터링
23.6 정리

[ Part 6 고급 분석과 머신러닝 ]

CHAPTER 24 고급 분석과 머신러닝 개요
24.1 고급 분석에 대한 짧은 입문서
24.2 스파크의 고급 분석 툴킷
24.3 고수준 MLlib의 개념
24.4 MLlib 실제로 사용하기
24.5 모델 배포 방식
24.6 정리

CHAPTER 25 데이터 전처리 및 피처 엔지니어링
25.1 사용 목적에 따라 모델 서식 지정하기
25.2 변환자
25.3 전처리 추정자
25.4 고수준 변환자
25.5 연속형 특징 처리하기
25.6 범주형 특징 처리하기
25.7 텍스트 데이터 변환자
25.8 특징 조작하기
25.9 특징 선택
25.10 고급 주제
25.11 정리

CHAPTER 26 분류
26.1 활용 사례
26.2 분류 유형
26.3 MLlib의 분류 모델
26.4 로지스틱 회귀
26.5 의사결정트리
26.6 랜덤 포레스트와 그래디언트 부스티드 트리
26.7 나이브 베이즈
26.8 분류와 자동 모델 튜닝을 위한 평가기
26.9 세부 평가지표
26.10 일대다 분류기
26.11 다층 퍼셉트론
26.12 정리

CHAPTER 27 회귀
27.1 활용 사례
27.2 MLlib에서 제공하는 회귀 모델
27.3 선형 회귀
27.4 일반화 선형 회귀
27.5 의사결정트리
27.6 랜덤 포레스트와 그래디언트 부스티드 트리
27.7 고급 방법론
27.8 평가기와 모델 튜닝 자동화
27.9 평가지표
27.10 정리

CHAPTER 28 추천
28.1 활용 사례
28.2 교차최소제곱 알고리즘을 사용하여 협업 필터링 구현하기
28.3 추천을 위한 평가기
28.4 성과 평가지표
28.5 빈발 패턴 마이닝
28.6 정리

CHAPTER 29 비지도 학습
29.1 활용 사례
29.2 모델 확장성
29.3 k-평균
29.4 이분법 k-평균
29.5 가우시안 혼합 모델
29.6 잠재 디리클레 할당
29.7 정리

CHAPTER 30 그래프 분석
30.1 그래프 작성하기
30.2 그래프 쿼리하기
30.3 모티프 찾기
30.4 그래프 알고리즘
30.5 정리

CHAPTER 31 딥러닝
31.1 딥러닝이란
31.2 스파크에서 딥러닝을 사용하는 방법
31.3 딥러닝 라이브러리
31.4 딥러닝 파이프라인을 사용한 간단한 예제
31.5 정리

[ Part 7 에코시스템 ]

CHAPTER 32 언어별 특성: 파이썬(PySpark)과 R(SparkR, sparklyr)
32.1 PySpark
32.2 R로 스파크 사용하기
32.3 정리

CHAPTER 33 에코시스템과 커뮤니티
33.1 스파크 패키지
33.2 커뮤니티
33.3 정리

부록 A 스파크 설치 및 실행
부록 B 더블린 원정대: 스파크 서밋 2017 더블린 참관기

저자 소개 (5명)

출판사 리뷰 출판사 리뷰 보이기/감추기

스파크 활용과 배포, 유지 보수까지 전체적 흐름을 포괄적으로 안내하는 바이블

이 책은 쉽게 실행할 수 있는 스파크 예제와 모든 유형의 기본 사용 사례를 다루는 스파크 종합 안내서입니다. 스파크의 기초적인 내용부터 처리, 운용, 관리, 모니터링 그리고 그래프와 머신러닝에 이르기까지 다양한 내용을 종합적으로 설명합니다. 특히 스파크 2.0 기반의 고수준 신규 API인 DataFrame, Dataset, 스파크 SQL, 구조적 스트리밍(Structured Streaming)을 집중적으로 소개합니다. 스파크를 사용하려는 데이터 과학자와 데이터 엔지니어에게 많은 도움이 될 내용으로 구성했습니다.

이 책의 번역 품질을 최고로 높이기 위해 동분서주했던 역자들의 뼈를 깎는 노고를 언급하지 않을 수 없습니다. 매일 밤을 새우다시피 하며 방대한 분량의 원서를 수십 차례에 걸쳐 다듬고 소스 코드를 수정했으며, 열 명도 넘는 업계 실무자들을 치킨으로 유혹(!)하여 수 차례에 걸친 가혹한 베타 리딩 과정을 거쳤습니다. 원서에는 없는 ‘실행 환경 구축’에 필요한 구체적인 내용과 ‘스파크 서밋 2017 더블린 참관기’도 따로 집필하여 부록으로 실었습니다. 한편으로는 독자가 조금이라도 더 친근하고 편안한 느낌으로 읽을 수 있는 문장을 만들고자 노력했습니다. 이러한 담금질을 거쳐 탄생한 이 번역서가 여러분을 경이로운 스파크의 세계로 편안하게 인도해줄 것입니다.

회원리뷰 (9건) 리뷰 총점9.5

혜택 및 유의사항?
스파크 완벽 가이드 리뷰 내용 평점5점   편집/디자인 평점5점 l****u | 2020.11.24 | 추천0 | 댓글0 리뷰제목
Spark 완벽 가이드는 Spark 창시자인 마테이 자하리아가 저자로 참여하였고, 국내 스파크 모임에서 번역서가 나오기 전에도 교재로 많이 사용했던 책입니다.거의 800페이지에 달하는 분량이지만 핵심을 간단하고 명확하게 설명하고 있어 부담;
리뷰제목


Spark 완벽 가이드는 Spark 창시자인 마테이 자하리아가 저자로 참여하였고국내 스파크 모임에서 번역서가 나오기 전에도 교재로 많이 사용했던 책입니다.

거의 800페이지에 달하는 분량이지만 핵심을 간단하고 명확하게 설명하고 있어 부담없이 읽을  있었습니다.


제일 좋았던 부분은 실습 환경을 Docker 이미지로 제공하는  이였습니다.

빅데이터 관련 도서를   항상 실습을 위한 환경 구축에서 많은 시간을 소요했는데 이번에는 10 정도 만에 실습을 시작할  있었습니다.


3( 100페이지 분량)까지는 스파크 아키텍쳐와 기능에 대한 간단하게 소개를 하고 4 부터는 스파크에 대해 자세히 설명하고 있습니다.

개념  실습을 간단하게 살펴보고 세부 내용으로 진행하게 되어 있어 흥미를 잃지 않고 진행할  있었습니다.


기본 개념부터 고급 분석에 해당하는 내용까지  깊게 담고 있어 스파크를 처음 시작하시는  뿐만 아니라 사용하고 계셨던 분들도 곁에 두시고 참고하시면 좋을  같습니다.



댓글 0 이 리뷰가 도움이 되었나요? 공감 0
리뷰 내용 평점5점   편집/디자인 평점5점 k*******3 | 2020.11.22 | 추천0 | 댓글0 리뷰제목
파이썬 등을 활용한 가벼운 분석 프로세스가 주목을 받기 전에 빅데이터 처리 분야에서 하둡을 필두로 하는 오픈소스 프레임워크가 인기를 끌었다. 그 인기를 제대로 실감하지 못했기 때문에 이 흐름에 대해 옮긴이의 말 코너에서 아파치 스파크가 갖는 위상에 대해 좀 더 잘 이해할 수 있었다. 빅데이터 저장, 처리 프레임워크, SQL엔진, 실시간 처리, 머신러닝 등은 이전까지 따로 존재;
리뷰제목

파이썬 등을 활용한 가벼운 분석 프로세스가 주목을 받기 전에 빅데이터 처리 분야에서 하둡을 필두로 하는 오픈소스 프레임워크가 인기를 끌었다. 그 인기를 제대로 실감하지 못했기 때문에 이 흐름에 대해 옮긴이의 말 코너에서 아파치 스파크가 갖는 위상에 대해 좀 더 잘 이해할 수 있었다. 빅데이터 저장, 처리 프레임워크, SQL엔진, 실시간 처리, 머신러닝 등은 이전까지 따로 존재하고 익혀야 하는 번거로운 프로세스 단계였다. 하지만 아파치 스파크로 단일 인터페이스로의 구현이 가능해졌다. 데이터 사이언스 분야에서도 엔지니어링 분야까지 넘나들 수 있는 내용이 많으므로 여러모로 도움이 많이 되는 구성이다. 사용할 수 있는 언어별로 각 연산을 표현하는 코드가 따로 적혀 있어서 편한 방법으로 익히기도 좋다. 책은 기본 연산 문법과 RDD, 운영용 애플리케이션, 스트리밍, 고급 분석과 머신러닝 등에 대해서도 왜 사용하고 어떻게 사용하는지 잘 짚어준다. 스파크에서 사용하는 딥러닝 방법은 기초적인 부분만 있는 것 같으므로 개별적으로 찾아봐야하는 부분이다. 

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
데이터 분석은 필수! 스파크로 시작 내용 평점4점   편집/디자인 평점4점 YES마니아 : 로얄 y********7 | 2020.11.22 | 추천0 | 댓글0 리뷰제목
 개발 업무를 진행하면서 서비스를 런칭 했을 때 사용자들의 행위나 서비스가 제공하는 각 기능에 대한 가치를 파악하기 위해 데이터 분석을 해보고 싶다는 생각을 항상 해왔었다. 이 전에는 게임 서버 개발 진행과 병행하여 엘라스틱서치를 도입해 데이터 분석을 위한 준비를 했었고, 서비스 런칭 후 이를 통해 사업부와 협업하여 사용자 행위 지표에 대한 다양한 차트를 만들어보;
리뷰제목

 

개발 업무를 진행하면서 서비스를 런칭 했을 때 사용자들의 행위나 서비스가 제공하는 각 기능에 대한 가치를 파악하기 위해 데이터 분석을 해보고 싶다는 생각을 항상 해왔었다. 이 전에는 게임 서버 개발 진행과 병행하여 엘라스틱서치를 도입해 데이터 분석을 위한 준비를 했었고, 서비스 런칭 후 이를 통해 사업부와 협업하여 사용자 행위 지표에 대한 다양한 차트를 만들어보기도 했었다. 이로 인해 생각지 못했던 아이디어가 떠오르기도 하고, 업데이트 된 기능에 대한 사용자들의 반응을 바로바로 확인할 수 있어서 굉장히 큰 도움이 되었었다.

 

이 때의 경험을 계기로 어떤 개발을 할 때는 항상 데이터 분석도 함께 해보려고 노력하고 있다. 얼마전에는 본 업무와 별개로 사이드 프로젝트를 진행하며 데이터 분석을 해보기도 했다.

 

이처럼 데이터 분석에는 엘라스틱서치 뿐만 아니라 다양한 도구들이 존재하는데 문제는 이러한 분석을 위한 데이터가 서비스 기간이 길어질 수록, 서비스를 사용하는 사용자가 많아질 수록 기하급수적으로 증가한다는 것에 있다. 데이터가 많아지면 그만큼 집계를 하기 위한 시간도 오래걸리고 데이터가 차지하는 용량도 감당하기 어려울 정도로 증가하기 때문에 관리 비용이 굉장히 커진다. 이를 해결할 수 있는 도구로 스파크를 많이 사용한다.

 

이 책에서는 스파크가 무엇인지, 어떤 경우에 사용해야하는지에 대해 자세하게 설명하고, 유지보수를 하기 위해 필요한 지식들을 담고 있다. 데이터 분석을 위한 도구들은 사용도 까다롭지만 운영도 굉장히 어렵다. 충분히 돈을 벌고 있는 서비스라면 클라우드의 관리형 도구를 사용하게 되면 운영 이슈 없이 사용 방법에 대해서만 숙지하면 되지만 비용이 굉장히 크기 때문에 아마도 대부분의 회사에서 초기에는 직접 구축해서 사용하게 될 것이라고 생각한다. 이 책을 통해 사용방법 뿐만 아니라 트러블슈팅에 대한 팁도 알 수 있어서 좋았다.

 

스파크라는 도구 자체가 알아야 할 것들도 많고, 개념도 쉽지 않기 때문에 그만큼 책의 두께가 굉장히 두꺼워서 처음부터 하나씩 보다 보면 지치게되는데 간단한 프로젝트에 도입하여 직접 사용해보면서 궁금한 부분을 책에서 찾아 공부하는 식으로 본다면 더욱 재미있게 볼 수 있을 것이라 생각한다. 이 책은 스파크를 도입하려는 데이터 엔지니어들에게 큰 도움이 될 것이다.


댓글 0 이 리뷰가 도움이 되었나요? 공감 0

한줄평 (5건) 한줄평 총점 8.4

혜택 및 유의사항 ?
구매 평점4점
잘만들어 진 책입니다. 번역이 약간 아쉽습니다.
이 한줄평이 도움이 되었나요? 공감 0
m*****8 | 2020.04.24
구매 평점5점
공들인 내용과 번역이 돋보이는 책입니다.
이 한줄평이 도움이 되었나요? 공감 0
e********e | 2020.04.09
구매 평점4점
번역은 괜찮은데 내부구조 설명이 좀 더 자세했으면 좋은데 조금 아쉽습니다
이 한줄평이 도움이 되었나요? 공감 0
YES마니아 : 로얄 p****l | 2019.09.17
스프링분철 서비스를 선택하세요.
수량감소 수량증가 43,200
  •  다운받은 받은 쿠폰은 결제 페이지에서 적용해 주세요.
  •  분철옵션 선택 시, 영업일 기준 3일내 출고됩니다.
  •  분철상품은 해외배송이 불가합니다.
1   43,200

스프링분철 신청 가능

뒤로 앞으로 맨위로 aniAlarm