품목정보
출간일 | 2018년 12월 24일 |
---|---|
쪽수, 무게, 크기 | 1092쪽 | 1907g | 188*235*50mm |
ISBN13 | 9791161752402 |
ISBN10 | 1161752404 |
출간일 | 2018년 12월 24일 |
---|---|
쪽수, 무게, 크기 | 1092쪽 | 1907g | 188*235*50mm |
ISBN13 | 9791161752402 |
ISBN10 | 1161752404 |
실전 예측 분석 모델링 Applied Predictive Modeling
45,000원 (10%)
스파크를 이용해 데이터 분석 방법을 배우려는 사람에게 매우 유용한 책이다. 가장 먼저 스칼라를 소개하고, 스칼라 애플리케이션 개발에 필요한 객체지향 개념과 함수형 프로그래밍 개념을 설명한다. 스파크에 초점을 맞춰 RDD와 데이터 프레임을 사용한 기본 추상화를 다룬다. 그 다음 스파크 SQL, GraphX, 스파크 구조화 스트리밍을 사용해 구조화된 데이터와 구조화되지 않은 데이터를 분석하고 모니터링, 설정, 디버깅, 테스팅, 배포와 같은 고급 주제를 살펴본다. 또한 SparkR 및 PySpark API를 사용한 스파크 애플리케이션을 개발하는 방법, 아파치 제플린(Zeppelin)을 사용한 대화식 데이터 분석, Alluxio를 함께 사용해 인메모리 데이터를 처리하는 방법을 다룬다. 이 책을 다 살펴본 후, 스파크를 완벽하게 이해하고 풀 스택 데이터 분석을 수행할 수 있을 것이다. 이 책은 최신 2.3.2 버전을 기준으로 작성됐다. 기존의 원서에서 제공하는 코드의 오타와 호환성을 수정한 옮긴이의 github 저장소를 제공한다. |
1장 스칼라 소개 __스칼라의 역사와 목적 __플랫폼과 편집기 __스칼라 설치와 설정 ____자바 설치 ____윈도우 ____맥 OS __스칼라: 확장 가능한 언어 ____스칼라는 객체지향 ____스칼라는 함수형 ____스칼라는 정적 타입 지원 ____스칼라는 JVM에서 동작 ____스칼라는 자바 코드를 실행 가능 ____스칼라는 동시 및 동기화 처리 수행 가능 __자바 프로그래머를 위한 스칼라 ____모든 타입은 객체 ____타입 추론 ____스칼라 REPL ____중첩 함수 ____import문 ____연산자를 메소드로 사용 ____메소드와 파라미터 목록 ____메소드 안의 메소드 ____스칼라 생성자 ____정적 메소드 대신 객체 ____트레이트 __초보자를 위한 스칼라 ____처음 작성하는 스칼라 코드 ____대화형으로 스칼라 실행 ____컴파일 __요약 2장 객체지향 언어, 스칼라 __스칼라 변수 ____참조와 값 불변성 ____스칼라의 데이터 타입 __스칼라의 메소드, 클래스, 객체 ____스칼라의 메소드 ____스칼라의 클래스 ____스칼라의 객체 __패키지와 패키지 객체 __자바 상호운용성 __패턴 매칭 __스칼라의 암시 __스칼라의 제네릭 ____제네릭 클래스의 정의 __SBT와 기타 빌드 시스템 ____SBT로 빌드 ____이클립스에 메이븐 사용 ____이클립스에서 그래들 사용 __요약 3장 함수형 프로그래밍 개념 __함수형 프로그래밍 소개 ____함수형 프로그래밍의 장점 __데이터 과학자를 위한 함수형 스칼라 __스파크를 공부하는 데 와 FP 스칼라를 설명하는 이유 ____스파크인 이유 ____스칼라와 스파크 프로그래밍 모델 ____스칼라와 스파크 생태계 __순수 함수와 고차 함수 ____순수 함수 ____익명 함수 ____고차 함수 ____함수를 리턴 값으로 사용 __고차 함수 사용 __함수형 스칼라의 에러 핸들링 ____스칼라의 실패와 예외 ____예외 던지기 ____try와 catch를 사용한 예외 처리 ____finally ____Either 생성 ____Future ____하나의 태스크를 실행하고 대기 __함수형 프로그래밍과 데이터 가변성 __요약 4장 컬렉션 API __스칼라 컬렉션 API __타입과 계층 ____Traversable ____Iterable ____Seq, LinearSeq, IndexedSeq ____가변과 불변 ____배열 ____리스트 ____셋 ____튜플 ____맵 ____Option ____exists ____forall ____filter ____map ____take ____groupBy ____init ____drop ____takeWhile ____dropWhile ____flatMap __성능 특징 ____컬렉션 객체의 성능 특징 ____컬렉션 객체가 사용하는 메모리 사용량 __자바 상호 운영성 __스칼라 암시 사용 ____스칼라의 암시적 변환 __요약 5장 스파크로 빅데이터 다루기 __데이터 분석 소개 ____데이터 분석 프로세스 내부 __빅데이터 소개 ____빅데이터의 4V __하둡을 이용한 분산 컴퓨팅 ____하둡 분산 파일 시스템(HDFS) ____맵리듀스 프레임워크 __아파치 스파크 ____스파크 코어 ____스파크 SQL ____스파크 스트리밍 ____스파크 GraphX ____스파크 ML ____PySpark ____SparkR __요약 6장 스파크로 REPL과 RDD 작업 __스파크에 대해 깊이 살펴보기 __아파치 스파크 설치 ____스파크 독립형 ____얀 기반의 스파크 ____메소스 기반의 스파크 ____쿠버네티스 기반 스파크 __RDD 소개 ____RDD 생성 __스파크 셸의 사용 __트랜스포메이션과 액션 ____트랜스포메이션 ____액션 __캐싱 __데이터 로드와 저장 ____데이터 로드 ____RDD 저장 __요약 7장 특수 RDD 연산 __RDD 타입 ____쌍 RDD ____DoubleRDD ____SequenceFileRDD ____CoGroupedRDD ____ShuffledRDD ____UnionRDD ____HadoopRDD ____NewHadoopRDD __집계 ____groupByKey ____reduceByKey ____aggregateByKey ____combineByKey ____groupByKey, reduceByKey, combineByKey, aggregateByKey의 비교 __파티셔닝과 셔플링 ____파티셔너 ____셔플링 __브로드캐스트 변수 ____브로드캐스트 변수 생성 ____브로드캐스트 변수 정리 ____브로드캐스트 정리 __누산기 __요약 8장 스파크 SQL __스파크 SQL과 데이터 프레임 __데이터 프레임 API와 SQL API ____피벗 ____필터 ____사용자 정의 함수(UDF) ____데이터의 스키마 구조 ____데이터셋 로드와 저장 __집계 ____집계 함수 ____groupBy ____rollup ____cube ____윈도우 함수 __조인 ____조인의 내부 동작 ____브로드캐스트 조인 ____조인 타입 ____조인의 성능 결과 __요약 9장 스파크 스트리밍 __스트리밍에 대한 간략한 소개 ____최소 한 번 처리 방식 ____최대 한 번 처리 방식 ____정확히 한 번 처리 __스파크 스트리밍 ____StreamingContext ____입력 스트림 ____binaryRecordsStream ____queueStream ____textFileStream 예 ____twitterStream 예 __불연속 스트림 ____트랜스포메이션 ____윈도우 연산 __상태 저장/상태 비저장 트랜스포메이션 ____상태 비저장 트랜스포메이션 ____상태 저장 트랜스포메이션 __체크 포인팅 ____메타데이터 체크 포인팅 ____데이터 체크포인팅 ____드라이버 실패 복구 __스트리밍 플랫폼과의 상호운용성(아파치 카프카) ____수신기 기반의 접근 방식 ____다이렉트 스트림 ____구조화 스트리밍 __구조화 스트리밍 ____이벤트 시간과 지연 데이터 처리 ____내결함성 의미 체계 __요약 10장 GraphX __그래프 이론에 대한 간략한 소개 __GraphX __VertexRDD와 EdgeRDD ____VertexRDD ____EdgeRDD __그래프 연산자 ____filter ____mapValues ____aggregateMessages ____triangleCount __Pregel API ____연결된 컴포넌트 ____여행하는 세일즈맨 문제 ____ShortestPaths __페이지랭크 __요약 11장 머신 러닝 학습: 스파크 MLlib와 ML __머신 러닝 소개 ____일반적인 머신 러닝 워크플로우 ____머신 러닝 작업 __스파크 머신 러닝 API ____스파크 머신 러닝 라이브러리 __피처 추출과 트랜스포메이션 ____CountVectorizer ____토큰화 ____StopWordsRemover ____StringIndexer ____OneHotEncoder ____스파크 ML 파이프라인 __간단한 파이프라인 생성 __비지도 머신 러닝 ____차원 축소 ____PCA __이진 및 다중 클래스 분류 ____성능 메트릭 ____로지스틱 회귀 분석을 이용한 다중 클래스 분류 ____랜덤 포레스트를 사용해 분류 정확도 향상 __요약 12장 고급 머신 러닝 모범 사례 __머신 러닝 모범 사례 ____오버피팅과 언더피팅에 주의 ____스파크 MLlib과 ML에 집중 ____애플리케이션에 적합한 알고리즘 선택 ____알고리즘을 선택할 때 고려해야 할 사항 ____알고리즘을 선택할 때 데이터를 검사 __ML 모델의 하이퍼파라미터 튜닝 ____하이퍼파라미터 튜닝 ____그리드 검색 파라미터 튜닝 ____교차 검증 ____신용 위험 분석: 하이퍼파라미터 튜닝 예 __스파크를 사용한 추천 시스템 ____스파크를 이용한 모델 기반 추천 __주제 모델링: 텍스트 클러스터링에서 모범 사례 ____LDA 동작 방법 ____스파크 MLlib를 이용한 주제 모델링 __요약 |