품목정보
발행일 | 2020년 11월 26일 |
---|---|
쪽수, 무게, 크기 | 616쪽 | 185*240*30mm |
ISBN13 | 9791189909239 |
ISBN10 | 1189909235 |
발행일 | 2020년 11월 26일 |
---|---|
쪽수, 무게, 크기 | 616쪽 | 185*240*30mm |
ISBN13 | 9791189909239 |
ISBN10 | 1189909235 |
[1장] 구글 빅쿼리 데이터 처리 아키텍처 __관계형 데이터베이스 관리 시스템 __맵리듀스 프레임워크 __빅쿼리: 서버리스, 분산 SQL 엔진 빅쿼리로 작업하기 __여러 데이터셋에서 통찰력 도출하기 __ETL, EL, ELT __강력한 분석 __관리의 단순함 빅쿼리는 어떻게 만들어졌는가 빅쿼리는 어떻게 구현할 수 있었을까 __컴퓨팅 및 스토리지 분리 __스토리지 및 네트워킹 인프라 __관리형 저장소 __구글 클라우드 플랫폼과 통합 __보안 및 규정 준수 정리 [2장] 쿼리 필수 요소 간단한 쿼리 __SELECT로 행 검색하기 __AS로 컬럼 이름에 별칭 지정하기 __WHERE로 필터링하기 __SELECT *, EXCEPT, REPLACE __WITH를 사용한 서브 쿼리 __ORDER BY로 정렬하기 집계 __GROUP BY로 집계하기 __COUNT로 레코드 수 세기 __HAVING으로 그룹화된 항목 필터링하기 __DISTINCT로 고윳값 찾기 배열과 구조체 기초 __ARRAY_AGG로 배열 만들기 __구조체의 배열 __튜플 __배열 활용하기 __배열 풀기 테이블 조인 __조인의 작동 원리 __이너 조인 __크로스 조인 __아우터 조인 저장 및 공유 __쿼리 기록 및 캐싱 __저장된 쿼리 __뷰와 공유 쿼리의 비교 정리 [3장] 데이터 타입, 함수, 연산자 숫자형과 함수 __수학 함수 __표준 규격 부동 소수점 분할 __SAFE 함수 __비교 __NUMERIC을 사용한 정밀 소수 계산 불(BOOL) 다루기 __논리 연산 __조건식 __COALESCE로 NULL 값을 깨끗하게 처리하기 __타입 변환과 타입 강제 __불리언 변환을 피하기 위해 COUNTIF 사용하기 문자열 함수 __국제화 __출력 및 파싱 __문자열 조작 함수 __변환 함수 __정규 표현식 __문자열 함수 정리 타임스탬프 다루기 __타임스탬프 값의 파싱과 형식화 __달력 정보 추출하기 __타임스탬프 연산하기 __Date, Time 그리고 DateTime GIS 함수 사용하기 정리 [4장] 빅쿼리로 데이터 로드하기 가장 기본적인 방법 __로컬에서 데이터 로드하기 __스키마 지정하기 __새 테이블에 복사하기 __데이터 관리(DDL과 DML) __데이터를 효율적으로 로드하기 통합 쿼리와 외부 데이터 원본 __통합 쿼리 사용하기 __통합 쿼리와 외부 데이터 원본의 사용 사례 __대화형 탐색과 구글 시트 데이터의 쿼리 __클라우드 빅테이블의 데이터에 대한 SQL 쿼리 전송과 내보내기 __데이터 전송 서비스 __스택드라이버 로그 내보내기 __클라우드 데이터플로우로 빅쿼리 데이터 읽고 쓰기 온프레미스 데이터의 이동 __데이터 마이그레이션 방법 정리 [5장] 빅쿼리를 활용한 개발 프로그래밍 방식을 활용한 개발 __REST API 활용하기 __구글 클라우드 클라이언트 라이브러리 데이터 과학 도구에서 빅쿼리 사용하기 __구글 클라우드 플랫폼의 노트북 __빅쿼리, 판다스, 그리고 주피터의 결합 __R에서 빅쿼리 다루기 __클라우드 데이터플로우 __JDBC/ODBC 드라이버 __빅쿼리 데이터를 G 스위트의 구글 슬라이드에 포함하기 빅쿼리와 배시 스크립팅 __데이터셋과 테이블 생성 __쿼리의 실행 __빅쿼리 객체 정리 [6장] 빅쿼리 아키텍처 아키텍처 살펴보기 __쿼리 요청의 수명 __빅쿼리 업그레이드 쿼리 엔진(드레멜) __드레멜 아키텍처 __쿼리 실행 스토리지 __스토리지 데이터 __메타데이터 정리 [7장] 성능 및 비용 최적화 성능 최적화의 기본 원칙 __성능의 핵심 요소 __비용 통제하기 측정과 문제 해결 __REST API로 쿼리 속도 측정하기 __빅쿼리 워크로드 테스터로 쿼리 속도 측정하기 __스택드라이버를 사용해 워크로드 문제 해결하기 __쿼리 실행 계획 정보 읽기 __작업 세부 정보에서 쿼리 계획 정보 가져오기 __쿼리 계획 정보 시각화 쿼리 속도 높이기 __I/O 최소화 __이전 쿼리 결과 캐싱하기 __효율적으로 조인하기 __워커의 과도한 작업 피하기 __근사 집계 함수 사용하기 데이터 저장 및 접근 방법 최적화 __네트워크 오버헤드 최소화하기 __효율적인 저장 포맷 선택하기 __스캔 크기를 줄이기 위해 테이블 파티셔닝하기 __높은 카디널리티 키에 기반한 클러스터링 테이블 __시간에 구애받지 않는 사용 사례 정리 __체크리스트 [8장] 고급 쿼리 재사용 가능한 쿼리 __파라미터화된 쿼리 __SQL 사용자 정의 함수 __쿼리 일부 재사용하기 고급 SQL __배열 다루기 __윈도우 함수 __테이블 메타데이터 __데이터 정의 언어와 데이터 조작 언어 SQL 이상의 기능 __자바스크립트 사용자 정의 함수 __스크립팅 고급 함수 __빅쿼리 지리 정보 시스템 __유용한 통계 함수들 __해시 알고리즘 정리 [9장] 빅쿼리 머신러닝 머신러닝이란 __머신러닝 문제 공식화하기 __머신러닝 문제의 유형 회귀 모델 생성하기 __레이블 선택하기 __피처를 찾기 위한 데이터셋 탐색 __학습 데이터셋 생성하기 __모델 학습 및 평가 __모델로 예측하기 __모델 가중치 검사하기 __더 복잡한 회귀 모델 분류 모델 생성하기 __학습 __평가 __예측 __임계값 고르기 빅쿼리 ML 커스텀하기 __데이터 분할 제어하기 __클래스 균형 맞추기 __정규화 k 평균 클러스터링 __어떤 것을 클러스터링할까 __자전거 대여소 클러스터링하기 __클러스터링 수행하기 __클러스터 이해하기 __데이터 기반 의사 결정 추천 시스템 __무비렌즈 데이터셋 __행렬 분해 __추천 만들기 __사용자와 영화 정보 통합하기 GCP의 커스텀 머신러닝 모델 __하이퍼파라미터 튜닝 __AutoML __텐서플로우 지원 정리 [10장] 빅쿼리 관리 및 보안 인프라스트럭처 보안 계정 및 접근 관리 __계정 __역할 __리소스 빅쿼리 관리 __작업 관리 __사용자에게 권한 부여 __삭제된 레코드와 테이블의 복구 __지속적 통합/지속적 배포 __대시보드와 모니터링, 그리고 감사 로깅 가용성과 재해 복구, 암호화 __존과 리전 그리고 멀티리전 __빅쿼리와 장애 처리 __내구성과 백업 그리고 재해 복구 __개인정보 보호와 암호화 규제의 준수 __데이터 지역성 __데이터의 서비스에 대한 접근 제한 __개인과 관련된 모든 트랜잭션 제거하기 __데이터 유실 방지 __CMEK __데이터 유출 보호 정리 [한국어판 특별 부록] 클라우드 컴포저와 빅쿼리로 ELT 파이프라인 만들기 ELT 파이프라인의 큰 그림 클라우드 컴포저란 클라우드 컴포저 생성 및 환경 설정 클라우드 컴포저 웹 서버 UI DAG 만들기 ELT 파이프라인 만들기 |
1. 구글 빅쿼리의 말 그대로 PB 급의 데이터 저장과 분석을 위한 클라우드 서비스이다. 클라우드 서비스이니 설치/운영은 구글이 해주니.. 우리는 빅쿼리를 약간(?)의 비용을 지불하고 잘 사용하기만 하면 된다. 새로운 시스템을 구축에 들어가는 노력이나 운영을 위한 노가다를 해보지 않았다면 이 부분이 얼마나 큰 장점인지 모를 것이다.
2. 보통 빅데이터 규모의 데이터는 NoSQL 기반이지만, 다행히 관계형 DB처럼 SQL을 사용할 수 있다. 이 부분은 구글 빅쿼리를 사용하려면 어느 정도 SQL에 대해 익숙해야 한다는 의미다. 대부분의 전산 관련 학과에서 SQL은 배우고 있으니 큰 문제는 아닐 것 같다. 새로운 것을 배우는 것도 좋지만 기존의 지식을 이용할 수 있다는 점도 큰 장점이다.
3. 데이터 분석을 위해서는 먼저 데이터를 수집해야 한다. 문제는 여러 종류의 이기종 데이터를 분석하고 그에 맞는 데이터 구조를 정의하고, 시각화하는 작업은 정말 고난도의 노가다이다. 특히, 데이터가 많을수록 수집도 변경도 더 힘들다. 다행히 빅쿼리는 이 부분도 상당히 수월하고, 어느 정도의 커스터마이징도 가능하다.
4. 구글 빅쿼리는 구글에서 만든 서비스이니 구글의 다른 서비스와 연동도 가능하고 확장성도 좋다..
참고로, 우리 팀에서는 데이터 분석을 위해 Splunk를 사용하고 있기 때문에, Google Big Query와 비교하는 것에 관심이 생겨 찾아보았다. 이미 누군가 비교한 결과가 있네.. ^^;
(https://db-engines.com/en/system/Google+BigQuery%3BSplunk). 참고할 만하다.
새로운 사내 분석 플랫폼을 고려하는 경우라면, Google Big Query는 후보군 중 하나가 될 것이다.
5. 1장 소개부터 쿼리 문법, 데이터 타입 등 기본적인 내용이 앞 부분에 나온다. 그리고, 나서 빅쿼리 아키텍처 설명이 나오는데.. 이런 구성이 참 좋은 것 같다. 우선 빅쿼리를 한번 써보고 개념적인 큰 그림을 파악하는 것이 이해가 더 좋을 것 같다.
6. 빅쿼리 아키텍처 이후는 고급 내용이다. 최적화, 보안, 고급 쿼리는 좀 더 높은 수준의 활용을 가능하게 해 줄 것이다. 단, ML 챕터를 이해하기 위해서는 다른 ML 개념서를 한 번 읽어 보면 더 이해가 잘 될 것 같다.
7. 이 책은 구글 빅쿼리의 기초 + 응용 편을 하나로 묶어놓은 책이다. (그것도 잘 정리된...) 책은 두껍지만 열심히 본다면 빠른 시간내에 구글 빅쿼리의 큰 그림(?)을 알 수 있는 제목 그대로의 지침서다. 초보자라면 이 책을 통해 러닝 커브를 상단히 단축시킬 수 있을 것이며, 현재 활용하고 있는 경우라면 빅쿼리에 대한 전반적인 이해의 수준을 높여줄 수 있을 것이다.