이 상품은 구매 후 지원 기기에서 예스24 eBook앱 설치 후 바로 이용 가능한 상품입니다.
[1장] 구글 빅쿼리데이터 처리 아키텍처__관계형 데이터베이스 관리 시스템__맵리듀스 프레임워크__빅쿼리: 서버리스, 분산 SQL 엔진빅쿼리로 작업하기__여러 데이터셋에서 통찰력 도출하기__ETL, EL, ELT__강력한 분석__관리의 단순함빅쿼리는 어떻게 만들어졌는가빅쿼리는 어떻게 구현할 수 있었을까__컴퓨팅 및 스토리지 분리__스토리지 및 네트워킹 인프라__관리형 저장소__구글 클라우드 플랫폼과 통합__보안 및 규정 준수정리[2장] 쿼리 필수 요소간단한 쿼리__SELECT로 행 검색하기__AS로 컬럼 이름에 별칭 지정하기__WHERE로 필터링하기__SELECT *, EXCEPT, REPLACE__WITH를 사용한 서브 쿼리__ORDER BY로 정렬하기집계__GROUP BY로 집계하기__COUNT로 레코드 수 세기__HAVING으로 그룹화된 항목 필터링하기__DISTINCT로 고윳값 찾기배열과 구조체 기초__ARRAY_AGG로 배열 만들기__구조체의 배열__튜플__배열 활용하기__배열 풀기테이블 조인__조인의 작동 원리__이너 조인__크로스 조인__아우터 조인저장 및 공유__쿼리 기록 및 캐싱__저장된 쿼리__뷰와 공유 쿼리의 비교정리[3장] 데이터 타입, 함수, 연산자숫자형과 함수__수학 함수__표준 규격 부동 소수점 분할__SAFE 함수__비교__NUMERIC을 사용한 정밀 소수 계산불(BOOL) 다루기__논리 연산__조건식__COALESCE로 NULL 값을 깨끗하게 처리하기__타입 변환과 타입 강제__불리언 변환을 피하기 위해 COUNTIF 사용하기문자열 함수__국제화__출력 및 파싱__문자열 조작 함수__변환 함수__정규 표현식__문자열 함수 정리타임스탬프 다루기__타임스탬프 값의 파싱과 형식화__달력 정보 추출하기__타임스탬프 연산하기__Date, Time 그리고 DateTimeGIS 함수 사용하기정리[4장] 빅쿼리로 데이터 로드하기가장 기본적인 방법__로컬에서 데이터 로드하기__스키마 지정하기__새 테이블에 복사하기__데이터 관리(DDL과 DML)__데이터를 효율적으로 로드하기통합 쿼리와 외부 데이터 원본__통합 쿼리 사용하기__통합 쿼리와 외부 데이터 원본의 사용 사례__대화형 탐색과 구글 시트 데이터의 쿼리__클라우드 빅테이블의 데이터에 대한 SQL 쿼리전송과 내보내기__데이터 전송 서비스__스택드라이버 로그 내보내기__클라우드 데이터플로우로 빅쿼리 데이터 읽고 쓰기온프레미스 데이터의 이동__데이터 마이그레이션 방법정리[5장] 빅쿼리를 활용한 개발프로그래밍 방식을 활용한 개발__REST API 활용하기__구글 클라우드 클라이언트 라이브러리데이터 과학 도구에서 빅쿼리 사용하기__구글 클라우드 플랫폼의 노트북__빅쿼리, 판다스, 그리고 주피터의 결합__R에서 빅쿼리 다루기__클라우드 데이터플로우__JDBC/ODBC 드라이버__빅쿼리 데이터를 G 스위트의 구글 슬라이드에 포함하기빅쿼리와 배시 스크립팅__데이터셋과 테이블 생성__쿼리의 실행__빅쿼리 객체정리[6장] 빅쿼리 아키텍처아키텍처 살펴보기__쿼리 요청의 수명__빅쿼리 업그레이드쿼리 엔진(드레멜)__드레멜 아키텍처__쿼리 실행스토리지__스토리지 데이터__메타데이터정리[7장] 성능 및 비용 최적화성능 최적화의 기본 원칙__성능의 핵심 요소__비용 통제하기측정과 문제 해결__REST API로 쿼리 속도 측정하기__빅쿼리 워크로드 테스터로 쿼리 속도 측정하기__스택드라이버를 사용해 워크로드 문제 해결하기__쿼리 실행 계획 정보 읽기__작업 세부 정보에서 쿼리 계획 정보 가져오기__쿼리 계획 정보 시각화쿼리 속도 높이기__I/O 최소화__이전 쿼리 결과 캐싱하기__효율적으로 조인하기__워커의 과도한 작업 피하기__근사 집계 함수 사용하기데이터 저장 및 접근 방법 최적화__네트워크 오버헤드 최소화하기__효율적인 저장 포맷 선택하기__스캔 크기를 줄이기 위해 테이블 파티셔닝하기__높은 카디널리티 키에 기반한 클러스터링 테이블__시간에 구애받지 않는 사용 사례정리__체크리스트[8장] 고급 쿼리재사용 가능한 쿼리__파라미터화된 쿼리__SQL 사용자 정의 함수__쿼리 일부 재사용하기고급 SQL__배열 다루기__윈도우 함수__테이블 메타데이터__데이터 정의 언어와 데이터 조작 언어SQL 이상의 기능__자바스크립트 사용자 정의 함수__스크립팅고급 함수__빅쿼리 지리 정보 시스템__유용한 통계 함수들__해시 알고리즘정리[9장] 빅쿼리 머신러닝머신러닝이란__머신러닝 문제 공식화하기__머신러닝 문제의 유형회귀 모델 생성하기__레이블 선택하기__피처를 찾기 위한 데이터셋 탐색__학습 데이터셋 생성하기__모델 학습 및 평가__모델로 예측하기__모델 가중치 검사하기__더 복잡한 회귀 모델분류 모델 생성하기__학습__평가__예측__임계값 고르기빅쿼리 ML 커스텀하기__데이터 분할 제어하기__클래스 균형 맞추기__정규화k 평균 클러스터링__어떤 것을 클러스터링할까__자전거 대여소 클러스터링하기__클러스터링 수행하기__클러스터 이해하기__데이터 기반 의사 결정추천 시스템__무비렌즈 데이터셋__행렬 분해__추천 만들기__사용자와 영화 정보 통합하기GCP의 커스텀 머신러닝 모델__하이퍼파라미터 튜닝__AutoML__텐서플로우 지원정리[10장] 빅쿼리 관리 및 보안인프라스트럭처 보안계정 및 접근 관리__계정__역할__리소스빅쿼리 관리__작업 관리__사용자에게 권한 부여__삭제된 레코드와 테이블의 복구__지속적 통합/지속적 배포__대시보드와 모니터링, 그리고 감사 로깅가용성과 재해 복구, 암호화__존과 리전 그리고 멀티리전__빅쿼리와 장애 처리__내구성과 백업 그리고 재해 복구__개인정보 보호와 암호화규제의 준수__데이터 지역성__데이터의 서비스에 대한 접근 제한__개인과 관련된 모든 트랜잭션 제거하기__데이터 유실 방지__CMEK__데이터 유출 보호정리[한국어판 특별 부록] 클라우드 컴포저와 빅쿼리로 ELT 파이프라인 만들기ELT 파이프라인의 큰 그림클라우드 컴포저란클라우드 컴포저 생성 및 환경 설정클라우드 컴포저 웹 서버 UI DAG 만들기ELT 파이프라인 만들기
|
Valliappa Lakshmanan
Jordan Tigani
장현희 의 다른 상품
변성윤의 다른 상품
한국어판 특별 서문한국은 빅쿼리를 초창기부터 사용해 왔습니다. 2015년에는 한국의 레진 엔터테인먼트 소속 개발자가 빅쿼리 사용에 대한 세미나를 진행하기도 했죠(https://www.slideshare.net/modestjude/big-query-43974844). 클라우드 컴퓨팅이 점점 발전하면서 한국에서도 다양한 분야의 여러 기업이 데이터 웨어하우스, 데이터 분석, 머신러닝 등에 빅쿼리를 활용하는 사례가 늘고 있습니다. 하지만 한국 개발자 입장에서 빅쿼리를 시작하고 권장 사례를 찾아보기란 쉽지 않았습니다. 참고 문서의 내용과 이런저런 블로그 포스트를 찾아 조합해야 겨우 원하는 바를 찾을 수 있었을 겁니다. 그렇기에 『Google BigQuery: The Definitive Guide』의 한국어판 『구글 빅쿼리 완벽 가이드』 출간을 축하하지 않을 수가 없네요!그동안 높은 수준의 도서를 출간해 온 책만 출판사에서 한국어판이 출간된다고 하니 정말 자랑스럽습니다. 번역 경험이 풍부한 장현희 님과 머신러닝 및 데이터 과학에 경험이 풍부한 변성윤 님이 만나 원서 내용에 충실하면서도 쉽게 읽히는 책으로 번역해냈다고 들었습니다. 저는 한국어를 모르지만 구글코리아의 믿을 만한 동료에게 물어보니 번역 품질은 걱정할 것 없다고 하더군요.다른 클라우드 기술처럼 빅쿼리도 계속해서 빠르게 발전하고 있습니다. 작년에만 해도 스크립팅, 영구 사용자 정의 함수, 새로운 머신러닝 모델 등이 추가되었죠. 하지만 빅쿼리는 벌써 10여 년간 유지되어 온 제품이고 핵심 아키텍처도 매우 안정적이므로 이 책에서 제시하는 권장 사례는 여전히 유효합니다. 특히 이번 한국어판은 제가 2020년 6월에 마지막으로 업데이트한 원서의 내용도 담고 있다고 들었어요. 원서에 대한 내용은 깃허브 웹사이트(https://github.com/GoogleCloudPlatform/bigquery-oreilly-book)에 지속적으로 업데이트하겠습니다. 빅쿼리 사용자 커뮤니티에 합류하신 것을 환영합니다!- 2020년 11월, 미국 워싱턴 주 벨뷰에서 / 발리아파 락쉬마난옮긴이의 글데이터사이언스, AI 등 데이터와 관련된 산업은 빠르게 성장하고 있습니다. 특히 최근 몇 년간 머신러닝/딥러닝 분야는 상상을 초월하는 크나큰 발전이 있었습니다. 뿐만 아니라 데이터 처리 분야도 빠르게 발전하고 있습니다. 대표적으로 아파치 하둡, 아파치 스파크 등이 있고, 많은 양의 데이터를 빠르게 처리하는 방법에 대해 고민합니다. 이런 움직임 가운데에서 구글은 2011년에 드레멜(Dremel) 엔진을 사용한 빅쿼리(BigQuery)를 출시해 데이터 처리 분야의 혁신을 이루고 있습니다. 빅쿼리는 다양한 장점이 있습니다. 그중 대표적인 장점을 꼽자면 다음과 같습니다.ㆍ 인프라를 구글이 관리하기 때문에, 사용자 입장에서 인프라를 관리할 필요가 없습니다.ㆍ 내부적으로 분산 처리를 사용해 데이터를 빠르게 추출 및 가공할 수 있습니다. ㆍ 지리 데이터 분석을 위한 GIS 함수, 머신러닝을 위한 빅쿼리 ML 등을 사용할 수 있습니다.ㆍ 파이어베이스(Firebase)를 사용할 경우, 앱 로그 데이터를 쉽게 획득할 수 있습니다.이 책 『구글 빅쿼리 완벽 가이드』는 구글 클라우드 플랫폼의 데이터 웨어하우스인 빅쿼리에 대한 모든 것을 담은 책입니다. 빅쿼리는 대용량 데이터를 빠르게 처리할 수 있도록 설계되었으며, SQL로 데이터를 추출할 수 있기 때문에 특정 프로그래밍 언어(예를 들어 스칼라, 파이썬 등)를 사용하는 아파치 스파크 등에 비해 배우기가 수월합니다. 또한 데이터 인프라를 별도로 관리할 필요가 없기 때문에, 사용자는 인프라 관리에 신경쓰지 않고 빅쿼리에서 데이터를 추출하는 업무에 집중할 수 있습니다. 이미 많은 데이터 처리 도구가 나와 있지만, 이와 같은 이유로 최근 들어 빅쿼리는 가장 큰 각광을 받고 있습니다.오늘날에는 데이터 분석가가 아니어도 기획자, 마케터 등 다양한 직군에서 SQL을 공부합니다. SQL은 데이터를 추출하기 위해 사용하는 언어로, SQL에 익숙하면 회사에 저장되어 있는 데이터를 쉽고 빠르게 추출할 수 있습니다. 직군을 막론하고 커리어에서 SQL을 다룰 수 있으면 매우 큰 장점이 될 수 있으므로, 조금씩 꾸준히 공부하시면 좋을 것입니다. 저 또한 빅쿼리를 4년 넘게 사용하고 있습니다. 빅쿼리를 사용하는 지난 4년 여간 많은 분이 쉽게 빅쿼리를 사용할 수 있도록 여러 자료를 만들어왔습니다. 여러 자료를 만들던 중, 이 책의 원서인 『Google BigQuery: The Definitive Guide』를 처음 접했을 때의 기분을 잊을 수 없습니다. 이 책은 빅쿼리에 관련한 책 중 가장 자세한 내용을 담고 있으며, 데이터 분석가 또는 데이터 엔지니어 모두가 읽으면 좋은 내용이 설명되어 있습니다. 국내 독자 여러분을 위해, 원서에 좀 더 내용을 추가해서 다음과 같은 내용을 한국어판에서 더 보실 수 있습니다. 1. 한국어판 특별 부록책을 모두 번역하고 나니 실제로 파이프라인을 어떻게 만드는지에 대한 내용이 있으면 좋을 것 같아, 한국어판 특별 부록으로 ‘클라우드 컴포저와 빅쿼리를 사용한 ELT 파이프라인 만들기’라는 글을 기고했습니다. 이 부록에서는 아파치 에어플로우(Apache Airflow)의 매니지드 서비스인 클라우드 컴포저Cloud Composer 사용 방법을 안내하며 빅쿼리를 사용한 ELT 파이프라인을 만드는 내용을 배우실 수 있습니다.2. 이 책의 소스 코드원서의 깃허브를 확인해본 결과, 각 장별로 모든 쿼리가 각기 하나의 파일에 저장되어 있었습니다. 이 부분은 책을 공부하시는 분들의 편의성을 낮출 수 있다고 생각해, 각 예제별로 모든 쿼리를 나눠 정리하고 저장했습니다. 한국어판에 담긴 예제별 소스코드는 책만 출판사의 깃허브(https://github.com/onlybooks/bigquery)에서 확인하고 내려받으실 수 있습니다. 혹시 책을 구입하고 학습하시는 중 이해가 잘 안 되는 내용이 있으시면 이 책의 공식 깃허브 이슈 트래커(https://github.com/onlybooks/bigquery/issues)에 바로 등록하시거나, 제 깃허브 계정(zzsza)을 태그하고 질문해주시면 최대한 빠르게 답변드리겠습니다.- 변성윤구글 빅쿼리는 대용량 데이터의 저장 및 분석에 뛰어난 성능을 발휘하는 클라우드 기반 서비스입니다. 대용량 데이터나 빅데이터 같은 용어는 이미 오래전부터 우리 주변을 맴돌았지만 이를 제대로 저장하고 활용할 수 있는 인프라스트럭처나 애플리케이션을 구현하기란 쉽지 않은 일이었죠. 대용량 데이터를 자체적으로 처리하기 위해서는 많은 전문 지식과 비용 그리고 이를 제대로 구축할 수 있는 경험있는 개발자와 지탱할 수 있는 인프라스트럭처가 필요했지만 모든 기업이 이런 조건을 갖출 수는 없었기에 더욱 어려웠는지도 모릅니다.하지만 클라우드 기술과 서비스가 발전하면서 이제는 매우 저렴한 비용으로 기반 인프라스트럭처나 확장성, 성능에 대한 걱정 없이 누구나 쉽고 빠르게 사용할 수 있는 기술들이 등장하기 시작했고 구글 빅쿼리는 바로 이런 가치를 제공하는 서비스 중 하나입니다. 특히 기존의 ANSI SQL과 호환되는 쿼리 언어를 지원한다는 것도 큰 장점이라고 할 수 있습니다. 타 빅데이터 플랫폼 대비 구글 빅쿼리의 장점은 크게 2가지로 정리할 수 있습니다.1. 쉬운 사용성아파치 스파크나 하둡 등 기존의 빅데이터 플랫폼과 달리 빅쿼리는 ANSI SQL과 호환되는 쿼리 언어를 지원하므로 대용량 데이터 처리를 아직 경험하지 못한 개발자라도 RDBMS 사용 경험이 있다면 금세 활용할 수 있을 정도로 쉽습니다. 물론 데이터가 분산되어 있다는 점과 이를 효율적으로 활용하기 위한 분산 쿼리를 작성하는 경험을 쌓아야 하지만 완전히 생소한 언어를 배우거나 로직을 구현해야 하는 것에 비하면 장족의 발전이 아닐 수 없습니다.2. 클라우드 인프라스트럭처여타의 클라우드 서비스가 그렇듯 빅쿼리도 클라우드 기반 서비스이므로 사용자가 직접 인프라스트럭처를 운영할 필요가 없습니다. 따라서 비싼 운영비에 대한 부담도 줄어들죠. 빅쿼리의 비용 정책은 상당히 효율적이어서 사용자가 빅쿼리의 특징을 충분히 이해하고 주의를 기울인다면 훨씬 저렴한 비용으로 훨씬 빠른 시간 내에 원하는 결과를 얻어낼 수 있습니다. 이 책은 이와 같은 빅쿼리의 탄생부터 아키텍처, 그리고 활용에 이르기까지 개발자가 필요한 지식을 재미있으면서도 실용적인 예제와 함께 설명하고 있습니다. 구글에서 클라우드 데이터 분석과 머신러닝 제품 개발에 오랜동안 빅쿼리를 활용해 온 저자진의 경험과 노하우는 이 책을 읽는 독자에게 큰 도움이 될 것입니다. 서비스에 새로운 기능이 빠르게 추가되는 클라우드 서비스를 다루는 책이다 보니, 이 책도 출간 후 7개월 만에 업데이트가 있었고, 다행히도 저자의 협조를 받아 해당 내용을 모두 반영해 출간할 수 있었습니다. 이 번역서는 최신 업데이트를 포함해 공역자이신 변성윤 님이 추가로 저술한 부록까지 포함하고 있으니 가장 최신 버전의 빅쿼리에 대해 즐겁게 학습하실 수 있으리라 믿습니다.좋은 책과 더불어 한국어판 독자를 위해 특별히 서문까지 보내 준 저자 발리아파 락쉬마난과 조던 티가니에게 고마운 마음을 전합니다. 끝으로 어려운 시기에도 개인의 역량 강화와 대한민국 소프트웨어 산업의 발전을 위해 늘 노력하는 독자 여러분을 응원합니다. 고맙습니다.- 장현희
|