확장메뉴
주요메뉴


닫기
사이즈 비교
소득공제
데이터는 언제나 옳다! 대규모 데이터 처리와 분석 실무

데이터는 언제나 옳다! 대규모 데이터 처리와 분석 실무

: 유스케이스별 빅데이터 및 NoSQL 기술 가이드

위키북스 데이터베이스 & 빅데이터 시리즈-08이동
리뷰 총점10.0 리뷰 1건 | 판매지수 24
베스트
IT 모바일 top100 2주
정가
25,000
판매가
22,500 (10% 할인)
배송안내
서울특별시 영등포구 은행로 11(여의도동, 일신빌딩)
지역변경
  • 배송비 : 무료 ?
eBook이 출간되면 알려드립니다. eBook 출간 알림 신청
분철서비스 시작 시 알려드립니다. 분철서비스 알림신청
  •  해외배송 가능
  •  최저가 보상
  •  문화비소득공제 신청가능

품목정보

품목정보
발행일 2014년 05월 28일
쪽수, 무게, 크기 256쪽 | 616g | 188*240*20mm
ISBN13 9788998139551
ISBN10 8998139553

책소개 책소개 보이기/감추기

목차 목차 보이기/감추기

저자 소개 관련자료 보이기/감추기

저자 : 마이클 마누체흐리
전직 구글 엔지니어이자 데이터 해커로서, 제한된 자원과 시간 내에 실용적인 솔루션을 구축해야 하는 전문가들을 위해 글을 쓰고 있다. 그는 자신의 폭넓은 경험을 통해 시스템 인프라가 아니라 가장 큰 가치를 얻을 수 있는 애플리케이션을 구축하는 데 집중하게끔 돕는다.

마누체흐리는 하이브리드 솔루션에서 여러 기술을 통합함으로써 오늘날의 중요 데이터 활용 사례를 저비용으로 처리하는 방법을 보여준다. 대용량 데이터를 관리하고, 데이터를 시각화하고, 데이터 파이프라인과 대시보드를 구축하고, 통계분석을 위한 도구를 선택하는 등에서 전문가의 접근법을 확인할 수 있다. 아울러 오늘날 데이터 분석에 자주 사용되는 선도적인 기술들(예: 하둡, 하이브, 샤크, R, 아파치 피그, 머하웃, 구글 빅쿼리)을 활용하는 방법을 보여준다.
역 자 소 개
정부환, 류상호, 염화음, 이화경

역자들은 현재 다음커뮤니케이션 데이터마이닝팀에서 근무하고 있다. 다음을 애용하는 사용자들이 매일 생성하는 수많은 글과 로그 데이터뿐만 아니라 여러 언론사 및 관계사들로부터 제공받는 다양한 대용량의 데이터를 분석하고 있다. 검색, 미디어다음, 카페, 쇼핑하우, 다음지도 등의 다양한 서비스를 위한 랭킹 모델, 추천 및 개인화, 트렌드 파악, 사용자 관계망 등의 분석 업무를 진행하고 있다. 인터넷 패러다임 변화에 맞춰 최근에는 개인화 뉴스나 마이피플 친구찾기와 같이 모바일 환경에서 사용자들의 서비스 경험을 향상시키는 데 많은 노력을 기울이고 있다. 그 과정에서 이 책에 소개된 대용량 데이터 분석을 위한 다양한 기술들을 서비스에 접목하여, 데이터 분석 및 추천 플랫폼을 개발하고 있다.

책 속으로 책속으로 보이기/감추기

★ 이 책의 구성 ★

대용량 데이터를 다루려면 특화된 기술이 필요하고, 각 기술에는 트레이드오프와 해결해야 할 과제가 있다. 이 책은 공통적인 활용 사례 측면에서 데이터 문제와 성공적인 솔루션을 설명하는 내용으로 구성돼 있다. 1부, “빅데이터 시대의 방향”은 1장, “데이터를 성공적으로 다루는 네 가지 법칙"을 담고 있다. 1장에서는 왜 빅데이터가 중요하고 왜 새로운 기술들이 많은 기회만큼 갖가지 문제를 만들어내는지 설명한다. 이 책의 전반에서 다루는 “확장 가능한 애플리케이션 구축에 집중하기", “개별 사일로가 아닌 협업을 위한 툴 구축하기", “기술을 사용하기에 앞서 활용 사례 고민하기", “필요하지 않을 경우 인프라 구축하지 않기" 등과 같은 공통된 주제를 소개한다.

2부, “대용량 데이터의 수집 및 공유”에서는 대용량 데이터를 수집하고 공유하는 것과 관련된 활용 사례를 설명한다. 2장, “대용량 미가공 데이터의 호스팅과 공유”에서는 겉으로 보기에는 쉬운, 많은 양의 파일을 서비스하고 공유하는 방법을 설명한다. 올바른 데이터 포맷을 정하는 것은 매우 중요하다. 2장에서는 데이터 공유 방법에 관한 적절한 의사결정을 내리는 데 고려해야 할 사항도 다룬다. 그뿐만 아니라 대용량 데이터를 경제적으로 호스팅하는 데 필요한 인프라의 종류도 다룬다. 데이터를 한 곳에서 다른 곳으로 옮길 때 필요한 데이터 직렬화 포맷을 설명하면서 2장을 마무리한다.

3장, “대중이 생성한 데이터를 수집하기 위한 NoSQL 기반의 웹 애플리케이션 구축하기”에서는 확장 가능한 데이터베이스 기술 분야를 소개한다. 관계형 데이터베이스와 비관계형 데이터베이스의 역사를 비롯해 각 기술의 특징을 설명한다. 많이 사용하는 레디스(Redis) 데이터베이스를 소개하고, 여러 대의 장비에 설치된 레디스의 샤딩(sharding) 전략을 다룬다.

대용량 데이터 분석을 위해서는 여러 기술을 사용하고 관련된 지식을 습득해야 하며, 그로 인해 때로는 데이터를 호환되지 않는 여러 곳에 저장하기도 한다. 4장 “데이터 사일로를 다루는 전략”에서는 데이터 사일로가 존재하는 이유와 관련 문제를 극복하는 전략을 다룬다. 또한 데이터 사일로의 이점도 설명한다.

정보가 수집, 저장, 공유되면 수집된 데이터에 대한 통찰이 필요하다. 3부, “데이터에 대해 질문하기”에서는 대용량 데이터 집합에 관해 질문하기와 관련된 활용 사례와 기술을 다룬다. 대용량 데이터를 대상으로 질의하려면 분산 솔루션이 필요할 때가 많다. 5장, “하둡, 하이브, 샤크를 이용해 대용량 데이터에 대해 질문하기”에서는 계속 증가하는 데이터 집합을 대상으로 질의를 수행하는 데 필요한 유명한 확장 가능한 도구를 소개한다. 5장에서는 SQL과 비슷한 질의를 하둡에서 실행 가능한 맵리듀스 잡(job)으로 변환하는 도구인 아파치 하이브(Apache Hive)를 다룬다.

때로는 데이터를 반복해서 질의할 필요가 있다. 분석형 데이터베이스는 빠르게 데이터를 대상으로 질문하고 결과를 검색하는 데 최적화된 소프트웨어다. 6장, “구글 빅쿼리를 이용한 데이터 대시보드 구축하기"에서는 분석형 데이터베이스 활용 사례를 보여주고, 어떻게 하둡과 같은 배치 처리 도구의 보조수단으로 사용되는지 설명한다. SQL과 비슷한 문법을 사용하는 완전히 관리되는 분석형 데이터베이스인 빅쿼리를 소개한다. 6장에서는 웹 기반 대시보드의 엔진 역할을 하는 빅쿼리 API의 사용법도 설명한다.

데이터 시각화는 역사가 오래된 유서 깊은 분야다. 7장, “대용량 데이터 탐색을 위한 데이터 시각화 전략"에서는 대용량 데이터에 시각화 도구를 사용하는 것의 장점과 잠재적 위험을 소개한다. 7장에서는 데이터의 규모가 비약적으로 커질 때 발생하는 시각화 문제와 널리 사용되는 데이터 분석 기술을 이용하는 실용적인 시각화 도구를 설명한다.

확장 가능한 데이터 기술을 이용할 때의 공통적인 주제는 각 소프트웨어 도구가 각기 다른 활용 사례에 최적화돼 있다는 점이다. 그러므로 대용량 데이터를 하나의 포맷에서 다른 포맷으로 변환하는 것이 일반적인 활용 사례다. 4부, “데이터 파이프라인 구축하기”에서는 데이터 변환을 위한 파이프라인과 워크플로우를 구현하는 주제를 다룬다. 8장, “하나로 합치기: 맵리듀스 데이터 파이프라인"에서는 대용량 데이터를 처리하기 위해 하둡 맵리듀스 프레임워크를 사용하는 개념을 소개한다. 하둡 스트리밍 API와 파이썬 같은 스크립트 언어를 이용해 실용적이고 손쉽게 활용 가능한 맵리듀스 애플리케이션을 만드는 방법을 설명한다.

데이터 처리 작업이 매우 복잡할 경우 변환 작업을 자동화하는 워크플로우 도구를 사용할 필요가 있다. 9장, “피그와 캐스케이딩을 활용한 데이터 변환 워크플로우 구축"에서는 매우 복잡한 맵리듀스 작업을 표현하는 두 기술을 소개한다. 아파치 피그는 복잡하고 여러 단계에 걸친 맵리듀스 작업을 쉽게 만들어주는 워크플로우 표현 언어다. 또한 캐스케이딩(Cascading)도 소개하는데, 캐스케이딩은 하둡에서 복잡한 데이터 워크플로우 애플리케이션을 구축하는 데 유용한 자바 라이브러리다.

데이터의 규모가 매우 커지면 컴퓨터가 사람들에게 유용한 정보를 제공해주길 바랄 것이다. 기존 데이터 모델을 기반으로 유입되는 정보를 분류, 추천, 예측하기 위해 기계 학습을 활용하면 매우 유용하다. 5부, “대용량 데이터를 위한 기계 학습”에서는 10장, “머하웃을 이용한 대용량 분류기 구축하기”를 통해 기계 학습 분야를 소개한다. 또한 10장에서는 흔히 쓰이는 기계 학습 작업인 텍스트 분류에 아파치 머하웃 기계 학습 라이브러리를 이용하는 것을 시연한다.
데이터의 품질과 의미를 해석하는 것도 통계의 목표 중 하나다. 6부, “대용량 데이터를 위한 통계 분석”에서는 대용량 데이터의 통계 분석을 위한 도구와 활용 사례를 소개한다. R 프로그램은 통계 분석에 널리 사용되는 대표적인 오픈소스 언어다. 11장, “대용량 데이터를 위한 R 사용하기”에서는 R을 이용해 대용량 데이터를 효과적으로 사용하는 일반화된 활용 사례를 다룬다. 11장에서는 데이터의 규모가 가용한 시스템 메모리보다 더 커졌을 때 유용한 R 라이브러리를 다룬다. 또한 하둡과 R을 연동하는 방법도 설명한다.

R이 매우 유명하긴 하지만 데이터 분석이라는 과제를 해결하기 위해 범용 프로그래밍 언어를 사용하는 것은 장점이 있다. 12장, “파이썬과 판다스를 활용한 분석 워크플로우 구축”에서는 날로 인기를 얻고 있는 파이썬 분석 기술을 소개한다. 또한 시계열 데이터를 분석하기 위한 판다스(Pandas) 라이브러리를 비롯해 공유와 협업을 위한 스크립트 환경인 아이파이썬 노트북(iPython notebook)의 사용법도 소개한다.

데이터 관련 과제가 모두 기술과 관련된 것은 아니다. 7부, “향후 전망”에서는 데이터 분석 혁신에 직면한 기업의 불확실성을 다루기 위한 실용적인 전략을 소개한다. 13장, “언제 구축하고, 언제 구매하고, 언제 아웃소싱할 것인가?”에서는 매우 혁신적인 데이터 분석을 위한 구매결정 전략을 다룬다. 또한 오픈소스 기술을 활용해 데이터 솔루션을 직접 구축하는 방법의 장단점도 간단히 다룬다.

마지막으로 14장, “데이터 기술의 미래 트렌드”에서는 혁신을 자극하는 몇몇 요소를 비롯해 확장 가능한 데이터 기술의 현재 트렌드를 소개한다. 또한 소위 데이터 과학자(Data Scientist)라고 하는 직무의 역할과 다양한 데이터 기술의 융합을 심도 있게 다룬다.

-서문 중에서
---본문 중에서

출판사 리뷰 출판사 리뷰 보이기/감추기

회원리뷰 (0건) 회원리뷰 이동

  등록된 리뷰가 없습니다!

첫번째 리뷰어가 되어주세요.

한줄평 (1건) 한줄평 이동

총 평점 10.0점 10.0 / 10.0

배송/반품/교환 안내

배송 안내
반품/교환 안내에 대한 내용입니다.
배송 구분 예스24 배송
  •  배송비 : 무료배송
포장 안내

안전하고 정확한 포장을 위해 CCTV를 설치하여 운영하고 있습니다.

고객님께 배송되는 모든 상품을 CCTV로 녹화하고 있으며, 철저한 모니터링을 통해 작업 과정에 문제가 없도록 최선을 다 하겠습니다.

목적 : 안전한 포장 관리
촬영범위 : 박스 포장 작업

  • 포장안내1
  • 포장안내2
  • 포장안내3
  • 포장안내4
반품/교환 안내

상품 설명에 반품/교환과 관련한 안내가 있는경우 아래 내용보다 우선합니다. (업체 사정에 따라 달라질 수 있습니다)

반품/교환 안내에 대한 내용입니다.
반품/교환 방법
  •  고객만족센터(1544-3800), 중고샵(1566-4295)
  •  판매자 배송 상품은 판매자와 반품/교환이 협의된 상품에 한해 가능합니다.
반품/교환 가능기간
  •  출고 완료 후 10일 이내의 주문 상품
  •  디지털 콘텐츠인 eBook의 경우 구매 후 7일 이내의 상품
  •  중고상품의 경우 출고 완료일로부터 6일 이내의 상품 (구매확정 전 상태)
반품/교환 비용
  •  고객의 단순변심 및 착오구매일 경우 상품 반송비용은 고객 부담임
  •  직수입양서/직수입일서중 일부는 변심 또는 착오로 취소시 해외주문취소수수료 20%를 부과할수 있음

    단, 아래의 주문/취소 조건인 경우, 취소 수수료 면제

    •  오늘 00시 ~ 06시 30분 주문을 오늘 오전 06시 30분 이전에 취소
    •  오늘 06시 30분 이후 주문을 익일 오전 06시 30분 이전에 취소
  •  직수입 음반/영상물/기프트 중 일부는 변심 또는 착오로 취소 시 해외주문취소수수료 30%를 부과할 수 있음

    단, 당일 00시~13시 사이의 주문은 취소 수수료 면제

  •  박스 포장은 택배 배송이 가능한 규격과 무게를 준수하며, 고객의 단순변심 및 착오구매일 경우 상품의 반송비용은 박스 당 부과됩니다.
반품/교환 불가사유
  •  소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
  •  소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 : 예) 화장품, 식품, 가전제품, 전자책 단말기 등
  •  복제가 가능한 상품 등의 포장을 훼손한 경우 : 예) CD/LP, DVD/Blu-ray, 소프트웨어, 만화책, 잡지, 영상 화보집
  •  소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우
  •  디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  •  eBook 대여 상품은 대여 기간이 종료 되거나, 2회 이상 대여 했을 경우 취소 불가
  •  중고상품이 구매확정(자동 구매확정은 출고완료일로부터 7일)된 경우
  •  LP상품의 재생 불량 원인이 기기의 사양 및 문제인 경우 (All-in-One 일체형 일부 보급형 오디오 모델 사용 등)
  •  시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  •  전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
소비자 피해보상
  •  상품의 불량에 의한 반품, 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 준하여 처리됨
환불 지연에
따른 배상
  •  대금 환불 및 환불 지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리
  •  쿠폰은 결제 시 적용해 주세요.
1   22,500
뒤로 앞으로 맨위로 공유하기