확장메뉴
주요메뉴


소득공제
미리보기 공유하기

Do it! 직접 해보는 하둡 프로그래밍

리뷰 총점8.8 리뷰 9건
베스트
IT 모바일 top100 17주
정가
27,000
판매가
24,300 (10% 할인)
YES포인트
구매 시 참고사항
eBook이 출간되면 알려드립니다. eBook 출간 알림 신청
[대학생X취준생] 지치지 않는 자, 점수를 잡는다! - 체커보드 노트/한국문학 담요 증정
월간 개발자 2021년 12월호
전사
현대카드
1 2 3 4 5

품목정보

품목정보
출간일 2013년 02월 20일
쪽수, 무게, 크기 384쪽 | 740g | 188*243*30mm
ISBN13 9788997390144

책소개 책소개 보이기/감추기

하둡, 이론에 그치지 않고 빅데이터로 실습하며 배우는 책!

저자는 2006년 부터 2011년까지 야후 본사에 근무하면서 하둡 관련 프로젝트를 진행했고 최근까지 국내외 기업의 하둡 관련 컨설팅을 진행하면서 하둡과 관련된 프로젝트를 진행했기 때문에 어느 누구보다 하둡을 정확히 이해하고 있다.

저자는 이 책에서 방대한 하둡의 핵심을 정확하게 짚어 체계적으로 설명한 후, 하둡의 기초부터 고급 프로그래밍까지 단계별로 따라할 수 있도록 구성했다. 특히 하둡을 수박 겉핥기로 설명하지 않고 저자가 제시한 실습용 데이터를 가지고 직접 따라해볼 수 있도록 구성된 것도 장점이다. 기존의 검색 프로그램과 하둡 프로그램의 비교를 통해 하둡의 우수함을 확인할 수 있도록 1GB의 대용량 데이터를 사용하여 빅데이터를 체험할 수 있을 것이다. 이 책의 예제 곳곳에서 저자의 실무 경험이 배어나온다. 하둡을 체계적으로 쉽게 이해하고 실무에 응용할 수 있도록 해주는 필자의 이야기를 만날 수 있다.

목차 목차 보이기/감추기

첫째마당
빅데이터와 하둡 이해하기


01장 빅데이터란?
01-1 빅데이터의 정의
01-2 빅데이터의 예
01-3 빅데이터 시스템의 구성
01-4 몇 가지 성공 스토리들
01-5 빅데이터 시스템 도입에서 얻은 교훈과 문제점
01-6 빅데이터 시장에서 중요한 역할을 하는 기관/회사들
마무리

02장 하둡 이해하기
02-1 하둡이란?
02-2 하둡 아키텍처
02-3 HDFS 개요
02-4 MapReduce 프레임워크
02-5 MapReduce 사용 적합 분야와 부적합 분야
마무리

3장 하둡 설치하기
03-1 설치 환경
03-2 하둡 다운로드 및 필요 소프트웨어 설치
03-3 독자 모드 설치와 확인
03-4 의사 분산 모드 설치와 확인
마무리

4장 첫 번째 MapReduce 프로그래밍 - WordCount
04-1 맵과 리듀스
04-2 WordCount 프로그램이란?
04-3 자바 MapReduce 프로그램의 기본 골격
04-4 WordCount 소스 프로그램 보기
04-5 WordCount 프로그램의 컴파일과 실행
04-6 전체 소스 코드 리스트
마무리

둘째마당
자바 MapReduce 프로그래밍


05장 WordCount 프로그램 자세히 보기
05-1 맵 클래스 다시 살펴보기
05-2 MapReduce 프로그래밍에서 사용되는 변수 타입들
05-3 입력 포맷의 역할
05-4 컴바이너란?
05-5 셔플링과 소팅
05-6 리듀스 클래스 자세히 보기
05-7 출력 포맷
05-8 카운터
05-9 MRUnit과 메이븐
05-10 잡 트래커 웹 인터페이스
마무리

06장 기본 MapReduce 프로그래밍
06-1 사용 데이터 설명
06-2 WordCount 2 프로그램
06-3 TopN 프로그램
06-4 Count Trigram 프로그램
06-5 Count Citation 프로그램
06-6 Join ID & Title 프로그램
마무리

07장 고급 MapReduce 프로그래밍
07-1 MapReduce 프레임워크를 이용한 문자열 소팅
- StringSort 프로그램
07-2 분산 캐시를 이용한 조인 - JoinIDTitle2
07-3 역색인 만들기 - Inverted Index 버전 1
07-4 역색인 만들기 - Inverted Index 버전 2
07-5 역색인 만들기 - Inverted Index 버전 3
07-6 검색엔진 색인 만들기 - CreateESIndex
마무리

셋째마당
Pig, 스트리밍,
아마존 ElasticMapReduce 프로그래밍


08장 Pig, 스트리밍 MapReduce 프로그래밍 언어
08-1 자바 이외의 다른 프로그래밍 언어들
08-2 스트리밍 프로그래밍
08-3 Pig 프로그래밍
마무리

09장 아마존 ElasticMapReduce 사용해보기
09-1 클라우드 컴퓨팅이란?
09-2 아마존의 AWS 소개
09-3 ElasticMapReduce 소개
09-4 ElasticMapReduce : 위저드
09-5 ElasticMapReduce : 루비 클라이언트
마무리

1장~9장 마무리
부록 - MS 윈도우에서 하둡 설치하기

저자 소개 관련자료 보이기/감추기

저자 : 한기용
서울대학교 컴퓨터공학과 석사 과정을 밟으며 비트교육센터에서 강의했다. 소프트웨어 지식을 쉽게 설명해 풀어가는 습관은 이때부터 시작되어 석사 과정을 마치고 삼성전자에서 소프트웨어 엔지니어로 일하면서 《비주얼 C++》와 《윈도우 프로그래밍》 책을 집필했다. 당시 방대한 윈도우 프로그래밍 방법을 쉽고 간단하게 풀어쓴 덕분에 많은 컴퓨터공학 관련 학부의 대표적인 교재로 채택되기도 했다.
2004년부터 야후, 실리콘밸리 본사의 웹 검색엔진 개발팀에 근무하기 시작했다. 2006년 초 하둡을 만든 더그 커팅이 같은 부서로 들어오면서 야후 검색엔진 모듈을 하둡으로 포팅하기 시작했다. 이때 하둡을 처음 접했고 2008년에 야후 내에 천 대 규모의 하둡 클러스터가 생기면서 야후 검색엔진으로 들어오는 검색어 로그와 웹 검색 결과 클릭 로그를 하둡으로 처리하는 일을 했다. 오픈소스 프로젝트로 시작한 하둡이 빅데이터와 함께 널리 확산되는 추세에 맞추어 필자는 2011년에 야후를 그만두고 2012년부터 하둡 관련 컨설팅 일을 시작했고 지금은 실리콘밸리 소재 유망한 소셜커머스 벤처기업인 Polyvore에서 하둡 기반 추천 엔진 아키텍트로 일하고 있다.
대표 저서로 『한번 더 생각한 비주얼 C++와 MFC 프로그래밍 집필 (대림)』, 『한번 더 생각한 윈도우 프로그래밍 집필 (대림)』, 『클릭하세요 닷넷 API 프로그래밍 집필 (대림)』, 『프로그래머 그들만의 이야기 집필 (영진)』 등이 있다.

출판사 리뷰 출판사 리뷰 보이기/감추기

하둡을 만든 더그 커팅과 함께 일한 저자가 집필한 하둡 입문서!!

저자는 하둡의 창시자인 더그 커팅과 함께 실리콘밸리, 야후 본사의 웹 검색엔진 개발팀에 근무했다. 야후는 2006년부터 검색엔진 모듈을 하둡으로 포팅하기 시작했고, 바로 그때 저자가 속한 웹 검색엔진 개발팀에서 하둡을 다룬 것. 저자는 이때부터 2011년까지 야후 본사에 근무하면서 하둡 관련 프로젝트를 진행했고 최근까지 국내외 기업의 하둡 관련 컨설팅을 진행하면서 하둡과 관련된 프로젝트를 진행했기 때문에 어느 누구보다 하둡을 정확히 이해하고 있다. 해외 석학 초대로 한국에 왔다 하둡에 입문하려는 사람들을 위해 이 책을 쓰게 되었다.

하둡, 이론에 그치지 않고 빅데이터로 실습하며 배우는 책!

저자는 이 책에서 방대한 하둡의 핵심을 정확하게 짚어 체계적으로 설명한 후, 하둡의 기초부터 고급 프로그래밍까지 단계별로 따라할 수 있도록 구성했다. 특히 하둡을 수박 겉핥기로 설명하지 않고 저자가 제시한 실습용 데이터를 가지고 직접 따라해볼 수 있도록 구성된 것도 장점이다. 기존의 검색 프로그램과 하둡 프로그램의 비교를 통해 하둡의 우수함을 확인할 수 있도록 1GB의 대용량 데이터를 사용하여 빅데이터를 체험할 수 있을 것이다. 이 책의 예제 곳곳에서 저자의 실무 경험이 배어나온다. 하둡을 체계적으로 쉽게 이해하고 실무에 응용할 수 있도록 해주는 필자의 이야기를 만날 수 있는 것은 행운이라고 하겠다.

실리콘밸리 야후 개발자의 경험을 공개한다!

이 책은 하둡 설치부터 하둡 프로그래밍까지 단계적으로 명쾌하게 설명한 책이다.
총 세 개의 마당과 총 10장(부록 포함)으로 구성되어 있는데, 첫째마당은 빅데이터와 하둡에 대한 개론적인 설명이고 둘째, 셋째 마당은 프로그래밍 중심으로 소스 코드에 대한 로직과 설명이다. 빅데이터나 하둡에 대한 경험이 거의 없는 독자를 위해 어렵거나 생소한 용어는 ‘노트’ 코너를 통해 추가 설명하여 이해를 도왔다.
각 장의 마무리는 도전 퀴즈와 미션으로 장의 내용을 완벽히 이해했는지 확인하고 다른 응용력도 키울 수 있도록 구성하여 교재로 사용하기에도 적합하다. 이 책의 명쾌한 설명들은 하둡이 탄생할 때부터 함께한 저자의 노하우뿐 아니라 실리콘밸리에서 일하기 전, 한국에서 했던 강의와 집필 경험 덕분이기도 하다.

첫째마당의 1장에서는 빅데이터가 무엇인지 정의부터 시작해서 빅데이터의 예를 들고 빅데이터 시스템의 구성과 성공 사례, 관련 기업 등에 대해 설명한다. 2장에서는 빅데이터를 처리하는 근간이 되는 하둡이 무엇인지에 대해 조금 더 기술적인 측면에서 분산파일 시스템인 HDFS(Hadoop Distributed File System)와 분산처리 시스템인 MapReduce 프레임워크에 대해 소개한다. 3장에서는 실제로 리눅스 우분투 환경에서 하둡을 설치하는 과정을 설명한다. MS 윈도우 컴퓨터만 있는 독자라면 부록을 참고해서 VM 매니저의 설치 후에 우분투를 게스트 운영체제로 설치하고 그 다음에 3장의 설치과정을 반복하면 된다. 4장에서는 하둡 환경에서 처음 프로그래밍으로 주어진 텍스트에서 단어들의 빈도수를 계산하는 WordCount라는 프로그램을 자바로 구현한다.

둘째마당에서는 자바를 기반으로 하둡 MapReduce 프로그래밍에 대해 더 자세히 배운다. 5장에서는 4장에서 만든 WordCount를 바탕으로 하둡 MapReduce의 내부동작에 대해 좀더 자세히 배우며 하둡의 소스를 바탕으로 내부 동작을 설명한다. 6장과 7장에서는 위키피디아 영문 문서들을 대상으로 다양한 하둡 프로그래밍(MapReduce)을 한다. 6장에서는 보다 기본적인 프로그래밍들을 배우고 7장에서는 조금 더 진보된 주제들(2차 소팅, ElasticSearch와의 연동 등)을 다룬다.

셋째마당의 8장에서는 자바가 아닌 다른 MapReduce 프로그래밍 언어로는 어떤 것이 있는지 알아본다. 하둡 스트리밍과 Pig에 대해서는 WordCount 프로그램을 실제로 구현해보고 실행해보면서 하둡의 또 다른 예를 자세히 소개한다. 9장에서는 아마존의 AWS에서 제공하는 클라우드 하둡 서비스인 ElasticMapReduce에 대해서 설명한다.
마지막으로 부록에서는 MS 윈도우에서 VM 머신을 설치하고 그 위에 우분투를 설치하는 방법에 대해 단계별로 설명한다.

자료 제공

이 책의 피드백 사이트 운영 - http://cafe.naver.com/cloudbigdata
이 책에 사용된 소스와 프로젝트 파일 제공
- https://s3.amazonaws.com/hadoopkr/source.tar.gz
이 책에 사용된 대용량 데이터 파일 제공
- https://s3.amazonaws.com/hadoopkr/data.tar.gz
이 책의 강의 자료 제공 - 메일(nlrose@easyspub.co.kr )로 문의, 접수

추천평 추천평 보이기/감추기

해외 석학 초청 강연에서 만난 한기용 씨의 하둡 강좌, 단계적으로 설명하고 바로 응용할 수 있어, 입문하기에 아주 적합
하둡 및 관련 기술을 사용하는 방법에 대한 많은 문헌이 있지만 어떻게 활용하는 것이 진정한 ‘빅데이터 기술화’가 가능한지 파악하는 것은 쉽지 않습니다. 특히, 필자처럼 최신 기술을 학생들에게 전달해야 하는 대학교수의 입장에서 범람하는 기술 서적들 중에서 적당한 교재를 찾아내는 것은 가장 중요한 일이자 어려운 일입니다. 전체 내용을 한 학기 동안의 수업으로 정리하는 것도 쉽지 않습니다. 빅데이터 기술은 복잡한 성격과 기술의 다양성 때문에 더욱 교재화하기에 어려운 분야입니다. 2012년, 해외 석학 초청 강연 시리즈에서 들은 한기용 씨의 빅데이터 기술 습득과 전달에 대한 강연은 아주 반가운 깨달음을 주었습니다.
한기용 씨가 집필한 《Do it 직접 해보는 하둡 프로그래밍》은 빅데이터 분야의 핵심 기술 입문 교육 교재로 쓰기에 아주 적합한 내용으로 구성되었습니다. 하둡의 모든 내용을 담으려고 백과사전식으로 서술하지 않고 꼭 필요한 기술을 단계적으로 설명하여 바로 응용할 수 있도록 배려했습니다. 실리콘밸리에서 10여 년간 검색엔진 분야, 인터넷 서비스 분야의 가장 진보한 기술적 경험이 축적되어 그대로 책에 녹아들어 있습니다. 특히, 빅데이터 기술로 가치를 창출했던 실무 경험을 바탕으로 기술적 서술의 어려운 점을 극복하여 유용합니다.
― 임성수 (국민대학교 컴퓨터공학부 부교수)

학부생 또는 대학원생의 컴퓨터공학 전공 초보자에게 적합한 책
구체적인 기술에 대한 갈망으로 많은 하둡 책들을 읽어보았지만, 학부생이나 대학원생이 공부하기에 적당한 책은 없었습니다. 한기용 선배가 집필하신 이 책의 내용을 보면서 드디어 희망이 보이기 시작했습니다. 이 책 내용은 빅데이터 문제, 하둡 설치, 아마존 AWS 이용방법, WordCount 예제를 기반으로 하는 초급에서 고급 MapReduce 프로그래밍 기술, 자바가 아닌 MapReduce 접근 방법 등을 쉽게 이해하고 직접 실습할 수 있게 해주었습니다. 제가 2012년도에 4학년 대상으로 하둡을 수업하면서 마땅한 교재가 없어서 고생했는데, 이 책이 빨리 나왔으면 좋았겠다고 생각합니다.
한기용 선배가 야후에서의 오랜 경험을 기반으로 하둡 프로그래밍 입문서를 출판했습니다. 제가 학생들에게 자주 하는 말(야구에서 메이저리그를 생각하듯이 IT에서도 실리콘밸리를 꿈꿔라)처럼 시작이 반이라고 했습니다. 오늘 이 책이 여러분의 미래에 대한 작은 시작이 될 것입니다.
이영석 (충남대학교 컴퓨터공학과 부교수)

회원리뷰 (9건) 리뷰 총점8.8

혜택 및 유의사항?
Do it! 하둡 프로그래밍 내용 평점5점   편집/디자인 평점4점 k****y | 2015.09.28 | 추천0 | 댓글0 리뷰제목
우연한 기회에 하둡 책을 읽게 되었습니다.   저 같은 경우 교재에서 요구하는 실습에 앞서 책을 한 문장 한 문장 읽어나가는 걸 좋아하는 터라 책을 받고 먼저 한 번 주욱 읽어보았습니다.   IT의 다른 분야도 마찬가지겠지만 컴퓨터 과학이란 것이 아무래도 서로가 조금씩 유기적인 연결고리를 가지고 있어 차근차근 기초부터 공부하지 않은 사람이라면;
리뷰제목

우연한 기회에 하둡 책을 읽게 되었습니다.

 

저 같은 경우 교재에서 요구하는 실습에 앞서 책을 한 문장 한 문장 읽어나가는 걸 좋아하는 터라 책을 받고 먼저 한 번 주욱 읽어보았습니다.

 

IT의 다른 분야도 마찬가지겠지만 컴퓨터 과학이란 것이 아무래도 서로가 조금씩 유기적인 연결고리를 가지고 있어 차근차근 기초부터 공부하지 않은 사람이라면 자칫 이해하는 것이 불가능할 수 있는 주제들라고 생각합니다.

 

이 책 같은 경우 결론적으로 내용적인 부분에서 가능한 한 막힘없이 읽힐 수 없도록 많은 노력이 들어가 있습니다. 기본적으로 데이터구조나 데이터베이스에 관한 지식, 그리고 리눅스에 대한 사전적인 지식 없이도 읽을 수 있겠구나라는 느낌을 받을 수 있었습니다. (그렇다고 프로그래밍 경험이 전무한 사람이 읽을수 있는 책은 아닙니다. map이나 heap같은 것은 데이터구조를 배운 사전 경험이 없다면 부연 설명 없이 이해하기 어려울 수 있고, SQL에서 보던 기능들도 몇몇 등장합니다.) 하둡의 맵과 리듀스에 대한 설명 부분에서도 비교적 이해하기 쉽게 잘 쓰여져 있습니다.

 

비교적 최근인 2006년에 등장한 하둡은 오픈소스 프로젝트입니다. 한 가지 지적하지 않을 수 없는 점이 있다면 2015년인 현 시점을 고려해볼 때 지금도 많은 개정과 수정 작업이 이뤄지고 있는 시기라는 것입니다. 본문에서도 종종 하둡의 현재 한계점이나 문제에 대해 언급하며 이를 피해가기 위한 방법을 소개, 기술하고 있습니다.

 

본 책을 통해 하둡의 개념에 대해 배우고, 이를 활용할 수 있도록 책이 비교적 잘 구성되어 있습니다. 하지만 한 가지 아쉬운 점이 책의 기술 시점이 2013년 1월이라는 점입니다. 책에서는 하둡을 윈도우에서 cygwin 설치후 그 위에 설치할 경우 하둡 task tracker가 작동하지 않는 치명적인 문제 때문에 리눅스 기반으로 쓰여져 있고, 윈도우 사용자들을 위해서는 vmware를 설치해 리눅스를 운용하도록 유도하고 있습니다. 하지만 이미 그러한 문제점은 오래전에 해결된 것으로 보이고, 현 시점에서는 윈도우에서 하둡을 설치하는 데에도 별다른 무리가 없는 듯합니다.

 

작성 시기에서 비롯된 그 외 몇 가지 out-of-date 부분들을 가지고도 사실 좋은 책이라고 평합니다. 말하듯이 기술한 기술 방법도 딱딱하지 않고 좋았던 것 같습니다. 단지 조속한 시기에 전면적인 개정판이 나온다면 하둡 관련 책을 선택할 때 주저하지 않는 좋은 책이 될 것으로 생각됩니다.

 

 

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
하둡 서적 내용 평점5점   편집/디자인 평점4점 b***********n | 2013.10.02 | 추천0 | 댓글0 리뷰제목
하둡을 잘 모르는 사람들에게는 차근차근 따라할 수 있는 최고의 입문서가 아닌가 싶다. 세미나에 사용했는데 다른 책들과는 달리 실행 방법이 자세히 설명되어 있어서 별도로 찾아보거나 헤매지 않아도 되었으며 중간중간 나오는 노트들도 색다르고 유익해서 좋았다. 자바 중심으로 되어있어서 개인적으로는 좋았지만 Pig에 대한 내용이 좀더 보강되었던지 Hive등에 대한 내용도 있었으;
리뷰제목

하둡을 잘 모르는 사람들에게는 차근차근 따라할 수 있는 최고의 입문서가 아닌가 싶다. 세미나에 사용했는데 다른 책들과는 달리 실행 방법이 자세히 설명되어 있어서 별도로 찾아보거나 헤매지 않아도 되었으며 중간중간 나오는 노트들도 색다르고 유익해서 좋았다. 자바 중심으로 되어있어서 개인적으로는 좋았지만 Pig에 대한 내용이 좀더 보강되었던지 Hive등에 대한 내용도 있었으면 더욱 더 좋지 않았을까 생각해본다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
Do it! 직접 해보는 하둡 프로그래밍 내용 평점2점   편집/디자인 평점2점 박*선 | 2013.09.22 | 추천3 | 댓글0 리뷰제목
책을 쓴다는 게 참 힘든 일이구나 하는 걸 느낀다. 하둡 경력이 많은 사람도 이정도 책을 쓰는 정도이니.. 차라리 하둡을 만든 더그 커팅과 함께 일한 저자가 직접 집필이란 카피나 쓰지말지.. 추천사를 쓴분들은 책을 정말 읽으셨을까. 이 책이 석사 과정에 나올법한 내용이라니 그 학교 학생들이 들으면..ㅜ.ㅜ 어쨋든 학교 교재로 팔기 위한 목표를 위해 충실히 만들어진 책 같다. 조;
리뷰제목

책을 쓴다는 게 참 힘든 일이구나 하는 걸 느낀다. 하둡 경력이 많은 사람도 이정도 책을 쓰는 정도이니.. 차라리 하둡을 만든 더그 커팅과 함께 일한 저자가 직접 집필이란 카피나 쓰지말지.. 추천사를 쓴분들은 책을 정말 읽으셨을까. 이 책이 석사 과정에 나올법한 내용이라니 그 학교 학생들이 들으면..ㅜ.ㅜ 어쨋든 학교 교재로 팔기 위한 목표를 위해 충실히 만들어진 책 같다. 조잡한 하둡 히스토리와 기트나 오픈소스 설명도 어색하다. 하둡 2.0이 관심인 상황에서 1.0버전을 그도 깊게 파고들지도 못했다. centos가 무료인지는 막내 개발자도 알고 있는데 말이다.

댓글 0 3명이 이 리뷰를 추천합니다. 공감 3
  • 품절 상태입니다.
뒤로 앞으로 맨위로 aniAlarm