확장메뉴
주요메뉴


닫기
사이즈 비교
소득공제
빅 데이터 시대의 하둡 완벽 입문

빅 데이터 시대의 하둡 완벽 입문

: 오픈 소스 분산 처리 환경 구축 가이드

[ 2판 ] 제이펍-I♥Cloud -09이동
리뷰 총점8.0 리뷰 1건
베스트
IT 모바일 top100 4주
정가
36,000
판매가
32,400 (10% 할인)
구매 시 참고사항
eBook이 출간되면 알려드립니다. eBook 출간 알림 신청
분철서비스 시작 시 알려드립니다. 분철서비스 알림신청

품목정보

품목정보
발행일 2014년 06월 18일
쪽수, 무게, 크기 640쪽 | 1281g | 188*245*30mm
ISBN13 9788994506968
ISBN10 8994506969

책소개 책소개 보이기/감추기

목차 목차 보이기/감추기

저자 소개 관련자료 보이기/감추기

저 자 소 개
오오타 카스기
2008년에 동경대학 이학부 정보공학과를 졸업하였고, 2010년에 동대학 정보공학연구소 컴퓨터과학 석사를 수료하였다. 대규모 데이터 처리를 위한 분산 시스템 등에 흥미를 가지고 있으며, 현재는 rTeasure Data, Inc.에서 최고기술책임자로 재직 중이다.

이와사키 마사타케
주식회사 NTT의 데이터 기반 시스템 사업본부에서 근무하고 있다. Hadoop을 시작으로 OSS와 관련된 다양한 기술을 담당한다. 빵이 없으면 밥을 먹으면 된다고 주장하고 있으며, 면 종류를 좋아한다.

사루타 코우스케
주식회사 NTT의 데이터 기반 시스템 사업본부에서 근무하고 있다. 입사 이후 Hadoop을 시작으로 OSS 도입 기술과 기술 검증 및 개발을 담당하였다. 지금까지 수백 대 규모의 Hadoop 클러스터를 구축하였고, 애플리케이션 설계 지원도 실시하였다. 프로그래밍, OS, 네트워크, DB 등에도 흥미가 있어서 자기계발을 위해 다양한 책을 구입하는 편이나, 책을 읽는 속도보다 책이 늘어나는 속도가 빠른 것이 걱정이다. 단것이 삶의 원동력이라 믿고 있으며, ‘이론보다 일단 실행이 우선’을 인생 좌우명으로 삼고 있다.

시모가키 토오루
주식회사 NTT의 데이터 기반 시스템 사업본부에서 주임으로 근무하고 있으며, PostgreSQL을 중심으로 한 오픈 소스 DBMS에 몰두하고 있다. 오라클 데이터 베이스를 PostgreSQL로 변환하는 프로젝트를 담당하며, 상용 시스템 이행 작업을 구현해 왔다. 최근 대규모 데이터 처리에 대한 필요가 늘어나면서 Hadoop을 도입하기 시작, DBMS와 Hadoop 양쪽의 특성을 활용한 효율적인 시스템 구축에 주력하고 있는 중이다.

후지이 타츠로우
약 2년이 지나 직함에서 인턴을 떼고 정식 엔지니어가 되었고, 다지 2년이 지나서야 집에다 전기밥솥을 들일 수 있었다. ‘빵도 밥도 없으면 안 먹으면 되지.’라는 생활에서 간신히 탈출한 상태다. 참고로, 면 종류(특히 라면)를 몹시 좋아하는 또 한 사람이다.

야마시타 신이치
주식회사 NTT의 데이터 기반 시스템 사업본부에서 주임으로 근무하고 있으며, 오픈 소스 소프트웨어에 관련된 미들웨어A(pache/Tomcat/PostgreSQL) 평가나 검증, 기술 개발 및 지원을 담당하고 있다. 최근에는 Hadoop을 중심으로 한 에코(ECO) 시스템 도입 업무에 참여 중이다. 개인적으로는 새로운 기술이 나오면 소스 코드부터 건드려 본다거나, 수많은 데이터와 정보를 사용해서 개인의 특성을 추출하여 무언가 재미있는 것을 고안하려고 사투를 벌이곤 한다.
역자 : 김완섭
대학에서 지리정보 공학을 전공했으며, 일본에서 시스템 엔니지어로 5년간 근무했다. 일본 보험시스템 개발 담당을 시작으로, 일본 대기업 세콤(SECOM) 계열사인 파스코(PASCO)에서 일본 외무성, 일본 국토지리정보원 등 일본 정부기관을 대상으로 한 시스템 통합(SI) 업무를 담당했다.
이후 야후 재팬(Yahoo Japan)으로 직장을 옮겨 야후 맵Y(ahoo Map) 개발 담당 시니어 엔지니어로 근무하다가 2010년 귀국하여 SK에서 내비게이션 데이터 담당 매니저로 일했다. 지금은 또 다른 꿈을 찾아서 네덜란드에서 공부 중에 있다. 역서로는 《코딩을 지탱하는 기술》 《따라하며 배우는 서버 부하분산 입문》이 있다.(역자 소개는 한 문단으로 이었습니다)

책 속으로 책속으로 보이기/감추기

그래서 이번 《빅 데이터 시대의 하둡 완벽 입문(제2판)》을 출판하면서 Hadoop을 전혀 모르는 사람들이 이해하는 데 좀 더 도움이 될 수 있도록 1장과 2장 내용을 보강하여 Hadoop에 대한 개요 부분을 좀 더 쉽게 구성했다. 또한, MapReduce 애플리케이션 개발 내용을 추가하여 초보자부터 고급 사용자까지 활용할 수 있도록 했다. 이 책의 특색인 운용성과 가용성 측면도 1판에 비해 보강했으며, 새로운 기술 이슈에 대해서도 추가하였다. _XIV

따라서 대용량 데이터를 효율적으로 읽어 들이기 위해서는 복수의 디스크에 데이터를 기록해 두고 각 디스크에서 병행하여 읽을 수밖에 없다. 예를 들어, 한 대의 SATA 디스크라면 70MB/초 처리량밖에 안 되지만, 40대로 동시에 읽어 들이면 2,800MB/초 처리량을 구현할 수 있다. 1TB 데이터도 약 350초면 된다. 만약 1,000대의 디스크를 사용한다면 14초 만에 읽을 수가 있다. _12p

HDFS는 여러 대의 노드로 구성된다. 수백 대 규모가 되면 노드의 고장은 특별한 문제가 아닌 일상적으로 발생할 수 있는 문제가 된다. 예를 들어, 노드 한 대가 고장 날 확률이 1,000일에 1회라고 하면 HDFS 구성 노드 수가 1,000일 경우, 매일 한 대의 서버가 고장 나게 된다. 특정 데이터를 특정 노드에만 저장해 두면 해당 노드의 고장으로 데이터를 잃어버릴 수 있지만, HDFS에서는 복수의 노드를 사용해 데이터 복제를 유지하기 때문에 손실을 방지할 수 있다. _68p

Hadoop은 자바 이외의 언어로 MapReduce 애플리케이션을 작성할 수 있도록 프로그램 인터페이스를 제공하고 있다. 이 인터페이스가 HadoopStreaming이다. Hadoop Streaming을 사용해서 애플리케이션을 작성한 경우도 map 함수/reduce 함수 처리를 작성해 주어야 한다. 그러나 HadoopStreaming에서는 Map 처리/Reduce 처리를 위한 데이터 입출력을 위해 표준 입출력을 사용한다는 것이 큰 차이다. 이것은 표준 입출력을 사용할 수 있다면, 어떤 프로그램 언어든 MapReduce 애플리케이션을 만들 수 있다는 것을 의미한다. 앞서 말한 것과 같이 HadoopStreaming을 사용하는 경우도 Map 처리/Reduce 처리가 필요하다. 단, Map 처리/Reduce 처리는 다음 조건을 고려한 후 작성해야 한다. _150p

MapReduce 애플리케이션 설계에 있어서 중요한 것은 ‘MapReduce 사양’을 따르는 것이다. MapReduce는 병렬 분산 처리를 위한 프레임워크로, 슬레이브 노드 상에서 실행되는 각 Map 태스크나 Reduce 태스크가 상호 통신 없이 독립된 처리를 한다. 그리고 이를 통해 확장성과 안정성을 확보하고 있다. 그러나 범용 언어인 자바로 프로그램을 기술하면 다음과 같은 처리도 간단히 만들 수 있다. _236p

Hive는 HiveQL이라 불리는 SQL 유사 언어를 이용해서 MapReduce를 실행하는 것이다. SQL을 익힌 엔지니어가 MapReduce를 쉽게 이용할 수 있도록 한 처리 인터페이스로, Apache 프로젝트 중 하나다. 주로 페이스북 멤버를 중심으로 개발이 진행되고 있다. SQL과 비슷하지만, SQL 표준을 따르고 있지는 않아서 ‘SQL 유사’라고 한다. HiveQL이 취급하는 데이터는 논리적 행과 열로 이루어진 테이블 구조로, HDFS 상에 파일로 존재한다. HiveQL로 기술한 처리(쿼리)는 MapReduce 같은 일련의 처리로 변환되어 테이블을 조작한다. _320p

최근에는 Cassandra(또는 NoSQL) 등 다른 분산 데이터베이스가 등장하고 있는데, HBase는 이들과 비교해서 ‘일관성을 중시한다’는 것이 특징이다. 다른 데이터베이스들은 저장한 값이 바로 반영되지 않아 저장 시점보다 앞서 존재하던 예전 데이터가 보일 수도 있다. 하지만 HBase에서는 저장된 데이터에 바로 접근해도 반드시 최신 값이 보인다는 것이 특징이다. HBase는 이미 많은 기업이나 서비스가 사용하고 있으며, 최근에는 페이스북 메시지에서 사용해 화제가 되었다. 이 외에도 웹 브라우저 Mozilla의 충돌 리포트 수집, 미국 스텀블어폰(StumbleUpon)의 단축 URL 서비스 등에서 사용되고 있다. _553p
---p.553

회원리뷰 (1건) 회원리뷰 이동

한줄평 (0건) 한줄평 이동

  등록된 한줄평이 없습니다!

첫번째 한줄평을 남겨주세요.

배송/반품/교환 안내

배송 안내
반품/교환 안내에 대한 내용입니다.
배송 구분 예스24 배송
  •  배송비 : 무료배송
포장 안내

안전하고 정확한 포장을 위해 CCTV를 설치하여 운영하고 있습니다.

고객님께 배송되는 모든 상품을 CCTV로 녹화하고 있으며, 철저한 모니터링을 통해 작업 과정에 문제가 없도록 최선을 다 하겠습니다.

목적 : 안전한 포장 관리
촬영범위 : 박스 포장 작업

  • 포장안내1
  • 포장안내2
  • 포장안내3
  • 포장안내4
반품/교환 안내

상품 설명에 반품/교환과 관련한 안내가 있는경우 아래 내용보다 우선합니다. (업체 사정에 따라 달라질 수 있습니다)

반품/교환 안내에 대한 내용입니다.
반품/교환 방법
  •  고객만족센터(1544-3800), 중고샵(1566-4295)
  •  판매자 배송 상품은 판매자와 반품/교환이 협의된 상품에 한해 가능합니다.
반품/교환 가능기간
  •  출고 완료 후 10일 이내의 주문 상품
  •  디지털 콘텐츠인 eBook의 경우 구매 후 7일 이내의 상품
  •  중고상품의 경우 출고 완료일로부터 6일 이내의 상품 (구매확정 전 상태)
반품/교환 비용
  •  고객의 단순변심 및 착오구매일 경우 상품 반송비용은 고객 부담임
  •  직수입양서/직수입일서중 일부는 변심 또는 착오로 취소시 해외주문취소수수료 20%를 부과할수 있음

    단, 아래의 주문/취소 조건인 경우, 취소 수수료 면제

    •  오늘 00시 ~ 06시 30분 주문을 오늘 오전 06시 30분 이전에 취소
    •  오늘 06시 30분 이후 주문을 익일 오전 06시 30분 이전에 취소
  •  직수입 음반/영상물/기프트 중 일부는 변심 또는 착오로 취소 시 해외주문취소수수료 30%를 부과할 수 있음

    단, 당일 00시~13시 사이의 주문은 취소 수수료 면제

  •  박스 포장은 택배 배송이 가능한 규격과 무게를 준수하며, 고객의 단순변심 및 착오구매일 경우 상품의 반송비용은 박스 당 부과됩니다.
반품/교환 불가사유
  •  소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
  •  소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 : 예) 화장품, 식품, 가전제품, 전자책 단말기 등
  •  복제가 가능한 상품 등의 포장을 훼손한 경우 : 예) CD/LP, DVD/Blu-ray, 소프트웨어, 만화책, 잡지, 영상 화보집
  •  소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우
  •  디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  •  eBook 대여 상품은 대여 기간이 종료 되거나, 2회 이상 대여 했을 경우 취소 불가
  •  중고상품이 구매확정(자동 구매확정은 출고완료일로부터 7일)된 경우
  •  LP상품의 재생 불량 원인이 기기의 사양 및 문제인 경우 (All-in-One 일체형 일부 보급형 오디오 모델 사용 등)
  •  시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  •  전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
소비자 피해보상
  •  상품의 불량에 의한 반품, 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 준하여 처리됨
환불 지연에
따른 배상
  •  대금 환불 및 환불 지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리
  • 절판 상태입니다.
뒤로 앞으로 맨위로 공유하기