[책만 브랜드전] 라마와 앵무새 에코백 증정 (포인트 차감)
이미 소장하고 있다면 판매해 보세요.
1장 빅데이터 기술 기초 다지기
__하둡 에코시스템 둘러보기 __정리 [1부] 인프라스트럭처 2장 클러스터 __다중 클러스터 사용 이유 __멀티테넌시 __클러스터 용량 산정 __클러스터 확장 __데이터 복제 __정리 3장 연산과 스토리지 __하둡 이해를 위한 컴퓨터 아키텍처 __엔터프라이즈에 적합한 보급형 스토리지 __하둡과 리눅스 스토리지 스택 __이레이저 코딩과 복제 __로우레벨 스토리지 __서버 폼 팩터 __워크로드 프로파일 __클러스터 구성과 노드 종류 __정리 4장 네트워크 __서비스가 네트워크를 활용하는 방식 __네트워크 아키텍처 __네트워크 통합 __네트워크 설계 고려 사항 __정리 5장 조직의 과제 __누가 실행할 것인가 __인프라스트럭처인가 미들웨어인가 아니면 애플리케이션인가 __사례 연구: 보편적인 비즈니스 인텔리전스(BI) 프로젝트 __정리 6장 데이터센터 고려사항 __데이터센터는 왜 중요한가 __기본적인 데이터센터 개념 __공간과 랙 채우기의 제한 __데이터 수집 및 클러스터 간 연결 __교체 및 수리 __통상적인 위협 __정리 [2부] 플랫폼 7장 클러스터의 프로비저닝 __운영체제 __서비스 데이터베이스 __하둡 배포 __정리 8장 플랫폼 검증 __테스트 방법론 __유용한 도구들 __하드웨어 검증 __하둡의 검증 __다른 컴포넌트의 검증 __정리 9장 보안 __전송 중 암호화 __인증 __권한 부여 __유휴 시 암호화 __정리 10장 계정 서비스와의 통합 __통합이 필요한 영역 __통합 시나리오 __통합 계정 서비스 __LDAP 통합 __커버로스 통합 __인증서 관리 __정리 11장 클러스터의 접근 및 상호작용 __접근 메커니즘 __접근 토폴로지 __접근 보안 __워크벤치 __랜딩 존 __정리 12장 고가용성 __고가용성의 정의 __가용성의 측정 __고가용성의 운영 __고가용성 빌딩 블록 __일반적인 고려사항 __클러스터 서비스의 고가용성 __정리 13장 데이터 백업과 재해 복구 __컨텍스트 __데이터 복제 __하둡 클러스터 백업 __복구 __정리 [3부] 클라우드 기반 하둡 14장 하둡 가상화의 기초 __컴퓨트 가상화 __스토리지 가상화 __네트워크 가상화 __클러스터 수명주기 모델 __정리 15장 비공개 클라우드 솔루션 __오픈스택 __오픈시프트 __VMWare와 피보탈 클라우드 파운드리 __직접 만들어볼 텐가? __비공개 클라우드를 위한 객체 스토리지 __정리 16장 공개형 클라우드 솔루션 __반드시 알아둘 것들 __클라우드 제공사 __클러스터 구현 __정리 17장 프로비저닝 자동화 __장기간 지속되는 클러스터 __일시적 클러스터 __메타데이터 공유 서비스 __정리 18장 클라우드 상의 보안 __위험의 평가 __위험 모델 __하둡을 위한 계정 프로바이더 옵션 __객체 스토리지 보안과 하둡 __감사 __유휴 시 데이터 암호화 __클라우드 상의 전송 중 데이터 암호화 __경계 제어와 방화벽 __정리 부록 백업 온보딩 체크리스트 ____백업 온보딩 체크리스트 ____서비스 |
저얀 쿠닉크
관심작가 알림신청Jan Kunigk
저이안 버스
관심작가 알림신청Ian Buss
저폴 윌킨슨
관심작가 알림신청Paul Wilkinson
저라스 조지
관심작가 알림신청Lars George
역장현희
관심작가 알림신청장현희 의 다른 상품
역오명운
관심작가 알림신청오명운의 다른 상품
■ 인프라스트럭처: 서버부터 데이터센터에 이르기까지, 기업 데이터를 위한 견고한 기반을 확립하는 모던 데이터 플랫폼을 구성하는 모든 컴포넌트 계층
■ 플랫폼: 배포, 운영, 보안, 고가용성, 재해 복구를 비롯해 기업 IT 환경에 플랫폼을 융합하기 위해 알아야 할 모든 것 ■ 클라우드 기반의 하둡: 기업이 요구하는 보안 및 고가용성을 확보한 빅데이터 플랫폼을 클라우드 상에서 운영하기 위해 알아야 할 중요한 아키텍처적 요소들 [이 책의 구성과 독자대상] 1부에서는 기반 인프라스트럭처에 대한 이해를 통해 클러스터에 대한 견고한 기반을 확립한다. 2부에서는 플랫폼을 전체적으로 살펴보고 외부 시스템과 부드럽게 통합되는 견고한 클러스터를 구현하는 방법을 알아본다. 3부에서는 하둡을 클라우드에서 운영할 때 아키텍처 면에서 중요한 내용을 다룬다. 또한 하둡과 하둡 생태계에 대한 입문 수준의 기술적인 내용들도 다룬다. ◆ IT 관리자 기업에서 하둡 클러스터를 운영하는 책임을 가진 독자: 1장, 2장, 5장, 14장 ◆ 엔터프라이즈 아키텍트 하둡 클러스터 통합 및 다른 기업용 시스템과의 연동을 모든 면에서 관리하며 클러스터를 기업 표준에 따라 운영하고 관리해야 하는 독자: 1~4장, 6~7장, 9~18장 ◆ 애플리케이션 아키텍트와 데이터 엔지니어 차세대 데이터 기반 애플리케이션을 디자인하는 개발자와 아키텍트로서 하둡을 위한 코드를 작성하고 그 역량의 장점을 취하고자 하는 독자: 1~2장, 9~13장, 17~18장 ◆ 시스템 관리자와 데이터베이스 관리자(DBA) 클러스터의 운영 및 모니터링을 책임지며 클러스터 컴포넌트들의 동작 방식과 기반 하드웨어 및 외부 시스템과의 통합에 대한 깊은 이해가 필요한 독자: 1장, 2장, 3장, 6~18장 [지은이의 글] 오늘날 업계의 트렌드는 명확하다. 대부분은 아니더라도 많은 기업이 이미 데이터에 기반해 운영되고 있으며, 하드웨어, 소프트웨어, 서비스에 상당한 투자를 진행하고 있다. 빅데이터 시장은 빠른 속도로 성장하고 있으며, 2025년에는 연간 소득이 900억 달러 규모에 이를 전망이다. 데이터 플랫폼으로 인해 가능해진 딥러닝과 인공지능 같은 관련 시장도 향후 십 년간 폭발적으로 성장할 것으로 보인다. 하둡으로, 그리고 모던 데이터 플랫폼으로의 전환은 기업 IT 환경의 몇 가지 트렌드와 복합적으로 이루어진다. 이런 트렌드는 빅데이터에 집중하면서 직접적으로 나타난 것도 있지만, 그 외에도 소프트웨어 비용 절감, IT 운영의 집중 및 간소화, 새로운 하드웨어와 자원을 취득하는 데 필요한 시간의 획기적인 감소 등과 같은 여러 요소가 복합적으로 작용한 결과이기도 하다. 이 책을 집필하는 동안 우리 저자들은 이 책의 제목을 정하느라 고심했다. 초고를 본 독자라면 눈치챘겠지만 이 책의 원래 제목은 ‘엔터프라이즈 환경에서의 하둡(Hadoop in the Enterprise)’였다. 하지만 사실 클러스터는 HDFS(하둡 분산 파일시스템)이나 얀(YARN), 맵리듀스보다 훨씬 더 큰 개념이다. 물론 여전히 이 플랫폼들을 하둡 클러스터라고 부르지만, 우리에게 하둡 클러스터란 하둡, 하이브, 스파크, HBase, 솔라(Solr)를 비롯한 모두를 의미한다. 모던 데이터 플랫폼은 다양한 기술로 구성되며 이들을 모두 통합하는 것은 매우 어려운 일이다. 여러분은 하둡 및 관련 기술에 대한 또 다른 책이 왜 더 필요한지도 궁금할 것이다. 하둡과 관련해서는 이미 (심지어 충분하고도 남을 만큼) 많은 강좌나 블로그, 컨퍼런스 등에서 다루지 않았던가? 물론 그 말이 맞다. 하둡과 관련 기술들의 내부 동작과 데이터 애플리케이션 엔지니어링, 그리고 이들을 새로운 상황에 적용하는 방법 등을 설명하는 자료는 이미 충분하다. 게다가 시스템 관리자를 위한 클러스터 운영에 관련된 자료들도 있다. 하지만 하둡 클러스터를 기업 환경에 성공적으로 융합하는 것과 관련된 콘텐츠는 충분하지 않다. 이 책을 집필한 목적 중 하나는 모던 엔터프라이즈 데이터 플랫폼을 설계하고 구축하고 통합해서 운영하기 위한 지식을 제공하기 위함이다. 지난 5년간 하둡 및 관련 서비스들에 대한 전문적인 서비스를 제공한 경험에 빗대어보면, 아키텍트와 전문가들을 위한 가이드는 턱없이 부족하다. 이런 작업을 누군가의 도움 없이 진행하면, 중대한 아키텍처적인 실수나 실망스러운 애플리케이션 성능, 플랫폼이 아직은 기업 환경에 부적합하다는 잘못된 편견이 불거진다. 이 책은 빅데이터로의 전환, 특히 하둡으로의 전환을 최대한 원활히 진행할 수 있도록 돕기 위해 집필했다. [옮긴이의 글] 빅데이터라는 용어는 이미 수년 전부터 일상 생활에서까지 사용될 정도로 보편화되었습니다. 간혹 잘못 사용되는 경우도 없지는 않지만 빅데이터는 이제 정치, 사회, 경제, 문화, 과학 기술 등 거의 모든 영역에 걸쳐서 가장 중요한 키워드 중 하나로 자리잡고 있죠. 가장 큰 이유는 일상 생활의 많은 부분에서 데이터의 중요성이 부각되었기 때문입니다. 때문에 많은 기업들이 데이터 주도Data-Driven 문화를 도입하며 빅데이터 분석을 통해 더욱 편리한 사용자 경험의 제공, 제품과 서비스의 개선, 나아가 더 많은 이익 창출을 위해 노력하고 있습니다. 이 모든 노력의 근간에는 각 기업들이 오랜 시간을 들여 수집해 온 데이터가 있습니다. 하둡은 초기부터 빅데이터 솔루션으로 많은 관심을 받으며 빠르게 성장해 온 기술이자 프레임워크로, 대용량의 데이터를 저장하고 분석하여 좀 더 의미 있는 데이터를 산출하기 위한 포괄적인 기술들을 경제적으로 구현하기 위한 노력의 결정체입니다. 덕분에 이미 많은 기업이 하둡을 이용한 빅데이터 분석을 수행하고 있으며, 대부분은 아직 온프레미스 환경에 구축되어 있지만, 여러 공개형 클라우드 서비스들이 확장 가능한 하둡 서비스를 출시하면서 클라우드로의 이전도 활발히 진행되고 있습니다. 이 책은 온프레미스 환경부터 공개형 및 비공개 클라우드 환경에 이르기까지, 다양한 환경에서 기업을 위한 하둡 클러스터를 성공적으로 배포하고 운영하는 데 필요한 기술적 노하우를 아낌없이 전수해 줍니다. 저 또한 하둡 클러스터를 직접적으로 구축하고 운영해 본 경험이 아주 많지는 않지만, 그간 크고 작게나마 대용량의 데이터를 다양한 방법으로 처리해 본 경험 덕분에, 이 책을 통해 하둡을 좀 더 자세히 이해하게 되었으며, 빅데이터에 대해 만족할 만한 통찰을 얻을 수 있었습니다. 다만 이 책은 빅데이터에 처음 입문하는 초보자에게는 다소 어려울 수 있지만, 소규모라도 하둡 클러스터를 온프레미스 환경이나 클라우드 환경에서 구축하고 운영해 본 경험이 있는 독자들에게는 큰 도움이 될 수 있는 책입니다. - 장현희 이젠 빅데이터를 활용하지 않는 분야가 없는 시대를 살고 있다고 해도 과언이 아닐 것 같습니다. 여러 분야에서 인간을 넘어서며 새로운 시대를 열 것으로 기대되는 인공 지능도 막대한 데이터가 없으면 학습을 할 수가 없습니다. 이 책은 빅데이터를 다루는 데 필요한 기본 개념부터, 실무에서 사용되는 다양한 컴포넌트의 장단점 비교, 여러 컴포넌트를 조합해서 구성하는 운영 환경 구축, 조직 구성까지 아우르는 방대한 내용을 다채로운 그림과 비교 표를 통해 압축해서 이해할 수 있게 도와줍니다. 그래서 이미 데이터 엔지니어링을 하고 있는 사람들에게는 이 책이 더 심도 있고 실무적인 지식의 보고가 될 수 있고, 데이터 엔지니어가 되고 싶어 하는 분들에게 이 책은 안정적인 출발선이 되어줄 것입니다. 모쪼록 이 책을 통해 많은 분이 한 단계 더 높이 올라설 수 있기를 바라며, 궁극적으로는 우리나라 개발자, 데이터 엔지니어들이 데이터가 원유가 되는 시대를 이끌어나가는 데 조금이라도 도움이 될 수 있다면 더 바랄 것이 없겠습니다. - 오명운 |
이 책의 저자들은 이 분야의 선구자들로 수년간 빅데이터로부터 실질적인 가치를 얻기 위한 기업들의 노력에 보탬이 되어왔다. 하둡, 임팔라, 하이브, 스파크의 사용자일 뿐만 아니라 오픈 소스 커뮤니티를 통해 이 프로젝트의 형태와 역량을 기업 환경에 맞추어 개선하는 데 적극적으로 도움을 주고 있다.
기업 환경에서 플랫폼을 운영하면서 데이터와 관련된 새로운 도전과제들이 생겨났다. 지금까지는 한 달이나 한 분기 정도의 데이터는 충분히 오랫동안 저장하고 검색할 수 있었지만 이제는 수십 년 혹은 수 세기의 데이터를 저장할 수 있다. 이렇게 큰 양적인 차이는 질적인 차이로 이어졌다. 한 세기의 데이터를 다루려면 어떤 새로운 애플리케이션을 개발해야 할까? 지금 여러분 앞에 놓인 이 책은 기업용 빅데이터 플랫폼을 개발하는 여러분이 품은 이런 질문에 대한 답을 찾기 위한 안내서다. - 마이크 올슨(Mike Olson) (클라우데라(Cloudera)의 설립자이자 최고 전략책임자(CSO)) |
업계에서 가장 경험이 많은 4인의 빅데이터 실무자들이 저술한 역작이다. 기술 및 문화적 측면을 모두 아울러 기업용 하둡 시스템을 구축하는 방법과 지식을 학습하고자 한다면 이 책이야말로 최고의 선택이다. - 톰 화이트(Tom White) (아파치 하둡 커미터, 『하둡 완벽 가이드』 저자)
|
『엔터프라이즈 데이터 플랫폼 구축』은 데이터의 라이프 사이클 과정에서 데이터를 진정으로 활용할 수 있게 하는 데이터의 연계 기술을 다루고 있습니다. 데이터 관리는 생성 지점인 엣지에서 AI까지 어디서나, 조직 전체가 데이터 중심의 의사결정을 내릴 수 있게 해줘야 합니다. 이것이 엔터프라이즈 데이터 클라우드 플랫폼의 요구입니다. 귀사의 데이터는 안녕하십니까? 그 해답을 이 책에서 찾아보세요. - 강형준 (클라우데라코리아 지사장)
|
『엔터프라이즈 데이터 플랫폼 구축』은 이런 하둡 에코 시스템을 어떻게 구축하고 관리할 것인지를 알려주는 책입니다. 현재 많은 기업들이 클라우드 플랫폼을 운영하고 있고, 클라우드 업체마다 쉽게 관리가 가능한 하둡 플랫폼을 제공해서 예전보다 하둡 플랫폼을 관리하는 노력이 줄어들었기 때문에, 과연 이렇게 상세하게 알아야 할까 하는 의문이 들 수도 있습니다. 하지만 아직도 금융권이나 정부 기관등 법적으로 클라우드 플랫폼을 제대로 사용할 수 있는 분야가 많으며, 아주 큰 기업들은 온프레미스라고 부르는 자신들의 IDC에서 서비스를 운영하기 때문에, 이런 지식은 여전히 필요합니다. - 강대명 (beNX 엔지니어)
|
이 책에서는 데이터 플랫폼 전반에 대해 각 분야별 전문가들이 다뤄야 할 고급 지식들을 알기 쉽게 그림으로 나타내어 데이터 플랫폼에 대해 깊이 알지 못하는 개발자나 엔지니어도 쉽게 이해할 수 있도록 잘 설명합니다. 또한 높은 성능뿐만 아니라 보안 및 안정성 등과 관련된 많은 기능들을 갖추고 있어 빅데이터 플랫폼 기술의 표준으로 자리잡은 하둡에 대해서도 심도 있게 다루며, 아울러 퍼블릭 클라우드 상에서의 데이터 플랫폼 솔루션들까지 상세히 설명합니다. 빅데이터와 관련된 일을 하는 모든 이의 필독서로 추천합니다. - 고승범 (SKT 데이터 플랫폼 팀, 『카프카, 데이터 플랫폼의 최강자』 저자)
|
『엔터프라이즈 데이터 플랫폼 구축』의 강점은 하둡 클러스터의 도입, 구축, 운영에 대해 실무에서 필요한 고려사항과 가이드를 모두 다룬다는 점입니다. 또한 하둡 엔지니어가 네트워크, 운영체제, 하둡 에코시스템, 데이터 관리 등 다방면에 걸쳐 고민해야 하는 기술뿐만 아니라, 해당 전문 엔지니어와 협의해야 하는 세부 주제 또한 잘 정리되어 있습니다. 무엇보다도 이 책은 클라우데라에서 CDH를 개발한 저자진이 직접 저술함으로써, 그들이 경험한 기술 고려사항부터 현장 경험과 노하우까지 모두 흡수할 수 있는 멋진 ‘데이터 플랫폼’ 실무서입니다. - 김태완 (한국오라클 빅데이터 엔지니어, http://taewan.kim/)
|
하둡이 시장에 나온 지 오랜 시간이 지났고, 많은 조직에서 적극적으로 활용하는 기술로 자리를 잡았다. 각자의 환경과 목적에 맞는 컴포넌트를 활용하고 있다고는 하지만, 아쉽게도 현장에서는 기술 격차가 크게 존재한다. 이 책은 클라우드 기술까지 포괄하여 물리적인 아키텍처를 자세히 다룬다는 점에서, 엔터프라이즈급 규모를 운영하는 조직에 큰 도움이 될 것이다. 또한 상세하고 빈틈없는 설명으로, 하둡에 대한 기초적인 이해와 집중해야 하는 요소에 대한 인덱스 역할을 제공한다. - 이태윤 (카카오 데이터플랫폼팀 팀장)
|