확장메뉴
주요메뉴


닫기
사이즈 비교
소득공제 베스트셀러
데이터 품질의 비밀

데이터 품질의 비밀

: 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드

리뷰 총점9.3 리뷰 21건 | 판매지수 3,144
베스트
네트워크/해킹/보안 23위 | IT 모바일 top100 7주
정가
28,000
판매가
25,200 (10% 할인)
분철서비스 시작 시 알려드립니다. 분철서비스 알림신청

품목정보

품목정보
발행일 2023년 04월 10일
쪽수, 무게, 크기 376쪽 | 678g | 183*235*16mm
ISBN13 9791198140814
ISBN10 119814081X

관련분류

책소개 책소개 보이기/감추기

상품 이미지를 확대해서 볼 수 있습니다. 원본 이미지

목차 목차 보이기/감추기

CHAPTER 1 지금, 데이터 품질에 주목해야 하는 이유

1.1 데이터 품질이란?
1.2 데이터 품질의 현재
1.3 마치며

CHAPTER 2 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립

2.1 운영 데이터와 분석 데이터의 차이
2.2 차이는 어떻게 만들어지는가?
2.3 데이터 웨어하우스 vs 데이터 레이크
2.4 데이터 품질 지표 수집
2.5 데이터 카탈로그 설계
2.6 데이터 카탈로그 구축
2.7 마치며

CHAPTER 3 데이터 수집 · 정제 · 변환 · 테스트

3.1 데이터 수집
3.2 데이터 정제
3.3 배치 처리 vs 실시간 처리
3.4 실시간 처리를 위한 데이터 품질
3.5 데이터 정규화
3.6 분석 데이터 변환 실행
3.7 테스트 및 경고 알람 시스템
3.8 아파치 에어플로를 활용한 데이터 품질 관리
3.9 마치며

CHAPTER 4 데이터 파이프라인 모니터링 및 이상 탐지

4.1 알려진 미지와 알려지지 않은 미지
4.2 이상 탐지 알고리즘 구축
4.3 스키마 및 계보를 위한 모니터 구축
4.4 파이썬과 머신러닝으로 이상 탐지 확장
4.5 이상 탐지의 심화 과정: 기타 유용한 접근법
4.6 데이터 품질 모니터 설계: 데이터 웨어하우스 vs 데이터 레이크
4.7 마치며

CHAPTER 5 데이터 신뢰성을 위한 아키텍처

5.1 수집 단계에서 높은 데이터 신뢰성 측정 및 유지
5.2 파이프라인에서 높은 데이터 품질 측정 및 유지
5.3 데이터 품질 다운스트림
5.4 데이터 플랫폼 구축
5.5 데이터 신뢰 구축
5.6 [사례 연구] 블링키스트
5.7 마치며

CHAPTER 6 대규모 데이터 품질 문제 해결

6.1 소프트웨어 개발 시 품질 문제 조정
6.2 데이터 사고 관리
6.3 사고 대응 및 완화
6.4 [사례 연구] 페이저듀티의 데이터 사고 관리
6.5 마치며

CHAPTER 7 엔드 투 엔드 데이터 계보 구축

7.1 최신 데이터 시스템을 위한 엔드 투 엔드 필드 레벨 데이터 계보 구축
7.2 [사례 연구] 폭스의 데이터 신뢰성을 위한 아키텍처
7.3 마치며

CHAPTER 8 데이터 품질 민주화

8.1 데이터를 프로덕트로 다루는 시각
8.2 데이터를 프로덕트로 다루는 사례
8.3 데이터 플랫폼을 향한 신뢰 축적
8.4 데이터 품질 책임 할당
8.5 데이터 품질 보장을 위한 책임감 조성
8.6 데이터 접근성과 신뢰 간 균형
8.7 데이터 인증
8.8 데이터 인증 프로그램 실행 7단계
8.9 [사례 연구] 적합한 데이터 조직을 찾는 토스트의 여정
8.10 데이터 리터러시 함양
8.11 데이터 거버넌스와 컴플라이언스
8.12 데이터 품질 전략 수립
8.13 마치며

CHAPTER 9 현실에서의 데이터 품질: 전문가 대담과 사례 연구

9.1 데이터 품질 향상을 위한 데이터 메시 구축
9.2 왜 데이터 메시인가?
9.3 자마크 데가니와의 대화: 데이터 메시에서 데이터 품질의 역할
9.4 [사례 연구] 콜리브리 게임즈의 데이터 스택 여정
9.5 비즈니스에 메타데이터 활용
9.6 데이터 검색에서 얻는 메타데이터의 가치
9.7 데이터 품질 관리 시기 결정
9.8 마치며

CHAPTER 10 신뢰할 수 있는 데이터 시스템의 미래 개척

10.1 사후 대응이 아닌 사전 예방적 대응
10.2 데이터 품질 및 신뢰성의 미래 예측
10.3 이제부터 우리는 무엇을 해야 할까?

찾아보기

저자 소개 (4명)

출판사 리뷰 출판사 리뷰 보이기/감추기

[이 책의 핵심 내용]

- 바로 지금, 데이터 품질에 주목해야 하는 이유
- 데이터 품질에 초점을 맞춘 데이터 파이프라인 구축 및 모니터링 시스템, 데이터 옵저버빌리티 구성 방법
- 데이터 품질 신뢰성을 높이는 방법과 실제 사례
- 데이터 품질을 향상시키는 거버넌스와 실제 사례
- 각 기업 사정에 맞게 데이터 품질 투자 대비 효용성을 계산하는 공식 소개
- 데이터 품질의 미래 트렌드 4가지

[이 책의 대상 독자]

- 데이터 엔지니어
- 기업의 데이터 파이프라인을 구축하고, 확장하고, 관리하는 실무자
- 데이터로 서비스를 만드는 데이터 프로덕트 매니저
- 데이터 품질에 투자하려는 의지가 있는 COO
- 데이터 품질을 중시하는 데이터 분석가
- 데이터 품질을 중시하는 데이터 과학자

[이 책의 구성]

1장: 지금 데이터 품질에 주목해야 하는 이유

현재 시점에서 데이터 품질에 주목해야 하는 이유를 살펴보고 아키텍처 및 기술 동향이 전반적인 거버넌스 및 신뢰성에 어떤 영향을 주고 있는지 설명한다. 이와 관련하여 ‘데이터 다운타임’이라는 개념을 소개하고, 사이트 신뢰성 엔지니어링(SRE) 팀의 초창기로 거슬러 올라가, 동일한 데브옵스(DevOps) 원칙을 어떻게 데이터 엔지니어링 워크플로에도 적용할 수 있는지 설명한다.

2장: 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립

데이터 웨어하우스, 데이터 레이크 및 데이터 카탈로그의 주요 데이터 파이프라인 기술에서 데이터 품질을 보장하고 측정할 수 있는 방법을 살펴본다. 이를 통해 탄력적인 데이터 시스템을 구축하는 방법에 대해 설명한다. 여기서 소개하는 세 가지 기본 기술은 양질의 데이터 프로덕션을 위한 사전 준비에 사용되며, 데이터를 저장·처리·추적한다.

3장: 데이터 수집 · 정제 · 변환 · 테스트

데이터 품질과 신뢰성을 염두에 두고 데이터를 수집·정제·변환·테스트하는 방법을 설명한다. 이를 통해 데이터가 파이프라인에 있기 전과 파이프라인에 있는 동안 품질을 관리하는 방법을 알려준다. 특히, 최근 주목받는 방법론인 데이터 실시간 처리 시 사용할 수 있는 데이터 품질 관리 툴과 해당 툴의 이점을 짚어준다. 마지막으로 데이터 테스트 단계를 마친 뒤, 아파치 에어플로를 활용하여 데이터 품질을 효율적으로 관리할 수 있는 방법을 안내한다.

4장: 데이터 파이프라인 모니터링 및 이상 탐지

데이터 신뢰성 워크플로의 가장 중요한 측면 중 하나인 사전 이상 탐지 및 모니터링을 설명한다. 독자들의 이해를 돕기 위해, 공식적으로 사용 가능한 데이터셋인 거주 가능한 외계 행성에 관한 모의 천문 데이터를 활용하여 데이터 품질 모니터 구축 방법을 공유한다.

5장: 데이터 신뢰성을 위한 아키텍처

지금까지 다룬 중요한 기술들을 잘 조합하려면 어떻게 해야 하는지, 어떤 사례에서도 데이터 품질을 잘 측정하고 보장할 수 있는 강력한 프로세스와 시스템을 설계하려면 어떻게 하면 좋을지 큰 그림으로 조망한다. 이어서 에어비앤비(Airbnb), 우버(Uber), 인튜이트(Intuit) 및 기타 기업의 데이터 팀이 SLA(서비스 레벨 계약), SLI(서비스 수준 지표), SLO(서비스 수준 목표) 설정을 비롯해 데이터 안정성을 일상적인 워크플로에 통합하는 방법을 살펴본다. 또한 이들 데이터 팀이 신선도, 볼륨, 배포, 스키마, 계보의 다섯 가지 핵심 요소를 기반으로 데이터 품질을 최적화하는 데이터 플랫폼 구축 방법을 공유한다.

6장: 대규모 데이터 품질 문제 해결

데이터 사고 관리, 근본 원인 분석, 포스트모템, 그리고 사고 커뮤니케이션의 모범 사례 구축 등 운영 환경에서 데이터 품질 문제에 실제로 대응하고 해결하는 데 필요한 단계를 자세히 들여다본다.

7장: 엔드 투 엔드 데이터 계보 구축

모든 데이터 엔지니어가 갖추어야 할 무기이자 즐겨 사용하는 오픈 소스 도구를 사용해 현업에서 사용하는 수준의 계보 구축 방법을 설명한다. 이를 통해, 최신 데이터 시스템을 위한 ‘엔드 투 엔드 필드 레벨’ 데이터 계보를 만들 때 고려해야 할 주요 내용, 계보에 포함되는 세 가지 요소 등을 배울 수 있다. 더불어, 거대 미디어 기업 폭스 네트워크에서 데이터 신뢰성을 보장하기 위해 데이터 아키텍처를 어떻게 설계했고, 이를 데이터 계보로 어떻게 구축했는지 실제 사례를 들어 알아본다.

8장: 데이터 품질 민주화

조직 전반에 데이터 품질 관리의 중요성을 알리고, 구성원 모두가 데이터 품질 관리에 쉽게 접근할 수 있도록 민주화하는 과정에서 넘어야 할 문화적·조직적 장벽에 대해 논의한다. 구체적으로는 데이터를 프로덕트처럼 취급하는 시각과 데이터 품질에 대한 회사의 RACI 매트릭스를 이해하는 원칙, 비즈니스에 미치는 영향을 극대화할 수 있는 데이터 조직 구성 방법을 다룬다.

9장: 현실에서의 데이터 품질: 전문가 대담과 사례 연구

실제 사례 연구 및 대담 내용을 공유한다. 데이터 메시를 만든 자마크 데가니(Zhamak Dehghani), (데이터 품질이 최우선인) 분산형 데이터 아키텍처로 마이그레이션하는 방법에 대해 자신 있게 이야기하는 안토니오 피타스(Antonio Fitas), 폭스(Fox)의 데이터 서비스 부사장이자 ‘관리된 자유(controlled freedom)’ 데이터 관리 기술의 선구자인 알렉스 트베르돌렙(Alex Tverdohleb)이 자신의 경험을 공유해 주었다.

10장: 신뢰할 수 있는 데이터 시스템의 미래 개척

신뢰할 수 없는 데이터가 비즈니스에 미치는 재정적 영향을 측정하기 위한 구체적인 계산법을 설명한다. 여기서 다루는 내용은 데이터 다운타임 해결이라는 임무를 지고 있을 많은 독자들이 문제를 해결하기 위해 더 많은 도구와 프로세스에 투자하는 리더십을 발휘하는 데 도움을 줄 것이다.

추천평 추천평 보이기/감추기

데이터를 신뢰할 수 없다면 데이터 투자, 인프라 및 통찰력은 모두 소용없다. 이 책의 공동 저자인 바(Barr), 라이어(Lior), 몰리(Molly)는 데이터 신뢰의 근본적인 의미를 꼼꼼히 설명하기 위해 엄청난 노력을 기울였으며, 기업에서 데이터 품질을 구현할 때 매우 실용적으로 쓸 수 있는 프레임워크를 만들었다. 데이터 품질에 관심 있는 사람이라면 누구나 읽어야 할 필독서라고 자신 있게 추천한다.
- 데바쉬스 사하 (전 앱젠(AppZen), 인튜이트(Intuit), 이베이(eBay) 데이터 리더)
데이터 아키텍처가 점점 더 분산되고, 데이터에 대한 책임도 점점 더 분산되면서 데이터 품질이 갈수록 중요해질 것이다. 이 책은 요즘 가장 중요한 기술과 프로세스에 주목하며, 데이터의 정확성·신뢰성·사실성을 진지하게 개선하는 엔지니어링 조직을 위해 핵심 정보를 제공한다.
- 맘마드 자데 (데이터 리더 겸 전 인튜이트 엔지니어링 부사장)
데이터 엔지니어, ETL 프로그래머, 전체 데이터 파이프라인 조직은 이 책과 같은 참고 문서, 테스트 가이드가 절실히 필요하다. 데이터 애플리케이션의 품질을 보장하는 데 도움이 되는 각 요소와 프로세스 및 도구가 무엇인지, 또 그것들이 어떤 역할을 하는지 배울 수 있기 때문이다. 이 책은 특히 신선한 관점과 실용적인 테스트 시나리오를 통해 최신 데이터 파이프라인을 테스트할 때 인사이트를 제공한다.
- 웨인 야도우 (데이터 및 ETL 품질 분석가)
데이터 품질은 데이터 분석의 신뢰도와 밀접하게 연관돼 있다. 데이터가 원활하게 흐르는 조직이 되기 위해서는 구성원들이 데이터에 쉽고 빠르게 접근해서 활용할 수 있어야 하는데 이때 의사 결정 속도를 확보하는 것이 곧 비즈니스 발전 속도가 됐다. 이 책에서 데이터옵스를 통해 신뢰도 높은 데이터를 확보하는 방법과 이를 기반으로 빠른 의사 결정을 내리는 사례를 찾아보기 바란다. 현재 조직의 데이터옵스 현황도 진단해 보면 더할 나위 없겠다.
- 윤정환 (OP.GG 데이터 팀 리드)
이 책의 특별함은 데이터를 활용한 비즈니스적인 성과가 주를 이루는 많은 데이터 관련 출판물과는 달리, 데이터 활용 전에 이루어져야 하는 데이터 정합성과 무결성을 높이는 기본에 관한 방법론을 제시하는 데 있다.
- 장재영 (신한카드 D&D 연구소장, 최고 데이터 책임자)
데이터 품질 문제는 데이터 엔지니어링 분야에서 빈번하게 발생한다. 이 책은 그 문제를 해결할 데이터 팀의 기술, 프로세스, 문화를 종합적으로 다뤘다. 그래서 데이터 분석가, 데이터 과학자, 데이터 파이프라인을 구축하고 관리하는 모든 분에게 자신 있게 추천할 수 있는 책이다.
- 조승완 (비바리퍼블리카 데이터 엔지니어)
데이터가 없는 것보다 잘못된 데이터에 기반한 의사 결정이 더 무섭다고 생각한다. 이 책은 데이터 품질을 챙기고 싶지만 어디서부터 시작해야 할지 혼란스러운 실무자와 의사 결정권자들에게 다양한 규모의 조직에서 적용해 볼 수 있는 실질적인 방법론을 제시한다. 더불어 기술에만 국한되지 않고 조직 관점에서 실제 사례를 제공하기 때문에 지침서로서도 손색이 없다.
- 조재영 (오토피디아 데이터 엔지니어)
과거와 달리 이제는 데이터 파이프라인이라는 개념이 어느 정도 정립되었다. 수집할 데이터의 텔레메트리 디자인부터 시작하여 데이터 전송과 수집, 가공, 공급, 테스트, 모니터링 등으로 분화되어 데이터 파이프라인을 구성하는데, 그 모든 분야에서 품질 관리가 필수적이다. 컴퓨터라는 단어조차 없을 때의 격언은 지금의 첨단 기술에도 해당된다- garbage in, garbage out. 제대로 관리되지 않은 데이터를 기반으로 한 AI라면 아무리 훌륭한 기술이라도 좋은 결과를 낼 수가 없다. 신뢰할 수 있는 데이터 시스템을 거대 스케일로 구축하는 데에 필요한 구성 요소를 폭넓게 커버하는 이런 책이 꼭 필요하다고 본다.
- 양파(주한나) (MS 코파일럿 응용 AI 팀, 데이터 과학자)

회원리뷰 (21건) 리뷰 총점9.3

혜택 및 유의사항?
구매 [리뷰] 데이터 품질의 비밀 내용 평점5점   편집/디자인 평점5점 YES마니아 : 플래티넘 책****장 | 2023.04.17 | 추천1 | 댓글0 리뷰제목
언젠가부터 가장 많이 듣는 용어 중 하나가 바로 '데이터'이다. 단순한 자료 또는 검색 대상으로서의 데이터가 지니는 의미 이상으로서 각종 보고서의 근거가 되고, 보다 나은 프로덕트를 보증하고, 인공 지능을 학습시키고, 특히 ChatGPT를 학습시키는 것이 바로 데이터이다.   데이터는 정확성, 일관성, 신뢰성, 가용성, 현재성, 이식성 등 품질 평가 항목이 많다. 누구나 Garba;
리뷰제목

언젠가부터 가장 많이 듣는 용어 중 하나가 바로 '데이터'이다.
단순한 자료 또는 검색 대상으로서의 데이터가 지니는 의미 이상으로서
각종 보고서의 근거가 되고, 보다 나은 프로덕트를 보증하고, 인공 지능을 학습시키고, 특히 ChatGPT를 학습시키는 것이 바로 데이터이다.

 

데이터는 정확성, 일관성, 신뢰성, 가용성, 현재성, 이식성 등 품질 평가 항목이 많다.
누구나 Garbage In Garbage Out의 의미는 정확히 알고 있다.
하지만 현업에서는 시간에 쫓기고, 업무량에 치이고, 데이터 처리 결과에 매몰되는 경우가 많은 것이 일상처럼 느껴진다.

 

데이터 활용 기술을 다루는 콘텐츠는 매우 많지만, 모든 프로덕트의 근간이 되는 데이터에 품질에 대해서 고민하게 만드는 것은 비교적 드물기에 본서의 가치를 높이 평가할 수 있겠다.
본서는 데이터 품질의 개념부터 데이터의 품질과 신뢰성 확보를 위한 접근 방식, 그리고 모범 사례까지 맥락을 유지하며 잘 구성된 것 같다.

 

데이터 엔지니어, 데이터 분석가, 데이터 과학자 등 데이터 직무 종사자에게 훨씬 더 유용하겠지만, 현업에서 데이터를 활용하는 사람이라면 데이터 분야에 대한 지식이 없더라도 충분히 이해할 수 있을 것 같다.
나 또한 정독을 하고 나니 데이터 신뢰성에 대한 혜안이 생긴 것 같다... 라고 해놓고선 또 데이터 막 갖다 쓰는 건 아닌지 모르겠다. :)

 

마지막으로 이 문구가 특별히 와 닿는다.
"저품질 데이터를 쓰느니 데이터가 없는 편이 더 낫다."

1명이 이 리뷰를 추천합니다. 공감 1 댓글 0
[리뷰] 데이터 품질의 비밀 내용 평점5점   편집/디자인 평점5점 YES마니아 : 플래티넘 푸* | 2023.05.29 | 추천0 | 댓글0 리뷰제목
 회사에서 빅데이터 플랫폼관련 개발을 하고 있어서 데이터 품질에 대한 관심도가 많은 편이다. 어느 플랫폼/솔루션이나 마찬가지겠자만 지속적으로 개발/수정되고 있기 때문에 데이터 수집, 정제, 변환, 테스트 등에 대한 고민이 늘 있다. 아직은 초창기라서 오류 처리등에 대해서도 미숙한 부분이 있다. 이 책에서는 각종 오픈 소스를 통해서 좀 더 편하고 체계적으로 오류처리를;
리뷰제목

 회사에서 빅데이터 플랫폼관련 개발을 하고 있어서 데이터 품질에 대한 관심도가 많은 편이다. 어느 플랫폼/솔루션이나 마찬가지겠자만 지속적으로 개발/수정되고 있기 때문에 데이터 수집, 정제, 변환, 테스트 등에 대한 고민이 늘 있다. 아직은 초창기라서 오류 처리등에 대해서도 미숙한 부분이 있다. 이 책에서는 각종 오픈 소스를 통해서 좀 더 편하고 체계적으로 오류처리를 하는 부분도 소개해 주고 있어서 데이터 수집부분에 대한 품질을 좀 더 높여 볼 수 있는 포인트를 잡을 수 있었다.

 또한, 전체적으로 검증단계에서 데이터가 오수집으로 인한 오류 등이 발생할 수 있는 데, SQL Query에 대한 예시를 보여주면서 예시로 쉽게 접근 할 수 있어서 좋았다.

 품질에 대해서는 최대한 플랫폼 측면에서 쉽게 접근해줘야 한다고 생각을 하고 있지만, 어디서부터 해야하는 지에 대한 고민이 많이 있었다. 이책에서는 기본적인 품질 모니터링에 대한 예시 등을 제시해주고 있어서 이 책에 나온것을 바탕으로 현재 개발하고 있는 플랫폼에도 적용해 볼 생각을 가지게 되었다.

 데이터를 다루고 있는 분들이라면 이 책을 통해서 품질에 대한 소개를 통해서 한 층 더 업그레이드 될 수 있는 책이라고 하겠다.

 

  "한빛미디어나는 리뷰어다활동을 위해서 책을 제공받아 작성된 서평입니다."

이 리뷰가 도움이 되었나요? 공감 0 댓글 0
[리뷰/책]《데이터 품질의 비밀》 내용 평점5점   편집/디자인 평점5점 YES마니아 : 플래티넘 북*거 | 2023.05.28 | 추천0 | 댓글0 리뷰제목
한 줄 요약 : 데이터 처리 품질을 높이고 싶다면 또는 데이터 처리 프로세스를 수립해야한다면 참고하기 좋은 책   개발조직에서 개발과 운영은 하나처럼 동작하는 '데브옵스(DevOps)'라는 개념이 일반화됐다. 물론 안정적인 운영을 위해 수많은 시행착오를 거쳤고, 안정화가 됐다.   자연스럽게 이런 흐름이 데이터 분야에도 일어나고 있다. 데이터옵스(DataOps) 기업;
리뷰제목

한 줄 요약 : 데이터 처리 품질을 높이고 싶다면 또는 데이터 처리 프로세스를 수립해야한다면 참고하기 좋은 책

 


개발조직에서 개발과 운영은 하나처럼 동작하는 '데브옵스(DevOps)'라는 개념이 일반화됐다.

물론 안정적인 운영을 위해 수많은 시행착오를 거쳤고, 안정화가 됐다.

 

자연스럽게 이런 흐름이 데이터 분야에도 일어나고 있다.

데이터옵스(DataOps)
기업 데이터에 대한 깊이 있는 인사이트를 얻기 위해 DevOps 접근법을 이용하는 데이터 관리 방식
출처 : HPE(Hewlett Packard Enterprise)

이번에 리뷰할 《데이터 품질의 비밀》가 데이터옵스(DataOps)를 다루는 가이드북이다.

 

보통의 데이터 입문서는 정제되어 있는 데이터를 라이브러리,패키지를 이용해 시각화하는 흐름으로 구성되어 있다.

하지만 《데이터 품질의 비밀》을 읽으며 느낀 특징은 아래와 같다.

1. 데이터 정제를 왜 잘 해야하는지

2. 찌꺼기데이터를 필터링 하는 방법과 과정

3. 데이터 처리 프로세스를 구축하기 전, 구축하는 중, 구축 후 고민할 점

 

저자는 데이터 플랫폼(서비스)를 제공할 때 과정(레이어)을 제시한다.

그리고 각 단계에서 발생하는 문제점과 대응 경험을 전달한다.

 

게다가 SQL쿼리를 통해 문제발생 전에 문제를 탐지하는 방법도 알려주고 있다.

 

실제 서비스 업체의 사례도 다양하게 수록되어 있어서 데이터 아키텍처, 프로세스들을 엿볼수도 있다.

 

《데이터 품질의 비밀》에서 기억에 남는 부분

9장 '현실에서의 데이터 품질 : 전문가 대담과 사례 연구'

전문가들이 '데이터 품질' 주제의 토론하는 내용이 담겨있었기 때문이다.

 

처음에는 그냥 눈으로 훑어봤다.

다시 읽을 때는 질문을 보고 내 생각을 짧게 정리한 후 저자의 답변과 비교하며 읽었다.

같은 문제에 대해 '이렇게 문제를 풀어나갈 수도 있구나'하는 재밌는 경험이었다.

 

《데이터 품질의 비밀》 장점

데이터를 가공하다보면 경험하게 될 문제들이 이 책에 상세히 나열되어 있다.

즉, 책을 통해 향후 겪게 될 문제상황들을 사전에 대비할 수 있다.

 

 

《데이터 품질의 비밀》 전체를 관통하는 주제: '데이터 다운타임'을 줄이자

데이터 다운타임 : 데이터가 누락됐거나, 부정확하거나, 데이터에 오류가 있어 생기는 문제.

즉, '데이터 다운타임'은 신뢰할 수 없는 데이터가 너무 많을 때 일어난다.
데이터 품질을 개선하려면 기술적인 측면뿐 아니라 거버넌스와 조직 문화 같은 다른 많은 영역을 고려해야 한다.

 

개발을 하면서도 관리가 안 된 서비스(코드)는 코드를 추가/수정할 때마다 또다를 버그를 만들어내는 문제의 근원이다.

개선 패치를 빠르게 적용하지 못할경우 서비스가 '다운'되는 것이다.

 

이 책을 읽고 노하우를 체득하여 끔찍한 경험을 하는 일이 줄었으면 좋겠다.

 

 

 


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
리뷰를 위해 한빛미디어에서 책을 제공받았지만 주관적인 생각을 그대로 적었습니다.

이 리뷰가 도움이 되었나요? 공감 0 댓글 0
  •  쿠폰은 결제 시 적용해 주세요.
1   25,200
뒤로 앞으로 맨위로 공유하기