품목정보
발행일 | 2023년 04월 10일 |
---|---|
쪽수, 무게, 크기 | 376쪽 | 678g | 183*235*16mm |
ISBN13 | 9791198140814 |
ISBN10 | 119814081X |
발행일 | 2023년 04월 10일 |
---|---|
쪽수, 무게, 크기 | 376쪽 | 678g | 183*235*16mm |
ISBN13 | 9791198140814 |
ISBN10 | 119814081X |
CHAPTER 1 지금, 데이터 품질에 주목해야 하는 이유 1.1 데이터 품질이란? 1.2 데이터 품질의 현재 1.3 마치며 CHAPTER 2 신뢰할 수 있는 데이터 시스템 구축을 위한 블록 조립 2.1 운영 데이터와 분석 데이터의 차이 2.2 차이는 어떻게 만들어지는가? 2.3 데이터 웨어하우스 vs 데이터 레이크 2.4 데이터 품질 지표 수집 2.5 데이터 카탈로그 설계 2.6 데이터 카탈로그 구축 2.7 마치며 CHAPTER 3 데이터 수집 · 정제 · 변환 · 테스트 3.1 데이터 수집 3.2 데이터 정제 3.3 배치 처리 vs 실시간 처리 3.4 실시간 처리를 위한 데이터 품질 3.5 데이터 정규화 3.6 분석 데이터 변환 실행 3.7 테스트 및 경고 알람 시스템 3.8 아파치 에어플로를 활용한 데이터 품질 관리 3.9 마치며 CHAPTER 4 데이터 파이프라인 모니터링 및 이상 탐지 4.1 알려진 미지와 알려지지 않은 미지 4.2 이상 탐지 알고리즘 구축 4.3 스키마 및 계보를 위한 모니터 구축 4.4 파이썬과 머신러닝으로 이상 탐지 확장 4.5 이상 탐지의 심화 과정: 기타 유용한 접근법 4.6 데이터 품질 모니터 설계: 데이터 웨어하우스 vs 데이터 레이크 4.7 마치며 CHAPTER 5 데이터 신뢰성을 위한 아키텍처 5.1 수집 단계에서 높은 데이터 신뢰성 측정 및 유지 5.2 파이프라인에서 높은 데이터 품질 측정 및 유지 5.3 데이터 품질 다운스트림 5.4 데이터 플랫폼 구축 5.5 데이터 신뢰 구축 5.6 [사례 연구] 블링키스트 5.7 마치며 CHAPTER 6 대규모 데이터 품질 문제 해결 6.1 소프트웨어 개발 시 품질 문제 조정 6.2 데이터 사고 관리 6.3 사고 대응 및 완화 6.4 [사례 연구] 페이저듀티의 데이터 사고 관리 6.5 마치며 CHAPTER 7 엔드 투 엔드 데이터 계보 구축 7.1 최신 데이터 시스템을 위한 엔드 투 엔드 필드 레벨 데이터 계보 구축 7.2 [사례 연구] 폭스의 데이터 신뢰성을 위한 아키텍처 7.3 마치며 CHAPTER 8 데이터 품질 민주화 8.1 데이터를 프로덕트로 다루는 시각 8.2 데이터를 프로덕트로 다루는 사례 8.3 데이터 플랫폼을 향한 신뢰 축적 8.4 데이터 품질 책임 할당 8.5 데이터 품질 보장을 위한 책임감 조성 8.6 데이터 접근성과 신뢰 간 균형 8.7 데이터 인증 8.8 데이터 인증 프로그램 실행 7단계 8.9 [사례 연구] 적합한 데이터 조직을 찾는 토스트의 여정 8.10 데이터 리터러시 함양 8.11 데이터 거버넌스와 컴플라이언스 8.12 데이터 품질 전략 수립 8.13 마치며 CHAPTER 9 현실에서의 데이터 품질: 전문가 대담과 사례 연구 9.1 데이터 품질 향상을 위한 데이터 메시 구축 9.2 왜 데이터 메시인가? 9.3 자마크 데가니와의 대화: 데이터 메시에서 데이터 품질의 역할 9.4 [사례 연구] 콜리브리 게임즈의 데이터 스택 여정 9.5 비즈니스에 메타데이터 활용 9.6 데이터 검색에서 얻는 메타데이터의 가치 9.7 데이터 품질 관리 시기 결정 9.8 마치며 CHAPTER 10 신뢰할 수 있는 데이터 시스템의 미래 개척 10.1 사후 대응이 아닌 사전 예방적 대응 10.2 데이터 품질 및 신뢰성의 미래 예측 10.3 이제부터 우리는 무엇을 해야 할까? 찾아보기 |
언젠가부터 가장 많이 듣는 용어 중 하나가 바로 '데이터'이다.
단순한 자료 또는 검색 대상으로서의 데이터가 지니는 의미 이상으로서
각종 보고서의 근거가 되고, 보다 나은 프로덕트를 보증하고, 인공 지능을 학습시키고, 특히 ChatGPT를 학습시키는 것이 바로 데이터이다.
데이터는 정확성, 일관성, 신뢰성, 가용성, 현재성, 이식성 등 품질 평가 항목이 많다.
누구나 Garbage In Garbage Out의 의미는 정확히 알고 있다.
하지만 현업에서는 시간에 쫓기고, 업무량에 치이고, 데이터 처리 결과에 매몰되는 경우가 많은 것이 일상처럼 느껴진다.
데이터 활용 기술을 다루는 콘텐츠는 매우 많지만, 모든 프로덕트의 근간이 되는 데이터에 품질에 대해서 고민하게 만드는 것은 비교적 드물기에 본서의 가치를 높이 평가할 수 있겠다.
본서는 데이터 품질의 개념부터 데이터의 품질과 신뢰성 확보를 위한 접근 방식, 그리고 모범 사례까지 맥락을 유지하며 잘 구성된 것 같다.
데이터 엔지니어, 데이터 분석가, 데이터 과학자 등 데이터 직무 종사자에게 훨씬 더 유용하겠지만, 현업에서 데이터를 활용하는 사람이라면 데이터 분야에 대한 지식이 없더라도 충분히 이해할 수 있을 것 같다.
나 또한 정독을 하고 나니 데이터 신뢰성에 대한 혜안이 생긴 것 같다... 라고 해놓고선 또 데이터 막 갖다 쓰는 건 아닌지 모르겠다. :)
마지막으로 이 문구가 특별히 와 닿는다.
"저품질 데이터를 쓰느니 데이터가 없는 편이 더 낫다."
회사에서 빅데이터 플랫폼관련 개발을 하고 있어서 데이터 품질에 대한 관심도가 많은 편이다. 어느 플랫폼/솔루션이나 마찬가지겠자만 지속적으로 개발/수정되고 있기 때문에 데이터 수집, 정제, 변환, 테스트 등에 대한 고민이 늘 있다. 아직은 초창기라서 오류 처리등에 대해서도 미숙한 부분이 있다. 이 책에서는 각종 오픈 소스를 통해서 좀 더 편하고 체계적으로 오류처리를 하는 부분도 소개해 주고 있어서 데이터 수집부분에 대한 품질을 좀 더 높여 볼 수 있는 포인트를 잡을 수 있었다.
또한, 전체적으로 검증단계에서 데이터가 오수집으로 인한 오류 등이 발생할 수 있는 데, SQL Query에 대한 예시를 보여주면서 예시로 쉽게 접근 할 수 있어서 좋았다.
품질에 대해서는 최대한 플랫폼 측면에서 쉽게 접근해줘야 한다고 생각을 하고 있지만, 어디서부터 해야하는 지에 대한 고민이 많이 있었다. 이책에서는 기본적인 품질 모니터링에 대한 예시 등을 제시해주고 있어서 이 책에 나온것을 바탕으로 현재 개발하고 있는 플랫폼에도 적용해 볼 생각을 가지게 되었다.
데이터를 다루고 있는 분들이라면 이 책을 통해서 품질에 대한 소개를 통해서 한 층 더 업그레이드 될 수 있는 책이라고 하겠다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
한 줄 요약 : 데이터 처리 품질을 높이고 싶다면 또는 데이터 처리 프로세스를 수립해야한다면 참고하기 좋은 책
개발조직에서 개발과 운영은 하나처럼 동작하는 '데브옵스(DevOps)'라는 개념이 일반화됐다.
물론 안정적인 운영을 위해 수많은 시행착오를 거쳤고, 안정화가 됐다.
자연스럽게 이런 흐름이 데이터 분야에도 일어나고 있다.
데이터옵스(DataOps)
기업 데이터에 대한 깊이 있는 인사이트를 얻기 위해 DevOps 접근법을 이용하는 데이터 관리 방식
출처 : HPE(Hewlett Packard Enterprise)
이번에 리뷰할 《데이터 품질의 비밀》가 데이터옵스(DataOps)를 다루는 가이드북이다.
보통의 데이터 입문서는 정제되어 있는 데이터를 라이브러리,패키지를 이용해 시각화하는 흐름으로 구성되어 있다.
하지만 《데이터 품질의 비밀》을 읽으며 느낀 특징은 아래와 같다.
1. 데이터 정제를 왜 잘 해야하는지
2. 찌꺼기데이터를 필터링 하는 방법과 과정
3. 데이터 처리 프로세스를 구축하기 전, 구축하는 중, 구축 후 고민할 점
저자는 데이터 플랫폼(서비스)를 제공할 때 과정(레이어)을 제시한다.
그리고 각 단계에서 발생하는 문제점과 대응 경험을 전달한다.
게다가 SQL쿼리를 통해 문제발생 전에 문제를 탐지하는 방법도 알려주고 있다.
실제 서비스 업체의 사례도 다양하게 수록되어 있어서 데이터 아키텍처, 프로세스들을 엿볼수도 있다.
《데이터 품질의 비밀》에서 기억에 남는 부분
9장 '현실에서의 데이터 품질 : 전문가 대담과 사례 연구'
전문가들이 '데이터 품질' 주제의 토론하는 내용이 담겨있었기 때문이다.
처음에는 그냥 눈으로 훑어봤다.
다시 읽을 때는 질문을 보고 내 생각을 짧게 정리한 후 저자의 답변과 비교하며 읽었다.
같은 문제에 대해 '이렇게 문제를 풀어나갈 수도 있구나'하는 재밌는 경험이었다.
《데이터 품질의 비밀》 장점
데이터를 가공하다보면 경험하게 될 문제들이 이 책에 상세히 나열되어 있다.
즉, 책을 통해 향후 겪게 될 문제상황들을 사전에 대비할 수 있다.
《데이터 품질의 비밀》 전체를 관통하는 주제: '데이터 다운타임'을 줄이자
데이터 다운타임 : 데이터가 누락됐거나, 부정확하거나, 데이터에 오류가 있어 생기는 문제.
즉, '데이터 다운타임'은 신뢰할 수 없는 데이터가 너무 많을 때 일어난다.
데이터 품질을 개선하려면 기술적인 측면뿐 아니라 거버넌스와 조직 문화 같은 다른 많은 영역을 고려해야 한다.
개발을 하면서도 관리가 안 된 서비스(코드)는 코드를 추가/수정할 때마다 또다를 버그를 만들어내는 문제의 근원이다.
개선 패치를 빠르게 적용하지 못할경우 서비스가 '다운'되는 것이다.
이 책을 읽고 노하우를 체득하여 끔찍한 경험을 하는 일이 줄었으면 좋겠다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
리뷰를 위해 한빛미디어에서 책을 제공받았지만 주관적인 생각을 그대로 적었습니다.