확장메뉴
주요메뉴


소득공제 베스트셀러
미리보기 공유하기

다크 데이터

: 보이지 않는 데이터가 세상을 지배한다

리뷰 총점9.5 리뷰 32건 | 판매지수 9,411
베스트
자연과학 52위 | 자연과학 top20 3주
정가
19,000
판매가
17,100 (10% 할인)
북클럽머니
최대혜택가
15,600?
YES포인트
배송안내
서울특별시 영등포구 은행로
지역변경
  • 배송비 : 무료 ?
  •  해외배송 가능
  •  최저가 보상
  •  문화비소득공제 신청가능
전사
현대카드
1 2 3 4 5

품목정보

품목정보
출간일 2021년 10월 13일
쪽수, 무게, 크기 396쪽 | 604g | 148*225*30mm
ISBN13 9791165217099
ISBN10 1165217090

이 상품의 태그

책소개 책소개 보이기/감추기

보이지 않는 데이터의 세계에서 올바른 결정을 내리기 위한 실용적 가이드

이른바 빅데이터 시대, 우리는 의사결정을 잘하는 데 필요한 정보는 다 가지고 있다고 생각하기 쉽다. 하지만 사실 우리가 가진 데이터가 ‘온전했던’ 적은 없었다. 손에 쥔 데이터는 빙산의 일각일지도 모른다. 우주의 상당 부분이 보이지는 않아도 엄연히 존재하는 암흑물질로 이루어져 있듯이, 정보의 우주 역시 우리가 위험천만하게 간과할 수 있는 ‘다크 데이터’로 가득하다.

영국 왕립통계학회장을 역임했으며 대영제국 훈장을 수여한 세계적인 통계학자 데이비드 핸드는 신작 《다크 데이터》에서 보이지 않는 데이터의 세계를 향한 흥미진진한 여정으로 우리를 인도한다.

의료 통계, 금융상품 설계, 인구조사, 실험 설계에서
금융사기 감지, 투자 예측, 질병 진단, 개인정보 보호까지
‘다크 데이터’의 함정을 피하고 위험을 기회로 만드는 법

《다크 데이터》는 우리가 누락된 데이터를 알아차리지 못하게 되는 과정들, 그리고 그로 인해 우리가 어떻게 잘못되고 위험하고 심지어 파국에 이를 수도 있는 결론과 행위에 이르게 되는지 다각도에서 탐사한다. 우주왕복선 챌린저호 폭발사고부터 복잡한 금융사기와 AI 알고리즘까지, 현실에서 만날 수 있는 다양한 사례를 면밀하게 파고든다. 데이비드 핸드는 우리가 다크 데이터를 분별하고 제어하는 법을 익힐 수 있도록, 세상에 존재하는 ‘다크 데이터’의 유형과 그것들이 발생하는 상황들에 대해 현실적인 분류법을 제시한다. 이로써 우리는 ‘우리가 모르는 것들’이 초래하는 문제들에 대해 경각심을 가질 뿐만 아니라, 다크 데이터를 이용해서 더 깊은 이해와 더 나은 결정을 하게 된다

목차 목차 보이기/감추기

1부
다크 데이터는 어떻게 생겨나고
어떤 결과를 초래하는가

1장.
다크 데이터: 보이지 않는 것이 이 세계를 만든다
보이지 않는 위험, 다크 데이터
데이터를 다 갖고 있다고 생각하는군요?
아무 일도 안 생겨서 무시해버릴 때 생기는 일
다크 데이터의 위력
다크 데이터는 언제 어디에나 있다

2장.
다크 데이터 찾아내기:
우리가 모은 것과 모으지 않은 것
데이터를 얻는 3가지 방식과 다크 데이터의 출현
데이터 잔해에서 얻는 다크 데이터
설문조사에서 생기는 다크 데이터
실험 데이터에도 다크 데이터가 끼어든다
인간적 취약점에 주의하시라

3장.
다크 데이터와 정의:
알고자 하는 것이 정확히 무엇인가?
엉뚱한 것을 측정해버렸다: 정의가 달라질 때
‘모든’ 것을 측정할 수는 없다: 심슨의 역설
질병 검진 프로그램의 취약성
과거 성과를 보고 선택할 때의 다크 데이터

4장.
의도하지 않은 다크 데이터: 말과 행동이 따로 놀 때
어디까지 정확해야 하지?
요약은 필연적으로 다크 데이터를 만든다
인간이니까 생기는 오류
측정 도구의 한계
데이터 세트를 통합할 때의 문제

5장.
전략적 다크 데이터: 게이밍, 피드백, 정보 비대칭
게이밍: 빈틈을 이용해 이득을 얻다
피드백: 피드백이 데이터를 왜곡시킬 때
정보 비대칭: 중고차 시장에서 무슨 일이 일어났나
다크 데이터가 알고리즘에 끼치는 영향

6장.
고의적 다크 데이터: 사기와 기만
사기의 세계: 핵심은 데이터 숨기기다
신원 도용과 인터넷 사기: ‘자칼의 날’
계속 진화하는 개인금융 사기
금융시장 사기와 내부자 거래
보험 사기: 고객을 속이거나 보험사를 속이거나
그 밖의 사기: 돈세탁, 다단계 사기, 횡령

7장.
다크 데이터와 과학: 발견의 본질
과학의 본질: 검증 체계로서의 과학
내가 그걸 알았더라면!: 과학자들의 흑역사
우연히 만난 다크 데이터: 과학자들의 행운
반복 실험을 통한 재현: 과학 연구의 다크 데이터
사실을 감추는 방법들
철회
출처와 신뢰성: “누가 그러던가요?”


2부
다크 데이터에 빛을 비추고 이용하는 법

8장.
다크 데이터 다루기: 빛을 비추기
희망은 있다
관측 데이터를 빠진 데이터와 연결하기
3가지 데이터 누락 메커니즘
이미 가진 데이터를 활용하는 법
생존분석 문제: 당신이 먼저 죽는다면?
대치법: 빠진 데이터를 채워넣기
반복: 최대가능도 모형과 EM 알고리즘
데이터 오류에 대처하는 방법

9장.
다크 데이터로 이득을 얻는 법: 질문을 바꿔보자
데이터를 숨기는 게 이득이 될 때
무작위 대조군 시험: 데이터를 모두에게 숨겨라
시뮬레이션: 일어났을 수도 있는 일
전략적으로 복제된 데이터
베이즈 사전확률: 가상의 데이터
사생활 보호와 기밀 유지
데이터를 다크 상태로 수집하기

10장.
다크 데이터 분류법: 미로 속으로 난 길
다크 데이터의 15가지 유형
새롭게 조명하기

책 속으로 책속으로 보이기/감추기

나는 온갖 유형의 누락된 데이터를 통칭해 ‘다크 데이터dark data’라 부른다. 다크 데이터는 우리가 볼 수 없게 숨겨져 있는데, 그 때문에 우리는 오해하고 틀린 결론을 내리고 나쁜 결정을 할 우려가 있다. 한마디로 무지 때문에 판단을 그르칠 수 있다는 뜻이다.
--- 「1장. 다크 데이터 보이지 않는 것이 이 세계를 만든다」중에서

뭐가 문제람? 그냥 결과가 알려진 환자 146,270명을 분석한 뒤에 그걸 바탕으로 진단을 내리면 되지 않을까? 어쨌거나 146,270은 큰 수니까(의학 분야에서 이만하면 ‘빅데이터big data’이므로) 이 데이터를 바탕으로 내린 결론이라면 그것이 무엇이든 옳다고 확신할 수 있을 듯하다.
하지만 과연 그럴까? 어쩌면 결과를 모르는 19,289건은 다른 사례의 결과와 매우 다를지도 모른다. (중략)
쏙쏙 이해가 되게끔 실제로 일어나기 어려운 극단적인 예를 들어보겠다. 결과가 알려진 146,270명은 치료 없이도 회복되어 생존했지만, 결과가 알려지지 않은 19,289명은 모두 입원 이틀 내에 사망했다고 하자. 만약 결과가 알려지지 않은 사례들을 무시한다면, 우리는 당연히 트라우마 환자들이 전부 회복되었으니 걱정하지 않아도 된다고 결론 내릴 것이다. 그리고 이를 근거로 우리는 트라우마로 입원한 환자들은 저절로 회복되리라 예상하며 아무 치료도 하지 않을 것이다. 그러다가 11퍼센트가 넘는 환자가 죽어가는 현실과 맞닥뜨리고는 충격과 혼란에 휩싸이고 말 것이다.
--- 「1장 | 다크 데이터 보이지 않는 것이 이 세계를 만든다」중에서

문제는 그보다 훨씬 더 심각했다. 실제로 여러 겹의 다크 데이터가 숨어 있었다. 예를 들면 다음과 같다.
실제로 누가 신청했는가? 예전에 은행은 잠재 고객에게 대출을 원하는지 물어보는 우편을 보냈을지 모른다. 원한다고 대답한 고객도 있고 원하지 않는다고 대답한 고객도 있었을 것이다. 대량 발송된 편지에 대답한 사람들만이 데이터에 포함되었을 텐데, 응답하고 싶은 마음은 편지의 내용, 대출 금액, 대출 이율, 그리고 내가 모르는 다른 여러 요소에 따라 정해졌을 것이다. 여기서 답변하지 않은 고객들은 다크 데이터를 나타낸다.
누구한테 제안했는가? 답변한 고객들은 평가를 받았을 것이며, 그들 중 누구는 대출을 제안받고 누구는 받지 못했을 것이다. 하지만 은행이 어떤 근거에서 대출을 제안했는지는 모르기 때문에 나는 더 많은 다크 데이터를 안고 있는 셈이었다.
누가 제안을 받아들였는가? 앞의 두 선택 과정과 더불어 대출을 제안받은 고객 중 일부는 받아들이고 일부는 받아들이지 않았을 것이다. 또 한 겹의 다크 데이터가 생긴다.
이렇게 여러 겹의 다크 데이터가 뒤섞여 있으므로 내가 받은 데이터가 문제 해결, 곧 새 신청자를 평가할 모형을 세우는 일과 어떻게 관련이 되는지 좀체 파악되지 않았다.
--- 「2장 | 다크 데이터 찾아내기 우리가 모은 것과 모으지 않은 것」중에서

경제 분야의 사례로 인플레이션의 측정을 들 수 있다. 인플레이션의 정의는 규정된 상품 및 서비스 집합[이른바 상품 및 서비스의 ‘바스켓basket(바구니)’, 물론 진짜 바구니는 아니다]의 가격을 기록하고 평균 가격이 시간에 따라 어떻게 변하는지 살피는 것에 기반한다. 하지만 여러 가지 복잡한 측면이 존재하는데, 전부 DD 유형 8: 데이터의 정의에서 비롯된다. 그중 하나를 들자면 ‘평균을 어떻게 계산하는가’라는 문제가 있다. 왜냐하면 통계학자들은 평균을 여러 가지 방식으로 계산하기 때문이다. 평균을 계산하는 방법으로는 산술평균, 기하평균, 조화평균 등이 있다. 최근에 영국은 대다수 다른 나라들과 보조를 맞추기 위해 산술평균에 바탕을 둔 지수를 사용하는 관행에서 벗어나 기하평균에 바탕을 둔 방법으로 바꾸었다. 다른 방법을 사용한다는 것은 무언가를 다른 관점에서 본다는 뜻이므로 당연히 데이터의 다른 측면이 보이거나 보이지 않게 된다.
--- 「3장 | 다크 데이터와 정의 알고자 하는 것이 정확히 무엇인가?」중에서

게이밍gaming은 현실에서 오해의 소지가 있고 모호하고 의도치 않은 측면들을 이용하려고 한다. 게이밍에서 다크 데이터는 의도적인 은폐가 아니라 오히려 시스템이 구성되는 방식에서 비롯되는 우발적인 측면 때문에 생기며, 사람들은 그 데이터를 이용할 수 있다. 한마디로 게이밍은 대체로 불법이 아니다. 목표는 규칙을 지키면서도 규칙을 조작하여 이득을 얻는 것이다. 게이밍은 DD 유형 11: 피드백과 게이밍에 해당한다.
--- 「5장 | 전략적 다크 데이터 게이밍, 피드백, 정보 비대칭」중에서

온갖 종류의 사기는 모두 정보를 숨기면서 벌어진다. 사기의 종류가 워낙 다종다양하다 보니 사기를 근절하려면 매우 다양한 전략이 많이 필요하다. 세부 기록을 일일이 힘겹게 확인하기(정교한 통계적 방법), 기계학습 및 데이터 마이닝 도구를 통해 비정상적으로 거래하는 전형적인 고객 행동 패턴을 모형화하기, 그리고 특정 종류의 거래가 발생할 때 경보 시스템 발동하기까지 온갖 전략이 필요하다. 다크 데이터에 관한 한 유념해야 할 교훈은 우리에게 이미 익숙한 것이다. ‘어떤 것이 사실이라고 하기엔 너무 좋아 보이면, 사실이 아닐 가능성이 크다.’ 아마도 진실을 숨기고 있을 것이다.
--- 「6장 | 고의적 다크 데이터 사기와 기만」중에서

요약하자면 과학의 근본적인 과정은 관측된 데이터로 이론을 검증하여, 이론과 데이터가 불일치하면 해당 이론을 버리거나 수정하는 일이다. 하지만 우리는 불일치가 새로운 통찰을 줄 수도 있다는 것을 깨달아야 한다. 만약 이론과 데이터가 일치하지 않으면, 데이터에 오류가 있기 때문일 수 있다. 내가 이 책에서 꼭 전해주고 싶은 말이다. 데이터는 언제나 오류, 측정의 불확실성, 표본 왜곡, 그리고 다른 여러 문제점을 안고 있으며, 따라서 데이터 오류는 실존하는 가능성이라는 것이다. 그래서 과학자들은 정확한 측정 도구를 제작하고 정밀하게 통제된 조건하에서 측정하려고 온갖 노력을 다 기울인다. 측정 대상이 질량, 길이, 시간, 은하 사이의 거리, 지능, 의견, 복지, GDP, 실업, 인플레이션이든 다른 어떤 것이든 간에 말이다. 정확하고 신뢰할 만한 데이터는 제대로 된 과학에 필수적이다.
--- 「7장 | 다크 데이터와 과학 발견의 본질」중에서

사실 우리는 2장에서 금융지수를 살펴보면서 특히 SDD 누락의 경제적 사례들을 이미 접했다. 가령 다우존스산업평균지수는 미국의 30개 민간 대기업들의 개별 주가의 합을 다우 제수Dow divisor로 나눈 값이다. 하지만 기업은 생겼다 사라진다. 그리고 다우존스를 구성하는 기업들은 이 지수가 처음 시작된 1896년 이래로 50번 넘게 바뀌었다. 특히 재정적 어려움에 처하거나 경제 상황이 바뀔 때 기업들이 지수에서 빠질지 모른다. 다시 말해 다우지수는 전체 기업 실적을 대표하지 않고 꽤 잘나가는 기업들만 대표한다. 하지만 실적 퇴보나 경제적 상황 변화의 징후가 먼저 생긴 다음에 특정 기업을 지수에서 빼는 결정이 내려지므로, 데이터는 SDD다.
마찬가지로 시가총액이 큰 500개 기업의 가중치 적용 주가 평균인 S&P500에 속한 기업들도 다른 기업과 비교하여 실적이 악화될 때 지수에서 빠진다. 어느 기업을 빼는 결정은 반드시 사전에 입수한 데이터를 기반으로 내려져야 한다(데이터를 소급 적용해서는 안 된다!). 따라서 이번에도 배제된 기업을 설명하는 데이터, 곧 지수 계산에서 빠지는 데이터는 SDD라고 할 수 있다.다.
--- 「8장 | 다크 데이터 다루기 빛을 비추기」중에서

웹에서 모은 데이터 세트의 다크 데이터에는 더 심각한 문제점들도 있다. 이를테면 구글의 검색 알고리즘은 더 효율적으로 작동하기 위해 끊임없이 업데이트된다. 하지만 이 변경의 세부사항은 그런 과정에 깊이 관여하는 사람들을 제외하고는 대체로 모든 사람에게 알려지지 않는다. 최근의 변경 내용으로는 등급을 매길 때 웹페이지 품질 평가 점수의 도입, 조작으로 보이는 웹사이트의 강등, 검색어의 의도에 더 잘 맞추기 위한 자연어 처리, 모바일 친화적인 페이지의 등급 격상, 그리고 구글의 지침을 위반하는 웹사이트 식별 등이 있다. 이 모든 변경 사항은 타당하고 유익해 보이지만, 요점은 구글이 데이터 수집의 속성을 바꾼다는 사실 자체다. 다시 말해 이전에 수집된 데이터와 변경 후에 수집된 데이터를 비교하기가 어렵다(DD 유형 7: 시간에 따라 변하는 데이터). 특히 경제 및 사회복지 지표들의 값이 달라질 수 있는데, 기본적인 현실이 바뀌어서가 아니라 현실을 다루기 위해 수집되는 데이터가 바뀌었기 때문이다. 이른바 지표 표류indicator drift가 생기는 것이다. 이런 변화의 밑바탕에 다크 데이터가 도사리고 있다.
--- 「10장 | 다크 데이터 분류법 미로 속으로 난 길」중에서

출판사 리뷰 출판사 리뷰 보이기/감추기

누락된 데이터의 바다에서
‘다크 데이터’를 만나다
개인의 삶에서든 전문분야에서든 우리는 무언가 결정할 때면 대개 어떤 형태로든 데이터를 가지고 시작한다. 그런데 우리는 미래를 알고 싶어하면서도 미래가 과거와 크게 다르지 않다고 추정하는 등의 무모한 판단을 무심코 계속하는 경향이 있다. 하지만 손에 쥔 데이터는 전부가 아니다. 빅데이터의 모멘텀이 점점 가속됨에 따라 우리가 놓치고 있는 다크 데이터의 위험성도 커지고 있다.
우리에게 없거나 우리가 모르는 데이터를 저자는 물리학의 ‘암흑물질dark matter’에 빗대어 ‘다크 데이터’라 부른다. 우리는 그 사실을 알 수도, 모를 수도 있다. ‘다크 데이터’는 쉽게 말해 ‘우리가 갖고 있지 않은’ 데이터다. 다크 데이터는 어디서든 생겨나며 모든 곳에 있다. 그리고 다크 데이터의 정의상 가장 큰 위험은 우리가 그 존재를 모를 수 있다는 점이다. 다크 데이터는 언제 어떻게 생겨나서 작동하며, 어느 순간에 우리의 뒤통수를 치는가? 다크 데이터를 역이용하여 틀리지 않고 이기는 결정을 내릴 방법은 없는가? 세계적인 통계학자 데이비드 핸드는 데이터 폭증의 시대에 더욱 ‘다크 데이터 관점’이 중요함을 역설하며, 어디에든 존재하는 다크 데이터의 속성과 그 원인 및 결과를 망라해나간다.

이 책은 우리가 ‘갖고 있지 않은’ 데이터를 다룬다. 그러니까 우리가 지금 갖고 싶거나, 이전에 가지고 싶었거나, 또는 가진 줄 알지만 실제로는 갖고 있지 ‘않은’ 데이터에 관한 책이다. (중략) 볼 수 없는 데이터는 우리를 잘못된 길로 이끌 잠재력이 있으며, 앞으로 살펴보겠지만 때로는 파국을 초래하기도 한다. 그런 일이 어떻게 그리고 왜 생기는지 알려주겠다. 또 파국을 어떻게 막을지, 파국을 피하려면 무엇을 찾아야 할지도 알려주겠다. 그다음에는 어쩌면 놀랍게도, 다크 데이터를 역이용하여 종래의 데이터 분석 방식을 어떻게 뒤집을 수 있는지도 알려주겠다. 다시 말해 (우리가 충분히 현명하다는 전제하에) 어떻게 하면 데이터를 숨기는 것이 더 깊은 지혜, 더 나은 결정, 더 나은 행동의 선택으로 이어질 수 있는지도 알아보자. _서문에서
세계적 통계학자 데이비드 핸드,
‘다크 데이터’를 간파하고 활용하는 법을 말하다
데이비드 핸드는 왕립통계학회 회장을 역임하고 대영제국 훈장을 받은 통계학계의 세계적인 권위자다. 그는 금융, 건강, 약학, 의료 분야 및 정부를 위해 대량의 데이터를 분석해오면서 오랜 세월에 걸쳐 ‘다크 데이터’의 정체에 눈을 떴다. 《다크 데이터》는 그 정수를 모은 것으로, 데이비드 핸드는 ‘누락된 데이터’ 분야의 전문가이자 선구자라 해도 과언이 아니다.
전작 《신은 주사위 놀이를 하지 않는다: 로또부터 진화까지, 우연한 일들의 법칙》에서 핸드는 ‘일어날 가능성이 거의 없는 사건들’의 법칙을 다뤄 세상의 시선을 끌었다. 이번 책에서는 전작의 맥을 이어 의료?제약?행정?사회정책?금융?제조업 등 각 분야의 다크 데이터 현상에 다가간다. ‘우리가 모른다는 것을 아는 데이터’와 ‘우리가 모른다는 것조차 모르는 데이터’들을 대상으로 삼아, 빅데이터 시대 문제 해결의 본질적 맹점을 확인하고 보완한다.
문제들의 근본적 해결책은, 데이터의 우주 속 알려지지 않은 어두운 영역들이 우리의 인식을 어떻게 왜곡하는지 파악하는 것이다. 그러면서 ‘데이터가 불완전할 수도 있다’는 것을 인식하지 못한다면, 또 무언가를 측정하는 것이 곧 모든 것을 측정하는 것을 뜻하지는 않으며 측정 절차와 측정 대상은 미묘하고도 비뚤어진 방식으로 상호작용할 수 있다는 것을 인식하지 못한다면, 우리는 지금 세상에 무슨 일이 벌어지고 있는지에 대해 심각한 오해만 얻을 것이라고 경고한다.


다크 데이터는 언제 어디서나 작동한다
우리에게는 ‘다크 데이터 관점’이 필요하다
데이터는 현실을 표상해주지만, 마치 캐리커처로 그린 만화와도 같다. 우리는 마치 만화가 사람의 얼굴이나 행동의 주요 특징을 포착하듯 데이터가 현실의 중요한 특징들을 포착하기를 바라지만, 누구도 그걸 보장해주지는 않는다. 실제로 데이터는 중요한 많은 것들을 쉽사리 빠뜨리고, 잘못된 결론과 끔찍한 의사결정을 낳곤 한다. 무시된 정보나 데이터는 회사나 경제를 무너뜨리고 인명을 앗아갈 수도 있다. 이 책은 마치 데이터의 세계를 둘러싸고 쫓고 쫓기는 추리소설처럼 현실 속 생생한 사례들을 심도 있게 해석해준다.

★ ‘다크 데이터’는 우리 주변 어디서나 작동하고 있다 ★
? 도로 침하나 재해 상황을 신고하는 스마트폰 앱이 놓친 것은?
? 챌린저호 폭발 사고에서 파국적인 결과를 낳은 다크 데이터의 정체는?
? 기존 대출 데이터로 미래 고객의 심사 모형을 설계할 때 만날 수 있는 문제는?
? 규제의 빈틈, 정보 비대칭 등을 이용하려는 시도는 어떤 현상을 낳는가?
? 나날이 진화하는 사기의 세계에서 데이터는 어떻게 숨겨지고 왜곡되어왔나?
? 학생들의 학점 인플레이션이 일어나는 원인에는 어떤 다크 데이터가 존재하는가?
? 반증 가능성과 자기수정이 본질인 과학은 과연 ‘재현 가능성’의 위기를 맞이했나?

‘서툰 범죄자들은 경찰에 잘 잡히지만, 진짜 영악한 사기꾼들은 발각되지 않고 빠져나가니까 결국 수많은 범죄자가 잡히지 않고 있는 것 아닌가?’ ‘증세가 뚜렷하지 않은 환자가 적절한 치료 타이밍을 놓치기 쉬운 이유는?’ ‘중고차 시장에는 왜 이렇게 형편없는 매물이 넘쳐날까?’ 같은 간단한 궁금증에서 시작해, 저자가 직접 금융기관으로부터 의뢰받아 대출심사 모델을 설계하면서 파악한 다크 데이터 문제, 오늘날 경제지표나 개인정보 암호화 등에 활용하는 첨단 기법 같은 사례들을 들어 실제 행정?비즈니스?IT?과학 연구 현장에서 데이터를 다룰 때 경계해야 할 지점들을 보여준다.
책의 1부에서는 다양한 사례를 통해 다크 데이터의 15가지 유형을 두루 살펴보고, 그것들을 간과한 것이 어떤 결과를 초래하는지 확인한다. 데이터 수집 과정과 더불어 다크 데이터가 생길 수 있는 몇 가지 방식을 따라, 설문조사, 의료 및 과학 연구, 학력 평가, 건강검진, 경제 정책 수립, 법령 개정, 심지어 현대인의 일상을 위협하는 각종 사기와 기만행위 등 현대 사회에서 다크 데이터가 존재할 수 있는 수많은 영역을 둘러본다. 그럼으로써 다크 데이터를 어떻게 감지할 것이며, 감지했거나 의심이 되면 어떤 조치를 취해야 하며 어떻게 다크 데이터를 방지하는 데이터 수집 전략을 설계해 다크 데이터를 제어할 수 있는지 보여준다.
이어서 책의 2부에서는 치명적 위험을 지닌 다크 데이터를 활용하는 법을 알려준다. 곧 (우리가 불확실성과 무지를 현명하게 제어할 줄 안다는 전제하에) ‘모른다는 것’을 최대한 역이용해서 좀 더 유용한 행동을 취하는 법을 알려준다. 크게 ‘다크 데이터를 명백하게 밝혀내는 방법(빠진 데이터를 보완하고 채워넣는 법)’ ‘다크 데이터를 참작하는 방법(오류에 대처하는 법)’ 그리고 더 들어가 ‘다크 데이터를 실제로 활용하는 방법(무작위 대조군 실험부터 시뮬레이션, 베이즈 사전확률 등)’ 등을 이야기한다.

우리는 모두 환한 곳을 바라보는 데 익숙해져 있다. 하지만 데이터는 완전히 객관적이지도 않고 ‘진리’도 아니다. 어둠 속 보이지 않는 곳에 분명 ‘더 나은 결정’을 위한 결정적 세부 사항이 숨어 있다. 그러니 데이터가 주도하는 이 세상에서 우리에게 필요한 것은 ‘데이터를 의심할 줄 아는 것’, 건강한 회의주의자로 사는 기술이다. 그래서 우리에게는 ‘다크 데이터’ 관점이 필요하다. 이 책은 보통 사람들이 평소에는 쉽게 알아볼 수 없는 통계학적 분석의 관점을 보여주며, 또한 ‘데이터 관점’을 ‘다크 데이터 관점’으로 뒤집어서 더 나은 결정을 향한 또 다른 시야를 열어준다.
우리는 끊임없이 경계하며 자문해야 한다. “우리는 무엇을 놓치고 있는가?”

회원리뷰 (32건) 리뷰 총점9.5

혜택 및 유의사항?
포토리뷰 보이지 않는 데이터가 세상을 지배한다 내용 평점4점   편집/디자인 평점4점 스타블로거 : 블루스타 r***a | 2021.10.26 | 추천0 | 댓글0 리뷰제목
  기술들이 발생하면서 데이터에 대한 중요성도 커져가고 있다. 너무 많은 데이터가 발생하고, 존재하고 있고, 그 중에서 유의미한 데이터를 찾고 분석하는 업무와 자격증도 있다.       데이터를 이용해 질병을 예측하기도 하고, 새로운 서비스를 창출하거나 의사결정에 도움을 준다. 그만큼 기업과 정부의 데이터를 보관하는 데이터센터들도 계속 건설되고 있다;
리뷰제목

  기술들이 발생하면서 데이터에 대한 중요성도 커져가고 있다. 너무 많은 데이터가 발생하고, 존재하고 있고, 그 중에서 유의미한 데이터를 찾고 분석하는 업무와 자격증도 있다.

 

 

  데이터를 이용해 질병을 예측하기도 하고, 새로운 서비스를 창출하거나 의사결정에 도움을 준다. 그만큼 기업과 정부의 데이터를 보관하는 데이터센터들도 계속 건설되고 있다. 그렇기에 분석하는 데이터 자체가 얻고자 하는 것에 맞는 데이터인지, 오류는 없는지 등등의 문제 역시 중요할 수 밖에 없다. 그러나 우린 보통 데이터를 수집하고 활용하는 것 위주로 생가하지 우선 적으로 생각해봤어야 할 그 부분을 중요시 하지 않고 있었던 것 같다.

 

 

  다크 데이터는 바로 그 알 수도 모를수도 있는 '우리가 갖고 있지 않은'데이터들에 대한 이야기를 15개의 유형과 통계적인 사례들을 통해 설명해 주고 있다. 다크 데이터라는 단어만 들으면 우리가 모르는 숨겨진 데이타, 문제가 있는 데이터라고 생각되어졌는데 저자가 제시하는 유형들을 보면 그 범위는 아주 광범위하고 우리의 주변에서도 흔히 볼 수 있는 것들도 많았다. 일부 사례만 선택한다던가, 정보의 비대칭성, 조작된 합성 데이터의 경우 우리가 특히나 많이 인지하게 되는 다크 데이터의 유형이 아닌가 생각이 든다. 업무시간 중 전화가 와 끊어버렸던 통계조사의 결과를 볼 때, 주식시장에서의 사건들을 볼 때 등등이 그에 해당하지 않나 싶다.

 

 

  데이터는 정부와 기업, 기술자들만이 이용하는 것이 아니다. 우리 개개인 역시 데이터를 만들어내고 사용하는 이들이기에 그냥 이용하기만 할 것이 아니라 다크 데이터들에 대한 관심 역시 필요하다는 것을 느꼈다. 통계학적인 내용으로 가득 차 있는 책이라 쉽지만은 않았지만 데이터를 접할때, 데이터이용을 바라볼때 '우리는 무엇을 놓치고 있는가?'란 질문을 앞으로는 할 수 있게 하는 책인 것 같다.

 

 


 

 

 

#다크데이터 #데이비드핸드 #더퀘스트

#컬처블룸 #컬처블룸리뷰단 #리뷰이벤트

#자연과학 #수학 #확률통계

 

 

     [  출판사로부터 책을 제공받아 주관적으로 작성한 리뷰입니다  ]


 

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
포토리뷰 다크 데이터 내용 평점5점   편집/디자인 평점5점 스타블로거 : 수퍼스타 m**********m | 2021.10.26 | 추천0 | 댓글0 리뷰제목
        다양한 형태의 자료와 정보, 지식 등을 활용해서 살아가는 요즘 사회에서 데이터가 주는 긍정적인 의미는 무한하다. 하지만 저자는 일반적인 관점이나 데이터 활용보다는 다크 데이터의 가치와 활용사례에 대해 주목하며 대중적인 관점에서 데이터 자체를 어떤 기준으로 바라보며 나를 위해 사용하거나 더 나은 형태로 재가공, 확대 재생산의 가치를 구;
리뷰제목


 

 

 

 

다양한 형태의 자료와 정보, 지식 등을 활용해서 살아가는 요즘 사회에서 데이터가 주는 긍정적인 의미는 무한하다. 하지만 저자는 일반적인 관점이나 데이터 활용보다는 다크 데이터의 가치와 활용사례에 대해 주목하며 대중적인 관점에서 데이터 자체를 어떤 기준으로 바라보며 나를 위해 사용하거나 더 나은 형태로 재가공, 확대 재생산의 가치를 구현할 수 있는지 이에 대해 집중적으로 조명하고 있다. 물론 데이터의 일반화 시대에서 우리는 다양한 정보와 지식을 쉽게 습득하거나 실무적 상황에서 활용하며 자신의 가치를 표현하거나 더 나은 결과를 위해 사용하며 살아간다.

 

이에 데이터를 관리하는 또 다른 주체들이 존재할 수 있고 이들이 자신들의 이익을 위해 펼치는 다양한 전략으로 인해 피해를 겪기도 하나, 대부분의 사람들은 이런 부분에 대한 관심보다는 오직 나에게 영향을 미치는지, 이에 대한 반응을 통해 데이터 자체를 긍정적으로 보며 활용하고 있는 것도 사실이다. 하지만 시대변화의 속도가 빠를수록, 그리고 더 치열한 경쟁상황과 사회적 분위기가 강해질수록 사람들은 데이터의 가치를 일반적으로 보지 않고, 누군가를 이기기 위한 전략이나 또는 약점을 잡고 내가 얻을 수 있는 결과적 가치에 편승하기 위해 다크 데이터의 유혹과 함정을 경험하게 되는지도 모른다. 

 

 

 


 

 

 

 

우리가 생각하는 일반적인 정보와 지식, 다양한 형태의 알고리즘 구조, 이를 확률이나 통계적 상황으로도 표현할 수 없거나, 또 다른 누군가가 지배하거나 조정하고 있다는 느낌을 받을 경우 이에 반응하는 것 또한 당연한 수순이다. 하지만 개인들은 이에 대해 명확히 증명하거나 확인하기 어렵다는 점에서 이를 널리 알리며 상황이나 사태에 대한 심각성을 인지해야 더 많은 형태에서 부정적인 현상을 막고 모두에게 유용한 방안으로의 전환, 또는 공익적 가치를 지키거나 유지하는 활용전략으로 사용할 수 있을 것이다.

 

분명 좋은 재료도 어떻게 사용하느냐에 따라 그 평가와 결과값이 달라지는 법이다. 책의 저자도 이 점에 주목하며 다크 데이터를 활용해서 위험을 기회적 요소로 만드는 방안이나 사회문제 해결 및 사회변화에 걸맞는 사람들의 인식의 전환, 또는 긍정적인 방향으로 데이터를 활용해야 하는 당연한 부분에 대해 함께 언급하고 있는 것이 특징적인 책이다. <다크 데이터> 자칫 모순과 함정에 빠질 수 있는 구조적인 부분이나 데이터 자체를 우리는 어떻게 받아들이며 평가하고 있는지, 책을 통해 읽으며 이를 현실적으로 판단해 보게 된다. 다양한 사례와 형태로 활용할 수 있는 무한한 가능성과 기회, 위험요소가 함께 표현되고 있는 다크 데이터에 대한 진단, 읽으며 활용해 보자. 

 

 

 

 

 


 

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
포토리뷰 다크 데이터 내용 평점5점   편집/디자인 평점5점 스타블로거 : 수퍼스타 서*촌 | 2021.10.26 | 추천0 | 댓글0 리뷰제목
      “데이비드 핸드는 통계라는 세계의 어두운 한구석에 밝은 빛을 비춘다. 어렵게 느껴질 수 있겠지만 재치 있고 잘 읽히며, 중요한 책이다.” 「팀 하포드, 파이낸셜타임스 수석 칼럼니스트」 빅데이터는 말은 요즘 꽤 많이 듣는 말인데, 다크데이터는 생소한 용어이다. 보이지 않는 데이터가 세상을 지배한다고 말하며, 1986년 40년 전의 챌린저호 폭발 사고에;
리뷰제목


 

 

 

데이비드 핸드는 통계라는 세계의 어두운 한구석에 밝은 빛을 비춘다. 어렵게 느껴질 수 있겠지만 재치 있고 잘 읽히며, 중요한 책이다.” 팀 하포드, 파이낸셜타임스 수석 칼럼니스트빅데이터는 말은 요즘 꽤 많이 듣는 말인데, 다크데이터는 생소한 용어이다. 보이지 않는 데이터가 세상을 지배한다고 말하며, 198640년 전의 챌린저호 폭발 사고에서 파국적인 결과를 낳은 것에 다크데이터의 정체가 있다고 말한다. 흥미를 유발하는 책인가? 그렇지 않다면, 책 표제의 많은 말들이 논리와 근거는 어디에서 오는 것일까 

 

 

데이비드 핸드(David John Hand, 1950~ 71) 영국 출신의 통계학자이다. 옥스퍼드 대학교를 졸업하고, 1988~1999년까지 OU 대학교에서 통계학 교수로 재직했고, Imperial College London에 현재 수학 명예 교수로 재직 중이다. 2003년 영국 아카데미 회원으로 선출되었으며, 왕립통계학회의 회장직을 2008~2010년간 역임했다. 영국기관, 유럽기관 등 통계에 관련된 위원회에 자문의 역할을 맡았으며, 전산 관련 통계에서는 세계적 권위자 임이 약력을 통해 알 수 있다.

 

 

빅데이터디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치뿐만 아니라 문자와 영상 더 나아가 몸짓과 행동 등 모든 것의 디지털 데이터를 말한다. 아주 간단하게 유튜브에 하루 동안 올라오는 영상을 다 보기 위해서는 평생을 영상만 보아도 다 볼 수 없다고 한다. 과거 컴퓨터로만 자료를 올리던 시대에도 모인 빅테이터는 1% 정도만 사용되고 99%는 방치되었다. 2007년 스마트폰의 보급과 2010SNS의 확산으로 페이스북, 트위터, 인스타그램, 유튜브, 틱톡, 메신저 프로그램들이 엄청나게 생산하고 있다. 실제 통계를 통해서 보아도 2004130EB(exabyte)를 생산하던 인터넷 기업이 10년만인 20158ZB(zettabye)를 생산하게 이른다. 2021년 지금은 아예 측정조차 불가능할지도 모른다. 1엑스 바이트는 미국 의회도서관의 인쇄물의 10만배에 해당하는 정보량이다. 1 제타 바이트는 1000엑스 바이트이고, 8000엑스 바이트는 미국 의회도서관 인쇄물의 8억 배에 해당하는 것이다. 이런 빅데이터는 계속해서 수집되고 있지만, 분석하는 플랫폼의 한계와 각종 이유로 인해 99% 이상 방치되고 있다.

 

 

 

 

 

다크데이터정보를 수집한 수, 저장만 하고 분석에 활용하고 있지 않은 다량의 데이터를 말한다. 저장된 정보는 미래에 사용할 가능성이 있다는 이유로 삭제되지 않고 방치되어 저장되어 개인과 기관의 보안 위험을 초래할 잠재적인 위험을 안고 있다. 1%의 데이터만으로 선거를 분석하고, 마케팅하고, 스포츠 경기를 분석하고, 기사를 쓰고, 세계의 경향을 분석한다. 미국의 16살 여학생이 월마트에 접속했을 때, 피임 도구와 육아용품을 가장 상단에 띄웠다는 기사는 우리의 일상 정보들이 어떻게 쓰이고 있는가에 관한 단편적인 사례일 뿐이다. 코로나 이후 비대면 서비스가 증가하면서, 고객에 대한 정보를 더욱 모으고 있다. 의료 통계, 금융 통계, 인구조사, 실험 설계, 투자 예측, 질병 진단, 개인정보 등 정부와 기업과 개인에 이르기까지 데이터를 모으는 데 혈안이 되어있다. 책은 다크데이터의 태동이 시기부터, 수십 년간 통계전문가로서 현실과 미래를 예측하는 내용으로 진행되고 있다. 단순하게 가정과 가설이 아닌, 실제 사례와 통계를 근거한 사실 위주로 말이다. 나는 이 다크데이터를 이렇게 표현하고 싶다. 4인이 포커를 치는데, 7장의 카드 중 4장은 빅데이터로 모두 공유되고 있고, 나머지 숨겨진 히든카드 3장은 판에 앉은 누군가에 의해 무단으로 들춰지고 있다고 말이다. 다크데이터는 절대 버려지는 쓸모없는 데이터가 아니다. 분석기술의 한계일 뿐 더욱 중요하고 조심스러운 정보가 넘쳐 흐르는 곳이다. 누군가는 그 속에서 가능성을 찾을 수 있을 것이고, 누군가는 그 속에서 자신의 안전을 지켜야 할 것이다. 20세기가 자본의 불균형이 가장 큰 문제였다면, 21세기는 디지털 불균형이 가장 큰 문제가 될 것이라고 많은 예상이 나오고 있다. 생산시설을 소유한 자본가보다, 데이터를 소유한 신인류가 새로운 지배계급으로 태동할 것이다.

 

 

 

 


 

댓글 0 이 리뷰가 도움이 되었나요? 공감 0

한줄평 (8건) 한줄평 총점 9.8

혜택 및 유의사항 ?
평점5점
데이터 이상을 생각하게 하는 책.
이 한줄평이 도움이 되었나요? 공감 0
o*****n | 2021.10.24
평점5점
스스로의 일생의 선택의 순간마다 현명한 판단을 하기 위해서라도 읽어야 할 필독서!
이 한줄평이 도움이 되었나요? 공감 0
아***인 | 2021.10.24
구매 평점4점
잘읽었습니다.
이 한줄평이 도움이 되었나요? 공감 0
y*****9 | 2021.10.15
  •  쿠폰은 결제 시 적용해 주세요.
1   17,100
뒤로 앞으로 맨위로 aniAlarm