확장메뉴
주요메뉴


닫기
사이즈 비교
소득공제 베스트셀러
다크 데이터

다크 데이터

: 보이지 않는 데이터가 세상을 지배한다

리뷰 총점9.5 리뷰 37건 | 판매지수 1,956
베스트
수학 65위 | 자연과학 top20 3주
정가
19,000
판매가
17,100 (10% 할인)

품목정보

품목정보
발행일 2021년 10월 13일
쪽수, 무게, 크기 396쪽 | 604g | 148*225*30mm
ISBN13 9791165217099
ISBN10 1165217090

이 상품의 태그

세이노의 가르침

세이노의 가르침

6,480 (10%)

'세이노의 가르침' 상세페이지 이동

역행자 확장판

역행자 확장판

17,550 (10%)

'역행자 확장판' 상세페이지 이동

모든 삶은 흐른다

모든 삶은 흐른다

15,120 (10%)

'모든 삶은 흐른다' 상세페이지 이동

불편한 편의점

불편한 편의점

12,600 (10%)

'불편한 편의점' 상세페이지 이동

자본주의

자본주의

15,300 (10%)

'자본주의' 상세페이지 이동

불편한 편의점 2

불편한 편의점 2

12,600 (10%)

'불편한 편의점 2' 상세페이지 이동

물고기는 존재하지 않는다

물고기는 존재하지 않는다

15,300 (10%)

'물고기는 존재하지 않는다' 상세페이지 이동

데일 카네기 인간관계론 (무삭제 완역본)

데일 카네기 인간관계론 (무삭제 완역본)

10,350 (10%)

'데일 카네기 인간관계론 (무삭제 완역본)' 상세페이지 이동

비가 오면 열리는 상점

비가 오면 열리는 상점

15,120 (10%)

'비가 오면 열리는 상점' 상세페이지 이동

꿀벌의 예언 1

꿀벌의 예언 1

15,120 (10%)

'꿀벌의 예언 1' 상세페이지 이동

부자의 그릇

부자의 그릇

13,500 (10%)

'부자의 그릇' 상세페이지 이동

타이탄의 도구들 (블랙 에디션)

타이탄의 도구들 (블랙 에디션)

16,200 (10%)

'타이탄의 도구들 (블랙 에디션)' 상세페이지 이동

데일 카네기 자기관리론

데일 카네기 자기관리론

10,350 (10%)

'데일 카네기 자기관리론' 상세페이지 이동

꿀벌의 예언 2

꿀벌의 예언 2

15,120 (10%)

'꿀벌의 예언 2' 상세페이지 이동

회복탄력성

회복탄력성

13,320 (10%)

'회복탄력성' 상세페이지 이동

만일 내가 인생을 다시 산다면

만일 내가 인생을 다시 산다면

15,480 (10%)

'만일 내가 인생을 다시 산다면' 상세페이지 이동

부의 추월차선 (10주년 스페셜 에디션)

부의 추월차선 (10주년 스페셜 에디션)

15,750 (10%)

'부의 추월차선 (10주년 스페셜 에디션)' 상세페이지 이동

[예스리커버] 도파민네이션

[예스리커버] 도파민네이션

16,200 (10%)

'[예스리커버] 도파민네이션' 상세페이지 이동

레버리지

레버리지

16,200 (10%)

'레버리지' 상세페이지 이동

지적 대화를 위한 넓고 얕은 지식 1

지적 대화를 위한 넓고 얕은 지식 1

14,400 (10%)

'지적 대화를 위한 넓고 얕은 지식 1' 상세페이지 이동

책소개 책소개 보이기/감추기

목차 목차 보이기/감추기

1부
다크 데이터는 어떻게 생겨나고
어떤 결과를 초래하는가

1장.
다크 데이터: 보이지 않는 것이 이 세계를 만든다
보이지 않는 위험, 다크 데이터
데이터를 다 갖고 있다고 생각하는군요?
아무 일도 안 생겨서 무시해버릴 때 생기는 일
다크 데이터의 위력
다크 데이터는 언제 어디에나 있다

2장.
다크 데이터 찾아내기:
우리가 모은 것과 모으지 않은 것
데이터를 얻는 3가지 방식과 다크 데이터의 출현
데이터 잔해에서 얻는 다크 데이터
설문조사에서 생기는 다크 데이터
실험 데이터에도 다크 데이터가 끼어든다
인간적 취약점에 주의하시라

3장.
다크 데이터와 정의:
알고자 하는 것이 정확히 무엇인가?
엉뚱한 것을 측정해버렸다: 정의가 달라질 때
‘모든’ 것을 측정할 수는 없다: 심슨의 역설
질병 검진 프로그램의 취약성
과거 성과를 보고 선택할 때의 다크 데이터

4장.
의도하지 않은 다크 데이터: 말과 행동이 따로 놀 때
어디까지 정확해야 하지?
요약은 필연적으로 다크 데이터를 만든다
인간이니까 생기는 오류
측정 도구의 한계
데이터 세트를 통합할 때의 문제

5장.
전략적 다크 데이터: 게이밍, 피드백, 정보 비대칭
게이밍: 빈틈을 이용해 이득을 얻다
피드백: 피드백이 데이터를 왜곡시킬 때
정보 비대칭: 중고차 시장에서 무슨 일이 일어났나
다크 데이터가 알고리즘에 끼치는 영향

6장.
고의적 다크 데이터: 사기와 기만
사기의 세계: 핵심은 데이터 숨기기다
신원 도용과 인터넷 사기: ‘자칼의 날’
계속 진화하는 개인금융 사기
금융시장 사기와 내부자 거래
보험 사기: 고객을 속이거나 보험사를 속이거나
그 밖의 사기: 돈세탁, 다단계 사기, 횡령

7장.
다크 데이터와 과학: 발견의 본질
과학의 본질: 검증 체계로서의 과학
내가 그걸 알았더라면!: 과학자들의 흑역사
우연히 만난 다크 데이터: 과학자들의 행운
반복 실험을 통한 재현: 과학 연구의 다크 데이터
사실을 감추는 방법들
철회
출처와 신뢰성: “누가 그러던가요?”


2부
다크 데이터에 빛을 비추고 이용하는 법

8장.
다크 데이터 다루기: 빛을 비추기
희망은 있다
관측 데이터를 빠진 데이터와 연결하기
3가지 데이터 누락 메커니즘
이미 가진 데이터를 활용하는 법
생존분석 문제: 당신이 먼저 죽는다면?
대치법: 빠진 데이터를 채워넣기
반복: 최대가능도 모형과 EM 알고리즘
데이터 오류에 대처하는 방법

9장.
다크 데이터로 이득을 얻는 법: 질문을 바꿔보자
데이터를 숨기는 게 이득이 될 때
무작위 대조군 시험: 데이터를 모두에게 숨겨라
시뮬레이션: 일어났을 수도 있는 일
전략적으로 복제된 데이터
베이즈 사전확률: 가상의 데이터
사생활 보호와 기밀 유지
데이터를 다크 상태로 수집하기

10장.
다크 데이터 분류법: 미로 속으로 난 길
다크 데이터의 15가지 유형
새롭게 조명하기

책 속으로 책속으로 보이기/감추기

나는 온갖 유형의 누락된 데이터를 통칭해 ‘다크 데이터dark data’라 부른다. 다크 데이터는 우리가 볼 수 없게 숨겨져 있는데, 그 때문에 우리는 오해하고 틀린 결론을 내리고 나쁜 결정을 할 우려가 있다. 한마디로 무지 때문에 판단을 그르칠 수 있다는 뜻이다.
--- 「1장. 다크 데이터 보이지 않는 것이 이 세계를 만든다」중에서

뭐가 문제람? 그냥 결과가 알려진 환자 146,270명을 분석한 뒤에 그걸 바탕으로 진단을 내리면 되지 않을까? 어쨌거나 146,270은 큰 수니까(의학 분야에서 이만하면 ‘빅데이터big data’이므로) 이 데이터를 바탕으로 내린 결론이라면 그것이 무엇이든 옳다고 확신할 수 있을 듯하다.
하지만 과연 그럴까? 어쩌면 결과를 모르는 19,289건은 다른 사례의 결과와 매우 다를지도 모른다. (중략)
쏙쏙 이해가 되게끔 실제로 일어나기 어려운 극단적인 예를 들어보겠다. 결과가 알려진 146,270명은 치료 없이도 회복되어 생존했지만, 결과가 알려지지 않은 19,289명은 모두 입원 이틀 내에 사망했다고 하자. 만약 결과가 알려지지 않은 사례들을 무시한다면, 우리는 당연히 트라우마 환자들이 전부 회복되었으니 걱정하지 않아도 된다고 결론 내릴 것이다. 그리고 이를 근거로 우리는 트라우마로 입원한 환자들은 저절로 회복되리라 예상하며 아무 치료도 하지 않을 것이다. 그러다가 11퍼센트가 넘는 환자가 죽어가는 현실과 맞닥뜨리고는 충격과 혼란에 휩싸이고 말 것이다.
--- 「1장 | 다크 데이터 보이지 않는 것이 이 세계를 만든다」중에서

문제는 그보다 훨씬 더 심각했다. 실제로 여러 겹의 다크 데이터가 숨어 있었다. 예를 들면 다음과 같다.
실제로 누가 신청했는가? 예전에 은행은 잠재 고객에게 대출을 원하는지 물어보는 우편을 보냈을지 모른다. 원한다고 대답한 고객도 있고 원하지 않는다고 대답한 고객도 있었을 것이다. 대량 발송된 편지에 대답한 사람들만이 데이터에 포함되었을 텐데, 응답하고 싶은 마음은 편지의 내용, 대출 금액, 대출 이율, 그리고 내가 모르는 다른 여러 요소에 따라 정해졌을 것이다. 여기서 답변하지 않은 고객들은 다크 데이터를 나타낸다.
누구한테 제안했는가? 답변한 고객들은 평가를 받았을 것이며, 그들 중 누구는 대출을 제안받고 누구는 받지 못했을 것이다. 하지만 은행이 어떤 근거에서 대출을 제안했는지는 모르기 때문에 나는 더 많은 다크 데이터를 안고 있는 셈이었다.
누가 제안을 받아들였는가? 앞의 두 선택 과정과 더불어 대출을 제안받은 고객 중 일부는 받아들이고 일부는 받아들이지 않았을 것이다. 또 한 겹의 다크 데이터가 생긴다.
이렇게 여러 겹의 다크 데이터가 뒤섞여 있으므로 내가 받은 데이터가 문제 해결, 곧 새 신청자를 평가할 모형을 세우는 일과 어떻게 관련이 되는지 좀체 파악되지 않았다.
--- 「2장 | 다크 데이터 찾아내기 우리가 모은 것과 모으지 않은 것」중에서

경제 분야의 사례로 인플레이션의 측정을 들 수 있다. 인플레이션의 정의는 규정된 상품 및 서비스 집합[이른바 상품 및 서비스의 ‘바스켓basket(바구니)’, 물론 진짜 바구니는 아니다]의 가격을 기록하고 평균 가격이 시간에 따라 어떻게 변하는지 살피는 것에 기반한다. 하지만 여러 가지 복잡한 측면이 존재하는데, 전부 DD 유형 8: 데이터의 정의에서 비롯된다. 그중 하나를 들자면 ‘평균을 어떻게 계산하는가’라는 문제가 있다. 왜냐하면 통계학자들은 평균을 여러 가지 방식으로 계산하기 때문이다. 평균을 계산하는 방법으로는 산술평균, 기하평균, 조화평균 등이 있다. 최근에 영국은 대다수 다른 나라들과 보조를 맞추기 위해 산술평균에 바탕을 둔 지수를 사용하는 관행에서 벗어나 기하평균에 바탕을 둔 방법으로 바꾸었다. 다른 방법을 사용한다는 것은 무언가를 다른 관점에서 본다는 뜻이므로 당연히 데이터의 다른 측면이 보이거나 보이지 않게 된다.
--- 「3장 | 다크 데이터와 정의 알고자 하는 것이 정확히 무엇인가?」중에서

게이밍gaming은 현실에서 오해의 소지가 있고 모호하고 의도치 않은 측면들을 이용하려고 한다. 게이밍에서 다크 데이터는 의도적인 은폐가 아니라 오히려 시스템이 구성되는 방식에서 비롯되는 우발적인 측면 때문에 생기며, 사람들은 그 데이터를 이용할 수 있다. 한마디로 게이밍은 대체로 불법이 아니다. 목표는 규칙을 지키면서도 규칙을 조작하여 이득을 얻는 것이다. 게이밍은 DD 유형 11: 피드백과 게이밍에 해당한다.
--- 「5장 | 전략적 다크 데이터 게이밍, 피드백, 정보 비대칭」중에서

온갖 종류의 사기는 모두 정보를 숨기면서 벌어진다. 사기의 종류가 워낙 다종다양하다 보니 사기를 근절하려면 매우 다양한 전략이 많이 필요하다. 세부 기록을 일일이 힘겹게 확인하기(정교한 통계적 방법), 기계학습 및 데이터 마이닝 도구를 통해 비정상적으로 거래하는 전형적인 고객 행동 패턴을 모형화하기, 그리고 특정 종류의 거래가 발생할 때 경보 시스템 발동하기까지 온갖 전략이 필요하다. 다크 데이터에 관한 한 유념해야 할 교훈은 우리에게 이미 익숙한 것이다. ‘어떤 것이 사실이라고 하기엔 너무 좋아 보이면, 사실이 아닐 가능성이 크다.’ 아마도 진실을 숨기고 있을 것이다.
--- 「6장 | 고의적 다크 데이터 사기와 기만」중에서

요약하자면 과학의 근본적인 과정은 관측된 데이터로 이론을 검증하여, 이론과 데이터가 불일치하면 해당 이론을 버리거나 수정하는 일이다. 하지만 우리는 불일치가 새로운 통찰을 줄 수도 있다는 것을 깨달아야 한다. 만약 이론과 데이터가 일치하지 않으면, 데이터에 오류가 있기 때문일 수 있다. 내가 이 책에서 꼭 전해주고 싶은 말이다. 데이터는 언제나 오류, 측정의 불확실성, 표본 왜곡, 그리고 다른 여러 문제점을 안고 있으며, 따라서 데이터 오류는 실존하는 가능성이라는 것이다. 그래서 과학자들은 정확한 측정 도구를 제작하고 정밀하게 통제된 조건하에서 측정하려고 온갖 노력을 다 기울인다. 측정 대상이 질량, 길이, 시간, 은하 사이의 거리, 지능, 의견, 복지, GDP, 실업, 인플레이션이든 다른 어떤 것이든 간에 말이다. 정확하고 신뢰할 만한 데이터는 제대로 된 과학에 필수적이다.
--- 「7장 | 다크 데이터와 과학 발견의 본질」중에서

사실 우리는 2장에서 금융지수를 살펴보면서 특히 SDD 누락의 경제적 사례들을 이미 접했다. 가령 다우존스산업평균지수는 미국의 30개 민간 대기업들의 개별 주가의 합을 다우 제수Dow divisor로 나눈 값이다. 하지만 기업은 생겼다 사라진다. 그리고 다우존스를 구성하는 기업들은 이 지수가 처음 시작된 1896년 이래로 50번 넘게 바뀌었다. 특히 재정적 어려움에 처하거나 경제 상황이 바뀔 때 기업들이 지수에서 빠질지 모른다. 다시 말해 다우지수는 전체 기업 실적을 대표하지 않고 꽤 잘나가는 기업들만 대표한다. 하지만 실적 퇴보나 경제적 상황 변화의 징후가 먼저 생긴 다음에 특정 기업을 지수에서 빼는 결정이 내려지므로, 데이터는 SDD다.
마찬가지로 시가총액이 큰 500개 기업의 가중치 적용 주가 평균인 S&P500에 속한 기업들도 다른 기업과 비교하여 실적이 악화될 때 지수에서 빠진다. 어느 기업을 빼는 결정은 반드시 사전에 입수한 데이터를 기반으로 내려져야 한다(데이터를 소급 적용해서는 안 된다!). 따라서 이번에도 배제된 기업을 설명하는 데이터, 곧 지수 계산에서 빠지는 데이터는 SDD라고 할 수 있다.다.
--- 「8장 | 다크 데이터 다루기 빛을 비추기」중에서

웹에서 모은 데이터 세트의 다크 데이터에는 더 심각한 문제점들도 있다. 이를테면 구글의 검색 알고리즘은 더 효율적으로 작동하기 위해 끊임없이 업데이트된다. 하지만 이 변경의 세부사항은 그런 과정에 깊이 관여하는 사람들을 제외하고는 대체로 모든 사람에게 알려지지 않는다. 최근의 변경 내용으로는 등급을 매길 때 웹페이지 품질 평가 점수의 도입, 조작으로 보이는 웹사이트의 강등, 검색어의 의도에 더 잘 맞추기 위한 자연어 처리, 모바일 친화적인 페이지의 등급 격상, 그리고 구글의 지침을 위반하는 웹사이트 식별 등이 있다. 이 모든 변경 사항은 타당하고 유익해 보이지만, 요점은 구글이 데이터 수집의 속성을 바꾼다는 사실 자체다. 다시 말해 이전에 수집된 데이터와 변경 후에 수집된 데이터를 비교하기가 어렵다(DD 유형 7: 시간에 따라 변하는 데이터). 특히 경제 및 사회복지 지표들의 값이 달라질 수 있는데, 기본적인 현실이 바뀌어서가 아니라 현실을 다루기 위해 수집되는 데이터가 바뀌었기 때문이다. 이른바 지표 표류indicator drift가 생기는 것이다. 이런 변화의 밑바탕에 다크 데이터가 도사리고 있다.
--- 「10장 | 다크 데이터 분류법 미로 속으로 난 길」중에서

출판사 리뷰 출판사 리뷰 보이기/감추기

누락된 데이터의 바다에서
‘다크 데이터’를 만나다
개인의 삶에서든 전문분야에서든 우리는 무언가 결정할 때면 대개 어떤 형태로든 데이터를 가지고 시작한다. 그런데 우리는 미래를 알고 싶어하면서도 미래가 과거와 크게 다르지 않다고 추정하는 등의 무모한 판단을 무심코 계속하는 경향이 있다. 하지만 손에 쥔 데이터는 전부가 아니다. 빅데이터의 모멘텀이 점점 가속됨에 따라 우리가 놓치고 있는 다크 데이터의 위험성도 커지고 있다.
우리에게 없거나 우리가 모르는 데이터를 저자는 물리학의 ‘암흑물질dark matter’에 빗대어 ‘다크 데이터’라 부른다. 우리는 그 사실을 알 수도, 모를 수도 있다. ‘다크 데이터’는 쉽게 말해 ‘우리가 갖고 있지 않은’ 데이터다. 다크 데이터는 어디서든 생겨나며 모든 곳에 있다. 그리고 다크 데이터의 정의상 가장 큰 위험은 우리가 그 존재를 모를 수 있다는 점이다. 다크 데이터는 언제 어떻게 생겨나서 작동하며, 어느 순간에 우리의 뒤통수를 치는가? 다크 데이터를 역이용하여 틀리지 않고 이기는 결정을 내릴 방법은 없는가? 세계적인 통계학자 데이비드 핸드는 데이터 폭증의 시대에 더욱 ‘다크 데이터 관점’이 중요함을 역설하며, 어디에든 존재하는 다크 데이터의 속성과 그 원인 및 결과를 망라해나간다.

이 책은 우리가 ‘갖고 있지 않은’ 데이터를 다룬다. 그러니까 우리가 지금 갖고 싶거나, 이전에 가지고 싶었거나, 또는 가진 줄 알지만 실제로는 갖고 있지 ‘않은’ 데이터에 관한 책이다. (중략) 볼 수 없는 데이터는 우리를 잘못된 길로 이끌 잠재력이 있으며, 앞으로 살펴보겠지만 때로는 파국을 초래하기도 한다. 그런 일이 어떻게 그리고 왜 생기는지 알려주겠다. 또 파국을 어떻게 막을지, 파국을 피하려면 무엇을 찾아야 할지도 알려주겠다. 그다음에는 어쩌면 놀랍게도, 다크 데이터를 역이용하여 종래의 데이터 분석 방식을 어떻게 뒤집을 수 있는지도 알려주겠다. 다시 말해 (우리가 충분히 현명하다는 전제하에) 어떻게 하면 데이터를 숨기는 것이 더 깊은 지혜, 더 나은 결정, 더 나은 행동의 선택으로 이어질 수 있는지도 알아보자. _서문에서
세계적 통계학자 데이비드 핸드,
‘다크 데이터’를 간파하고 활용하는 법을 말하다
데이비드 핸드는 왕립통계학회 회장을 역임하고 대영제국 훈장을 받은 통계학계의 세계적인 권위자다. 그는 금융, 건강, 약학, 의료 분야 및 정부를 위해 대량의 데이터를 분석해오면서 오랜 세월에 걸쳐 ‘다크 데이터’의 정체에 눈을 떴다. 《다크 데이터》는 그 정수를 모은 것으로, 데이비드 핸드는 ‘누락된 데이터’ 분야의 전문가이자 선구자라 해도 과언이 아니다.
전작 《신은 주사위 놀이를 하지 않는다: 로또부터 진화까지, 우연한 일들의 법칙》에서 핸드는 ‘일어날 가능성이 거의 없는 사건들’의 법칙을 다뤄 세상의 시선을 끌었다. 이번 책에서는 전작의 맥을 이어 의료?제약?행정?사회정책?금융?제조업 등 각 분야의 다크 데이터 현상에 다가간다. ‘우리가 모른다는 것을 아는 데이터’와 ‘우리가 모른다는 것조차 모르는 데이터’들을 대상으로 삼아, 빅데이터 시대 문제 해결의 본질적 맹점을 확인하고 보완한다.
문제들의 근본적 해결책은, 데이터의 우주 속 알려지지 않은 어두운 영역들이 우리의 인식을 어떻게 왜곡하는지 파악하는 것이다. 그러면서 ‘데이터가 불완전할 수도 있다’는 것을 인식하지 못한다면, 또 무언가를 측정하는 것이 곧 모든 것을 측정하는 것을 뜻하지는 않으며 측정 절차와 측정 대상은 미묘하고도 비뚤어진 방식으로 상호작용할 수 있다는 것을 인식하지 못한다면, 우리는 지금 세상에 무슨 일이 벌어지고 있는지에 대해 심각한 오해만 얻을 것이라고 경고한다.


다크 데이터는 언제 어디서나 작동한다
우리에게는 ‘다크 데이터 관점’이 필요하다
데이터는 현실을 표상해주지만, 마치 캐리커처로 그린 만화와도 같다. 우리는 마치 만화가 사람의 얼굴이나 행동의 주요 특징을 포착하듯 데이터가 현실의 중요한 특징들을 포착하기를 바라지만, 누구도 그걸 보장해주지는 않는다. 실제로 데이터는 중요한 많은 것들을 쉽사리 빠뜨리고, 잘못된 결론과 끔찍한 의사결정을 낳곤 한다. 무시된 정보나 데이터는 회사나 경제를 무너뜨리고 인명을 앗아갈 수도 있다. 이 책은 마치 데이터의 세계를 둘러싸고 쫓고 쫓기는 추리소설처럼 현실 속 생생한 사례들을 심도 있게 해석해준다.

★ ‘다크 데이터’는 우리 주변 어디서나 작동하고 있다 ★
? 도로 침하나 재해 상황을 신고하는 스마트폰 앱이 놓친 것은?
? 챌린저호 폭발 사고에서 파국적인 결과를 낳은 다크 데이터의 정체는?
? 기존 대출 데이터로 미래 고객의 심사 모형을 설계할 때 만날 수 있는 문제는?
? 규제의 빈틈, 정보 비대칭 등을 이용하려는 시도는 어떤 현상을 낳는가?
? 나날이 진화하는 사기의 세계에서 데이터는 어떻게 숨겨지고 왜곡되어왔나?
? 학생들의 학점 인플레이션이 일어나는 원인에는 어떤 다크 데이터가 존재하는가?
? 반증 가능성과 자기수정이 본질인 과학은 과연 ‘재현 가능성’의 위기를 맞이했나?

‘서툰 범죄자들은 경찰에 잘 잡히지만, 진짜 영악한 사기꾼들은 발각되지 않고 빠져나가니까 결국 수많은 범죄자가 잡히지 않고 있는 것 아닌가?’ ‘증세가 뚜렷하지 않은 환자가 적절한 치료 타이밍을 놓치기 쉬운 이유는?’ ‘중고차 시장에는 왜 이렇게 형편없는 매물이 넘쳐날까?’ 같은 간단한 궁금증에서 시작해, 저자가 직접 금융기관으로부터 의뢰받아 대출심사 모델을 설계하면서 파악한 다크 데이터 문제, 오늘날 경제지표나 개인정보 암호화 등에 활용하는 첨단 기법 같은 사례들을 들어 실제 행정?비즈니스?IT?과학 연구 현장에서 데이터를 다룰 때 경계해야 할 지점들을 보여준다.
책의 1부에서는 다양한 사례를 통해 다크 데이터의 15가지 유형을 두루 살펴보고, 그것들을 간과한 것이 어떤 결과를 초래하는지 확인한다. 데이터 수집 과정과 더불어 다크 데이터가 생길 수 있는 몇 가지 방식을 따라, 설문조사, 의료 및 과학 연구, 학력 평가, 건강검진, 경제 정책 수립, 법령 개정, 심지어 현대인의 일상을 위협하는 각종 사기와 기만행위 등 현대 사회에서 다크 데이터가 존재할 수 있는 수많은 영역을 둘러본다. 그럼으로써 다크 데이터를 어떻게 감지할 것이며, 감지했거나 의심이 되면 어떤 조치를 취해야 하며 어떻게 다크 데이터를 방지하는 데이터 수집 전략을 설계해 다크 데이터를 제어할 수 있는지 보여준다.
이어서 책의 2부에서는 치명적 위험을 지닌 다크 데이터를 활용하는 법을 알려준다. 곧 (우리가 불확실성과 무지를 현명하게 제어할 줄 안다는 전제하에) ‘모른다는 것’을 최대한 역이용해서 좀 더 유용한 행동을 취하는 법을 알려준다. 크게 ‘다크 데이터를 명백하게 밝혀내는 방법(빠진 데이터를 보완하고 채워넣는 법)’ ‘다크 데이터를 참작하는 방법(오류에 대처하는 법)’ 그리고 더 들어가 ‘다크 데이터를 실제로 활용하는 방법(무작위 대조군 실험부터 시뮬레이션, 베이즈 사전확률 등)’ 등을 이야기한다.

우리는 모두 환한 곳을 바라보는 데 익숙해져 있다. 하지만 데이터는 완전히 객관적이지도 않고 ‘진리’도 아니다. 어둠 속 보이지 않는 곳에 분명 ‘더 나은 결정’을 위한 결정적 세부 사항이 숨어 있다. 그러니 데이터가 주도하는 이 세상에서 우리에게 필요한 것은 ‘데이터를 의심할 줄 아는 것’, 건강한 회의주의자로 사는 기술이다. 그래서 우리에게는 ‘다크 데이터’ 관점이 필요하다. 이 책은 보통 사람들이 평소에는 쉽게 알아볼 수 없는 통계학적 분석의 관점을 보여주며, 또한 ‘데이터 관점’을 ‘다크 데이터 관점’으로 뒤집어서 더 나은 결정을 향한 또 다른 시야를 열어준다.
우리는 끊임없이 경계하며 자문해야 한다. “우리는 무엇을 놓치고 있는가?”

회원리뷰 (37건) 리뷰 총점9.5

혜택 및 유의사항?
보이지 않는 데이터의 함정을 피하고 위기를 기회로 만드는 법 내용 평점4점   편집/디자인 평점4점 스타블로거 : 수퍼스타 g*******g | 2022.06.08 | 추천11 | 댓글0 리뷰제목
빅데이터의 시대이다. 데이터를 많이 가지면 미래에 대한 예측을 더 잘하게 되고, 그 결과 데이터가 기업 경쟁력, 국가경쟁력의 원천이 되고 있다. 혹자는 데이터(D), 네트워크(N), 인공지능(AI)을 합친 DNA 기술을 4차산업시대의 핵심기술로 부른다. 막 출범한 윤석열 정부가 데이터에 기반을 둔 네트워크 경제를 통해 국가를 발전시키겠다는 공약을 한 것도 이런 점을 감안한 것이;
리뷰제목

빅데이터의 시대이다. 데이터를 많이 가지면 미래에 대한 예측을 더 잘하게 되고, 그 결과 데이터가 기업 경쟁력, 국가경쟁력의 원천이 되고 있다. 혹자는 데이터(D), 네트워크(N), 인공지능(AI)을 합친 DNA 기술을 4차산업시대의 핵심기술로 부른다. 막 출범한 윤석열 정부가 데이터에 기반을 둔 네트워크 경제를 통해 국가를 발전시키겠다는 공약을 한 것도 이런 점을 감안한 것이다.

 

하지만 데이터를 다루어야 할 때 조심할 점도 많다. 잘못된 데이터에 기반을 두어 판단을 하게 되면 사실을 왜곡하기 때문이다. 흔히 'Garbage in, Garbage out'이라고도 한다. 데이터를 모으는 과정에 잘못이 있을 수 있다. 또한 각종 유형의 누락된 데이터가 존재한다. 이 책에서는 각종 유형의 누락된 데이터를 '다크 데이터'로 부르며 ‘다크 데이터’의 함정을 피하고 위험을 기회로 만드는 법을 이야기한다.

 

우리가 살고 있는 우주에는 보이지는 않아도 엄연히 존재하는 '암흑물질'이 27%나 존재한다고 한다. 우리가 다루고 있는 정보의 세계에도 우리가 간과하기 쉬운 ‘다크 데이터’로 가득하다. 저자는 우리가 어떻게 누락된 데이터를 알아차리지 못하는지, 그리고 그로 인해 어떤 잘못된 결론과 행위에 이르게 되는지를 다각도에서 탐사한다. 이와 함께 '다크 데이터'에 빛을 비추고 이를 이용하는 법을 설명한다.

 

통계학적 지식이나 경제적 분석자료를 다루어 본 경험이 있으면 쉽게 이해할 수 있는 이야기이다. 현실을 보면 자신에게 유리한 자료만을 선별하여 분석해 입맛에 맞는 결론을 유도하기도 한다. 코로나에 관한 각종 통계도 관찰되지 않은 '다크 데이터'를 포함하면 완전히 다른 결론에 이를 수도 있다. '다크 데이터'는 어디에든 생겨나며 모든 곳에 존재하기 때문이다.

 

저자는 다크 데이터의 가장 큰 위험으로 우리가 그것의 존재를 모를 수 있다는 점을 지적한다. 그러면서 다크 데이터가 언제 어떻게 생겨나며, 어떻게 우리를 잘못된 결론에 이르게 하는지 수많은 사례를 통해 설명한다. 결국 우리가 현재 무엇을 놓치고 있는지를 끊임없이 질문하고 경계한다면 오히려 정확한 현실에 가까이 다가감은 물론 이를 이용할 수 있다는 점을 설명한다. 빅데이터 시대에 우리가 무엇을 걱정하고 대비해야 하는지를 알려주는 책이다.

11명이 이 리뷰를 추천합니다. 공감 11 댓글 0
데이터! 그것은 착각하고 실수하고 야비한 인간의 특성을 그대로 보여준다 내용 평점5점   편집/디자인 평점5점 YES마니아 : 골드 스타블로거 : 수퍼스타 이*라 | 2021.10.21 | 추천10 | 댓글0 리뷰제목
사실 이 시대는 과학과 데이터를 신앙하는 시대가 아닐까 한다. 사람들이 죽어가도 통계적인 범위 내에서 사망할 사람은 소수이니 나는 괜찮을 거라는 생각으로 감염성 질병에 대처하거나 예방 접종에도 그런 판단으로 대응한다. 확진을 받고 나서도 회복한 사람들에게는 맞는 말일 것이다. 그리고 백신 접종을 하고도 이상반응도 없고 사망하지 않은 사람에게 역시 그런 신앙은 나름 괜;
리뷰제목

사실 이 시대는 과학과 데이터를 신앙하는 시대가 아닐까 한다. 사람들이 죽어가도 통계적인 범위 내에서 사망할 사람은 소수이니 나는 괜찮을 거라는 생각으로 감염성 질병에 대처하거나 예방 접종에도 그런 판단으로 대응한다. 확진을 받고 나서도 회복한 사람들에게는 맞는 말일 것이다. 그리고 백신 접종을 하고도 이상반응도 없고 사망하지 않은 사람에게 역시 그런 신앙은 나름 괜찮은 판단이었다고 생각될 것이다. 그럼 죽은 사람들과 그 유가족들에게는 어떨까?

 

데이터는 이렇게 숫자로 가장 귀중한 것을 치환하게도 만드는 무엇보다도 무서운 신앙이라고 생각한다. 

 

그리고 그 데이터라는 것이 항상 정직하고 보편타당한 것이리라는 기대 역시 사람들의 무의식에 새겨져 있는 상식이자 편향이 아닌가 싶다. 문재인 정부에서는 급증하는 실업난에도 불구하고 취업자 숫자가 유의미하게 늘었다고 주장했다. 무서운 기세로 상승한 부동산가에도 불구하고 부동산가는 10 여 % 정도 증가했을 뿐이라고 호기롭게 주장하기도 했다. 어떻게 현실을 이토록 왜곡할 수 있었던 걸까? 그것이 바로 데이터의 마력이다. 기준만 재설정한다면 의도된 조작이나 설정치의 재조정만으로도 대중에게 제시할 결과값이 달리 나올 수 있는 것이다. 그들의 입장에서는 그것이 거짓도 아니지 않은가? 자신들이 재설정한 기준에서는 그런 결과가 나올 수밖에 없으니 말이다.

 

데이터가 이토록 악용되고 진실을 호도할 수 있는 마녀 같은 것이라면 우리는 이 데이터라는 것을 외면하고 부정해야 하는 것인가? 아니 이 시대 상황에서 그런 선택은 상식 밖이고 제정신이랄 수 없는 선택일 것이다. 우리는 데이터에 대한 상식의 폭을 확장함으로써 데이터가 오류이거나 데이터로 거짓말을 하는 경우의 수에 대한 상식을 재정비함으로써 이 데이터가 일으키는 거짓의 난에 대처할 수밖에 없다.

 

본서 다크데이터는 데이터의 오류와 착오를 일으키는 데이터의 맹점을 다크데이터라 정의한다. 이를 크게 누락한 것을 인지한 데이터와 누락한 것조차 알지 못하는 데이터로 분류하고 이를 다시 데이터를 의도적으로 조작한 경우와 의도하에 오류를 불러오는 방식까지를 두루 분류하여 총 15가지 유형으로 정의하고 있다.

 

데이터 전문가가 쓴 저작이다 보니 저자의 표현으로는 '수많은 데이터'를 언급하고 있고 체감상 적어도 100 여 개 이상의 데이터를 언급한 듯한 느낌이다. 저작이 전문가가 대중적으로 쓰기 위해 최대한 대중의 호기심과 궁금증을 유도하고 그를 지속할 수 있는 데이터 중심으로 언급하고 있다. 하지만 데이터 정보와 그리 가깝지 않은 사람이자 이공계열 사고 회로를 갖추지 못한 (리뷰를 쓰고 있는) 본인에게는 독서에서 호기심과 몰입도가 지속되다 끊기고 다시 일어나 지속되다 끊기는 상황이 반복되었다. 여러모로 흥미로운 주제임에도 (인문학적 서술이라지만) 숫자가 난무하는 데이터에 관련된 저작이다 보니 처음의 관심과 호기심이 저작의 끝까지 일관되게 유지되는 저작은 아닌 것 같다는 감상이 든다.

 

표지의 띠지에서도 기록되어 있듯 본서에서 언급되는 데이터 사례로는 의료 통계, 금융 설계, 인구조사, 실험 설계, 금융 사기 감지, 투자 예측, 질병 진단, 개인 정보 보호뿐만이 아니라 그 이상의 헤아리기 쉽지 않은 분량의 데이터 사례가 언급되고 있다. 이 모두를 기억하는 것은 천재적인 지능이 아니라면 쉽지 않을 것이다. 그리고 이 모두에서 일관된 흥미와 관심과 집중력을 드러내는 것 또한 천재이거나 데이터 전문가 거나 이공계열적 사고에 익숙한 이들이 아니라면 불가능할 거라고 생각된다.

 

나로서는 사례로든 데이터 중 챌린저호 공중폭발 사고에서 발단이 된 오링에 대한 데이터의 다크데이터가 다크데이터로 야기될 수 있는 문제를 민감한 사안으로 인식하도록 해주어 기억에 남고 영국 경찰들과 범죄예방(?)부서에서의 범법행위에 대한 분류의 오차가 100% 이상이나 오차가 있는 것도 데이터의 기준을 어떻게 설정하느냐에 따라 결과값이 달라질 수 있으며 데이터를 제시하는 주체가 의도적으로 그를 이용(악용)하고 있다는 것을 제삼 확인할 수 있어서 인상 깊었다. 

 

그 외에는 타이타닉호의 구조자 중 승무원과 승객의 생존 비율과 승무원 중 남성 생존자와 승객의 남성 생존자 비율, 여성 승무원과 여성 승객의 생존자 비율에서 어이없는 숫자 장난 같은 역설적인 결과가 나오는 것도 인상적이었다. 그리고 체중 감소 지수를 산출하는 데이터에서 나이, 성별, 키 몸무게를 기록하는데 여기서 각각이나 교차 누락하는 경우까지도 신뢰도를 높이기 위해 경우의 수를 대입하여 데이터를 산출하려는 저자의 논리 전개에 놀랄 수밖에 없었다. 나이는 체중 감소 효과에서 큰 영향을 미치는 지수이기는 해도 굳이 무시하겠다면 할 수도 있을 것 같았고 성별이야 50:50 의 확률이니 편차가 있다 해도 큰 무리가 없다고 생각되었지만 체중 감소 지수를 산출하는데 키와 몸무게가 누락된 정보를 추정하려 하는 것이 전문가로서 올바른 태도인가 하는 생각이 들었다. 그리고 과거에 있었다는 미국에서의 남편 나이와 부인 나이 비율을 따져 미국인 아내들의 평균 나이를 산출하려는 데이터에서도 남편의 나이를 누락했거나 아내의 나이를 누락했거나 둘 다 누락한 경우에도 이것을 데이터 상에서 무조건 배제하는 것이 아니라 추정치를 잡으려는 것을 보고 데이터라는 것이 무당 놀음인가 하는 생각이 들기도 했다.

 

무엇보다 과학계에 만연했다는 데이터 사기 사례도 상식의 폭이 넓어지는 것 같은 정보였다고 생각한다. 과학자들과 심리학자들이 이전 과학자와 심리학자의 실험을 재현해본 결과 같은 결론에 도달하는 경우가 저자가 이야기하듯 이렇게까지 희소한지 미쳐 알지 못했다. 과학저널《네이처》의 설문조사에서 1,576명의 응답자 중 70% 이상이 다른 과학자의 연구를 재현하려고 시도했지만 실패했다고 대답했다는 것이다. 심리학계 역시 2008년 심리학 문헌에 발표된 100건을 재현하려 했지만 통계적으로 유의미한 결론을 내놓은 97건의 연구 중 오직 37건에서만 똑같은 결과를 얻었다고 한다. 과학계에서 전문 과학저널 중 저명한 몇몇을 제외하고는 검증하려 시도하지 않을 거라는 기대로 많은 실험 사례들이 올라오는데 이 또한 검증을 거치면 사기로 판명되는 수가 많다는 것이다. 물론 이러한 과정을 모두 거친 이후의 객관적인 자료가 훗날 정당한 과학적 발견으로 역사에 남게 되는 것이기는 하나 전두엽 절제술이라는 사이비 의학도 노벨 의학상을 수상한 전적이 있는 만큼 당시대에는 그런 사기 행각에 놀아날 수 있는 것이다. 본서에서 보여주는 과학 분야의 사기행각의 방식을 조목조목 분류한 대목은 그 정의만큼 인상적이지는 않았지만 과학에 대한 맹신을 깨뜨리는 역할을 해주지 않나 생각된다.

  

무엇도 신앙하지 않겠지만 과학이라고 맹신하는 것도 종교적 신앙과 다를 바 없다는 생각이 들었다. 데이터 역시 마찬가지이다. 숫자는 거짓말을 하지 않는다고 맹신하기보다는 그 숫자를 착각하고 실수하고 야비하기까지 한 인간이라는 생명체가 다루었다는 것을 잊어선 안될 것 같다. 

 

본서는 착각하고 실수하고 야비한 인간의 특성이 그대로 드러나는 것이 바로 데이터라는 것을 증거하는 저작이라는 데서도 의의가 있지 않나 싶다. 많은 데이터들이 제시되고 있으므로 독자의 성향에 따라 금융 범죄 데이터가 또는 투자예측 데이터가 의학진단 데이터가 각기 더 기억에 남을 수도 있다고 생각한다. 자신의 기호에 맞는 감상을 안겨줄 수 있으니 폭넓은 독자의 사랑을 받을만한 저작이 아닐까 싶다.

 

 

 

YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.

10명이 이 리뷰를 추천합니다. 공감 10 댓글 0
다크 데이터 내용 평점5점   편집/디자인 평점5점 스타블로거 : 블루스타 이**나 | 2021.10.17 | 추천1 | 댓글1 리뷰제목
yes24 리뷰어 클럽 서평단 자격으로 작성한 리뷰입니다.     바야흐로 데이터의 시대이다. 빅데이터는 인공지능에 활용되고 있고, 우리의 일상은 각종 데이터로 전환되어 마케팅 부서의 정보 활용이나 고객 데이터 활용, 정치 설문조사, 코로나 관련 동선 체크는 물론 해킹 요소로까지 쓰이고 있다. 그야말로 데이터가 쏟아지다 못해 넘치는 시대이다. 다른 말로 하면 정보;
리뷰제목

yes24 리뷰어 클럽 서평단 자격으로 작성한 리뷰입니다.

 

 

바야흐로 데이터의 시대이다. 빅데이터는 인공지능에 활용되고 있고, 우리의 일상은 각종 데이터로 전환되어 마케팅 부서의 정보 활용이나 고객 데이터 활용, 정치 설문조사, 코로나 관련 동선 체크는 물론 해킹 요소로까지 쓰이고 있다. 그야말로 데이터가 쏟아지다 못해 넘치는 시대이다. 다른 말로 하면 정보의 홍수다. 이럴수록 당연히 정보는 얻기 쉽겠지만 동시에 양질의 정보를 얻으려면 더 많은 노력을 기울여야 된다. 가만히 있으면 오히려 스쳐 지나가는 정보때문에 정보부족이 될수도 있다. 큰 홍수뒤에 큰 가뭄처럼 말이다. 그런데 여기에 문제가 하나 더 있다. 다크 데이터다. 수많은 데이터 정보들을 다루지만 누락되거나 왜곡되거나, 변형되는 등의 데이터 정보들이 많다. 특히 이것을 통계로 나타낼 때 자주 일어난다. 고의성이 있을수도 있지만 아닐수도 있다. 그만큼 양질의 데이터를 얻고 해석하기가 쉽지 않기 때문이다.

 

그래서 이 책은 통계에 관심이 많고, 데이터 정보 해석에 관심이 많은 사람들에게 아주 필요한 책이다. 과학 실험에서도 마찬가지이다. 대신 책에서 경고하는 많은 다크 데이터 사례때문에 겁에 질려 혼란이 올수도 있다. 완벽한 데이터가 어렵고, 완벽한 데이터 해석도 어렵다는걸 반증하고 있으니까. 거의 책의 대부분에 해당하는 데이터에 대한 경고들은 그만큼 저자의 우려와 걱정을 잘 보여준다. 결국 저자는 다크 데이터의 중요성과 위험성을 어필하면서 계속 의심해야 한다는 걸 강조하고 싶은 듯 하다. 완벽할 수는 없지만 완벽하려고는 해야 하니까. 다크 데이터의 발생과 잘못된 사용은 가깝게는 해킹과 실험에서, 정책이나 의약품을 거쳐 멀게는 인공지능 데이터까지 영향을 미칠 테니까. 잘못된 정보 해석은 잘못된 결정과 결과를 낳을 수 있다. 

 

 

**어쨌든 사람이 중요한 것 같다. 다루고 해석하는건 결국 사람 몫이다.

***번역이 쉽게 정복될 것 같아도 인공지능에서 결함이 생기는 이유도 다크 데이터 탓이 아닐까.

****어떻게 구역을 나누고 정보를 가르느냐에 따라 완전히 달라 보일수도 있다.

*****책에 나온대로 통계에는 항상 출처가 중요하다.

******설문조사가 어려운 이유이다. 그냥 받는다고 해결되는 것도 아니고 없앴다고 해결되는 것도 아니다.

*******임상 실험에서도 중요하게 쓰이기에 그것이 향후 부작용이나 효과에도 영향을 줄 수 있다.

********과대해석, 과소해석, 왜곡은 정말 순식간인 것 같다.

*********다크 데이터를 아는 사람일수록 모든 통계자료를 바로 받아들이기는 힘들어질지도 모른다.

**********우주의 암흑물질처럼 잘 끌어안고 살아야 하는 것일지도.

***********양자역학처럼 먼저 마음을 정하고 정보와 통계를 다룬다면 다크 데이터가 작동하면서 보고 싶고, 바라는 통계만 나올수도 있다.

************다크 데이터에 관해서는 무응답도 응답이라는 말이 딱 어울린다. 노코멘트도 코멘트다.

*************다크 데이터를 알수록 인공지능이 무서워지기도 한다. 인공지능에 의해 인간의 한 측면이 배제될 수 있으니까.

**************결국 방대한 데이터도 인간과 같다. 스스로를 알지 못하면 잘못 될 수 있듯이 데이터를 무조건 믿으면 잘못 될 수 있다.

***************다양성, 다양한 시각, 소수의 시각을 받아들이고 진리와 당연한 것을 의심하는 것이 데이터에도 적용된다.

****************데이터도 요리의 재료일 뿐이다. 요리의 종류와 맛과 컨셉을 결정하는 것은 인간 요리사다.

*****************역시 어둠도 주목해야 빛도 제대로 알 수 있다.

 

 

 

##인상적인 문구들

 

##다크 데이터를 통해 누구나 이득을 얻을 수 있다는 뜻이다.

 

##빅데이터가 있으면 좋겠지만 크기가 모든 것을 말해주지는 않는다. 그리고 우리가 모르는 것, 가지고 있지 않은 데이터가 가지고 있는 데이터보다 상황을 이해하는데 훨씬 더 중요할 수도 있다. 

 

##트윗이 적었던 지역은 허리케인 피해가 작은 게 아니라 트윗을 올릴 스마트폰, 곧 트위터 사용자가 적었다는 데 있었다.

 

##데이터=모든 것이라는 개념으로 되돌아가서, 어떤 맥락에서는 모든 데이터가 존재한다는 개념 자체가 확실히 비합리적이다. ~측정을 여러 번 해서 평균을 취한다. 하지만 결코 모든 측정을 할 수는 없다. 이런 맥락에서 모든 것은 아예 존재하지 않는다.

 

##만약 어느 시기 동안 수치의 급격한 변화가 일어났다면, 바탕이 되는 현실이 바뀌었을 수도 있지만 데이터 수집 절차가 바뀌었기 때문일 수도 있다.

 

##설문조사 응답률은 전세계적으로 떨어지고 있다.~ 사람들은 필요성이 클수록 설문조사에 제대로 응답할 가능성이 크기 때문에 설문조사는 전반적으로 매우 잘못된 인상을 남길 위험성이 있다.

 

##어떤 경우에는 빠진 기록이 적더라도 입수한 데이터가 전체 인구를 대표하지 못할 수 있다.~무응답 형태의 다크 데이터가 증가하고 있다.

 

##무응답하는 이유는 시간이 흘러도 크게 바뀌지 않음을 알아냈다. 주된 이유는 응답 대상자들이 별 관심이 없거나, 바빴거나, 답변하는 데 시간이 너무 많이 걸리기 때문이었다. 다른 이유로는 사생활 침해 우려가 있었거나, 조사 내용을 이해하지 못했기 때문이었다.

 

##잘 알려져 있듯이 보통 사람들은 실제로 범죄를 당할 위험보다 범죄의 위험을 더 크게 느낄 수 있다. 무언가를 잘 모르면 실제보다 더 나쁘게 보이는 법이다. (다크 데이터의 또 한가지 측면이다.)

 

##호손 효과로 인해 더 복잡한 문제가 생긴다. 호손 효과란 사람들이 자신이 관찰당하는지를 알면 평소와 달리 행동하는 경향을 가리킨다. 그렇다면 사람들에게 사실을 숨긴 채 은밀히 연구해야 이상적일 것 같지만, 이는 미리 알려서 동의를 얻어야 한다는 윤리적 관점에 정면으로 위배된다.

 

##데이터 수집 전략은 인간이 고안하고 실시하며, 수집된 데이터도 인간이 해석하고 분석한다. 어떤 데이터를 수집할지, 그리고 분석의 결과가 무슨 의미인지 결정하는 일도 우리의 이전 경험에 바탕을 두므로 이런 결정은 장래에 이 세계의 상황을 대변해주지 못할지도 모른다.

 

##우리는 온갖 무의식적인 편향에 취약하다. '가용성 편향'이 있다. 어떤 사건이 생길 가능성을 판단할 때, 그 사건을 우리가 얼마나 쉽게 떠올릴 수 있는지를 바탕으로 삼는 편향이다.

 

##심리학 실험들이 입증해낸 바에 따르면, 우리의 믿음은 우리의 기억에 영향을 끼칠 수 있다. 확증 편향과 반대로 사람들은 자신의 원래 믿음과 어긋나는 반박 증거를 잊는 경향이 있다.~ 부정적 편향, 묵인 편향, 편승효과, ~기괴함 효과는 흔한 내용보다 인상적인 내용이 더 잘 기억되는 효과다. 이 모든 편향에도 불구하고 우리가 무언가를 옳게 판단한다면 그것이야말로 얼마나 경이로운 일인가.

 

##반드시 기억해야 할 점은 데이터가 다크 데이터인지 아닌지 여부는 우리가 무엇을 알고 싶은지에 달려 있다는 것이다.

 

##과거는 미래를 알려주는 좋은 기준이 아닐 수 있다. 특히 상황이 변할 때, 가령 경제 상황이 나빠지거나 자동차 제조사가 새 기종을 내놓거나 식당 주인이 바뀔 때 그렇다. 하지만 아무것도 변하지 않는데도 성과가 나빠질 수 있다.(평균으로의 회귀) 우리는 그렇게 바뀌는 상황을 예상해야 한다.

 

##여러분이 묻고 싶은 질문에 답을 얻으려면 요약 통계(들)를 조심해서 선택해야 한다는 거이다.

 

##데이터의 유용성이 시간이 지나면서 감소할 수 있다는 것이다. 과일이 부패하는 것처럼 데이터가 물리적으로 나빠져서가 아니라 세상이 달라지기 때문이다.~ 특히 인간을 대상으로 하는 데이터는 구식이 되기 쉬운데 인간은 변하기 때문이다.~설상가상으로 데이터는 의도적으로 왜곡될 수도 있다.

 

##아무리 풍부한 공리계라도 그 체계 안에서 증명도 반박도 할 수 없는 명제가 있다.~ 인간사회의 측면에서 보자면, 그런 사례는 필연적으로 빈틈이 있게 마련인 정교한 규정의 체계에서 생길 때가 많다. 그런 빈틈이 자주 드러나는 분야 중 하나가 세금 체계다.

 

##데이터를 평균으로 대체하는 것은 요약하거나 뭉뚱그리기로 값을 흐릿하게 만드는 한 가지 예.

 

##어떤 것이 사실이라고 하기엔 너무 좋아 보이면, 사실이 아닐 가능성이 크다. 아마도 진실을 숨기고 있을 것이다.

 

##프랜시스 베이컨: 인간은 어떤 견해를 일단 채택하고 나면 그 견해에 들어맞고 그 견해를 뒷받침하는 온갖 것을 끌어들인다. 그리고 다른 쪽에서 그 견해와 다른 비중 있는 많은 사례가 나오더라도 무시하고 경멸하거나 어떤 판단 기준을 내세워 배제하고 거부한다.

 

##과학자들은 순위에서 밀릴 위험을 감수하기를 싫어한다. 획기적인 업적이 될 수 있다면 설령 나중에 결과의 결함이 드러날 우려가 있더라도 서둘러 발표하는 편이 낫다고 여긴다.

 

##흥미롭게도 사람은 감쪽같이 자기 자신을 속인다. 확증 편향.

 

##진실과 거짓을 구별하는 문제는 아득한 옛날부터 인류의 숙제였다. 정확한 답을 얻기 어려운 문제였기 때문이다. 하지만 데이터의 영역에는 유용한 전략이 하나 있다. 바로 데이터가 어디에서 온 것인지, 누가 데이터를 모았는지, 누가 보고했는지를 추궁하는 것이다. 데이터가 제시되었을 때 '누가 한 말인가?'라는 질문을 던지고 답을 요구해야 한다.

 

##투명성은 종종 다크 데이터, 최소한 사기와 속임수 사례에서 발생하는 다크 데이터에 대한 부분적인 해답으로 부각된다. 투명성이라는 개념의 요지는 공개된 것은 어떻게 돌아가는지 알아보기 쉽다는 것이다. ~ 서구 민주주의는 개방성을 다양한 수준에서 매우 강조하며, 정부가 활동 내용을 자세히 발표하도록 권장한다.~ 투명성은 지방정부 책임성의 근본이며, 사회에서 큰 역할을 수행하도록 사람들에게 필요한 도구와 정보를 제공하는데 핵심 요소다.

 

##경제 관련 문제일수록 사람들은 답을 순순히 털어놓지 않을 수 있다.

 

##많은 경우 다크 데이터는 단지 관찰되지 않는 것 이상, 다시 말해 본질적으로 관찰이 불가능한 데이터다. 그런 데이터는 숨어 있거나 '잠재적'이다. 하지만 그렇다고 해서 관찰이 불가능한 데이터를 아예 밝혀낼 수 없다는 뜻은 아닌데, 그것을 밝혀내는 일이야말로 통계 기법들의 진정한 목적이다. 현실에서 생겨난 데이터에 적용되는 통계도구들은 그 현실에 관해 우리에게 무언가를 알려준다. 데이터가 현실에 빛을 비쳐주는 것이다.

 

##정말로 막대한 데이터 세트들이 컴퓨터 때문에 수집되고 저장되고 처리되고 있다. 이 이 데이터베이스는 엄청난 기회를 낳는다. 하지만 바로 그 컴퓨팅 능력이 한편으로 근본적인 불확실성을 초래한다.~ 컴퓨터는 필연적으로 우리와 데이터 사이의 매개자 역할을 할 뿐이다. 컴퓨터는 데이터의 어떤 측면들을 가려버린다.

 

##어떤 것을 충분히 이해하지 못하면 길을 잘못 들 수 있다.

 

##사실 데이터 감추기는 현대사회가 효과적으로 기능하는 데 중심역할을 한다. 우리는 데이터를 감추지 않고서는 일상활동이 불가능하다. 

 

##뼈아픈 진실은 데이터란 완전히 다크 상태여서 쓸모가 없든지, 아니면 어떤 빈틈으로라도 침입을 당하고 만다는 것이다.

 

##다크 데이터가 존재할 수도 있다고 늘 의식하기다. 우리는 데이터가 불완전하거나 부정확하다는 것을 기본 전제로 삼아야 한다. 데이터를 의심하라. 적어도 적절하고 정확하다고 증명되기 전까지는.

 

##다크 데이터는 기계도 속일 수 있다. 기계학습과 인공지능의 적용 사례들이 점점 많아지고 있으므로, 다크 데이터가 기계를 속이는 바람에 실수와 사고를 초래하는 일도 더 많이 알려지리라고 예상된다.

 

##다크 데이터는 무한히 많은 방식으로 생길 수 있다. 우연히 생길 수도 있지만 의도적으로 만들어질 수도 있다. 때때로 사람들은 특정한 방식으로 내용을 표현하여 진리를 감추려고 한다. 경계심을 가지면 감춰진 진실을 찾아낼 수 있는데, 일반적으로 유용한 전략은 데이터를 다른 각도에서 보는 것이다.

 

##데이터에 무엇이 빠져 있는지를 이해하지 못하면 정답이 있는 곳이 아니라 자신들이 볼 수 있는 곳만 보는 심각한 위험에 빠진다.

 

yes24 리뷰어 클럽 서평단 자격으로 작성한 리뷰입니다.

1명이 이 리뷰를 추천합니다. 공감 1 댓글 1

한줄평 (11건) 한줄평 총점 9.8

혜택 및 유의사항 ?
구매 평점5점
아주 마음에 드는 책이다.
이 한줄평이 도움이 되었나요? 공감 0
YES마니아 : 플래티넘 u*****i | 2022.12.12
구매 평점5점
데이터관련 일을 하느라 찾아봤습니다.
이 한줄평이 도움이 되었나요? 공감 0
j*****2 | 2022.01.04
구매 평점5점
신박합니다
이 한줄평이 도움이 되었나요? 공감 0
발****라 | 2021.12.16
  •  쿠폰은 결제 시 적용해 주세요.
1   17,100
뒤로 앞으로 맨위로 공유하기