확장메뉴
주요메뉴


닫기
사이즈 비교
소득공제
다크 데이터

다크 데이터

: 보이지 않는 데이터가 세상을 지배한다

리뷰 총점9.5 리뷰 48건 | 판매지수 1,272
베스트
자연과학 top20 3주
정가
19,000
판매가
17,100 (10% 할인)
배송안내
서울특별시 영등포구 은행로 11(여의도동, 일신빌딩)
지역변경
  • 배송비 : 무료 ?
  •  해외배송 가능
  •  최저가 보상
  •  문화비소득공제 신청가능

품목정보

품목정보
발행일 2021년 10월 13일
쪽수, 무게, 크기 396쪽 | 604g | 148*225*30mm
ISBN13 9791165217099
ISBN10 1165217090

이 상품의 태그

시대예보: 핵개인의 시대

시대예보: 핵개인의 시대

18,900 (10%)

'시대예보: 핵개인의 시대' 상세페이지 이동

불편한 편의점

불편한 편의점

12,600 (10%)

'불편한 편의점' 상세페이지 이동

원씽 THE ONE THING

원씽 THE ONE THING

15,120 (10%)

'원씽 THE ONE THING' 상세페이지 이동

선량한 차별주의자

선량한 차별주의자

15,300 (10%)

'선량한 차별주의자' 상세페이지 이동

천 개의 파랑

천 개의 파랑

12,600 (10%)

'천 개의 파랑' 상세페이지 이동

방구석 미술관

방구석 미술관

15,120 (10%)

'방구석 미술관' 상세페이지 이동

세상은 이야기로 만들어졌다

세상은 이야기로 만들어졌다

24,300 (10%)

'세상은 이야기로 만들어졌다' 상세페이지 이동

알아차림에 대한 알아차림

알아차림에 대한 알아차림

16,200 (10%)

'알아차림에 대한 알아차림' 상세페이지 이동

두 번째 지구는 없다

두 번째 지구는 없다

15,300 (10%)

'두 번째 지구는 없다' 상세페이지 이동

새는 날아가면서 뒤돌아보지 않는다

새는 날아가면서 뒤돌아보지 않는다

12,600 (10%)

'새는 날아가면서 뒤돌아보지 않는다' 상세페이지 이동

말의 품격

말의 품격

13,050 (10%)

'말의 품격' 상세페이지 이동

바디 : 우리 몸 안내서

바디 : 우리 몸 안내서

20,700 (10%)

'바디 : 우리 몸 안내서' 상세페이지 이동

피프티 피플

피프티 피플

12,600 (10%)

'피프티 피플' 상세페이지 이동

인스타 브레인

인스타 브레인

13,500 (10%)

'인스타 브레인' 상세페이지 이동

조선이 만난 아인슈타인

조선이 만난 아인슈타인

16,650 (10%)

'조선이 만난 아인슈타인' 상세페이지 이동

나는 매주 시체를 보러 간다

나는 매주 시체를 보러 간다

16,200 (10%)

'나는 매주 시체를 보러 간다' 상세페이지 이동

[예스리커버] 모스크바의 신사

[예스리커버] 모스크바의 신사

16,200 (10%)

'[예스리커버] 모스크바의 신사' 상세페이지 이동

김상욱의 양자 공부

김상욱의 양자 공부

16,200 (10%)

'김상욱의 양자 공부' 상세페이지 이동

아주 오랜만에 행복하다는 느낌

아주 오랜만에 행복하다는 느낌

12,600 (10%)

'아주 오랜만에 행복하다는 느낌' 상세페이지 이동

포스트트루스

포스트트루스

14,400 (10%)

'포스트트루스' 상세페이지 이동

책소개 책소개 보이기/감추기

목차 목차 보이기/감추기

책 속으로 책속으로 보이기/감추기

나는 온갖 유형의 누락된 데이터를 통칭해 ‘다크 데이터dark data’라 부른다. 다크 데이터는 우리가 볼 수 없게 숨겨져 있는데, 그 때문에 우리는 오해하고 틀린 결론을 내리고 나쁜 결정을 할 우려가 있다. 한마디로 무지 때문에 판단을 그르칠 수 있다는 뜻이다.
--- 「1장. 다크 데이터 보이지 않는 것이 이 세계를 만든다」중에서

뭐가 문제람? 그냥 결과가 알려진 환자 146,270명을 분석한 뒤에 그걸 바탕으로 진단을 내리면 되지 않을까? 어쨌거나 146,270은 큰 수니까(의학 분야에서 이만하면 ‘빅데이터big data’이므로) 이 데이터를 바탕으로 내린 결론이라면 그것이 무엇이든 옳다고 확신할 수 있을 듯하다.
하지만 과연 그럴까? 어쩌면 결과를 모르는 19,289건은 다른 사례의 결과와 매우 다를지도 모른다. (중략)
쏙쏙 이해가 되게끔 실제로 일어나기 어려운 극단적인 예를 들어보겠다. 결과가 알려진 146,270명은 치료 없이도 회복되어 생존했지만, 결과가 알려지지 않은 19,289명은 모두 입원 이틀 내에 사망했다고 하자. 만약 결과가 알려지지 않은 사례들을 무시한다면, 우리는 당연히 트라우마 환자들이 전부 회복되었으니 걱정하지 않아도 된다고 결론 내릴 것이다. 그리고 이를 근거로 우리는 트라우마로 입원한 환자들은 저절로 회복되리라 예상하며 아무 치료도 하지 않을 것이다. 그러다가 11퍼센트가 넘는 환자가 죽어가는 현실과 맞닥뜨리고는 충격과 혼란에 휩싸이고 말 것이다.
--- 「1장 | 다크 데이터 보이지 않는 것이 이 세계를 만든다」중에서

문제는 그보다 훨씬 더 심각했다. 실제로 여러 겹의 다크 데이터가 숨어 있었다. 예를 들면 다음과 같다.
실제로 누가 신청했는가? 예전에 은행은 잠재 고객에게 대출을 원하는지 물어보는 우편을 보냈을지 모른다. 원한다고 대답한 고객도 있고 원하지 않는다고 대답한 고객도 있었을 것이다. 대량 발송된 편지에 대답한 사람들만이 데이터에 포함되었을 텐데, 응답하고 싶은 마음은 편지의 내용, 대출 금액, 대출 이율, 그리고 내가 모르는 다른 여러 요소에 따라 정해졌을 것이다. 여기서 답변하지 않은 고객들은 다크 데이터를 나타낸다.
누구한테 제안했는가? 답변한 고객들은 평가를 받았을 것이며, 그들 중 누구는 대출을 제안받고 누구는 받지 못했을 것이다. 하지만 은행이 어떤 근거에서 대출을 제안했는지는 모르기 때문에 나는 더 많은 다크 데이터를 안고 있는 셈이었다.
누가 제안을 받아들였는가? 앞의 두 선택 과정과 더불어 대출을 제안받은 고객 중 일부는 받아들이고 일부는 받아들이지 않았을 것이다. 또 한 겹의 다크 데이터가 생긴다.
이렇게 여러 겹의 다크 데이터가 뒤섞여 있으므로 내가 받은 데이터가 문제 해결, 곧 새 신청자를 평가할 모형을 세우는 일과 어떻게 관련이 되는지 좀체 파악되지 않았다.
--- 「2장 | 다크 데이터 찾아내기 우리가 모은 것과 모으지 않은 것」중에서

경제 분야의 사례로 인플레이션의 측정을 들 수 있다. 인플레이션의 정의는 규정된 상품 및 서비스 집합[이른바 상품 및 서비스의 ‘바스켓basket(바구니)’, 물론 진짜 바구니는 아니다]의 가격을 기록하고 평균 가격이 시간에 따라 어떻게 변하는지 살피는 것에 기반한다. 하지만 여러 가지 복잡한 측면이 존재하는데, 전부 DD 유형 8: 데이터의 정의에서 비롯된다. 그중 하나를 들자면 ‘평균을 어떻게 계산하는가’라는 문제가 있다. 왜냐하면 통계학자들은 평균을 여러 가지 방식으로 계산하기 때문이다. 평균을 계산하는 방법으로는 산술평균, 기하평균, 조화평균 등이 있다. 최근에 영국은 대다수 다른 나라들과 보조를 맞추기 위해 산술평균에 바탕을 둔 지수를 사용하는 관행에서 벗어나 기하평균에 바탕을 둔 방법으로 바꾸었다. 다른 방법을 사용한다는 것은 무언가를 다른 관점에서 본다는 뜻이므로 당연히 데이터의 다른 측면이 보이거나 보이지 않게 된다.
--- 「3장 | 다크 데이터와 정의 알고자 하는 것이 정확히 무엇인가?」중에서

게이밍gaming은 현실에서 오해의 소지가 있고 모호하고 의도치 않은 측면들을 이용하려고 한다. 게이밍에서 다크 데이터는 의도적인 은폐가 아니라 오히려 시스템이 구성되는 방식에서 비롯되는 우발적인 측면 때문에 생기며, 사람들은 그 데이터를 이용할 수 있다. 한마디로 게이밍은 대체로 불법이 아니다. 목표는 규칙을 지키면서도 규칙을 조작하여 이득을 얻는 것이다. 게이밍은 DD 유형 11: 피드백과 게이밍에 해당한다.
--- 「5장 | 전략적 다크 데이터 게이밍, 피드백, 정보 비대칭」중에서

온갖 종류의 사기는 모두 정보를 숨기면서 벌어진다. 사기의 종류가 워낙 다종다양하다 보니 사기를 근절하려면 매우 다양한 전략이 많이 필요하다. 세부 기록을 일일이 힘겹게 확인하기(정교한 통계적 방법), 기계학습 및 데이터 마이닝 도구를 통해 비정상적으로 거래하는 전형적인 고객 행동 패턴을 모형화하기, 그리고 특정 종류의 거래가 발생할 때 경보 시스템 발동하기까지 온갖 전략이 필요하다. 다크 데이터에 관한 한 유념해야 할 교훈은 우리에게 이미 익숙한 것이다. ‘어떤 것이 사실이라고 하기엔 너무 좋아 보이면, 사실이 아닐 가능성이 크다.’ 아마도 진실을 숨기고 있을 것이다.
--- 「6장 | 고의적 다크 데이터 사기와 기만」중에서

요약하자면 과학의 근본적인 과정은 관측된 데이터로 이론을 검증하여, 이론과 데이터가 불일치하면 해당 이론을 버리거나 수정하는 일이다. 하지만 우리는 불일치가 새로운 통찰을 줄 수도 있다는 것을 깨달아야 한다. 만약 이론과 데이터가 일치하지 않으면, 데이터에 오류가 있기 때문일 수 있다. 내가 이 책에서 꼭 전해주고 싶은 말이다. 데이터는 언제나 오류, 측정의 불확실성, 표본 왜곡, 그리고 다른 여러 문제점을 안고 있으며, 따라서 데이터 오류는 실존하는 가능성이라는 것이다. 그래서 과학자들은 정확한 측정 도구를 제작하고 정밀하게 통제된 조건하에서 측정하려고 온갖 노력을 다 기울인다. 측정 대상이 질량, 길이, 시간, 은하 사이의 거리, 지능, 의견, 복지, GDP, 실업, 인플레이션이든 다른 어떤 것이든 간에 말이다. 정확하고 신뢰할 만한 데이터는 제대로 된 과학에 필수적이다.
--- 「7장 | 다크 데이터와 과학 발견의 본질」중에서

사실 우리는 2장에서 금융지수를 살펴보면서 특히 SDD 누락의 경제적 사례들을 이미 접했다. 가령 다우존스산업평균지수는 미국의 30개 민간 대기업들의 개별 주가의 합을 다우 제수Dow divisor로 나눈 값이다. 하지만 기업은 생겼다 사라진다. 그리고 다우존스를 구성하는 기업들은 이 지수가 처음 시작된 1896년 이래로 50번 넘게 바뀌었다. 특히 재정적 어려움에 처하거나 경제 상황이 바뀔 때 기업들이 지수에서 빠질지 모른다. 다시 말해 다우지수는 전체 기업 실적을 대표하지 않고 꽤 잘나가는 기업들만 대표한다. 하지만 실적 퇴보나 경제적 상황 변화의 징후가 먼저 생긴 다음에 특정 기업을 지수에서 빼는 결정이 내려지므로, 데이터는 SDD다.
마찬가지로 시가총액이 큰 500개 기업의 가중치 적용 주가 평균인 S&P500에 속한 기업들도 다른 기업과 비교하여 실적이 악화될 때 지수에서 빠진다. 어느 기업을 빼는 결정은 반드시 사전에 입수한 데이터를 기반으로 내려져야 한다(데이터를 소급 적용해서는 안 된다!). 따라서 이번에도 배제된 기업을 설명하는 데이터, 곧 지수 계산에서 빠지는 데이터는 SDD라고 할 수 있다.다.
--- 「8장 | 다크 데이터 다루기 빛을 비추기」중에서

웹에서 모은 데이터 세트의 다크 데이터에는 더 심각한 문제점들도 있다. 이를테면 구글의 검색 알고리즘은 더 효율적으로 작동하기 위해 끊임없이 업데이트된다. 하지만 이 변경의 세부사항은 그런 과정에 깊이 관여하는 사람들을 제외하고는 대체로 모든 사람에게 알려지지 않는다. 최근의 변경 내용으로는 등급을 매길 때 웹페이지 품질 평가 점수의 도입, 조작으로 보이는 웹사이트의 강등, 검색어의 의도에 더 잘 맞추기 위한 자연어 처리, 모바일 친화적인 페이지의 등급 격상, 그리고 구글의 지침을 위반하는 웹사이트 식별 등이 있다. 이 모든 변경 사항은 타당하고 유익해 보이지만, 요점은 구글이 데이터 수집의 속성을 바꾼다는 사실 자체다. 다시 말해 이전에 수집된 데이터와 변경 후에 수집된 데이터를 비교하기가 어렵다(DD 유형 7: 시간에 따라 변하는 데이터). 특히 경제 및 사회복지 지표들의 값이 달라질 수 있는데, 기본적인 현실이 바뀌어서가 아니라 현실을 다루기 위해 수집되는 데이터가 바뀌었기 때문이다. 이른바 지표 표류indicator drift가 생기는 것이다. 이런 변화의 밑바탕에 다크 데이터가 도사리고 있다.
--- 「10장 | 다크 데이터 분류법 미로 속으로 난 길」중에서

출판사 리뷰 출판사 리뷰 보이기/감추기

회원리뷰 (37건) 회원리뷰 이동

한줄평 (11건) 한줄평 이동

총 평점 9.8점 9.8 / 10.0

배송/반품/교환 안내

배송 안내
반품/교환 안내에 대한 내용입니다.
배송 구분 예스24 배송
  •  배송비 : 무료배송
포장 안내

안전하고 정확한 포장을 위해 CCTV를 설치하여 운영하고 있습니다.

고객님께 배송되는 모든 상품을 CCTV로 녹화하고 있으며, 철저한 모니터링을 통해 작업 과정에 문제가 없도록 최선을 다 하겠습니다.

목적 : 안전한 포장 관리
촬영범위 : 박스 포장 작업

  • 포장안내1
  • 포장안내2
  • 포장안내3
  • 포장안내4
반품/교환 안내

상품 설명에 반품/교환과 관련한 안내가 있는경우 아래 내용보다 우선합니다. (업체 사정에 따라 달라질 수 있습니다)

반품/교환 안내에 대한 내용입니다.
반품/교환 방법
  •  고객만족센터(1544-3800), 중고샵(1566-4295)
  •  판매자 배송 상품은 판매자와 반품/교환이 협의된 상품에 한해 가능합니다.
반품/교환 가능기간
  •  출고 완료 후 10일 이내의 주문 상품
  •  디지털 콘텐츠인 eBook의 경우 구매 후 7일 이내의 상품
  •  중고상품의 경우 출고 완료일로부터 6일 이내의 상품 (구매확정 전 상태)
반품/교환 비용
  •  고객의 단순변심 및 착오구매일 경우 상품 반송비용은 고객 부담임
  •  직수입양서/직수입일서중 일부는 변심 또는 착오로 취소시 해외주문취소수수료 20%를 부과할수 있음

    단, 아래의 주문/취소 조건인 경우, 취소 수수료 면제

    •  오늘 00시 ~ 06시 30분 주문을 오늘 오전 06시 30분 이전에 취소
    •  오늘 06시 30분 이후 주문을 익일 오전 06시 30분 이전에 취소
  •  직수입 음반/영상물/기프트 중 일부는 변심 또는 착오로 취소 시 해외주문취소수수료 30%를 부과할 수 있음

    단, 당일 00시~13시 사이의 주문은 취소 수수료 면제

  •  박스 포장은 택배 배송이 가능한 규격과 무게를 준수하며, 고객의 단순변심 및 착오구매일 경우 상품의 반송비용은 박스 당 부과됩니다.
반품/교환 불가사유
  •  소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
  •  소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 : 예) 화장품, 식품, 가전제품, 전자책 단말기 등
  •  복제가 가능한 상품 등의 포장을 훼손한 경우 : 예) CD/LP, DVD/Blu-ray, 소프트웨어, 만화책, 잡지, 영상 화보집
  •  소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우
  •  디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  •  eBook 대여 상품은 대여 기간이 종료 되거나, 2회 이상 대여 했을 경우 취소 불가
  •  중고상품이 구매확정(자동 구매확정은 출고완료일로부터 7일)된 경우
  •  LP상품의 재생 불량 원인이 기기의 사양 및 문제인 경우 (All-in-One 일체형 일부 보급형 오디오 모델 사용 등)
  •  시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  •  전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
소비자 피해보상
  •  상품의 불량에 의한 반품, 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁해결기준(공정거래위원회 고시)에 준하여 처리됨
환불 지연에
따른 배상
  •  대금 환불 및 환불 지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리
  •  쿠폰은 결제 시 적용해 주세요.
1   17,100
뒤로 앞으로 맨위로 공유하기