옥스퍼드 대학 내 옥스퍼드 인터넷 연구소에서 인터넷 관리 규제를 강의하고 있다. 빅 데이터 분야의 세계적인 권위자로 100편이 넘는 글과 여덟 권의 책을 출간했다. 최근작으로는 『잊어질 권리Delete: The Virtue of Forgetting in the Digital Age』가 있다. 마이크로소프트와 세계경제포럼을 비롯한 세계 각지의 기업 및 단체에서 고문으로 활동하고 있다.
저자 : 케네스 쿠키어(Kenneth Cukier)
≪이코노미스트≫의 데이터 편집자로 빅 데이터에 관한 저명한 논평가다. ≪포린 어페어≫, ≪뉴욕타임스≫, ≪파이낸셜 타임스≫ 등에 비즈니스 및 경제에 관한 글을 쓰고 있다.
역자 : 이지연
인트랜스 소속 번역가 서울대학교 철학과를 졸업했다. 삼성전자에서 기획 및 마케팅 업무를 담당했으며, 지금은 인트랜스에서 전문 번역가로 활동하고 있다. 옮긴 책으로 『킬 더 컴퍼니』, 똑똑한 바보들』, 『마담 투소 : 프랑스 혁명에 관한 이야기』 『2012 세계경제대전망』(공역), 『거짓말을 간파하는 기술』 등이 있다.
무작위 샘플링은 엄청난 성공을 거두었고 현대적인 대규모 조사의 근간이 됐다. 하지만 이것은 어디까지나 전체 데이터를 수집하고 분석하는 것에 대한 차선의 대안일 뿐이다. 무작위 샘플링은 수많은 약점을 동반한다. 무작위 샘플링 조사의 정확성은 샘플 데이터를 수집할 때 무작위성을 얼마나 확보할 수 있는지에 달려 있다. 그런데 이 무작위성을 얻는 것은 쉬운 일이 아니다. 데이터를 수집하는 방식에 체계적 편향이 있을 경우 산정된 결과치는 완전히 다른 수치가 나올 수도 있다. ---「Chapter 2 많아진 데이터」 중에서
우리는 일상생활에서 워낙 자주 인과적으로 생각하다 보니 인과성을 밝히는 일이 쉽다고 믿을지 모른다. 하지만 진실은 그렇게 안이하지 않다. 상관성을 계산하는 수학은 상대적으로 간단하다. 하지만 인과성을 ‘증명’하는 뚜렷한 수학적 방법이란 없다. 심지어 인과적 관계는 기본적 등식으로 표현조차 안 된다. 그러니 힘들게 천천히 생각하더라도 확정적인 인과적 관계를 찾는 일은 쉽지 않다. 우리는 정보가 부족한 세상에 익숙해져 있기 때문에 제한된 데이터로도 추론을 해보려는 유혹을 느낀다. 하지만 어느 결과를 특정 원인 탓으로 돌리기에는 지나치게 많은 요소가 개입되어 있는 경우가 너무 많다. ---「Chapter 4 인과성과 상관성」 중에서
궁극적으로 데이터의 가치는 그것을 이용하는 사람에 달려 있다. 어떤 방식이 되었건 가능한 쓰임새를 찾아내 가치를 끌어내면 그것이 곧 그 데이터의 가치다. 무한한 듯 보이는 이 잠재적 용도는 마치 옵션과 같다. 금융 상품을 말하는 것이 아니라 선택 가능성을 뜻하는 일상적 의미의 옵션 말이다. 데이터의 가치는 이런 선택 가능성들의 총계이고, 이것이 말하자면 데이터의 ‘옵션 가치’다. 과거에는 데이터의 주된 용도가 달성되고 나면 그 데이터는 임무를 다한 것으로, 그래서 지우면 되는 것으로 생각한 경우가 많았다. 핵심적 가치를 뽑아낸 걸로 보였으니까 말이다. 하지만 빅 데이터 시대에 데이터는 마치 마법의 다이아몬드 광산과 같다. 주된 가치는 이미 다 꺼내 쓴 지 오래지만 아직도 파면 팔수록 계속 뭔가 나오는 다이아몬드 광산 말이다. 데이터의 옵션 가치를 깨우는 강력한 방법이 세 가지 있다. 바로 기본적 재사용, 데이터 집합 합치기, ‘반값 할인’ 찾기다. ---「Chapter 6 가치」 중에서
많은 상황에서 데이터 분석은 이미 예방이라는 이름으로 채용되어 있다. 데이터 분석은 우리를 비슷한 사람들과 동일 집단으로 묶는 데 사용되고, 우리는 자주 우리가 속한 그 집단에 따라 특징지어진다. 보험 계리인의 도표에는 50세 이상의 남성은 전립선암에 걸리기 쉬우므로 이 집단에 속한 사람들은 건강보험료를 더 내야 할지 모른다고 표시되어 있다. 아직 전립선암에 걸린 적은 없지만 말이다. 성적이 우수한 고등학생들은 집단으로 봤을 때 자동차 사고를 일으킬 가능성이 낮다. 그래서 성적이 낮은 일부 또래들은 보험료를 더 내야 한다. 특정한 특징을 지닌 개인들은 공항검색대를 지날 때 추가 검사를 받는다.
모든 것에 대한 시각을 바꿔놓는 책은 10년에 한두 권 나온다. 이 책이 바로 그런 책이다. 이제 사회는 빅 데이터가 가져올 변화에 대해 생각해보기 시작했다. 이 책은 그 중요한 시작을 알린다. - 로렌스 레식 (하버드대 로스쿨 교수)
이 책은 오늘날의 정보 폭발이 세상에 대한 우리의 기본적 이해 방식을 근본적으로 어떻게 바꿔놓을지를 잘 보여준다. 앞으로 회사들은 어떻게 가치를 창출하고, 정책 입안자들은 무엇을 경계하고, 모든 이가 어떻게 인지모델을 바꿔야 할지 과감하고 분명한 주장을 유려한 문체로 표현하고 있다. - 조이 이토 (MIT 미디어랩 연구소장)
비즈니스 세계의 미래를 결정지을 핵심 트렌드에 관해 남보다 먼저 알고 싶다면 반드시 읽어야 할 책이다. - 마크 베니오프 (세일즈포스닷컴 회장)
빅 데이터 혁명에 관한 긍정적이고 실용적인 시각을 제시한다. 우리가 알아야 할 커다란 변화는 이미 시작되었고, 더 큰 변화가 우리를 기다리고 있다. - 코리 닥터로우 (보잉보잉닷컴 공동 편집자)
물은 축축하지만 개별 물 분자가 축축한 것은 아니듯, 빅 데이터를 사용하면 개별 데이터로는 알 수 없는 정보를 알 수 있다. 엄청나게 많은 복잡하고 헝클어진 정보들을 이용해 쇼핑 패턴부터 독감 발병에 이르기까지 수많은 예측을 가능하게 하는 놀라운 방법들이 펼쳐진다. - 클레이 서키 (뉴욕 대학교 교수, 칼럼니스트)
빅 데이터를 둘러싼 미스터리와 과대 선전을 단칼에 정리하는 책이다. 업계에 속한 사람이라면 누구나 반드시 읽어야 할 책이며 IT, 공공정책, 정보기관, 의료계에 속한 사람들에게도 필독서다. 단순히 미래가 궁금한 사람이 읽어도 좋다. - 존 실리 브라운 (전 제록스 수석연구원, 제록스 팔로알토 연구센터장)
정보를 활용하는 새로운 방식에 관한 통찰력이 넘치는 책이다. 이 책에 제시된 미래는 설득력이 있다. 빅 데이터를 사용하거나 빅 데이터의 영향을 받는 사람이라면 반드시 읽어야 할 책이다. 제프 조너스 (IBM 엔티티 애널리틱스 수석연구원)