빅데이터 열풍은 이상하게도 사라지지 않았다. 잊을 만하면 다시 불었다. 다시 불 때마다 빅데이터는 열풍에서 태풍으로 그리고 광풍으로 그 세력을 키웠다. 그저 한때의 유행이니 ‘조만간 사라지겠지’라고 믿었던 필자의 생각은 보기 좋게 빗나갔다. 이명박 정부에서 시작된 열풍은 박근혜 정부로 넘어가서도 이어졌다. 보통 이런 종류의 유행은 정권이 바뀌면서 사라지기 마련인데, 이상하게도 빅데이터 열풍은 광풍으로 발전했다.
--- p.12~13
우리나라에서 빅데이터 유행은 언제부터 시작되었을까? 그날은 201 1년 1 1월 7일이었다. 이명박 대통령이 참석한 제3차 국가정보화전략위원회 보고회의에서 이각범 위원장은 빅데이터를 가장 주목해야 할 개념으로 제시했다. 그날 이명박 대통령은 “위원회가 ‘빅데이터’라는 화두를 던져줬는데 이를 실천하는 것이 필요하다”며 “그래야 다른 나라에 앞설 수 있으며 조속히 실천에 옮겨 효과가 나오도록 하자”고 말했다.
--- p.35
빅데이터 시대가 도래했다고 할 때, 초점을 두는 것은 정형 데이터가 아니라 비정형 데이터이다. 하지만 아직까지 비정형 데이터를 분석할 수 있는 기술은 충분히 개발되지 못했다. 예를 들어 CCTV에 찍힌 범죄자나 범죄 차량을 컴퓨터가 자동으로 인식할 수 있는 기술의 개발은 아직도 요원하다. 이런 상황에서 어떠한 빅데이터를 분석할 것인가? 결국 빅데이터 분석은 방대한 동영상을 제외하고, SNS에서 이루어지는 문자 메시지에 초점을 둔다. 그러다 보니 빅데이터 분석은 가십gossip 분석으로 전락하고 만다. 과연 가십 분석이 그렇게 큰 국가적 의미를 지니는가? 이에 대한 논의를 찾아보기 힘들다.
--- p.40
그렇다면 2016년 현재 우리나라의 빅데이터 기술 수준은 어떠한가? 과연 빅데이터 활용의 타당성이 확인되었는가? 빅데이터 기술의 타당성이 확인되었다고 주장하는 그 어떤 보고서도 필자는 알지 못한다. 그렇다면 2단계가 끝나야 하는 2016년 현재, 빅데이터 활용이 확산되고 있는가? 빅데이터가 어느 영역에서 활용되고 있는지에 관하여 필자는 아직 들어보지 못했다. 아직도 여기저기에서 막연하게 빅데이터가 중요하다는 이야기만 한다. 아직도 막연하게 빅데이터를 하면 무언가 좋지 않겠느냐는 이야기만 한다. 왜 좋을 것 같으냐고 물으면, 대답은 2011년 11월 7일과 똑같다. 미국 정부도 좋다고 했고, 구글도 좋다고 하지 않았느냐는 것이다. 답답한 노릇이다. 5년 동안 도대체 무엇을 한 것인가?
--- p.54
2014년 지방선거와 2016년 총선거를 거치며 빅데이터의 실효성이 현장에서 그리 높지 않음이 밝혀졌다. 이뿐만이 아니었다. 많은 빅데이터 프로젝트들이 기대했던 성과를 도출하는 데 실패했다. 빅데이터 프로젝트에 참여했던 지식인들의 열성이 모자라거나 능력이 부족했기 때문이 아니었다. 처음에 기대했던 빅데이터에 대한 환상, 즉 구글의 독감 예측Google Flu trends처럼 미래를 기가 막히게 예측할 수 있으리라는 환상은 애초에 이론적으로나 현실적으로나 실현될 수 없었다.
--- p.73
빅데이터라는 단어와 관련된 가장 중요한 단어들은 ‘전문가’, ‘빅데이터 전문가--- p.교육’, ‘양성과정’ 등이었다. 어느덧 빅데이터 시장은 빅데이터를 분석해 나름의 시사점을 도출해내는 서비스 시장이 아니라 빅데이터를 가르치는 교육 시장으로 변모한 것이다. 빅데이터 옹호론자들이 소위 빅데이터 전문가를 키우고, 빅데이터 전문가들이 다시 빅데이터 옹호론자가 되는 양의 피드백 루프가 형성된다.
--- p.75~76
두 번째로, 빅데이터 실패의 이유로 더 많이 언급되는 변명이 있다. 바로 데이터가 부족하다는 것이다. 빅데이터 연구를 하려면 빅데이터가 있어야 하는데, 빅데이터가 없기 때문에 기대했던 결과 즉, 빅데이터 산업의 부흥이 일어나지 않는다는 것이다. 그러고는 정부가 가지고 있는 빅데이터를 개방하라고 목소리를 높인다. 정부의 데이터를 개방하면 빅데이터 시장이 창출된다는 것이다.
--- p.77
빅데이터가 너무 많아서 빅데이터 분석이 필요하다고 해놓고, 이제 와서 빅데이터가 부족하니 정부가 관리하고 있는 국민들의 개인정보를 공개하라고 한다. 그리고 또 말한다. 빅데이터 분석으로 개인을 식별할 수 없다고 말이다. 빅데이터 분석 기술이 그 정도 수준에 불과하다면, 그냥 빅데이터를 때려치우는 게 나을지 모른다. 어차피 개인 정보를 다 공개해서 가져다준다 한들 아무런 분석도 못할 것이기 때문이다. 어차피 빅데이터를 분석할 능력이 없으므로, 굳이 개인정보를 공개할 필요가 없게 되는 것이다.
--- p.80~81
다시 한 번 말한다. 이 논문의 필진들은 구글의 빅데이터 분석이 미래를 예측할 수 있다고 말한 적이 없다. 하지만 이들의 논문은 빅데이터 분석이 가장 강력한 미래 예측 도구라는 주장의 근거로 이용되고 포장되어 확산되었다. 이들의 연구는 세계 각국으로 퍼져나갔다. 2년 정도 흐른 다음에는 우리나라에 상륙하여, 빅데이터가 가장 중요한 국가 전략이 되어야 하며, 빅데이터를 준비하지 않으면 국가경쟁력을 상실하여 국가 간의 경쟁에서 뒤처질 것이라는 선언의 핵심 명분이 되기에 이르렀다. 하지만 거기에는 아무런 합리적 근거가 없었다.
--- p.93~94
최근 스몰데이터로 주목받는 사람은 마틴 린드스트롬Martin Lindstrom이다. 그는 “빅데이터는 소비자 행동의 ‘전체 그림’을 보여주지는 않는다”며 이어서 “스몰데이터를 통해 사람들 본 모습을 알 수 있다” 35 고 말했다. 빅데이터는 방대한 데이터에 대한 통계적 분석을 수행하여 상관관계correlation를 찾는다. 이에 반해 스몰데이터는 원인과 결과의 관계, 즉 인과관계casual relation를 파악한다. 사업을 계획하는 사람들이나 미래의 정책을 고심하는 사람들에게 상관관계는 인과관계에 비해 중요하고 핵심적인 시사점을 제시하지 못한다. 비즈니스에 있어서 중요한 것은 원인과 결과의 관계이지, 통계적인 상관관계가 아니다. 빅데이터는 상관관계를 찾을 수는 있지만 인과관계를 확인할 수는 없다. 인과관계는 빅데이터가 아니라 스몰데이터에서 찾을 수 있는 것이다.
--- p.99~100
이렇게 해서 우리나라 빅데이터 유행의 세 가지 특성을 정리할 수 있다. 첫째, 우리나라의 빅데이터 유행은 미국에 대한 모방이며 미국으로부터 수입한 것이다. 둘째, 우리나라의 빅데이터 유행은 정부에 의해 주도된, 위로부터의 유행이다. 셋째, 우리나라의 빅데이터 유행은 반성과 비판이 없는 유행이다.
--- p.111
지적 유행의 조건을 조금 더 이해하기 쉽게 말해보자. 사기 도박이 성사되려면 세 가지 조건이 충족되어야 한다. 첫째, 돈을 주체하지 못하는 호구가 있어야 한다. 호구가 돈을 잃어주어야 사기도박이 유지될 수 있다. 이것은 여유 자원에 해당된다. 둘째, 이 돈을 뺏어 먹을 수 있는 기술자들 즉, 타짜들에게 인센티브를 주어야 한다. 비록 타짜와 같은 기술을 가지고 있지 않지만 도박 장소를 제공해주는 하우스 운영자들에게도 위험을 감수할 만큼의 인센티브가 주어져야 한다. 셋째, 호구와 타짜를 엮어주는 바람잡이들이 있다. 바람잡이들은 호구들의 도박 능력을 과도하게 칭찬해주고, 호구들에게 근거 없는 자신감을 불어넣는다. 바람잡이의 역할은 천박한 지적 풍토를 조성하는 일이다.
--- p.115
우리나라의 빅데이터 유행은 지적 유행의 세 가지 조건이 잘 충족된 전형적인 사례이다. 먼저 미국의 빅데이터 유행을 수입해오는 역할은 ‘빅데이터 옹호론자’들이 수행한다. 이들이 미국의 성공 사례를 들어 빅데이터 연구의 필요성을 부각시키면, 마치 기다렸다는 듯이 정부는 돈을 풀어 프로젝트를 발주한다. 이 세계에서는 정부 예산을 ‘눈먼 돈’이라고도 부른다.
이렇게 해서 빅데이터 시장의 규모가 점점 더 커지면, 이제는 데이터 분석 기술을 가지고 있는 업체들이 진입하게 된다. 이들은 꽤 큰 데이터들을 다루면서 화려한 그래픽으로 무언가를 보여주기도 한다. 이들의 화려한 기술에 매료된 정부 공무원들은 앞으로 더 많은 돈을 풀어 빅데이터 시장을 키워야겠다는 생각을 한다. 빅데이터 시장이 커질수록, 점점 더 많은 지식인들이 빅데이터 전문가로 변신한다. 이렇게 해서 빅데이터라는 지적 유행을 둘러싸고, 빅데이터 옹호자와 정부와 빅데이터 업체로 이루어진 ‘철의 삼각관계iron triangle’가 완성된다.
--- p.116
미국 정부의 빅데이터 연구는 허황된 미래 예측에 초점을 두기보다는 과거 데이터들 간의 상관관계를 분석하는 과학적인 방법에 초점을 두고 있다. 이에 비해 우리는 빅데이터를 만병통치약으로 신봉하는 편에 가깝다.
--- p.141
앤더슨은 상관관계로 충분하다고 생각한다. 심지어 상관관계가 인과관계보다 더 우수하다고 주장한다. 터무니없는 주장이다. 예를 들어보자. 한 나라의 암 환자 숫자와 암 전공 의사 숫자 사이에는 긴밀한 상관관계가 있다. 암 환자가 적은 나라를 보니 암 전공 의사 숫자도 적었다. 정말로 그렇다면, 의과대학의 암 전공 과정을 폐쇄시켜버리면, 암 환자가 줄어들 것인가? 아마도 그럴지도 모른다. 다만 진짜로 암 환자가 줄어서가 아니라, 암 환자가 다른 나라로 치료받으러 가거나, 진료할 의사가 없으니 암 환자로 등록되지 않았기 때문이다. 결국 암 환자를 감소시키는 정책은 성공할 것이다. 물론 실제적으로가 아니라 통계적으로 성공할 뿐이다. 이렇게 가면 통계적으로는 성공한다. 그러나 이렇게 가면 망한다. 통계적으로는 성공하지만, 실제로는 망할 수밖에 없다.
--- p.150
분명하고 절대 변하지 않는 한 가지 사실은, 빅데이터 분석을 통하여 알 수 있는 것은 인과관계가 아니라 상관관계일 뿐이라는 점이다.
--- p.150~151
어떤 형태로 존재하든 상관없이 빅데이터는 근본적으로 데이터이다. 빅데이터도 결국에는 데이터란 말이다. 데이터가 많다고 해서 데이터 자체의 특성이 달라지는 것은 아니다. 모래가 많다고 해서 물이 되는 것은 아니듯 말이다. 모래는 모래고, 물은 물이다. 많다고 변하는 것은 아니다. 빅데이터는 데이터다. 그렇다면 데이터란 무엇인가? 데이터는 ‘과거의 기록’이다.
어떤 형태를 지니는 데이터이건 모든 데이터는 과거의 기록이다. 즉, 데이터는 ‘과거’라는 특성과 ‘기록’이라는 특성을 지닌다. 이 두 가지가 데이터의 본질이다. 데이터는 미래에 발생하는 것이 아니다. 데이터는 이미 지나간 것이다.
--- p.155~156
빅데이터에 대한 가장 큰 망상은 빅데이터를 통해 미래를 예측할 수 있다는 주장이다. 근본적으로 빅데이터는 과거의 기록이다. 빅데이터를 분석해서 과거에 어떤 일이 있었는지를 자세히 알 수 있다고 한다면, 어느 정도 수긍할 수 있다. 하지만 과거의 기록인 빅데이터를 가지고 미래를 예측할 수 있다는 주장과 기대는 난센스이다.
--- p.158
빅데이터는 데이터다. 데이터는 과거의 기록일 뿐이다. 그리고 빅데이터 분석은 상관관계만을 제공한다. 이것은 아무리 복잡한 첨단 기술을 가지고 온다고 하더라도 변할 수 없는 것이다.
--- p.160
이러한 점을 명확하게 인식한다면, 빅데이터를 통해 미래를 예측해서 미래의 재난을 예방하고 미래의 기회를 선취한다는 포부는 뜬구름 잡는 이야기라는 걸 알 수 있을 것이다. 하지만여기에서 명심해야 할 점이 있다. 그렇다고 해서 빅데이터 분석이 무의미하다는 말은 절대 아니라는 점이다. 빅데이터는 나름대로 가치가 있고 의미가 있다. 다만 빅데이터는 과거를 이해하고 평가하는 차원에서 중요한 의미를 지닌다. 한데, 미래를 예측하고 미래에 벌어질 일에 대응하고자 한다면, 데이터가 아니라 이론이 필요하다. 바로 이것을 행태주의, 경제학, 통계학, 심리학, 인공지능의 대가이자 20세기의 천재라고 불리는 사이먼이 죽기 전에 역설한 것이다.
--- p.161
앞으로 사물인터넷 공간과 기기에 조 단위가 넘는 센서가 설치되어 작동될 것이다. 이들 센서로부터 매순간 발생되는 데이터는 상상을 초월하는 양이 될 것이다. 빅데이터는 바로 이 방대한 데이터를 분석해야 하는 기술이다. 공개하고 싶어 하지 않는 개인들의 정보를 강제로 공개할 필요가 없다. 빅데이터 기술을 가지고 미래를 예측할 수 있다는 허황된 이야기를 할 필요도 없다. 사물인터넷은 지금까지 보지 못했던 방대한 양의 데이터를 쏟아낼 것이다. 이것을 분석하는 것이 바로 빅데이터의 본질적 역할인 것이다.
--- p.165
빅데이터의 본질에 충실한 프로젝트는 얼마든지 훌륭한 성과를 낼 수 있다. 이렇게 본질에 충실한 빅데이터는 그다지 화려하지 않으며 엄청난 수익을 창출할 수 있다고 거짓말하지 않는다. 이제 우리나라도 선진국을 모방하는 단계에서 한 발 더 나아가 우리만의 역량으로 새로운 것을 창조하는 하는 단계로 진입했다. 선진국의 유행을 수입해서 과도한 거품을 조장하는 일은 바람직하지 못하다. 공무원과 지식인이 현실적인 문제에 대해서 보다 더 진지하게 임해야 할 때이다. 그렇게 스스로 진지한 모습을 보여줄 때, 공무원과 지식인에 대한 신뢰와 존중이 높아질 수 있을 것이다.
--- p.165~166