데이터 저장 공간 문제는 항상 골칫거리였다. 불과 얼마 전까지만 해도 우리는 휴가지에서의 즐거운 시간을 장당 1달러짜리 폴라로이드 사진으로 남겼다. 최고의 TV쇼와 음악 프로그램은 오래된 비디오테이프에 반복 녹화해서 봐야만 했다. 컴퓨터 메모리 역시 항상 부족했다. 그러나 더 새롭고 더 저렴한 기술이 개발되면서, 수도꼭지에서 물이 나오듯 데이터가 콸콸 쏟아지기 시작했다. 사람들은 디지털 카메라를 장만했고 컴퓨터를 네트워크에 연결했으며 싼 가격에 전자기기를 구입해 대용량의 데이터를 저장했다. 그럼에도 불구하고 여전히 데이터를 저장하고 폐기하는 일은 계속됐다. 남길 데이터를 선별해야만 했다. 데이터의 양이 점점 많아짐에 따라 기술 개발의 흐름에도 박차가 가해졌다. 덕분에 모두가 아주 손쉽게 데이터를 생산할 수 있게 되었다. 필름 카메라는 디지털 비디오 카메라를 거쳐 종국에는 스마트폰 카메라로 대체됐다. 이 최신기기를 이용해 우리는 일평생 다시 보지도 않을 동영상을 녹화하고 있다.
--- p.16
인공지능을 학습시킬 때는 라벨이 달린 방대한 데이터가 반드시 필요하다. 충분하게 학습되지 않은 인공지능은 실수를 할 가능성이 크다. 이미 자율주행차가 드문 (예를 들어, 학습되지 않은) 조건에서 치명적인 오류를 일으키는 사례가 목격되었다. 이렇게 인공지능이 오류를 일으키면, 사람들은 이를 그냥 두고 넘어가지 않는다. 그래서 인공지능에는 가치 시스템이 필요하다. 즉, 자율주행차에 탑재된 인공지능은 사람을 치는 것이 도로를 벗어나는 것보다 더 나쁜 일임을 알아야 한다. 그리고 상업 시스템은 고객 만족과 매출과 리스크 감소의 균형을 유지할 수 있어야 한다.
--- p.51
타깃의 분석가들은 매출 기록, 출생 신고 그리고 제3자 제공 정보 등 활용할 수 있는 모든 데이터를 꼼꼼하게 살폈다. 몇 달 이내에 그들은 이전 구매 내역을 기본으로 임산부를 식별해내는 통계 모델을 개발했다. 이 통계 모델의 정확도는 상당했다. 그리고 심지어 출산 예정일까지 거의 정확하게 예측해냈다. 통계모델이 개발되고 1년 뒤 어느 날, 화가 잔뜩 난 한 남자가 타깃의 미니애폴리스 지점에 들이닥쳤다. 그는 지점장을 만나게 해달라고 요구하며 “내 딸은 이제 고등학생인데…, 아기 옷과 아기 침대 쿠폰 광고 메일을 보내다니! 지금 그 애한테 임신이라도 하라고 부추기는 거야?”라고 소리를 질렀다. 그러나 그 아버지는 곧 자기 딸이 진짜 임신했다는 사실을 알게 되었다. 이 이야기가 신문에 실렸고 세상은 타깃이 ‘금광’과 ‘PR 지뢰밭’을 동시에 찾은 것에 놀라워했다.
--- p.59
이탈 확률이 높은 고객을 찾아내 이탈을 막기 위해 노력해야 한다. 유료 서비스라면 구독이나 유료 서비스를 취소할 가능성이 있는 고객에게 집중해야 한다. 신규 고객을 확보하는 데는 큰 비용이 소요되지만, 기존 고객의 이탈을 억제할 수 있다면 상당한 투자수익률을 얻을 수 있다. 고객 이탈률을 분석하는 분석모델은 다양하다. 어떤 모델은 고객의 생존율(수명)을 추정해내고 그 밖의 다른 모델은 특정 기간 동안 고객이 이탈할 확률을 추정해낸다(예를 들어 향후 2개월 동안 고객이 이탈할 확률을 추정하는 것이다). 고객 이탈은 드문 사건이다. 그래서 이탈률 분석모델의 정확도를 조정하고 위양성(false positives)과 위음성(false negatives) 사이에서 균형을 이루는 것이 더 어렵다. 위양성과 위음성 중에서 어느 쪽에 발생한 오류를 더 잘 받아들일 수 있는지를 진지하게 고민해봐야 한다. 특정 고객을 잠재 이탈자로 표시하고 그들의 이탈률을 낮추는 비용과, 실제 이탈할 가능성이 있지만 아무런 조치를 취하지 않아 고객이 이탈해서 발생하는 비용이 균형을 이뤄야 한다.
--- p.85
초기에 컴퓨터 코드는 아이디어나 방법론이라 여겨졌기 때문에 저작권 보호의 대상이 아니었다. 1980년 미국에서 저작권 보호법이 확대되면서 보호 대상에 컴퓨터 프로그램이 포함되었다. 1983년 MIT의 리처드 스톨먼(Richard Stallman)은 소프트웨어 저작권에 반기를 들고 자유롭고 공개적인 협업을 통한 소프트웨어 개발을 지지하는 운동을 펼쳤다. 그는 (재판매 불가 등) 몇 가지 기본 조건을 충족하고 누구나 자유롭게 운영, 복제, 배포 또는 수정할 수 있는 소프트웨어 개발을 위한 프로젝트(1983)를 진행했고 성명서(1985)를 발표하고 그 기틀(1989)을 마련했다. 그는 이것을 GNU 프로젝트라고 불렀고 그 법적 기틀은 일반 공중 라이선스(GPL)의 최초 버전이었다. GNU 프로젝트에서 많은 소프트웨어가 개발됐고 그 과정에서 1992년 리눅스가 출시됐다. 리눅스는 현재 아주 흔히 사용되는 운영 시스템이다. 약간 과장을 하자면, 한때 거의 모든 소프트웨어 개발자들이 리눅스를 사용해서 소프트웨어를 개발했다. 1990년대 어디서나 사용되는 기본적인 기능에 기반을 둔 오픈소스 소프트웨어가 개발되었다. 바로 아파치 서버 HTTP다. 아파치 서버 HTTP는 웹의 성장에 지대한 역할을 했다.
--- p.104
지갑 점유율을 높이기 위해 노력하라. 지갑 점유율은 고객의 지출이 경쟁사가 아닌 당신의 회사로 흘러들어가는 비율이다. 우선 수집한 고객 데이터를 이용해서, 당신과 경쟁사가 동일한 고객층을 대상으로 판매하고 있는 제품의 종류와 범주를 파악해라. 그러면 누가 교차구매를 했는지, 누가 둘러보기만 했는지 그리고 누가 하나의 범주에서 주로 구매를 하는지를 알 수 있을 것이다. 고객이 다른 곳에서 구매한 제품을 파악해라. 이렇게 하면 지갑 점유율이 떨어지고 있는 분야를 확인할 수 있다. 당신은 식료품을 판매하고 있는데, 고객은 과일과 채소만 당신에게서 구입한다고 가정하자. 그렇다면 고객은 다른 곳에서 우유와 계란을 사고 있다는 의미다. 또는 당신은 전자제품을 파는데 고객은 스마트폰만 사간다면, 고객이 다른 곳에서 컴퓨터를 산다는 의미일 것이다. 이런 정보는 더 치열하게 매달려야 하는 분야가 어딘지 파악하는 데 도움이 된다. 이미 만들어 놓은 고객 분류를 이용해서 경쟁사가 품질에 민감한 고객, 마케팅에 적극적으로 반응하는 고객, 지출을 많이 하는 고객 등에게 더 많이 어필하고 있지는 않은지 살펴봐라.
--- p.134
IT부서 직원들은 오작동을 일으킨 생산 코드를 수정하라는 요청 때문에 새벽 3시에 잠에서 깨거나 휴일에도 전화를 받는다. 이런 일이 몇 년간 계속 되었다면, IT부서 직원들은 기존의 코드를 깨뜨릴 위험이 조금이라도 있는 애널리틱스 프로젝트에 극도로 민감하게 반응할 수밖에 없다. 그들은 프로젝트 계획단계에서 애매하거나 불확실한 요소에 대해 반감을 가지고 처음부터 프로젝트를 다시 계획하기를 원할 수도 있다. 나중에 살펴보겠지만, 이런 이유 때문에 애널리틱스 프로젝트는 일반적으로 방대한 사전 계획이 요구된다. 그래서 애널리틱스 프로젝트의 아주 초기 단계부터 긴장감이 조성되기도 한다. 반대로 새로운 기술과 새로운 분석모델을 시도하는 데 열정적인 IT부서 직원이 있을 수도 있다. 일반적으로 새벽 3시에 회사로 불려나온 경험이 거의 없는 신입들에게서 주로 발견되는 유형이다. 그러나 IT부서에서 상당 기간 근무를 한 직원에게서도 때때로 이런 유형이 나타나기도 한다. 대체로 IT부서의 개발자들은 데이터 프로젝트에 극단적일 만큼 열정적이다. 아마 이들이 당신이 진행하는 애널리틱스 프로젝트에 있어 가장 강력하고 소중한 지원군이 될 것이다.
--- p.154
전체 문제를 한 번에 해결하려고 시도하지 말라. 데이터 분석을 시작하기 전에 완전하고 정제된 데이터 세트를 만들려고 하지 말라. 2주 동안 데이터의 10%를 사용해서 60%의 설루션을 만들자. 그러고 나서 결과에 대해 피드백을 받자. 이 피드백을 바탕으로 2주를 더 들여서 설루션을 개선하고 더 많은 피드백을 받는다. 한 번에 설루션을 개발하는 것보다 이렇게 짧은 주기로 접근해서 설루션을 개발하는 것에는 여러 가지 장점이 있다. 첫 번째, 프로젝트를 시작한지 불과 며칠 만에 이해관계자들에게 산출물을 보여줄 수 있다. 두 번째, 잘못된 방향으로 프로젝트를 진행하고 있을 수 있다. 이런 일이 발생하는 원인이 프로젝트에 사용한 데이터가 생각했던 것과 달랐거나 문제가 무엇인지 분명하게 전달되지 않았기 때문일 가능성이 있다. 어떤 이유든 간에 애자일 모델은 더 많은 시간을 낭비하기 전에 오해를 바로 잡을 수 있도록 돕는다. 세 번째, 프로젝트가 완성되기 전에 비즈니스의 우선순위가 바뀔 수 있다. 짧은 주기로 결과를 보여준다면, 산출물의 진가를 인정받음과 동시에 그 산출물을 비즈니스에 이용할 수 있다. 이후는 바뀐 우선순위에 맞춰 새로운 프로젝트를 시작할 수 있다.
--- p.196
그러나 보고서의 데이터는 금방 시대에 뒤처질 수 있고 중요한 세부내용이 누락될 수도 있다. 보고서를 읽는 사람들도 추가적으로 데이터를 분석해서 더 많은 통찰을 얻는 것이 불가능하다. 이것이 셀프 서비스 BI 툴이 매우 중요한 이유다. 지난 몇 년 동안 BI 툴은 많이 발전했다. 그래서 이용자가 원한다면 추가적으로 데이터를 분석할 수 있다. MS 엑셀처럼 셀프 서비스 툴을 이용하면, 이용자는 그래프와 피봇 테이블을 만들고 다른 보고서에는 나타나지 않는 데이터 간 관계와 계층을 탐구할 수 있다. 이 부분에서 BI 툴은 MS 엑셀보다 더 효과적인 툴이다. 회사에서 활용할 BI 툴을 선택할 때, 이런 셀프 서비스 기능을 주의 깊게 살펴보기를 바란다.
--- p.208
지난 몇 년 동안 데이터 과학 분야의 채용 공고는 거의 같은 수준으로 유지되고 있지만, 지원자의 수는 꾸준히 증가하고 있다. 그렇다고 자격을 갖춘 지원자의 수가 증가하고 있다는 의미는 아니다. 데이터 과학자를 찾는 구인광고에 지원자가 급증하면서, 이들을 제대로 평가해서 옥석을 가려내는 일이 더욱 중요해졌다. ‘데이터 과학자’는 이토록 애매한 직업이지만, 기업은 채용공고에 이 단어를 사용하고 싶어 한다. 만약 당신이 채용공고에 ‘데이터 과학자’란 단어를 사용하려면, 지원자가 정말 갖추었으면 하는 역량이나 기대하는 역할을 구체적으로 서술해야 한다. 앞으로 데이터 프로젝트 팀원의 핵심 역할을 설명할 때도 ‘데이터 과학자’란 단어를 자주 접하게 될 것이다. ‘데이터 과학자’란 단어에 집착하기 보다는 프로젝트를 진행할 때 반드시 필요한 역량을 지닌 인재에 집중해야 한다.
--- p.221
타깃과 넷플릭스는 흥미로운 사례다. 타깃은 전혀 법을 어기지 않았지만 개인정보의 불투명한 사용으로 이미지에 타격을 입었다. 반면, 넷플릭스는 고객의 이익을 증진하기 위해서 매우 개방적이고 투명하게 프로젝트를 진행하여 정확도가 개선된 추천엔진을 개발할 수 있었다. 그래서 넷플릭스는 평판위험을 피했지만 법적 책임을 져야 했다. 다른 기업 그리고 심지어 정부도 ‘연결공격’에 희생됐다. 데이터소스가 서로 연결되면서, 공격자는 조직의 사생활 보호정책을 훼손시킬 수 있었다. 데이터와 관련된 프로젝트를 진행하기 위해 익명화된 개인 정보를 배포해야 한다면, ‘차등 사생활 기법’을 활용해보길 바란다. 이것은 데이터를 적법한 응용프로그램에 활용하기 위해서 데이터 정확도를 유지하면서 연결공격으로부터 데이터를 보호한다. 법률이 상대방의 분명한 동의 없이 개인 데이터를 이용하려는 기업의 권리를 갈수록 제한하고 있다. 이런 상황에서, 조직 내부에서 데이터를 이용하는 경우에도 차등 사생활 기법이 필요할 수 있다.
--- p.254
『하버드 비즈니스 리뷰』는 최근 머신러닝에 관심이 아주 많은 150명의 사람들을 모아놓고 강연을 한 MIT 연구원에 대한 이야기를 소개했다. 이 연구원은 ‘머신러닝 모델을 구축해본 적 있으신 분은 손을 들어주세요’라는 말로 강연을 시작했다. 이에 대략 참석자의 1/3이 손을 들었다. 이어서 그는 ‘그럼 이 중에서 그 모델을 배포하거나 사용해서 가치를 창출하고 그 결과를 평가한 사람이 있나요?’라고 후속질문을 던졌다. 이 질문에서 전부 손을 내렸다. 이와 관련해 동료들과 나눈 대화 및 내 경험을 바탕으로 생각해보면, 많은 기업이 때로는 과감한 조치를 취해 데이터와 애널리틱스에서 새로운 가치를 찾아낸다. 하지만 이 가치가 실질적인 이득으로 직결되는 것은 아니다. 물론 당면 문제가 어려워 실질적인 혜택으로 이어지지 못하는 경우도 있다. 그러나 팀 구성원, 프로젝트 관리 또는 조직의 다이내믹과 관련된 문제 때문에 프로젝트가 실패하는 경우가 더 많다. 그럼에도 불구하고 여전히 애널리틱스 프로젝트에 착수해 상당한 이득을 보는 기업은 분명히 존재한다. 그렇다면 빅데이터와 데이터 과학 프로젝트의 성공 확률을 높일 수 있는 방법에는 어떤 것이 있을까?
--- p.264