점수에는 객관성과 주관성의 요소가 섞여 있는 경우가 많다. 대표적인 사례로 《US뉴스 앤 월드 리포트》가 발표하는 대학 순위를 들 수 있다. 그 순위에는 대학이 개설하는 강좌 중 정원이 19명 미만인 강좌의 수나 학교의 교수 대 학생 비율(객관적)이 반영되지만 동시에 학장들이 매긴 대학 순위(주관적)도 함께 고려된다. 그리고 US뉴스는 등급을 부여하기 위해(등급은 결국 순위로 바꿀 수 있다) 각각의 기준에 가중치를 부여한다. 이 가중치는 어떻게 산출된 걸까? 그냥 상식에 따라 지어낸 것이다. 이 순위도 과학적으로 보이지만 사실은 주관적인 평가에 불과하다. 이런 방식으로 순위를 매길 때 발생하는 문제는, 대학이 일부 강좌의 등록 정원을 19명으로 제한하는 것만으로도 순위를 올릴 수 있다는 것이다. 정원이 20명 이상이 되면 수업의 질이 떨어진다는 아무 실험적 근거가 없는데도 말이다. US뉴스가 굳이 19명이라는 숫자를 선택한 것은 실로 아무 근거가 없다. 이 한 가지 순위 기준이 과연 어떤 한심한 결과를 불러왔는지 보려면 대학의 홈페이지를 방문해 보면 된다. 요즘 대부분의 대학은 정원 19명 이하의 강좌 수를 자랑스럽게 내세우고 있다. 열아홉 명이 가득찬 강좌에는 학생들이 등록하지 못하도록 했다. 대학 순위에 영향을 받지 않기 위해서다. 따라서 순위를 매겨 무엇이 가장 좋은지를 파악하려던 의도는 역설적으로 최악의 결과를 만들어 낸다. 우리는 순위를 끌어올리려 현실을 왜곡하는 존재다. 그러므로 기껏해야 주관적인 평가에 불과한 이 순위를 떠받들수록 우리의 행동은 점점 더 비뚤어진다.
--- 「서문」 중에서
찰스 다윈의 사촌 동생이기도 한 프랜시스 골턴(Francis Galton, 1822-1911)은 모든 것에 대해 수를 세고 측정하기를 좋아한 사람이었다. 그가 영국 서부 지역 가축 박람회에 참석했을 때, 그곳에는 다른 동물과 함께 황소가 한 마리 전시되어 있었다. 그는 관객들에게 소의 체중을 알아맞혀 보라고 제안했다. 그의 제안에 약 800명의 관객이 참여했고, 관객이 내놓은 추정치의 중앙값(median)은 소의 실제 체중과 아주 근접한 수치였다(중앙값이란 전체 데이터의 상위 절반과 하위 절반을 둘로 나누는 값을 의미한다). 즉, 대중이 판단한 추정치가 실제 값과 거의 동일하게 나온 사례였다. 여기서 ‘대중의 지혜(wisdom of the crowd)’라는 개념이 대두되어 널리 알려졌고, 결국 2005년에 제임스 서로위키(James Surowiecki)는 이 개념으로 책을 집필하기에 이르렀다. 물론 대중의 의견이 언제나 옳다고 믿을 만한 근거는 없다. 서로위키는 대중의 판단이 정확하기 위해서는 그 대중에 속한 개개인이 독립적인 판단을 내릴 수 있어야 한다고 주장했다. 하지만 나는 독립성이란 단지 환상에 불과하다고 생각한다. 니체는 인간의 떼를 짓는 본능을 간파하고 이를 매섭게 비판했다. 우리가 다른 사람들의 의견에 쉽게 휘둘린다면(니체의 표현으로는 남들이 이끄는 대로 양떼처럼 따라간다면) 대중의 판단은 편향된 결과를 낳게 될 것이다.
--- 「2. 비교, 순위, 등급 그리고 목록」 중에서
닭들이 서로 어울리는 행태를 눈여겨본 토를레이프는 A라는 닭이 B라는 닭을 지배하고, 또 B가 C를 지배하는 관계를 자세히 관찰하고 기록했다. 그는 닭들 사이에 존재하는 위계질서를 ‘모이를 쪼아 먹는 순서’로 보고 ‘서열(pecking order)’이라는 명칭을 처음으로 붙였다. 닭들은 무리 속에서 위계질서뿐 아니라, 각자의 자리를 인식하고 받아들였다. 위계질서는 닭이 취하는 자원, 특히 모이와 짝짓기 대상에 접근할 우선순위를 규정한다. ‘대장’이나 ‘꼴찌’가 아닌 평범한 닭은 대장에게 웬만한 것을 양보하며 불필요한 갈등을 피한다. 또 자신의 주변에 짝짓기 대상이 부족해도 대장에게 함부로 덤비면 안 된다는 것을 안다. 그가 소개한 서열 개념은 곤충에서 영장류에 이르는 여러 종의 지배 질서에 관한 상세한 연구가 이루어지도록 큰 공헌을 했다. 나아가 닭 무리에서 관찰되는 원리 중에는 훨씬 더 복잡한 사회적 체계를 가진 인간 사회에서도 적용되는 원리들이 있다.
--- 「3. 동물과 인간의 서열과 사회구조」 중에서
사회적 지위를 결정하는 수단으로 작동하는 두 가지 원리가 바로 지배와 위신이다. 지배는 좀 더 오래된 전략으로, 신체의 크기와 위력을 이용해 집단 내의 다른 개체를 위협하는 전략이다. 지배에 따라 형성된 위계질서는 각 구성원들에게 강제로 부여된다. 그렇다면 지배는 어떻게 성취할까? 집단 간의 싸움에 참여하여 승리를 거둔 개체는 ‘상급자’로 대접받고 패배한 쪽은 ‘하급자’가 된다. 이렇게 형성된 위계질서는 집단 내의 불필요한 싸움과 부상자를 예방하는 수단이 된다. 또 하나의 전략인 위신은 비교적 최근에 등장한 것으로, 해당 집단이 인정하는 ‘기술’과 ‘지식’을 바탕으로 공동체의 합의에 따라 위계질서를 형성한다. 이에 따라 서로 다른 개성을 지닌 집단은 지배와 위신이라는 서로 다른 전략을 선택했다. 지배의 원리를 안전 유지의 수단으로 삼는 집단의 사람들은 좀 더 공격적이고, 타인을 조종하기 좋아하며, 자아도취 성향이 높다. 반면 위신을 채택한 집단의 사람들은 성실하고, 자신감이 넘치며, 사교술에 능하다. 이처럼 각각의 전략에 장점이 있는 반면 단점도 있다. 지배적인 리더는 집단의 목표를 추구하기보다는 권력을 유지하는 일을 우선순위로 두는 반면, 위신을 중시하는 리더는 사회적 인정을 더 우선시한다.
--- 「3. 동물과 인간의 서열과 사회구조」 중에서
페이스북은 실제로 자신의 기술 중 일부를 특허로 등록했는데, 미국 특허 번호 US20140365577A1, ‘소셜 네트워크 시스템의 의사소통과 그 특징에서 추출한 개인 성격 결정법(특허권자 페이스북)’에는 다음과 같은 내용이 실려 있다.
소셜 네트워킹 시스템은 사용자가 문자로 주고받은 의사소통에서 언어 데이터를 획득한다. 이는 소셜 네트워킹 시스템 속에서 다양한 형태의 의사소통으로 발생한 단어가 곧 사용자를 대신한다는 말이다. 사용자와 관련된 언어 및 비언어 데이터는 사용자의 여러 가지 성격적 특성을 예측하는 훈련 모델 수립에 사용된다. 이렇게 예측된 성격 특성은 사용자의 신상과 결합하여 저장되며, 상품의 타겟팅과 순위 부여, 선별 작업을 포함한 기타 목적으로 사용될 수 있다.
권위주의 2.0 체제를 구축하기 위한 첫 번째 단계는 데이터를 수집하는 것이다. 두 번째 단계는 예측에 필요한 데이터를 분석하는 것이고, 이를 통해 사람들의 ‘심리적 윤곽’을 창조하는 것이다. 마지막 세 번째 단계는 정보와 허위 정보를 이용해 사람들에게 영향을 미치는 일이다. 허위 정보가 먹히면 우리는(이때 우리란 우리의 손자 세대가 될 것이다) 권위주의 2.0이 구현된 세계에서 살게 된다. 하지만 조작에도 한계가 있으므로 그런 일은 일어나지 않을 것이라고 믿고 싶다.
--- 「3. 동물과 인간의 서열과 사회구조」 중에서
실용적인 요소로만 보면 선거 체계는 집단적 의사 결정의 핵심 수단이며 그 핵심은 정치인 후보들의 순위를 매기는 것이다. 물론 당선만이 중요할 때도 있지만(대통령이나 총리 선거의 경우), 때로는 특정 기준을 넘어서서 순위 명단에 이름을 올린 모두가 ‘승자’인 경우도 있다(의회나 이사회 구성원을 선출하는 경우). 단 하나의 이상적인 선거 시스템이 어떤 것인지 말할 수 있는 사람은 아직 아무도 없다. 전설적인 경제학자 케네스 애로(Kenneth Arrow, 1921-2017)는 1950년에 ‘불가능성 정리impossibility theorem’(그는 이 책으로 1972년 노벨상 수상자가 되었다)를 발표하여 투표자들이 후보들을 상대로 순위를 매길 때 잘못된 결과가 일어날 수 있다는 점을 보여 주었다. 애로의 연구를 비롯하여 이후 수많은 경제학자와 수학자의 노력으로 투표 체계를 다룬 논의와 비교 수학적 분석이 이루어졌다.
투표는 비교적 단순한 일로 보인다. 사람들이 투표장에 가서 자신이 좋아하는 후보를 선택하면 가장 많은 표를 얻은 후보가 당선된다. 이런 방식을 최다 득표자 당선 방식, 또는 승자 독식 투표 제도라고 하지만 이는 여러 가지 투표 제도 중 하나일 뿐이다. 애로의 불가능성 정리에 따르면 우리가 선택하는 투표 체계는 선거 결과에 막대한 영향을 미친다.
--- 「4. 선택의 문제와 랭킹 알고리즘」 중에서
구글이 목록에서 1위를 차지하는 것은 놀랄 일이 아니지만, 2위(주로 페이스북과 유튜브의 대결이 된다)는 순위 체계에 따라 다소 오락가락한다. 페이지랭크가 소위 ‘감쇠 계수(damping factor)’ 수치를 바꿔 다른 결과를 만들어 낸다는 것은 유명한 예다. 페이지랭크의 기반은 인터넷 사용자들의 행동 방식을 다룬 가정이다. 사용자들은 그가 보고 있는 링크를 한동안은 클릭하고 있겠지만 금세 싫증이 나서 언제 또 다른 페이지로 옮겨갈지 모른다(보고 있던 페이지의 링크를 누르는 대신 직접 새로 주소를 쳐서). 원래의 알고리즘은 사용자들이 싫증을 낼 확률을 0.15라고 가정했으므로 감쇠 계수 값을 1-0.15=0.85로 계산하여 설정해 놓았다. 그러므로 감쇠 계수 값이 달라지면 순위도 달라질 수 있다. 이런 현상을 ‘순위 변동(rank reversal)’이라고 하며, 별로 중요하지 않거나 대개 적합하지 않은 요인 때문에 순위가 달라지는 경우를 가리키는 말이다.
--- 「4. 선택의 문제와 랭킹 알고리즘」 중에서
취사선택한 사실은 가짜 뉴스보다 더 위험하다. 우리는 세상에서 일어나는 일을 보도하는 뉴스를 통해 우리 앞에 놓인 선택들 사이에서 순위를 결정한다(의식적이든 무의식적이든). 미디어계의 거물 루퍼트 머독은 자신의 목적을 말한 적이 있다. “더 좋은 신문을 발행하는 것입니다. 사람들이 읽고 싶어 하는 신문 말이죠. 더 이상 퓰리처상을 받기 위해 기사를 쓸 필요는 없습니다. 사람들이 읽고 싶어 하는 내용을 써서 흥미 있는 신문을 만들면 되는 겁니다.” 앞 장에서 살펴보았듯이 우리는 모두 확증 편향의 지배를 받으므로 이미 확고하게 자리 잡은 생각의 틀에 들어맞는 뉴스만 읽고자 한다. 원래 뉴스는 세상에서 일어나는 일을 정확히 반영하려는 목적이 있지만, 우리의 기존 관념과 편견을 자극하는 필터링 작용이 뉴스 속에서 기승을 부리고 있다. 다시 말해, 미디어 회사들은 우리가 가장 많이 보는 뉴스가 어떤 것인지를 조사하여 그것을 반복하고 생산해 구독률과 시청률을 극대화하려 한다(이때 그들은 데이터의 효율을 위한 알고리즘을 사용한다).
--- 「5. 순위 조작의 역사와 사회 측정 문제」 중에서
소셜미디어에는 우리의 소비 습관이 엄청나게 축적되고 있어 필요에 따라 데이터를 추출할 수 있다. 넷플릭스의 경우, 그 데이터는 특히 영화와 TV 프로그램에 관련되어 있다. 데이터에는 명시적 데이터와 암시적 데이터라는 두 가지 종류가 있다. 예를 들어 「더 포스트」라는 영화에 좋아요를 눌렀다면 그 의견은 매우 명시적이라고 할 수 있다. 그런데 일주일 동안 같은 영화를 두 번 봤다는 사실은 영화에 대한 나의 인식과 감정 그리고 관계를 말해 주는 암시적인 정보이다. 컴퓨터를 활용한 분석이 가능하려면 영화에서 몇 가지 중요한 특징을 추출할 수 있어야 한다. 두 영화가 얼마나 서로 ‘비슷한지’는 각 영화의 유사성을 비교 분석함으로써 알 수 있다. 넷플릭스의 연구 이사로 일했던 자비에 아메리안(Xavier Amerian)은 이렇게 말한다.
우리는 여러분이 무엇을 즐기고, 검색하며, 등급을 매기는지 뿐만 아니라 그 시간과 날짜, 사용 기기까지 모두 알고 있습니다. 우리는 심지어 사용자들의 검색 이력과 스크롤 동작과 같은 정보까지 추적합니다. 그 모든 데이터가 서로 다른 목적에 맞게 작성된 몇 가지 알고리즘에 반영됩니다. 넓게 보면 우리가 사용하는 알고리즘은 시청 패턴이 유사한 사용자끼리는 취향도 서로 비슷하다는 가정에 기반을 두고 있습니다. 우리는 서로 비슷한 사용자의 행동을 통해 여러분의 기호를 추측합니다.
두 가지 대상의 거리(즉 차이)를 알면 순위 목록을 만들 수 있다. 그 차이가 작을수록 추천할 기회는 더 많아진다.
--- 「8. 추천 시스템과 온라인 비즈니스」 중에서