통계학은 미세한 오차는 그냥 넘어간다. 데이터를 단순하고 알기 쉽게 정리해서 처리하기 쉽게 하는 것이 목적이기 때문이다. 어떤 현상이건 어느 정도 데이터가 있으면 히스토그램을 만들 수 있다. 한 사람이 주사위를 3만 번 던지기는 힘들지만 100번 정도는 가능할 것이다. 100번을 던져서 1~6까지 6개의 숫자가 나오는 횟수를 기록한다. 그러면 쉽게 히스토그램을 만들 수 있다. 가족이나 친척의 신장을 조사해서 히스토그램을 만들어 보는 것도 좋다. 이것이 통계학을 공부하는 첫걸음이다. 일단 한 번 직접 히스토그램을 그려보자. 실전만큼 뛰어난 학습법은 없기 때문이다. 나는 지금도 통계 데이터가 있으면 히스토그램을 만들어본다. 게다가 요즘에는 엑셀에 데이터를 입력해 히스토그램을 손쉽게 만들 수 있으니, 정말 편리한 세상이다.
--- p.44
지금까지 통계학 초보의 초보, 첫걸음 중에서 이제 반걸음 정도 나아갔다. 편하게 올 수 있었는지? 아니면 숨이 차서 쫓아올 수 없을 지경인지? 숫자라면 무조건 뒷걸음질 치는 사람에게는 다소 골치 아픈 이야기였을 것이다. 그러면 우리 주변에 있는 대표적인 ‘편차’ 이야기를 해보자. 바로 ‘편찻값’에 대해서다. 중고등학교 시절, 시험을 보면 시험 점수 옆에 ‘편찻값’이 기재되어 있었을 것이다. 이 편찻값은 대입을 결정하는 시험에서도 중요한 기준으로 이용된다. 독자 여러분은 편찻값에 대해 얼마나 알고 있을까? 점수를 잘 받으면 편찻값이 커지고 점수가 나쁘면 작아진다는 정도는 알 것이다.
--- p.55
표준편차는 데이터가 퍼진 정도를 나타낸다. 즉 표준편차가 크면 데이터는 넓게 퍼지고 표준편차가 작으면 데이터는 중심으로 모인다. 퍼진 정도가 작다는 것은 시험 결과 데이터의 경우, ‘평균점 주변에 데이터가 비교적 많이 모여 있다’는 뜻이다. 반대로 퍼진 정도가 크면 시험 점수는 낮은 득점에서 고득점까지 골고루 있다는 뜻이다. 표준편차가 작은 시험에서 0점을 맞거나 100점을 맞는 것은 평균점에서 크게 벗어나는 것이다. 다시 말해 둘 다 희소성이 있다. 그러므로 0점인 사람은 극단적으로 편찻값이 작아지고 100점인 사람은 극단적으로 커진다. 이것은 두 사람의 편찻값의 차이도 커진다는 뜻이다. 한편 표준편차가 클 때는 정반대 현상이 나타난다. 점수는 평균점 근처에 모이지 않고 흩어져 있으므로 0점이나 100점도 평균점과 벗어난 정도가 상대적으로 작아진다. 숫자만 봐서는 잘 모르겠다면 그림을 그려 보면 훨씬 잘 이해할 것이다. 참고로 수학을 잘하는 사람은 숫자를 보자마자 머릿속에 그와 같은 그림이 떠오른다.
--- p.64
지속적으로 결과를 추적하고 최신 결과가 나올 때마다 평균값과 표준편차를 계산해서 자신의 학력 패턴과 추이를 정확하게 파악해야 실력을 정확하게 측정할 수 있다. 한마디만 더 하자면, 시험 점수가 나올 때마다 일희일비하는 것은 의미가 없다. 쉬운 문제가 나오면 모든 학생이 고득점을 받고 어려운 문제가 나오면 모든 학생의 점수가 떨어지기 때문이다. 자신이 평소보다 점수를 잘 받았을 때는 ‘실력이 올랐다’고 생각하기 전에 ‘다른 학생들도 좋은 점수를 받지 않았을까?’라고 차분하게 생각해야 한다. 점수가 나쁘다고 해서 낙심하지 말고 ‘문제가 어려워서 그랬을 수도’, ‘평균점은 몇 점일까’를 파악한 다음 그 점수의 좋고 나쁨을 판단해야 한다. 즉 편찻값을 보라는 말이다. 이렇게 통계학적인 사고를 통해 살펴보면 얄미운 편찻값이 실은 무척 유용한 존재임을 알 수 있다. 접근 방식을 달리하면 자신의 학력을 향상하는 데 든든한 아군이 되어줄 것이다.
--- p.68
관측값의 오차는 정규분포를 따른다고 처음 증명한 사람은 독일의 수학자 가우스다. 18세기부터 19세기까지 활약한 가우스는 수학은 물론 물리학과 천문학에서도 큰 공적을 남긴 천재다. 독일은 그 천재에게 경의를 표하며 예전 10마르크 지폐에 정규분포를 인쇄하기까지 했다. 당시 먹고 살기 위해 천문대 관장을 맡았던 가우스는 망원경으로 별을 관측하여 위치나 거리를 측정하는 일을 했다. 그러자 수치가 딱 맞지 않는다는 사실을 알아차렸다. 항상 오차가 있었던 것이다. 가우스가 ‘오차’에 대해 연구해서 도출된 것이 바로 ‘정규분포’다. 왜 오차에 주목하는 것이 중요했을까? 오차는 사격을 예로 들면 이해하기 쉽다. 사격을 해본 적이 있는 여성은 많지 않겠지만, 여기서는 과녁을 향해 사격하는 경우를 생각해보자. 과녁은 원형이고 탄환이 적중하면 구멍이 난다. 과녁의 중심 부분을 겨누면 고득점을 얻을 수 있고 중심에서 멀어질수록 점수가 낮아진다. 당연히 사격하는 사람은 정중앙을 노릴 것이다. 그런데 10발, 20발 사격을 하면 아무리 사격의 명사수여도 모든 탄환을 같은 위치에 적중시킬 수는 없다. 탄환의 흔적은 약간씩 다른 위치에 생긴다. 그 다른 위치가 바로 ‘오차’다.
--- p.78
정규분포, 표준정규분포에 관해 배웠다. 수식과 그래프가 연달아 나오고 문제까지 풀었으므로, 슬슬 피로감이 몰려오는 사람도 있을 것이다. 정규분포에 관해 기본적인 사항을 설명했으니, 이제 화제를 좀 바꿔보자. 지금까지 ‘모인 데이터가 정규분포이면……’이라는 말을 했는데, 통계학에서는 ‘이 데이터는 정규분포를 따른다’라는 식으로 말한다. ‘따른다’는 정규분포를 이룬다는 뜻으로 통계학 특유의 말투다. 그래서 종종 발생하는 오해가 있다. 실제로 통계학으로 데이터를 분석할 때, 평균값이나 표준편차를 분명하게 구한 다음 ‘그러면 다음에는 이게 정규분포인지 확인하는’ 과정을 거칠 것이라는 오해다. 사실 이것은 대단히 어려운 작업이다. 물론 통계학 전문가라면 통계학 실력을 발휘해서 이 데이터가 정규분포를 따르는지 밝힐 수 있겠지만 이것은 전문적인 영역이다.
--- p.91
앞에서도 말했지만 나는 수학 공식을 따로 외우지 않는다. 외우려고 한 적도 없다. 학생 시절부터 지금까지 줄곧 그래왔다. 어떤 숫자가 있으며, 그 숫자를 근거로 실제로 수를 세어보면 되기 때문이다. 공식을 외우지 않으니까 ‘잊어버렸다’고 당황할 일도 없다. 수학 공식을 외우지 않으므로 어떤 상황에서든 생각하고 적어서 답을 낼 수 있다. 조합이나 순열만큼 단순한 이야기도 없지 않을까? 수를 세는 작업만 하면 되는데, 일부러 공식을 외워서 그 공식에 숫자를 대입해 답을 내려는 것 자체가 현명하지 못하다는 생각이 든다. 원래 기억은 점점 정확성을 잃어가기 마련이다. 매일 반복 연습을 한다면 별개이지만 수학의 어느 특정한 공식 따위는 학교를 졸업하며 금방 잊기 마련이다. 그 공식을 떠올리려는 노력이 낭비라는 말이다.
--- p.112
중심극한정리는 수학자 드 무아브르와 라플라스가 이 정리를 증명했는데, 여기서도 가우스가 결정적인 공헌을 했다. 정규분포가 ‘분포의 왕’이라고 불리는 이유가 여기에도 있다. 다만, 앞에서 말했듯이 이것을 우리가 증명하는 것은 어렵다. 물론 수학적인 증명은 이미 완결되었고, 나도 그 내용을 이해하므로 글로 쓸 수는 있지만 여기서는 생략하겠다. 시간과 분량을 할애하면서 쓴들 별 의미가 없기 때문이다. 그래도 꼭 알고 싶다면 전문적인 내용을 다루는 다른 통계학 서적을 찾아보기 바란다. 여기서는 일단 ‘이런 것’이라고만 알아두자. 복잡한 공식도 있지만, 여기에 써도 별 의미가 없으므로 그것도 넘어가겠다. 어떤 분포이든 횟수가 많아질수록 정규분포에 가까워진다는 중심극한정리의 특징을 대략적으로 알고 있으면 충분하다. 그리고 중요한 것은 이항분포도 n값이 충분히 커지면 중심극한정리에 의해 정규분포에 가까워진다는 사실이다. 이것이 라플라스가 눈여겨보고 증명한 부분이다.
--- p.136
대통령 선거나 국회의원 선거 등 전국적으로 선거가 치러지는 날, 저녁 무렵이 되면 방송사는 일제히 개표 결과를 알리는 방송을 내보낸다. 참고로 선거 당일, 각지에 놓인 투표소는 오전 6시부터 오후 6시까지 열려 있다. 보궐선거의 경우 오전 6시부터 오후 8시까지 투표를 시행한다. 그리고 오후 8시에 투표를 마감한 뒤 개표를 시작한다. 즉 개표는 오후 8시 이후부터다. 그런데 각 방송사는 오후 8경부터 시작되는 개표 결과 방송을 내보냄과 거의 동시에 당선 확정자를 발표한다. 아직 개표 작업을 마치지도 않았는데, 어떻게 어느 후보가 얼마나 표를 얻었는지 알 수 있을까? 여기에도 통계학이 활용된다. 투표한 적이 있는 사람들은 투표를 마치고 나오는 길에 ‘출구조사에 협조해 달라’는 말을 들은 적이 있을 것이다. 각 보도기관이 투표소가 마감되자마자 당선자가 누구인지 확정할 수 있는 것은 이 출구조사를 해주는 사람들 덕분이다.
--- p.161