통계학이란 무엇인가? 여러 가지 형태의 정의가 가능하지만 다음의 사전적 정의가 통계학의 성질을 잘 대변한다. ‘자료의 수집, 정리, 분석, 해석을 수월하게 해주는 기술’ (과학기술사전) 혹은 ‘연구 목적에 필요한 자료와 정보를 최적 방법으로 수집하고 수집한 자료를 과학적이고 논리적인 이론에 의하여 정리, 분석하는 학문’ (통계 용어 사전). 그리고 통계학의 영어 표현인 statistics에서 유추할 수 있듯이 통계학은 statistic (통계량)과 관련된 학문이다. 여기서 통계량이란 ‘숫자나 수학적 형태로 표현된 정보’이다.
기본적으로 통계학은 불확실성 (uncertainty)과 관련되어 있다. 즉 불확실성을 평가 및 정량화하고, 또한 불확실성이 내포되어 있음에도 불구하고 추론하거나 예측하는 것이 통계학의 영역이다.--- 「1. 통계학이란?」
인류는 언제부터 통계적 방법을 사용하였을까? 문헌에 의해 추측하면, B. C. 3000년 경에 고대 바빌로니아, 중국, 이집트 등지에서 인구조사 (census)에 통계적 방법을 활용하였다. 그러한 인구조사의 주목적은 세금 부과였다. 오늘날 우리에게 친근한 용어인 센서스의 어원은 라틴어 censere로 그 의미는 세금 (tax)이다. 이와 같이 통계 조사의 기록은 인류 역사와 더불어 오래됐지만 학문으로서의 통계학의 역사는 17세기 중엽 이후부터 시작된 것으로 통계학사 전공자들은 추론하고 있다. 현대 통계학의 시작은 대체로 영국과 독일의 정치 산술학 (political arithmetic), 프랑스 등지에서 발달한 고전 확률론이라는 주장이 통설이다.
이러한 주장의 바탕은 통계학의 영어 표현인 statistics과 독어 표현의 statistik의 사용이 17세기 중엽에 시작되었기 때문이다. 독어 statistik의 어원은 국가 (state)를 의미하는 라틴어 status와 정치가 (statesman)를 의미하는 라틴어 statista 이다. 이러한 어원에 바탕하여 독일인 학자 Achenwall (1719~1772)이 정치산술학에 statistik 이라는 새로운 이름을 붙였다. 초창기의 statistik은 정성적으로 국가의 상태를 표현했지만 자본주의 경제의 발달 이후 수량적으로 국가의 상태를 표현하기 시작했다. 오늘날 국가의 주요 지표를 도표로 정리하는 전통이 여기에서 비롯된 것이다. 독일과 달리 영국에서는 사회 현상과 경제 현상을 관찰하여 그 지배법칙을 수량적으로 밝히려는 시도가 17세기에 활발했다. 이러한 시도를 초기에는 political arithmetics (정치 산술 혹은 행정 산술)라는 용어로 표현하다가 17세기 말부터 statistics로 표현했다.
확률론 (theory of probability)은 17세기 프랑스 등지의 상업도시에서 도박과 관련되어 출발되었다. 물론 수 천년 전부터 확률게임들이 존재하였지만 (초기의 확률 게임은 양의 뼈를 던지는 게임이었고, 오늘날 주로 사용하고 있는 주사위와 카드에 의한 도박은 휠씬 뒤에 도입되었다), 도박에 대한 도덕과 종교적인 관점이 확률론의 발달에 장벽이 되었다. 17세기 말부터 페르마와 파스칼은 확률게임에서 발생하는 우연 (chance)의 문제를 수학적으로 해결하였다. 그 후 확률과 관련된 여러 가지 수학적 이론들이 18세기 라플라스에 의해 고전 확률론으로 정리되었다. 이와 같이 통계학과 확률론의 발달 역사가 다르듯 오늘날에도 통계학과 확률론을 구분하여 설명하기도 한다.--- 「2. 통계학의 시작」
현대 기상학이 발달하기 전의 대부분의 기상 관련 연구와 현업(기상청의 업무)은 통계 이론을 바탕으로 이루어 졌다고 단정해도 무리가 아니다. 그리고 오늘날에도 대기과학과 관련된 연구와 현업에서 통계의 역할은 여전히 대단히 중요하다. 현업에서 공표되는 기상 관련 자료의 대부분은 통계량들이다. 이해하기 쉬운 예로 기상월보의 일러두기에 서술되어 있는 관측값들의 산출방법이 통계(주로 산술평균)와 관련되어 있다. 그리고 대기과학 관련 논문 및 보고서에서 통계를 사용하지 않은 경우를 찾기란 쉽지 않다.
특히 수치 해석의 개념이 도입되기 이전의 대부분의 기상 예측 활동은 통계에 의한 객관적 판단을 기반으로 이루어 졌다. 전신의 발달로 일기도 작성이 가능해진 19세기의 폭풍우 예보는 물리적ㆍ역학적 이론을 바탕으로 한 예측이라기보다 경험에 의한 예측이었다. 이러한 경험적 예측은 주관적 판단에 의거하기보다 통계에 의한 객관적 판단에 의한 것이었다.
널리 회자되고 있는 삼국지의 ‘제갈공명과 관련된 적벽 대전에서의 동남풍’ 에피소드로부터 경험적 기상 예측에 스며있는 통계적 개념을 설명해 보자. 물론 제갈공명의 동남풍이 술법적 작용의 결과인지 아니면 당시 전천후 이론가인 제갈공명의 기상학적 지식에서 비롯된 속임수인지에 대해서는 논외로 한다. 다만 ‘동지 섣달에 화남 지방의 탁월풍이 북서풍이지만, 남쪽 지방에서 성장한 제갈 공명은 가끔 돌발적인 동남풍이 동지 섣달에 분다는 것을 경험적으로 알고 있었다’고 전제한다.
‘동지 섣달에 화남 지방의 탁월풍이 북서풍이지만 가끔 돌발적인 동남풍이 분다’는 제갈공명의 어릴 적 경험과 풍계 변화에 대한 인지가 통계학에서 의미하는 자료의 수집과 분석이며, 동남풍에 대한 제갈공명의 확신 (삼일 동안 세찬 동남풍이 불도록 하겠다는 주유에 대한 약속)이 수집된 자료와 분석에 의해 이루어진 예측이다. 표본이론으로 설명하면, 동지 섣달의 중국 화남 지방 풍향의 변화가 “모수”이고 제갈공명이 어릴 적에 경험했던 풍향의 변화가 “표본 원소” 혹은 “출현값”이다. 그리고 북서풍에서 동남풍으로의 풍향의 변화가 표본을 구성하는 출현값들에 대한 “평균” 혹은 “평년값”인 통계량이다. 평년값은 미래의 값에 대한 “추측치”, 또는 “예측치”로서의 가능성을 가진다. 제갈공명의 동남풍에 대한 약속이 평년값이라는 경험적 정보에 바탕한 통계적 “예측”이다. 동남풍이 갑자일에 불기 시작하여 삼일 동안 계속 되게 하겠다는 제갈공명의 약속은 당시의 전황을 고려하면 엄청난 확신이다. 즉 예측에 대한 “신뢰구간”이 거의 100%에 가깝다. 달리 이야기하면 ‘동지 섣달에 가끔 돌발적인 동남풍이 분다’는 “귀무가설”이 사실임에도 불구하고 잘못되어 이를 “기각”하게 될 확률의 한계값인 “유의수준”이 거의 영에 가깝다.
“가설검정”에 있어 유의수준의 선정은 대단히 중요하다. 불량률을 기준으로 한, 장난감 공장의 작업공정에 대한 유의수준과 낙하산 공장의 작업공정에 대한 유의수준은 차이가 난다. 100개의 생산품 중에 1개의 불량품이 포함되어 있다면, 장난감 공장의 경우 주어진 작업공정을 채택할 수 있지만 낙하산 공장의 경우 주어진 작업공정을 수정해야만 한다. 여기서 귀무가설은 ‘주어진 작업공정에 의해 생산된 생산품 중에는 불량품이 없다’ 이다. 장난감 공장의 경우 0.01의 유의수준은 적정수준이지만 낙하산 공장의 경우 0.01의 유의수준보다 더 낮아야 할 것이다. 유의수준은 분석자의 주관적 판단에 의해 결정되지만 일반적인 타당성이 있어야 한다.
현대 기상 현업 및 연구 분야에서의 통계학의 역할을 다소 임의적이지만 기술통계학과 추론통계학으로 구분하여 설명할 수 있다.
오늘날의 기상 현업은 수많은 관측자료와 다양한 시뮬레이션 모델의 출력자료 속에 파묻혀 있다고 해도 무리가 아니다. 지상관측망, 고층관측망, 레이더, 기상 위성 등에서 생산되는 수많은 관측 자료들과 수치 모델에서 생산되는 다양한 output 들이 일기예보에 활용되기 위해 수시로 공급되고 있다. 이러한 자료 홍수 속에서 예보자가 관심있는 자연 현상에 대한 정보를 추출하기 위해서는 제공된 수많은 원시자료 (raw data)를 조직화하고 적당한 표현법으로 요약해야 한다. 기술통계학은 관측자료의 조직화와 요약화에 사용된다. 기술통계학에서 제시된 방법들은 복잡한 자연 현상의 수량적 기술과 효과적인 표현을 가능하게 한다.
자료수집에 드는 비용과 시간문제 때문에 적은 수의 표본으로 전체의 상황을 추측하려는 시도가 추론통계학을 발달시켰다. 오늘날에는 가설검정 이론을 기초로 한 품질조사, 표본조사법 등과 같은 추론통계학적 방법들이 여러 분야에서 사용되고 있다. 추론통계학은 자료를 분석하여 관측자료가 가진 정보를 일반화하는 논리적 근거를 제공한다. 현재 알려져 있는 대기 현상의 물리적 이해 가운데 일부는 관측자료의 통계적 분석을 통해 추론된 결과이다.
불확실성을 평가 및 정량화하고 (기술통계학), 또한 불확실성이 내포되어 있음에도 불구하고 추론하거나 예측하는 (추론통계학) 통계학이 기상 현업 및 연구에 활발히 이용되고 있는 이유는 대기 활동 자체가 상당한 불확실성을 지니고 있기 때문이다. 만약 대기에서 일어나는 여러 물리과정들이 일정하거나 엄밀하게 주기적이라면 대기 과정을 수학적으로 표현하는 것은 쉽다. 따라서 일기예보 역시 쉬울 것이고 기상학은 더 이상 흥미가 없을 것이다. 그러나 대기는 불규칙적으로 변하고 움직인다. 이러한 대기 과정의 불확실성이 수많은 관측 자료를 필요로 하는 오늘날의 기상 현업의 현실에 대한 동기이며 일기예보가 불확실성을 피할 수 없는 이유이다. 일기 예보의 불확실성을 정량적으로 처리하기 위해서 불확실성의 수학적 언어인 “확률”이라는 통계적 도구를 사용하여야 하고 관측자료의 시공간적 한계를 추론통계학을 이용한다.
현재 현업 예보자에게 많은 도움을 주고 있는 수치모델들 (sophisticated numerical models)은 불확실성을 표현하지 않는 “결정적 (deterministic)”이다. 즉 초기 상태와 경계 조건을 주면 하나의 결과를 생산하게 된다. 같은 입력값이 주어지면 변화없는 출력값이 나온다. 그럼에도 불구하고 원리적으로 이러한 수치모델들은 두 가지 이유에서 불확실성을 제공할 수 밖에 없다. 첫째, 비록 현재의 수치모델들이 대기의 운동을 아주 잘 근사할 수 있다 하더라도 완전하지는 않다. 실제 대기에서 일어나는 물리 과정 중 일부는 수치모델로서 표현하기에는 너무 작은 규모이다. 둘째는 그런 규모의 물리 과정을 모델에 포함시킨다 하더라도 “역학적 카오스 (dynamical chaos)”라고 알려진 불확실성을 피할 수는 없다. 카오스 이론은 로렌쯔 (1963)의 발견이 동기가 되어 ‘라플라스의 악령’에서 비롯된 ‘완벽한 일기예보의 꿈’에 대한 희망에 조종을 울렸다.
카오스 이론을 간략하게 설명하면, 비선형적이고 결정적인 역학계는 계의 초기 상태에 매우 민감하다. 초기 상태의 차이가 아주 작은 두 개의 비선형적이고 결정적인 역학계가 활동을 시작하면, 궁극적으로 서로 다른 상태가 된다. 일기 예보의 경우, 하나의 계는 실제 대기이며 다른 하나의 계가 완벽한 수치모델에 해당한다. 대기는 항상 시공간적으로 불완전하게 관측되므로 수치모델의 초기 상태가 실제 대기의 초기 상태와 정확하게 같아지지 않는다. 따라서 미래의 대기 상태에 대한 결정적 예보는 항상 불확실하게 될 것이고 확률적 방법이 그러한 대기의 운동을 설명하는데 항상 필요하게 될 것이다. 즉 대기의 운동이 근본적으로 무작위적이지 않더라도, 실제적인 목적에서는 대기의 운동을 무작위적으로 간주할 수 있을 것이다. 결정적 사고에 대한 카오스의 대응을 Zeng 등 (1993)의 말을 인용하여 정리하면 다음과 같다; “상대성 이론이 절대공간과 시간에 대한 뉴우턴 추종자들의 환각을 제거하고 양자 이론이 ‘조정할 수 있는 측정 과정 (controllable measurement process)’에 대한 뉴우턴과 아인슈타인 추종자의 꿈을 제거했듯이 카오스는 ‘오랜 기간에 의한 결정적 장기 예측 가능성 (long-term deterministic predictability)’에 대한 라플라스의 환상을 제거한다.”
무작위성 (randomness)이 ‘예측불가능성’이나 ‘정보 없음’을 의미하지는 않는다. 단지 ‘정확하게 예측할 수 없음’ 정도의 의미를 가진다. 예를 들면, 내일의 강수량은 무작위성을 가지고 있으므로 오늘 정확하게 내일의 강수량을 알 수 없다. 그렇지만 과거 강수량 자료를 가지고 간단한 통계분석를 하면 내일의 강수량에 대한 확률 분포와 같은 정보를 얻을 수 있다. 일기 예보의 목적은 무작위한 기상 현상들에 대한 불확실성을 감소시키는 것이다. 더욱이 통계적 방법들은 예측의 정확성에 구체적 평가를 가능하게 해준다. 이러한 점들로 인해 통계학이 기상학에서 많은 역할을 해 왔고 앞으로도 계속 중요한 역할을 할 것이라는 점은 자명하다.
통계학에서 자료처리를 위하여 수행하는 절차는 분석 목적에 따라 다소 차이가 있을 수도 있으나 대체로 세단계로 나누어 수행하는 것이 편리하다. 첫 번째는 목적에 따라 최적의 원시자료를 수집하고 통계표 등을 이용하여 원시자료의 성질을 조사하는 단계이다. 두 번째는 수집된 자료를 목적에 맞게 분석하는 단계로써 ‘어떻게 (how)’와 ‘어느 정도 (how-much)’에 관심이 있다. 마지막은 분석 결과들을 검정하고 해석하는 단계이다.
본 저서에서 소개하는 내용은 순수 통계학 저서의 내용과는 다소 차이가 있다. 물론 본 저서의 내용이 순수 통계학 저서의 내용과 의미에서 차이가 있다는 것은 아니다. 단지 대부분의 순수 통계학 저서들이 통계적 개념의 정리 및 증명, 통계 모델의 이론에 대해 기술하고 있어서 통계 비전공자가 이해하기에 어려움이 많다. 본 저서는 기상 연구 및 현업에 종사하는 이들이 쉽게 이용할 수 있는 통계적 방법과 통계량의 해석을 주 내용으로 하고 있다.
--- 「3. 기상학에서 통계학의 역할」