말뭉치의 구축과 활용? 최초의 한국어 말뭉치 ‘연세 말뭉치Ⅰ’의 구상과 실제
-김한샘·서상규
1. 머리말
연세대학교 언어정보연구원(옛 한국어사전편찬실)에서 1988년 국내에 처음으로 말뭉치(corpus)의 개념을 도입한 지 30여 년이 지났다. 국내에서 말뭉치 구축이 시작된 이후 대학, 연구소, 기업 등 여러 기관에서 말뭉치의 중요성을 인식하고 다양한 유형의 말뭉치를 구축하였으며, 국가 차원의 대규모 말뭉치 구축 관련 과제가 여러 차례 진행되었다. 최근에는 언어 자료를, 있는 그대로 기계가독형으로 만드는 단계를 넘어서 문법적인 정보를 추가한 주석 말뭉치, 두 언어의 언어 자료를 동시에 대응하여 구축하는 병렬 말뭉치 등 말뭉치의 수준과 종류가 다양해지고, 말뭉치를 이용한 연구가 활발히 이루어지고 있으며, 아울러 말뭉치를 기반으로 하는 사전, 자동 주석 시스템, 기계번역기, 챗봇 등 각 방면에서 말뭉치 활용의 산물들이 쏟아져 나오고 있다. 4차 산업혁명 시대에 접어든 이후로는 인공지능과 빅데이터라는 용어가 말뭉치와 뗄 수 없는 관계에 놓이게 되었다. 이렇게 말뭉치의 구축과 이용이 보편화되기까지 많은 시도와 시행착오가 있었으며 컴퓨터 기술의 향상이 말뭉치의 발달을 가속화시켰다.
말뭉치의 개념이 언어학, 전산학 분야에서 일반화된 이 시점에 경험과 전산적 환경이 충분히 갖추어지지 않았던 초기 말뭉치 구축의 양상과 시행착오를 돌아보는 일은, 선구자적 작업을 통해 얻게 된 교훈을 정리함으로써 한국어 말뭉치 구축과 활용의 첫 사례를 보존한다는 의의가 있으며, 현재, 또 미래의 말뭉치 관련 연구자들에게 적지 않은 참고가 될 것으로 생각된다. 이런 취지에서, 국내 최초의 말뭉치인 연세 말뭉치Ⅰ의 구상과 실제에 대해 정리하고 문제점을 논의한다.
2. 연세 말뭉치Ⅰ의 구상
연세 말뭉치Ⅰ에 대한 초기의 공식적인 자료는 「사전편찬학 연구」 3집(1990)에 실린 ‘우리말 낱말 빈도 조사 표본의 선정 기준’(정찬섭?이상섭?남기심?한종철?최영주)과 ‘낱말 빈도를 추정하기 위한 말뭉치 자료 수집의 실제’(이상섭)의 두 논문이다. 이 논문들에서 말뭉치를 어떤 목적으로 도입하였고 실제로 어떻게 작업했는지를 충분히 상술하고 있다.
먼저 ‘우리말 낱말 빈도 조사 표본의 선정 기준’을 보면 연세 말뭉치를 구축한 1차 목적이 우리말 낱말의 빈도를 조사하는 것이었고, 2차 목적은 이를 토대로 새로 기획하는 한국어 사전의 표제어 목록을 확정하는 것이라는 것을 알 수 있다. 표제어를 선정하는 데에 있어 뚜렷한 기준을 제시하기보다는 표제어의 수를 늘리는 데에 급급해 왔던 기존의 사전편찬계의 경향을 미루어 볼 때 혁신적인 사전편찬 방법론이라고 할 수 있을 것이다. 이런 방법을 채택할 수 있었던 것은 외국의 선례에 대한 분석과 선별적 도입, 국내의 기존 조사에 대한 반성이 이루어졌기 때문이다.
말뭉치를 구축하는 첫 단계에서부터 연구진은 말뭉치의 중요한 요소인 표본의 ‘대표성’과 ‘균형성’을 고려했다. 한국어를 대표하는 언어 자료를 골고루 수집하기 위해 연세대학교 심리학과의 정찬섭 교수를 중심으로 한 연구진은 설문의 방식을 채택했다. 크게 언어 및 독서 관련 전문가를 대상으로 한 설문과 일반인의 독서 실태에 대한 설문으로 나누어 실시한 조사 연구를 통해 일반인의 독서 습관이나 독서물의 유형별 독서율, 독서물의 영향력을 평가할 기초 자료를 만들고 이를 토대로 말뭉치의 표집 분야와 비율을 산출했다. 그 결과는 [표1]과 같다.
--- 본문 중에서