RStudio 따라잡기는 R을 위한 유명한 오픈소스 통합개발환경(IDE)의 포괄적인 안내서이다. 6장으로 구성된 내용에서 RStudio를 이용해 재현 가능한 통계연구를 수행하는 방법에 대해서 설명하겠다. 이 책은 자동 리포트 생성, 고급 R코드 편집, 프로젝트 파일 관리, 데이터 가시화 등을 내용으로 한다.
---「저자 서문」 중에서
소셜미디어가 발전함에 따라, 우리의 일상생활에 적용해 분석해볼 만한 무궁무진한 영역들이 웹에서 나날이 늘어나고 있다. 이제는 누구든지 분석기술만 있으면 다양한 오픈소스를 활용해 데이터에 숨겨진 다양한 인사이트를 찾아볼 수 있는 시대가 되었다. 이러한 현상의 중심에 R 언어가 있다. 실제로 최근에 전세계적으로 유명한 연구기관에서 주목해야 할 데이터 분석 분야의 여러 가지 기술 중 하나로 R을 했다는 사실은 이를 입증해 준다고 할 수 있다.
벨 연구소에서 개발한 S 언어에서 시작된 R은 1993년 뉴질랜드 오클랜드대학교의 통계학과 교수인 로버트 젠틀맨과 로스 이하카에 의해 개발된 이후 1997년 GNU 프로젝트를 시작하게 되었고 데이터 분석 분야에서 단기간에 다양한 사용자를 끌어들인 오픈소스 통계 프로그래밍 언어다.
이미 200만 명의 분석가들이 사용 중인 R은 현재 전 세계적으로 매우 강력한 커뮤니티를 형성하고 있다. 또한 다양한 분야에 종사하는 분석 전문가들이 개발한 분석 알고리즘을 R 패키지 형태로 제공하고 있다. 워낙 다양한 분야의 분석가들이 사용하고 있기 때문에 적용 사례도 그만큼 많고, R이 제공하는 분석 기능으로 대부분의 분석 문제를 해결할 수 있을 정도다.
R은 오픈소스라는 특성으로 인해 저렴한 가격으로 복잡한 데이터 분석 문제를 해결하는 장점이 있다. 이에 따라 R은 현재 세계 최고의 데이터분석가를 위한 분석 도구로 인정받음으로써, 외국에서는 이미 통계 분석 분야에 있어 표준 언어로 자리매김을 한 것으로 보인다. 국내에서도 최근 빅데이터와 함께 많은 주목을 받으며 실제로 많은 분야에서 사용되고 있다.
R의 가장 큰 특징은 콘솔 화면의 인터프리터에서 스크립트를 입력해 분석을 수행하는 방식이다. 이로 인해 기존의 화려한 GUI 분석 툴에 익숙한 사용자들이 배우기에 어려운 점이 있다. 따라서 초보자들이 좀더 쉽고 효율적으로 사용하게 하기 위해 R GUI 툴 개발 프로젝트가 추진 중이며, 현재 다양한 툴(RStudio, R Commander, rattle, Red-R 등)이 소개되고 있다.
이 책은 R을 좀더 효율적으로 이용하기 위한 RStudio를 사용법을 소개하는 책이다. RStudio는 R 분석 과정에서 발생하는 다양한 업무를 쉽고 효율적으로 실행하게 하는 강력한 R 기반 통합개발환경(IDE)이다.
RStudio의 대표적인 특징으로는 첫째, R과 같은 오픈소스라는 점이고 둘째, 멀티 플랫폼을 지원하기 때문에 윈도우, 리눅스, 맥에서 동일한 환경으로 작업할 수 있다. 셋째, 코드 일반적인 통합개발환경 도구가 지원하는 자동완성 기능을 제공하며 넷째, 코드 소스, R콘솔, 작업공간, 그래프를 한 화면에 정리해 볼 수 있다는 장점을 들 수 있다. 그리고 다섯째로는 RStudio에서 R로 데이터 분석을 하고 보고서까지도 편리하게 작성할 수 있는 기능을 제공하기 때문에 분석의 모든 작업을 RStudio에서 수행할 수 있다. 마지막으로 Rstudio를 리눅스 서버에 서버 버전을 설치하면 웹 브라우저로 서버에 접속해 서버에서 작업하는 환경과 동일하게 RStudio를 이용할 수 있는 기능을 제공한다는 장점이 있다. 이런 빼어난 장점들로 인해 좀더 효율적인 업무 방식을 찾고자 하는 데이터 분석가들로부터 많이 사용된다.
따라서 이 책은 데이터 분석가를 대상으로 RStudio를 설치하는 방법을 시작으로 스크립터 작성, R 콘솔 사용하기, 데이터 보기, 플로팅, R프로젝트 관리, 보고서 작성, 함수와 패키지 만들기 등의 분석 과정에서 발생하는 다양한 업무에서 RStudio를 사용하는 방법을 간단한 예를 들어가며 이해하기 쉽게 설명해준다.
현장에서 다양한 데이터를 분석해 보면서, 데이터 분석이라는 업무는 분석 방법도 중요하지만 무엇보다도 분석 대상에 대해 올바른 지식을 갖고 이해하며 분석을 수행하는 것이 가장 중요하다는 점을 느꼈다. 그만큼 데이터 분석 업무는 한 가지 기술이 아닌 다양한 분야에 대한 지식을 필요로 하고 이를 응용해 문제를 해결하는 기술이라고 생각한다. 다행히도 최근 이런 분야의 중요성이 높아감에 따라, 대학에서 다양한 과정이 개설되고 있으며, 기업에서도 데이터 분석 분야 전문가들에 관심을 갖는다는 점은 이 분야에서 일하는 사람으로서 상당히 고무적인 현상이라고 생각한다.
데이터 분석 관련 연구 분야는 앞으로가 더욱 기대되는 영역이며 지금도 끊임없이 새로운 분석 방법과 분석 분야가 생겨나고 있다. 이러한 사실은 이 분야의 전문가들이 끊임없이 새로운 것을 배우고 적용하여 해당 기술을 체득해야 함을 의미한다. 그런 점에서 RStudio와 R을 이용해 새로운 기술을 이해하고 다양한 분야에 적용해 보는 시도를 멈추지 않기를 바라며 그 과정에서 이 책이 큰 도움이 되기를 희망한다.
---「옮긴이의 말」 중에서