이미 소장하고 있다면 판매해 보세요.
|
01 파이썬 시작하기
02 파이썬 코딩 기초 03 은행 텔레마케팅 데이터 분석 04 전자상거래 데이터 분석 05 통계적 학습 06 선형 회귀 07 로지스틱 회귀를 이용한 분류 08 KNN 분류 09 나이브 베이즈 분류 10 선형 모형 변수선택 및 정규화 11 추천 시스템 12 결정 트리 만들기 13 트리 기반 모형 14 서포트 벡터 머신 15 딥러닝 입문 16 비지도학습과 주성분 분석 17 생존분석 |
崔弼善
최필선의 다른 상품
민인식의 다른 상품
|
2012년 10월 교수이자 작가인 데이븐포트(Davenport)와 데이터 과학자인 패틸(Patil)은 유명한 경영학 저널인 Harvard Business Review에 “데이터 과학자: 21세기 가장 섹시한 직업” 이라는 제목의 글을 실었다. 데이터 과학자(data scientist)라는 말 자체가 생소했던 당시에 금세기 가장 섹시한 직업이 될 것이라는 자극적인 제목까지 달려있어 많은 이들의 눈길을 끌었다. 글은 이렇게 끝을 맺는다.
“지금 빅데이터라는 엄청난 파도가 몰려들어 정점으로 치닫기 시작했다. 그것을 잡으려면 거기에서 서핑을 할 줄 아는 사람이 필요하다”. 그로부터 정확히 10년이 지난 2022년 7월 그들은 또 다시 같은 저널에 글을 올린다. 이번 제목은 “데이터 과학자는 여전히 21세기 가장 섹시한 직업인가?”로서 그들의 대답은 여러분 예상대로다. “당시 우리는 데이터 과학자를 “빅데이터 세계를 탐구할 역량과 호기심을 지닌 수준 높은 전문가”로 정의했다. (중략) 10년이 지난 지금 그 직업은 기업과 리크루터들에게 그 어느 때보다 수요가 많다. AI가 비즈니스에서 갈수록 인기를 얻고 있으며 모든 회사들이 규모 와 소재지에 상관없이 AI 모델을 개발하기 위해 데이터 과학자가 필요하다고 여긴다. 2019년에는 인디드(Indeed) 데이터 과학자를 구하는 포스팅이 256%나 증가했으며 미국 노동통계국(BLS)은 데이터 과학이 지금부터 2029년 사이에 다른 어떤 분야보다 더 빨리 성장할 것으로 예측한다. 잘나가는 직업은 보수도 좋기 마련이어서 데이터 과학자 경력직의 연봉 중위값이 캘리포니아의 경우 $200,000에 근접하고 있다”. 지난 10년만 본다면 그들의 예측은 100% 적중했다. 빅데이터와 데이터 과학이 우리 일상생활에 깊숙이 들어왔고 AI, 딥러닝, 알고리듬, 코딩 등의 전문용어가 일상적으로 사용되고 있다. 자연히 이와 관련된 교육 훈련 프로그램도 아주 많이 늘어났다. 아래는 그들이 미국 상황을 설명한 것이지만 현재 우리도 비슷한 길을 걷고 있다. 2012년에는 사실상 데이터 과학 학위 프로그램이 없었다. 그래서 다른 관련 분야에서 데이터 과학자를 데려와야 했다. 하지만 이제 데이터 과학 또는 애널리틱스나 AI 분야에 수백개의 학위 프로그램이 있다. 대부분은 석사 학위 프로그램이지만 데이터 과학 분야의 학부 전공이나 박사 프로그램도 있다. 또한 데이터 과학 관련 분야에는 엄청난 수의 인증서, 온라인 과정, 부트캠프들이 있다. 심지어는 고등학교에도 데이터 과학 코스와 커리큘럼이 있을 정도다. 이제 데이터 과학 역량을 갖추고 싶어 하는 사람은 누구라도 그렇게 할 수 있는 많은 선택들이 열려있다. 파이썬(Python)은 가장 많이 사용되는 10대 프로그래밍 언어에 꾸준히 랭크돼왔으며 2024년 1월 현재 PYPL(PopularitY of Programming Language) 기준 전세계적으로 가장 인기있는 프로그래밍 언어다. 특히 요즘 각광받고 있는 딥러닝 등에서 파이썬 관련 모듈이 가장 앞서 나가고 있는 것으로 여겨진다. 이처럼 강력한 도구이면서도 무료(!)라는 점이 특히 매력적이다. 여러분은 파이썬을 익힘으로써 코딩과 알고리듬에 대해 배우게 될 것이다. 앞에서 데이터 과학자의 매력에 대해 많이 인용했지만, 이 책은 데이터 과학자가 되기 위한 책은 아니다. 그보다는 데이터 과학에 첫발을 내딛는 책이라 할 수 있다. 우리가 반드시 경제학자가 되려고 경제학원론을 공부하는 것은 아니다. 전문경영인이 되려고 경영학을 공부하는 것 도 아니다. 이제 빅데이터, 알고리듬, 코딩이 우리 일상생활에까지 들어왔기 때문에 데이터 과학자를 목표로 하지 않더라도 도대체 무슨 일이 벌어지고 있는지 알아야 한다. 수리금융학으로 무장한 퀀트가 되어 투자은행으로 진출할 계획이 아니더라도 우리가 투자론을 공부하는 것과 마찬가지다. 이 책의 구성은 일단 1-2장에서는 파이썬에 대한 소개와 이것을 자신의 컴퓨터에 설치하는 방법, 그리고 파이썬 코딩 방법에 대해 가장 기초적인 내용이 나온다. 이를 바탕으로 3-4장에서는 파이썬 코딩을 실제 데이터(은행 텔레마케팅, 온라인몰 전자상거래)에 적용해서 분석하는 연습을 한다. 여기까지는 산점도나 상관계수, 빈도분포 등 아주 기초적인 분석도구를 사용하지만 5장부터는 다양한 통계적 (기계)학습 모형들을 공부하게 된다. 가장 기본이 되는 선형 회귀부터 시작해서 로지스틱 회귀, K-최근접이웃 분류, 나이브 베이즈 분류, 선형 모형 변수선택 및 정규화, 결정 트리, 트리 기반 모형, 서포트 벡터 머신, 딥러닝, 주성분 분석, 생존분석 순으로 진행된다. 각 주제마다 동일한 포맷인데, 전반부에는 해당 주제와 관련해 반드시 알아야 할 이론적 내용이 먼저 나오고, 후반부에는 관련 분석을 파이썬으로 어떻게 구현하는지 설명한다. ChatGPT가 등장한 지 얼마 지나지 않았지만, 지금은 파이썬으로 데이터를 분석할 때 누구나 ChatGPT를 활용한다. ChatGPT는 파이썬 코딩을 비롯해 데이터 분석의 다양한 작업에서 도움을 준다. 주어진 파이썬 코드의 의미와 구문에 대해 자세히 설명해주고, 훌륭한 그래프를 그릴 수 있는 코드를 알려주며, 코드에 오류가 발생했을 때 해결 방안을 알려준다. 또한 데이터 분석 실행 결과는 물론이고 머신러닝 등 통계학 제반 이론에 대해 알기 쉽게 설명해준다. 이 책의 각 장에 ChatGPT 활용법과 관련된 부분을 한두 개, 많으면 서너 개 포함하였다. 어떤 이슈에 대한 질문과 답변 내용을 보여주는데, 이를 통해 ChatGPT 활용법을 익힐 수 있다. ChatGPT는 파이썬을 활용한 데이터 분석 작업의 아주 유능한 길라잡이다. 물론 ChatGPT가 모든 걸 다 해주진 않는다. 질문 내용이 복잡해지면 틀린 답을 내놓는 경우도 많다. 결과를 반대로 해석하는 경우도 있다. 결국 물어보는 사람이 잘 물어봐야 하고 답변에 문제는 없는지 잘 따져봐야 한다. 파이썬과 데이터 분석에 대해 아무것도 모르면 ChatGPT한테서 건질 것이 거의 없다. 많이 알수록 많이 얻어낼 수 있다. 프로그래밍 언어로서 파이썬의 인기와 ChatGPT 의 엄청난 학습능력이 시너지 효과를 내면 ChatGPT의 능력이 (지금도 놀랍지만) 앞으로도 빠른 속도로 발전하게 될 게 분명하고 나중에는 범접할 수 없는 경지에 도달할지도 모른다 |