확장메뉴
주요메뉴


소득공제 베스트셀러
미리보기 공유하기

데이터 사이언티스트 실전 노트

: 데이터 핵심부터 포트폴리오까지, 한 권으로 돌파하기

리뷰 총점9.6 리뷰 5건 | 판매지수 1,140
베스트
OS/데이터베이스 70위 | OS/데이터베이스 top100 4주
정가
30,000
판매가
27,000 (10% 할인)
YES포인트
당신의 독서를 위한 친구 - 심플 폴더블 LED 독서등/크리스탈 문진/가죽 슬리브 유리 텀블러/모나미 볼펜
8월 얼리리더 주목신간 : 귀여운 방해꾼 배지 증정
월간 개발자 2022년 8월호
박해선 저자의 머신러닝/딥러닝 패스
[단독]『혼자 공부하는 파이썬』 개정판 출간
내일은 개발자! 코딩테스트 대비 도서전
[단독] 에듀윌 IT 자격증 기획전 - 가장 빠른 합격출구 EXIT
YES24 트윈링 분철 : 인서트라벨/스티커 택1 증정
8월 전사
쇼핑혜택
1 2 3 4 5

품목정보

품목정보
출간일 2022년 06월 29일
쪽수, 무게, 크기 472쪽 | 173*230*30mm
ISBN13 9791165921521
ISBN10 1165921529

이 상품의 태그

책소개 책소개 보이기/감추기

이 시대의 가장 섹시한 직업, 데이터 사이언티스트?!
소문만 무성한 데이터 사이언티스트의 모든 것을 알려준다!


첫째, 데이터 사이언티스트의 실제 업무를 알려드리고, 데이터 사이언티스트가 되기 위한 필수 역량을 체크리스트로 알려준다. 막연하게 데이터 사이언티스트를 꿈꾸는 것은 이제 그만! 데이터 사이언티스트의 업무가 무엇인지 정확히 이해하고 그 업무를 해결하기 위한 필수 역량이 적힌 체크리스트를 확인해 보자! 체크리스트를 기반으로 계획을 세워 공부하다 보면, 어느새 여러분은 데이터 사이언티스트에 한 발짝 가까워질 것이다!

둘째, 현업에서 일어나는 실제 상황 속, 데이터 사이언티스트의 해결 방법을 알려준다. 현업에서 데이터 사이언티스트가 마주하는 상황 속, 해결 방법을 알려드준다. ‘내가 이런 상황에 있다면 나는 어떻게 해야 할까? 어떻게 하는 것이 옳을까?’ 스스로 가치 판단면서 상황을 해결해가는, 진짜 데이터 사이언티스트가 될 수 있다!

셋째, 매력적인 포트폴리오 작성법을 알려준다. 취업/이직 시장에서는 매력적인 포트폴리오를 작성하는 것이 가장 중요하다. 데이터 사이언티스트의 업무도 잘 모르는데, 매력적인 포트폴리오 작성하기란 너무 쉽지 않죠? 매력적인 포트폴리오로 취업하고, 이직 시장에서 경쟁력을 갖추는 비법을 싹 다 공개할 테니, 이제 매력적인 데이터 사이언티스트로 거듭나자!

넷째, 데이터 분석을 위한 기초 파이썬과 기본 통계 지식은 덤! 데이터 분석, 더 이상 맨땅에 헤딩하지 마세요! 데이터 분석을 위해 꼭 필요한 기초 파이썬과 기본 통계 지식을 덤으로 배워갈 수 있다. 배워야 할 것은 빠르게 습득하여, 유능한 ‘데이터 사이언티스트’로 성장하자!

목차 목차 보이기/감추기

저자 소개
서문
베타 리더 추천사
이 책의 구성

1장 데이터 사이언티스트 이해하기

1.1 데이터 직무 알아보기
1.1.1 데이터 직무 세 가지: 데이터 분석가, 데이터 엔지니어, 데이터 사이언티스트
1.1.2 데이터 직무별 갖춰야 할 필수 능력
1.2 데이터 사이언티스트를 왜 하필 데이터 사이언티스트라고 할까
1.2.1 회사가 데이터 사이언티스트에게 바라는 점
1.2.2 진짜 데이터 사이언티스트가 갖춰야 할 역량
1.3 데이터 사이언티스트를 희망한다면 이것부터 살펴라
1.3.1 관련 전공자와 석·박사를 우대하는 현실
1.3.2 체크리스트로 보는 나는 무엇을 키워야 할까

2장 데이터 사이언티스트에서 “데이터”

2.1 데이터 유형
2.1.1 정형 데이터(Structured Data)
2.1.2 비정형 데이터(Unstructured Data)
2.1.3 반정형 데이터(Semi-structured Data)
2.1.4 내게 필요한 데이터 유형은 무엇일까?
2.2 데이터에서 확인해야 할 사항
2.2.1 4가지 상황에서 살펴본 데이터 크기(Size)
2.2.2 데이터의 값에 따른 종류
2.2.3 결측치(Missing Value)
2.2.4 중복 데이터
2.2.5 식별키(Prime Key, Primary Key)
2.2.6 상황으로 살펴보는 스키마 생성 예시
2.3 데이터 합치기
2.3.1 데이터프레임 결합: pd.merge()
2.3.2 데이터프레임 결합: df_left.join(df_right, ...)
2.3.3 여러 데이터프레임 연결: pd.concat()
2.3.4 데이터프레임, 배열, 리스트, 딕셔너리 연결: .append()
2.3.5 상황으로 살펴보는 데이터 합치기 활용

3장 데이터 사이언티스트에서 “사이언티스트”

3.1 데이터 사이언티스트는 무엇을 하는 사람인가
3.1.1 질문을 통해 문제점 찾기
3.1.2 수학과 통계 얼마나 잘해야 할까
3.2 기본 통계로 질문자 되기
3.2.1 평균인 μ와 , 무엇이 다를까?
3.2.2 수학과 통계는 무엇이 다를까?
3.2.3 확률, 가능도, 최대 가능도 추정, 통계 차이는?
3.2.4 통계 vs. 머신러닝 그리고 모수 vs. 비모수 차이는 무엇일까?
3.2.5 정규분포를 포함한 분포는 결국 OO이다
3.2.6 분포는 무엇으로 결정될까?
3.2.7 중심경향값을 계산하는 대표적인 세 가지는 무엇일까?
3.2.8 중심경향을 제외한 분포 파악에 필요한 통계치는 무엇일까?
3.2.9 적률로 이해하는 분포 특징 4가지
3.2.10 피처 스케일링할 것인가, 말 것인가? 지도학습 사용 목적으로 판단하기
3.2.11 피처 스케일링 방법 중 선택 기준이 있을까?
3.2.12 꼭 분포를 바꿔야 할까? 로그 변환, 파워 변환에서 손실과 이익을 따져 보기
3.2.13 중심극한정리에서 시작하는 추리통계
3.2.14 [가설검정 (1) - 가설 설정] 귀무가설을 ??? =0이라고 하면 안 되는 이유
3.2.15 [가설검정 (2) - 유의수준] 가설을 선택하는 기준 & 선택에 따른 오류
3.2.16 [가설검정 (3) - 검정 통계량] 통계방법 선택하는 방법
3.2.17 [가설검정 (4) - α vs. p-value, 임계치 vs. 검정 통계량] 가설검정 결론 내리기
3.2.18 두 개 이상의 변수 관계를 이해할 때 알아야 할 개념: 공분산, 상관계수, 선형성, 공선성, 다중공선성
3.2.19 차원의 저주란 무엇일까?
3.2.20 저주를 풀어줄 PCA란?
3.2.21 필요한 변수만 선택해야 할 때 어떤 방법이 좋을까?
3.3 100개 지식을 아는 사람 vs. 110개 지식을 아는 사람, 누가 진정한 데이터 사이언티스트일까?

4장 데이터 사이언티스트가 하는 일

4.1 직장인으로서 데이터 사이언티스트
4.1.1 피할 수 없는 ‘업무 정의의 모호성’
4.1.2 업무를 제대로 이해하는 방법
4.1.3 업무의 방향성을 지켜 줄 두 가지의 방법
4.1.4 당신을 돋보이게 할 상황에 따른 커뮤니케이션 방법
4.2 꼭 알아야 할 키워드
4.2.1 모델의 수익화(Web API)
4.2.2 불확실성(Uncertainty) 다루기
4.2.3 모델 해석 능력(Interpretability)
4.2.4 업무 효율성 - 자동화 머신러닝, 파이프라인

5장 포트폴리오로 시작하기

5.1 왜 포트폴리오일까?
5.2 당신을 함정에 빠뜨릴 포트폴리오
5.2.1 누구나 다 아는 데이터
5.2.2 복사 & 붙여넣기 식의 포트폴리오
5.2.3 양 vs. 질: 양을 선택한 포트폴리오
5.3 포트폴리오 예시
5.3.1 주제 찾기 & 문제점 제시
5.3.2 데이터
5.3.3 해결 과정
5.3.4 결과
5.3.5 플랫폼 선택, 문서화
5.3.6 재검토
5.3.7 마치며
에필로그
찾아보기

저자 소개 (1명)

출판사 리뷰 출판사 리뷰 보이기/감추기

데이터 사이언티스트가 되기 위해서라면 가장 먼저 풀어야 할,
데이터 사이언티스트의 오해와 진실


데이터 사이언티스트에 대한 소문은 익히 들어왔습니다. 하지만 소문만 무성할 뿐, 진짜 데이터 사이언티스트의 업무는 무엇인지, 데이터 사이언티스트가 되기 위해서는 무엇을 해야 하는지 정확히 알지 못하는 경우가 많습니다. 하지만 데이터 사이언티스트가 되기 위해선 가장 먼저 그를 둘러싼 오해와 진실부터 풀어야 합니다. 그래서 “데이터 사이언티스트의 실전 노트”를 준비했습니다. 데이터 사이언티스트로 현업에서 일하고 있는 선배의 이야기를 하나하나 친절하게 담았습니다. 전혀 늦지 않았습니다. 이 도서와 함께 지금 당장 이 시대의 가장 섹시한 직업, 데이터 사이언티스트가 되어보세요!

회원리뷰 (5건) 리뷰 총점9.6

혜택 및 유의사항?
포토리뷰 여전히 블루오션입니다…"데이터 사이언티스트 실전 노트" 내용 평점4점   편집/디자인 평점4점 YES마니아 : 로얄 골****자 | 2022.08.05 | 추천1 | 댓글0 리뷰제목
  데이터 활용이 화두다. 과거 기업의 의사결정 방식은 소수의 엘리트에 의존했다. 산업화 시대의 핵심 전략은 생산성 향상과 원가 절감에 있었지만 정보화 시대를 맞이하면서 데이터 활용을 통한 개별화된 맞춤 서비스도 가능해지고 있다. 빅데이터에 대한 관심이 지속 증가하고 있지만 데이터 사이언티스트(Data Scientist) 직업은 여전히 블루오션이다.     ;
리뷰제목

 

데이터 활용이 화두다. 과거 기업의 의사결정 방식은 소수의 엘리트에 의존했다. 산업화 시대의 핵심 전략은 생산성 향상과 원가 절감에 있었지만 정보화 시대를 맞이하면서 데이터 활용을 통한 개별화된 맞춤 서비스도 가능해지고 있다. 빅데이터에 대한 관심이 지속 증가하고 있지만 데이터 사이언티스트(Data Scientist) 직업은 여전히 블루오션이다. 

 

 

블루오션 (Blue Ocean Strategy)

차별화와 저비용을 통해 경쟁이 없는 새로운 시장 혹은 그것을 창출하려는 경영전략

 

데이터 활용은 IT기업에만 국한된 것이 아니라 전방위적으로 확산되고 있지만 여전히 그 잠재력은 크다. 이에 문과 출신에서 이과로 전향해 데이터 사이언티스트로 일하는 경험을 바탕으로 데이터 분야의 맥을 짚고 데이터를 어떻게 활용하면 될지, 더 나아가 데이터 전문가가 되기 위한 노하우를 알려주는 책이 눈길을 끈다.

 

데이터가 돈이다.

디지털 신호인 데이터가 자산이 될 수 있다는 말이 이제는 낯설지만은 않다. 어느새 데이터는 석유 못지않은 돈이 되었다. 2016년 4차 산업혁명이 화두가 되고 같은 해 알파고(AlphaGo)와 이세돌의 바둑 대결은 데이터 인식에 대한 전환점이 됐다. IT기업들의 급성장은 현실이다.

실리콘밸리의 빅테크 기업은 계속 성장 중이다. 출처=trtworld

 

부익부 빈익빈의 가속화 : 빅테크 기업 전성시대 

코로나 팬데믹 시기에도 미국 주요 기업의 매출은 여전히 급증 추세다. 월가 자료에 따르면 애플의 2분기 매출은 전년 동기 대비 36% 성장한 약 814억 달러(약 94조 원), 알파벳은 61.6% 증가한 약 619억 달러(약 71조 원), MS는 21% 증가한 약 462억 달러(약 53조 원), 페이스북은 56% 늘어난 약 291억 달러(약 34조 원)를 기록했다. 

 

덩치가 커지면 매출 증가 속도가 줄어드는 것이 이른바 ‘굴뚝 산업’의 전형적 현상이지만, 플랫폼 기업들에게는 이런 현상도 나타나지 않는다. 올해 초 국제통화기금(IMF)이 금년도 세계경제 성장률을 낮췄지만 분기 이익액만 수십 조원을 훌쩍 뛰어넘으니 실리콘밸리의 질주는 각종 전망들을 비웃는 듯하다.

 

필자가 처음 빅데이터에 관심을 둔 것은 10년 전 대학교수의 여담에서였다. “요즘 빅데이터가 뜬다는 데 거기에 한 번 매진해 봐야겠어요.” 교수라는 직업 특성상 향후 연구 과제를 빅데이터로 정했다로만 받아들였다. 그 말을 듣던 당시 필자의 첫 반응은 ‘빅데이터란 말이 나온 지가 언젠데 이제 연구한다고?’였다. 지금 생각해 보면 참 어처구니없는 것 같다. 필자도 그때 관심을 넘어 매진했다면 하는 아쉬움을 떠올리기도 했다. 

 

데이터가 중요하다는 것은 알지만 어떻게 활용해야 할지 모르는 분들을 위한 책이 있다. <데이터 사이언티스트 실전 노트>는 해당 직군의 실제 업무를 알려주고, 데이터 사이언티스트가 되기 위한 필수 역량을 체크리스트로 알려준다. 현업에서 일어나는 실제 상황 속, 데이터 사이언티스트의 관점에서 해결 방법을 알려준다. 현실 직장 생활을 위한 매력적인 포트폴리오 작성법과 데이터 분석을 위한 기초 파이썬과 기본 통계 지식까지 알려주는 것이 이 책의 장점이다. 

데이터를 다루고 있다. 출처=픽사베이

 

당신은 데이터를 다룰 수 있는가?

이 책은 실제 현업에서 데이터 부석 단계마다 마주하는 문제를 사례로 해결해 가는 프로세스를 제공한다. 어떻게 코드로 구현할 것인지, 시각화할 것인지 과정 전부를 보여주며 데이터 사이언스에 대한 인기가 높아지는 만큼 적절한 난이도로 공급과 수요의 접점을 잡았다고 생각한다. 

 

수학과 통계의 구분과 같은 기초 지식뿐 아니라 내게 필요한 데이터 유형을 선택하는 법과 같은 실무 적용 가능한 노하우를 알려준다. 또 데이터에서 확인해야 할 데이터의 크기(Size), 결측치(Missing Value), 중복 데이터나 식별키에 대한 기본 지식과 직장에서 데이터 사이언티스트로서 업무 정의가 모호할 때 대처법, 업무를 제대로 이해하는 방법, 올바른 방향성을 위한 원칙 등을 짚고 넘어간다. 그래서 함정에 빠지지 않도록 도움받을 수 있다. 

 

이 지점에서 이렇게 친절한 책이 출간됐는지 필자도 궁금했다. 이지영 저자는 이화여자대학교 언론정보학과를 졸업하고 외국계 홍보 회사에서 근무했다. 데이터를 다루고 싶은 열망으로 캐나다에서 다시 응용통계학을 공부한 후, 요크 대학교에서 응용통계학 석사 과정을 거친 후 현재는 토론토에서 데이터 과학자로 일하고 있다고 한다. ‘Data Scientist 이지영’ 유튜브 채널도 운영하며 문과 출신에서 이과로 전향한 경험을 공유한다. 선도자 역할을 하는 셈이다.

데이터 사이언티스트는 장밋빛 전망이다

 

스포츠는 산업이다. ⓒ whoisdenilo, 출처 Unsplash

 

몸값이 1,000억 원이 넘는 비결은?

데이터를 활용은 스포츠 영역에도 뻗치고 있다. 스포츠 매체 스포티비 뉴스의 지난 14일 기사에 따르면 선수 컨디션 관리와 부상 방지를 넘어서 스카우팅, 연봉 협상, 전술 분석 등 데이터가 축구에 미치는 영향이 대대적으로 커지고 있다. 측위 기술의 발달로 대량의 스포츠 데이터 수집이 가능해지면서 '축구 분석'의 영역이 훨씬 넓어졌다. 데이터를 기반으로 선수 피지컬을 관리하고, 경기에서의 퍼포먼스를 평가하고, 전술적 인사이트를 제공하는 것이 가능해지게 된 것이다.

 

데이터 기업 핏투게더(Fittogether)에서 데이터 사이언스팀을 이끄는 김현성 팀장은 "축구계 데이터 바람은 이제 시작"이라면서 “원래 세계적으로 데이터 사이언티스트를 보유한 축구 구단이 거의 없었지만 최근 방대한 스포츠 데이터 수집으로 수학이나 물리학, 컴퓨터 사이언스를 전공한 비스포츠인 출신 연구원들이 스포츠 구단에 데이터 분석 직무로 영입되기 시작했다”라고 말했다.

경기 중 전술 변화를 자동으로 검출하는 핏투게더의 알고리즘 출처=핏투게더

 

또 그는 "요즘 톱 레벨 구단은 크게 세 가지 방식으로 데이터 기반 의사결정을 진행한다"면서 "첫째는 선수들 운동 부하를 수집해 개별적으로 컨디션을 관리하고 부상을 방지하는 데에 데이터를 활용하는 것이다”라고 밝혔다. 김 팀장은 “선수가 특정 액션을 통해서 득점 확률을 얼마나 증가시켰는지, 또는 피지컬적으로 얼마나 폭발적으로 움직였는지 등을 고도화된 지표로 산출하여 선수 평가 요소로 활용한다”면서 “마지막으로는 여러 선수 움직임을 동시에 분석해서 이들이 상호작용하는 패턴으로부터 전술을 검출하고, 팀과 선수가 전술적으로 적절하게 움직였는지를 판단의 근거로 삼는다”라고 덧붙였다. 

슈퍼스타 몸값은 진작 1,000억원을 돌파했다. ⓒ giorgiotrovato, 출처 Unsplash

 

축구는 세계 최고 인기 스포츠다. 노쇼를 선보인 호날두(Ronaldo)와 같은 스타플레이어 이적료가 1,000억 원을 넘기며 시장 규모는 지속적으로 상승하고 있다. 국제축구연맹(FIFA) 산하 국제스포츠연구소(CIES)가 6일(현지시각)에 따르면 2022년 기준 전 세계에서 가장 이적료가 높은 선수는 킬리안 음바페(파리 생제르맹)로 2억 560만 유로(약 2,759억 원)에 달했다. 2위는 레알 마드리드(스페인)의 비니시우스 주니오르로 1억 8,530만 유로(약 2,487억 원)다. 3위는 엘링 홀란드(맨체스터 시티)는 1억 5,260만 유로를 차지했다. 손흥민과 해리 케인은 각각 88위, 31위를 차지했다. 

 

케빈 더브라위너(맨체스터 시티)는 에이전트가 아닌 데이터 사이언티스트 도움을 받아 지난해 4월 맨시티와 재계약해 잉글랜드 프리미어리그(EPL) 최고 주급자에 올라섰다. 수당을 포함한 최대 주급이 46만 2000유로(약 6억 2000만 원)에 달한다. 연봉으로 환산하면 300억 원이 넘는다.

당신의 방향성은 미래 먹거리로 향했나? 출처=픽사베이

 

또 정부 주도의 대응책도 화두다. ‘디지털 플랫폼’ 강국이라는 정부의 미래산업 집중화 노력에 부응할 수 있도록 이를 담당할 전문 인력을 양성에 애쓰고 있다. 인공지능(AI) 기반 4차 산업 직무훈련과 현업에서의 구인난 해소에 도움이 되는 전문 영역의 일자리 매칭 성과를 만들어내는 것을 과제로 한다. 특히 AI 및 데이터 사이언스 분야 전문가 양성으로 데이터 융합 이슈에 강한 소통 역량을 겸비한 인재를 계속해서 지원하고 있다. 

 

팬데믹 때의 유동성 대잔치를 끝내고 인플레이션을 잡기 위해 곳간을 닫을 수밖에 없는 현실이지만 미래 산업에 대해서는 투자 명목으로 선택과 집중할 수밖에 없다. 향후 몇 년간 전통 산업 지원은 대거 축소되고 미래 먹거리에 몰아줄 것으로 쉽게 예상된다. 

 

당신은 데이터를 다룰 수 있는가? 데이터를 다루도록 참고서 역할을 하는 본 책을 강하게 권한다.

댓글 0 1명이 이 리뷰를 추천합니다. 공감 1
데이터 사이언티스트 실전 노트 내용 평점5점   편집/디자인 평점5점 o*****n | 2022.07.24 | 추천0 | 댓글0 리뷰제목
  딥러닝을 공부하면서 부터 주된 관심은 데이터 수집, 모델링 그리고 학습이었습니다. 데이터를 수집하고 학습을 하면 데이터 분석은 불필요하다고 생각했습니다. 그런데, 금년 초에 우연히 데이터 분석에 대해 공부를 하게 되면서 학습 하기 전에  데이터 분석은 반드시 필요하다는 생각을 하게 되었습니다.  저자가 어떻게 데이터 사이언티스트가 되었는지 서문에;
리뷰제목


 

딥러닝을 공부하면서 부터 주된 관심은 데이터 수집, 모델링 그리고 학습이었습니다.
데이터를 수집하고 학습을 하면 데이터 분석은 불필요하다고 생각했습니다.

그런데, 금년 초에 우연히 데이터 분석에 대해 공부를 하게 되면서 학습 하기 전에 
데이터 분석은 반드시 필요하다는 생각을 하게 되었습니다. 

저자가 어떻게 데이터 사이언티스트가 되었는지 서문에서 말하고 있습니다. 
불안하지만 통계학을 공부하고 싶어 시작을 했고 저자의 이런 경험이 누군가에게 도움이 되고 싶어 집필을 했다고 합니다.

이 책은 데이터 사이언티스트, 데이터 엔지니어 그리고 데이터 분석가의 차이점을 설명하면서  시작을 합니다.

그리고 데이터 사이언티스트가 무엇을 하는 사람인지, 데이터가 무엇인지 그리고 데이터 사이언티스트가 갖춰야할 역량에 대해 조언과 기법을 적절히 섞어 가며 설명을 하고 있습니다. 

마지막 장에는 포트폴리오를 준비하는 방법에 대해 설명을 하고 있습니다.

데이터분석 기법에 초점을 맞춘 다른 책들과는 다르게 이 책은 마치 데이터 사이언티스트가 되기 위해 옆에서 멘토가 하나한 설명을 해주는 느낌이었습니다.

데이터 사이언티스트가 되고자 하는 분들께 이 책은 도움이 될 것 같습니다.

YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
주간우수작 분석과 통계를 한번에 / "데이터 사이언티스트 실전노트" 이지영 내용 평점5점   편집/디자인 평점5점 C***A | 2022.07.21 | 추천16 | 댓글9 리뷰제목
  ‘내가 40이 되어도, 50이 되어도 할 수 있는 직업은 무엇일까? ‘ 에 대해 깊은 고민을 한 적이 있었다.     그 때 발견한 직업은 '데이터 분석가'였다. 비록 컴퓨터 과학, 통계학 전공자는 아니지만 자료들을 비교하고 분석하고 결론을 도출하는 과정이 재밌어 보였고, 내가 나이가 들더라도 이러한 분석 능력은 어디서든 적용 가능할것이;
리뷰제목

 

‘내가 40이 되어도, 50이 되어도 할 수 있는 직업은 무엇일까? ‘ 에 대해 깊은 고민을 한 적이 있었다.

 

 

그 때 발견한 직업은 '데이터 분석가'였다.

비록 컴퓨터 과학, 통계학 전공자는 아니지만

자료들을 비교하고 분석하고 결론을 도출하는 과정이 재밌어 보였고,

내가 나이가 들더라도 이러한 분석 능력은 어디서든 적용 가능할것이라 생각이 들었다.

 

 

데이터 분석을 위해 많은 책들을 읽어보았다.

컴퓨터 언어를 사용할 수 있어야 하니 파이썬 언어에 대한 책들을 읽었고

분석 스킬도 키워야 되니 머신러닝, 데이터 분석과 관련된 책들도 찾아보았다.

그러다가 발견한 책이 “데이터 사이언티스트 실전노트” 였다.

이 책은 현직 데이터 사이언티스트인 작가님이 쓰신 책이라고 해서

더욱 흥미가 생겼다.

 


 

 

책은 크게

데이터 직군의 설명 / 데이터 / 사이언티스트 / 업무 / 포트폴리오작성 / 부록(설치)

로 구성된다.

 

 

1. 데이터 직군

 사실 나도 데이터 공부를 시작한 초기에는 데이터 사이언티스트, 데이터 엔지니어, 데이터 분석가를 잘 설명하지 못했다. 그러나 이름이 다른 만큼 하는 일도 다르다(일부 기업에서는 경계가 모호하더라도). 담당 업무가 다르다는 뜻은, 필요 능력과 다뤄야할 프로그램과 사고 방법이 달라야 한다는 뜻이다.

 책에서는 이 세가지 직무에 대한 설명과, 각 직무에서 필요한 역량들을 소개하고 있다. 특히 데이터 사이언티스트에게 필요한 직무능력과 지금 나의 상황을 확인할 수 있는 체크리스트까지 제공하고 있어 내가 어느 부분을 빠뜨리고 있었는지, 더 준비해야할 부분은 무엇일지 직관적으로 알려주는 부분이 좋았다 

 

 

2. 데이터 

 DateFrame, 즉 Pandas 라이브러리 사용은 파이썬을 사용하는 데이터 직군에서는 필수적으로 알아야 할 부분이라 생각한다. 책에서는 DateFrame을 다루는 과정을 실제 코드와 그 출력결과를 통해 쉽게 이해할 수 있도록 설명한다. 

 특히, 직장에서 마주 할 수 있는 상황을 제시하고 파이썬 코드를 다루다 보니 간접적으로 상황을 체험하는 듯한 느낌이 들었다. 상황을 이해하고 나니 책을 2번째 읽을 때에는 ‘이 컬럼의 데이터들은 전처리 과정에서 데이터 타입을 바꿔야 하네?’ 하는 응용도 할 수 있었다.

 또한 코드를 실행할 수 있는 QR코드가 삽입되어 있어서 이해하기 어려운 코드는 핸드폰으로 바로 확인할 수 있는 부분이 굉장히 편리했다. 다른 책들을 볼때, 책과 함께 노트북 혹은 테블릿PC를 사용해서 코드 실행결과를 확인할 수 있는 부분이 번거로웠는데, 핸드폰으로 바로 연결되는 부분이 놀랍고 좋았다. 데이터 공부를 하는 독자들의 편리성 까지 고려해 주는 부분인것 같아 기분이 좋았다.

 

 

3. 사이언티스트

 데이터 사이언티스트는 컴퓨터 지식 뿐 아니라 통계적 지식도 필요하다. 왜냐하면 분석의 결과를 해석하고 유의미한 인사이트를 추출해 내야하기 때문이다. 이 장에서는 통계적 내용들을 바탕으로 분석 이전에 필요한 지식들을 알려준다.

 데이터 분석을 위한 통계를 공부하기 위해 여러 인강을 찾아보고, 수강했었는데 책에서 필요한 내용들을 확인할 수 있어서 좋았다. 개인적으로 인강을 통해 학습했던 통계학은 생각보다 어려운 학문이었는데, 책에서는 우리가 필요한 부분들을 그래프와 함께 제시해서 쉽게 확인할 수 있었다.

 

 

4. 포트폴리오

이력서와 포트폴리오는 다르다. 그럼 포트폴리오의 특성이 무엇인지 알아야 한다.

디자인이나 미술 전공이 아니라, 포트폴리오의 개념이 낯설었다. 나는 작업이력을 모아놓은 문서라고 생각했다. 그러나 지금은 포트폴리오를 작성할 수 있는 도구가 다양하다. 반드시 문서가 될 필요가 없고, 코드를 작성하는 데이터 사이언티스트는 다른 방법으로 포트폴리오를 작성할 수 있어야 한다.  사실, 지금 포트폴리오를 만들기 위한 고민이 많았는데, 짧지만 포트폴리오에 대해 언급해주는 부분이 좋았다. 

 

 

다른 책들이 '교재' 같은 책이라면,

이 책은 '조언'같은 책이다.

내가 생각지 못했던 상황속에서 이야기를 풀어내고 개념들을 정리해준다.

더욱이, 통계에 대한 내용도 담겨있어 한 권으로 업무를 준비하기에 부족함이 없는듯 하다.

 

 


 

 

- YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다 -

 

 

댓글 9 16명이 이 리뷰를 추천합니다. 공감 16
  •  쿠폰은 결제 시 적용해 주세요.
1   27,000
뒤로 앞으로 맨위로 aniAlarm