확장메뉴
주요메뉴


소득공제
미리보기 공유하기

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집

: 100개 이상의 실전 면접 문제로 배우는 머신러닝, 딥러닝, 강화학습 알고리즘

제이펍-I♥A.I 시리즈이동 I♥A.I.-28이동
리뷰 총점9.3 리뷰 7건 | 판매지수 1,164
베스트
IT 모바일 top100 5주
신상품이 출시되면 알려드립니다. 시리즈 알림신청
명화를 담은 커피, 가을을 닮은 책 - 명화 드립백/명화 캡슐 커피/명화 내열 유리컵+드립백 세트/매거진 랙
[IT 기획전] IT, 모두의 교양
9월의 얼리리더 주목신간 : 웰컴 투 북월드 배지 증정
[대학생X취준생] 꼭 공부를 해야 할 상황이라면? 2학기, 공부할 결심!
박해선 저자의 머신러닝/딥러닝 패스
[단독]『혼자 공부하는 파이썬』 개정판 출간
내일은 개발자! 코딩테스트 대비 도서전
[단독] 에듀윌 IT 자격증 기획전 - 가장 빠른 합격출구 EXIT
소장가치 100% YES24 단독 판매 상품
YES24 트윈링 분철 : 인서트라벨/스티커 택1 증정
9월 전사
쇼핑혜택
1 2 3 4 5

품목정보

품목정보
출간일 2020년 06월 30일
쪽수, 무게, 크기 528쪽 | 170*225*22mm
ISBN13 9791190665230
ISBN10 1190665239

이 상품의 태그

책소개 책소개 보이기/감추기

『데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집』은 간단한 내용부터 복잡한 내용까지, 로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지 차례대로 전개되며, 머신러닝 각각의 영역을 포괄하는 간결한 문답 형식으로 되어 있다. 따라서 인공지능 분야에 종사하기 위해 알아야 할 기술을 잘 설명하고 있는 동시에 독자들의 필요에 따라, 역량에 따라 주제와 난이도별로 골라 읽는 학습을 통해 필수 기술을 익힐 수 있도록 도와준다.

목차 목차 보이기/감추기

CHAPTER 1 피처 엔지니어링 1
① 피처 정규화 3
② 범주형 피처 6
③ 고차원 결합 피처의 처리 방법 9
④ 결합 피처 12
⑤ 텍스트 표현 모델 14
⑥ Word2Vec 17
⑦ 이미지 데이터가 부족할 때는 어떻게 처리해야 할까요? 20

CHAPTER 2 모델 평가 23
① 평가 지표의 한계 25
② ROC 곡선 31
③ 코사인 거리의 응용 38
④ A/B 테스트의 함정 43
⑤ 모델 평가 방법 46
⑥ 하이퍼파라미터 튜닝 49
⑦ 과적합과 과소적합 52

CHAPTER 3 클래식 알고리즘 55
① 서포트 벡터 머신 57
② 로지스틱 회귀 67
③ 의사결정 트리 71

CHAPTER 4 차원축소 85
① PCA 최대분산 이론 87
② PCA 최소제곱오차 이론 92
③ 선형판별분석 96
④ 선형판별분석과 주성분분석 101

CHAPTER 5 비지도학습 107
① k평균 클러스터링 109
② 가우스 혼합 모델 121
③ 자기 조직화 지도 125
④ 클러스터링 알고리즘 평가 131

CHAPTER 6 확률 그래프 모델 137
① 확률 그래프 모델의 결합확률분포 139
② 확률 그래프 표현 142
③ 생성모델과 판별모델 146
④ 마르코프 모델 148
⑤ 토픽 모델 156

CHAPTER 7 최적화 알고리즘 163
① 지도학습에서의 손실함수 165
② 머신러닝에서의 최적화 문제 169
③ 전통적인 최적화 알고리즘 172
④ 경사하강법 검증 방법 177
⑤ 확률적 경사하강법 180
⑥ 확률적 경사하강법의 가속 184
⑦ L1 정규화와 희소성 192

CHAPTER 8 샘플링 199
① 샘플링의 역할 201
② 균등분포의 난수 204
③ 자주 사용하는 샘플링 방법 207
④ 가우스 분포 샘플링 212
⑤ 마르코프 체인 몬테카를로 219
⑥ 베이지안 네트워크 샘플링 225
⑦ 불균형 샘플 집합에서의 리샘플링 230

CHAPTER 9 피드 포워드 신경망 235
① 다층 퍼셉트론과 부울 함수 237
② 딥러닝의 활성화 함수 245
③ 다층 퍼셉트론의 오차역전파 알고리즘 249
④ 딥러닝 훈련 테크닉 257
⑤ 합성곱 신경망 263
⑥ ResNet 271

CHAPTER 10 순환신경망 277
① 순환신경망과 합성곱 신경망 279
② 순환신경망의 그래디언트 소실 문제 281
③ 순환신경망의 활성화 함수 284
④ LSTM 네트워크 286
⑤ Seq2Seq 모델 290
⑥ 어텐션 메커니즘 294

CHAPTER 11 강화학습 299
① 강화학습 기초 301
② 비디오 게임에서의 강화학습 308
③ 폴리시 그래디언트 313
④ 탐색과 이용 317

CHAPTER 12 앙상블 학습 323
① 앙상블 학습의 종류 325
② 앙상블 학습 단계와 예제 329
③ 기초 분류기 332
④ 편향과 분산 334
⑤ GBDT 알고리즘의 기본 원리 338
⑥ XGBoost와 GBDT의 차이점, 그리고 연관성 342

CHAPTER 13 생성적 적대 신경망 347
① 처음 만나는 GANs의 비밀 349
② WGAN: 저차원의 유령을 잡아라 357
③ DCGAN: GANs이 합성곱을 만났을 때 365
④ ALI 372
⑤ IRGAN: 이산 샘플의 생성 377
⑥ SeqGAN: 텍스트 시퀀스 생성 382

CHAPTER 14 인공지능의 응용 현황 391
① 알고리즘 마케팅 393
② 게임에서의 인공지능 409
③ 자율 주행에서의 AI 428
④ 기계 번역 439
⑤ 인간과 컴퓨터 상호작용 443

에필로그 및 저자 소개 449
참고문헌 465
찾아보기 470

저자 소개 (3명)

책 속으로 책속으로 보이기/감추기

데이터 과학자로 향하는 길은 순탄치 않을 것입니다. 하지만 그 길에는 아름다움과 광활함이 함께할 것입니다. 여러분이 해야 할 일은 자신이 어떤 일을 하고 싶은지를 명확히 하고, 묵묵히 이 책의 내용을 최대한 습득한 후, 조용히 이 책을 덮고서 생활 속 사소한 곳에서 머신러닝의 매력을 느껴보는 것입니다.
--- p.xxii

머신러닝 문제에서 특성은 벡터의 형태로 표현되는 경우가 많습니다. 따라서 두 특성 벡터 사이의 유사도를 분석할 때 코사인 유사도를 자주 사용합니다. 코사인 유사도 값의 범위는 [-1, 1]이고, 같은 두 벡터 사이의 유사도는 1입니다. 만약 거리와 유사한 형태로 표현하고 싶다면 1에서 코사인 유사도를 뺀 것이 코사인 거리가 됩니다. 따라서 코사인 거리가 취할 수 있는 값의 범위는 [0, 2]가 되고, 동일한 두 벡터의 코사인 거리는 0이 됩니다.
--- p.38

같은 선형 차원축소 방법이지만 PCA는 비지도(unsupervised) 차원축소 알고리즘인 반면, LDA는 지도(supervised) 차원축소 알고리즘입니다. 따라서 원리와 응용 두 측면에서 두 알고리즘은 큰 차이점이 존재하지만, 두 방법 모두 수학적 방법론에서 시작했기 때문에 공통적인 특성도 존재함을 쉽게 알 수 있습니다.
--- p.101

위 문제에서 우리는 몇 가지 자주 사용하는 샘플링 알고리즘에 대해서만 간단한 소개를 했습니다. 실제 면접에서 면접관은 지원자에게 익숙한 샘플링 방법을 골라 해당 알고리즘에 대한 이론 증명, 장단점, 적용 등에 대해 깊게 물어볼 확률이 높습니다. 예를 들면, 왜 기각 샘플링이나 중요도 샘플링은 고차원 공간에서의 효율이 낮아 사용할 수 없는지? 혹은 하나의 불규칙한 다변형 중에서 하나의 점을 추출하는 방법은 어떤 것이 있는지? 등에 관해 물어볼 수 있습니다.
--- p.211

그림 9.14는 합성곱 신경망을 설명하는 전통적인 도표입니다. 이는 얀 르쿤이 1998년에 고안한 합성곱 신경망 구조인데, 입력 후 몇 개의 컨볼루션층과 풀링층 연산을 거쳐 완전 연결층을 더하면 예측 결과를 바로 출력하고, 성공적으로 손글씨 인식을 할 수 있습니다.
--- p.263

출판사 리뷰 출판사 리뷰 보이기/감추기

로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지!

분야별, 난이도별로 잘 구성된 실전 면접 문제!
이 책은 간단한 내용부터 복잡한 내용까지, 로지스틱 회귀, 랜덤 포레스트 등 전통적인 머신러닝에서 GANs, 강화학습 등 최신 알고리즘까지 차례대로 전개되며, 머신러닝 각각의 영역을 포괄하는 간결한 문답 형식으로 되어 있습니다. 따라서 인공지능 분야에 종사하기 위해 알아야 할 기술을 잘 설명하고 있는 동시에 독자들의 필요에 따라, 역량에 따라 주제와 난이도별로 골라 읽는 학습을 통해 필수 기술을 익힐 수 있도록 도와줍니다.

Hulu 데이터 과학팀 실전 면접 문제 수록!
Hulu(훌루)는 넷플릭스 대항마로 월트 디즈니가 설립한 OTT(Over The Top) 서비스 회사이며, 이 책은 스탠퍼드대학교, 칭화대학교, 베이징대학교 등 일류 대학 출신들로 구성된 Hulu 데이터 과학팀 멤버 15인이 튼튼한 수학 기초, 알고리즘 시스템에 대한 완전한 이해, 모델에 대한 깊은 이해를 제공하기 위해 집필한 서적입니다.

데이터 과학자/데이터 엔지니어가 알아야 할 필수 스킬 트리 PDF 파일 제공!
데이터 과학자/데이터 엔지니어를 위한 스킬 트리(기술 로드맵) PDF 파일이 온라인으로 무료 제공됩니다.

추천평 추천평 보이기/감추기

이 책은 주거웨 박사가 편집하고 15명의 Hulu 데이터 과학자가 함께 쓴 창의적이고 실용적인 면이 돋보이는 책입니다. 인공지능과 머신러닝에 대한 이해를 높여 소프트웨어 엔지니어와 데이터 과학자 모두를 AI 전문가로 거듭날 수 있도록 도와줄 것입니다.
_ 해리 셤(Harry Shum) / 마이크로소프트 글로벌 수석부사장, IEEE 펠로우, ACM 펠로우

컴퓨터 이론과 알고리즘은 사람들에게 자주 냉대를 받습니다. 왜냐하면 그들과 실제 응용 사이를 이어 주는 다리가 없기 때문입니다. 주거웨 박사와 그녀의 동료들이 쓴 이 책은 어떻게 그들을 잇는 다리를 만들어 줄 수 있는지에 대해 가르쳐 주고 있습니다. 이 책을 통해 컴퓨터 관련 종사자들은 이론적인 부분에서 크게 도약할 것이며, 비전공자 출신들도 컴퓨터 과학이란 위대한 도구를 더 잘 이해할 수 있을 것입니다.
_ 우쥔(Wu Jun) / 『수학의 아름다움(數學之美)』, 『물결의 정점에서(浪潮之?)』 저자

시장에 쏟아져 나오고 있는 머신러닝 관련 서적 중에서 Hulu 데이터 과학자들이 출판한 이 책은 매우 특별합니다. 일선에서 일하고 있는 데이터 과학자들의 시각으로 인터뷰, 실전 모델링, 그리고 응용 사례들을 중점으로 머신러닝을 설명하고 있습니다. 그래서 데이터 과학자를 꿈꾸는 독자들에게는 더 빠르게 꿈을 이룰 수 있도록 도와줄 것입니다. 특히, 여러 명의 실전 전문가가 힘을 합쳐 만든 것임에도 내용이 상당히 체계적이라 더욱 독보적입니다.
_ 리우펑(Liu Peng) / 『알고리즘 마케팅(?算?告)』 저자, iFLYTEK 부사장

회원리뷰 (7건) 리뷰 총점9.3

혜택 및 유의사항?
구매 데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집 내용 평점4점   편집/디자인 평점5점 YES마니아 : 플래티넘 j****p | 2021.07.13 | 추천1 | 댓글0 리뷰제목
딥러닝, 머신러닝의 발전속도가 워낙 빠르기 때문에 단순히 책이나 강의만으로 따라가기 힘들고 계속 서치하면서 팔로우업을 해 줘야 하는데 현직자들이 중요하게 사용하는 개념은 무엇이고 그것들을 어떻게 이해하고 있는지 살펴보기 좋은 책. 다만 기본 개념부터 짚고 넘어가는 책이 아니라 바로 핵심 개념부터 치고 들어오기 때문에 초보자에게 어려운 책이라 할 수 있다. 기본 개념;
리뷰제목

딥러닝, 머신러닝의 발전속도가 워낙 빠르기 때문에 단순히 책이나 강의만으로 따라가기 힘들고 계속 서치하면서 팔로우업을 해 줘야 하는데 현직자들이 중요하게 사용하는 개념은 무엇이고 그것들을 어떻게 이해하고 있는지 살펴보기 좋은 책. 다만 기본 개념부터 짚고 넘어가는 책이 아니라 바로 핵심 개념부터 치고 들어오기 때문에 초보자에게 어려운 책이라 할 수 있다. 기본 개념 띄고 실습해가면서 보기 좋은 책인듯

댓글 0 1명이 이 리뷰를 추천합니다. 공감 1
데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집 내용 평점5점   편집/디자인 평점5점 스타블로거 : 블루스타 아***인 | 2020.09.19 | 추천6 | 댓글0 리뷰제목
본 도서는 HULU(넷플릭스 대항마로 월트 디즈니가 설립한 OTT 서비스 회사) 15명의 데이터 과학자가 공저하였다.HULU는 개인화 추천, 검색, 컨텐츠 이해, 광고 예측과 타기팅, 의사결정 서프트 등에 특화된 AI 기술을 다루고 있고, 저자들이 탄탄한 연구 실적을 쌓아와서일까 책 내용의 깊이가 남다른 것 같다.읽은 소감을 먼저 전하자면 15인의 전문가들이 마치 앙상블 방식으로 저;
리뷰제목

본 도서는 HULU(넷플릭스 대항마로 월트 디즈니가 설립한 OTT 서비스 회사) 15명의 데이터 과학자가 공저하였다.

HULU는 개인화 추천, 검색, 컨텐츠 이해, 광고 예측과 타기팅, 의사결정 서프트 등에 특화된 AI 기술을 다루고 있고, 저자들이 탄탄한 연구 실적을 쌓아와서일까 책 내용의 깊이가 남다른 것 같다.

읽은 소감을 먼저 전하자면 15인의 전문가들이 마치 앙상블 방식으로 저술한 점이 마음에 든다. 개개인의 튼튼한 수학 기초는 물론 알고리즘 및 모델에 대한 깊은 이해를 집단 지성으로 녹인 듯 하다. 개인적으로는 국내에 나온 관련 서적 중 손에 꼽을 수 있는 Top-Tier 레벨의 책이라는 생각이 들었다.

책의 내용을 전체적으로 정리해보고 싶은 욕심이 있었지만 리뷰 수준으로는 분량을 감당하기 어려워 책의 장점과 학습법을 위주로 몇가지 토픽들을 정리해보았다.


  • 메타 지식
    데이터 사이언스 분야는 공부할 것이 너무 많아 시간이 매우 부족하기에 속도 보다는 방향이 중요하다. 메타지식을 먼저 접하여 좋은 방향을 설정하는 것도 시간을 줄여줄 수 있는 좋은 방법이다.

    트리맵

    이 책은 실무에서 80%를 차지하는 20%의 지식을 메타지식으로 잘 정리한 책이다. 가장 중요한 것을 먼저 배울 수 있다.

    개인적인 경험으로는 이 분야를 학습할 때 삼천포로 빠지지 않기 위해 많은 노력을 기울여야 한다.

    남들이 좋다는 논문을 가리지 않고 리뷰하면 만족감이나 수박 겉 핥기 지식이 쌓이기는 하는데 배후의 원리나 철학은 블랙박스로 남아있거나 잘 기억이 나지 않을 수 있다.

    혹은 선대, 미방, 확통의 중요성을 늘 들어왔기에 책도 보고 논문도 들춰본다. 처음 보는 수학기호를 만나면 아! 내가 수학 기초가 정말 부족하구나라고 중얼거리면서 정수론, 집합론, 해석학 책을 구매하기 시작한다.

    시간을 헛되이 보내지 않은 것 같은 만족감이 나를 위로 하긴 하지만 다시 현실로 돌아가면 여전히 할 수 있는게 없다. 학습은 열심히 했는데 실전에선 영 시원찮다.

    일종의 과적합에 빠진 것 같다. 과적합을 피하기 위한 좋은 기법 중 하나가 Dropout이다. 학습에도 가지치기가 필요하다. 너무 불필요한 노드까지 다 학습하면 시간은 다 증발하고 현실에서 성능을 발휘하지 못한다.

    이 책에는 중요한 핵심이 잘 드러난다. QnA의 구성 덕분인지 두괄식으로 우선순위에 따라 서술된다.

    배깅과 부스팅을 예로 들면 배깅은 분산을 낮추데 효과적이고, 부스팅은 편향을 낮추는데 효과적이라고 먼저 알려주어 숲을 파악하기 쉽게 해준다.배깅과 부스팅

    예전에 어떤 책을 따라하다 성능이 저조한데도 원인도 제대로 파악 못하고 편향을 낮춰야 하는데 배깅으로 끙끙대고 했던 기억이 있기에 이런 두괄식 구성이 눈에 띄였다.

    만약 AI 분야로 진로를 정한 입문자라면 먼저 이 책을 볼 것을 권유드리고 싶다. AI 기술 분야별로 자신에게 소질이 있거나 적성이 있어 보이는 분야를 먼저 찾기에 용이하기 때문이다. 최소한 이건 내가 죽었다 깨어나도 못하겠다는 분야 정도는 찾을 수 있다.

    난이도는 결코 입문자급도 아니고 쉽지 않다. 깊은 수학적 원리가 정리된 챕터 같은 경우 이미 실무에 종사하고 있는 전문가분들도 어렵다는 평을 들었다.

    하지만 일단 메타지식을 쌓고 비벼볼만한 영역을 찾아 읽어나가다 막히는 부분이 생기면 다른 입문서를 참조하면 된다. Top-Down 방식처럼 말이다. 비록 과적합에 빠질지라도 가장 알짜배기를 모아놓은 책이기에 투자대비 위험 부담이 적다.

    그렇게 노력하다보면 스스로 하고 싶은 연구 혹은 진로 분야가 명확해지지 않을까?


  • 실무 스킬과의 연계
    본 도서의 또 다른 장점은 실무에서 활용되는 예시가 자주 등장한다는 것이다. 그간 경험한 사례와 비추어 유용했던 몇 가지 예시를 정리해 보았다.

    • RMSE(평균제곱근오차)와 특이점
      RMSE

      이 문제는 내가 겪은 문제이기도 하고 누구나 초보 시절 한 번은 겪을 법한 문제인데 RMSE(평균제곱근오차)가 특이점에 민감하다는 내용이다.

      이론을 아는 수준에서 그치고 넘어가면 실제 상황에는 잘 기억이 나지 않는다. 직접 당해보고 해결한 후에나 다음 번에 주의를 기울이게 되는데 업계의 사례가 구체적으로 제시되기에 미리 간접 경험을 할 수 있고 이해도 쉬워진다.

      이런 현상이 발생하는 원인을 수식을 통해 풀어보며 원리 깊숙히 들여다보기도 하고 나아가 전처리 과정에서의 필터링, 예측 성능 향상, 평가지표를 견고하게 만드는 등 또 다른 해결책이 제시되는 유기적으로 이어진 구성이 마음에 든다.

    • LDA
      PCA의 원리를 배우고 예제를 따라해보며 자신감을 얻은 후 실전에 적용해보니 원하는 대로 동작하지 않은 적이 있었다.LDA

      나중에야 클래스가 다른 레이블들의 차원 축소에는 LDA라는 기법이 도움이 된다는 사실을 알았는데 당시에는 LDA 지식이 이론으로만 머리속에서 따로 놀아 실전에서 유용한 해결 기법으로 매칭되지 않았다.

      해당 파트를 읽어보니 어떤 상황에서 써야 하는지가 자세히 소개되어 처음부터 이 책을 통해 LDA를 배웠다면 큰 도움을 받을 수 있을거라는 아쉬움이 들었다. 특히, QnA 방식 구성이 실전에 필요한 집중력을 높여주는 것 같다.

    • 클러스터링 경향성 측정
      양질의 데이터가 넘치는 기업은 드문데 내가 다니는 회사도 마찬가지이다. 결국 비지도 학습에서 인사이트를 얻고자 노력하는 편인데 라벨이 없는 상태에서 클러스터링을 비교하는 일은 지식이 부족해 주로 R스퀘어 값이 많이 의존하는 편이었다.

      본 파트 덕분에 그동안 몰랐던 지식을 체계적으로 이해할 수 있었다. 예전에 데이터의 분포가 랜덤을 띄는지 파악할 필요가 생겼는데 방법을 몰라 생략한 적이 있다.

      아래는 홉킨스 통계를 사용한 랜덤성 여부를 판단하는 과정인데 설명이 짧고 깔끔해 이해하기 쉽다.경향성

      클러스터링 품질을 측정하는 방법으로 실루엣 계수, RMSSTD, 후버트 통계량 등 여러 가지 기법이 제시된 점, 이론적으로 깔끔하게 정리된 점이 마음에 들었다.

      다양한 분야의 머신러닝, 딥러닝 지식이 폭넓게 담겨있어 실전에서 모델링 후 체크리스트로 활용하기에 좋겠다는 생각도 든다.


  • 아이디어의 근간이 되는 기초 과학과의 접목
    사실 이 장점은 개인적으로는 너무 마음에 들지만 독자에 따라 상황에 따라 호불호가 갈릴 것 같다. 인터뷰를 준비하는 독자의 시점에서 너무 이론 중심으로 치우친 것은 아닌가 싶을 정도로 각 아이디어는 철저히 원리를 파헤친다.

    예를 들어 아래 그림은 GANs 가치함수에 대해 수식 전개는 물론 아이디어의 원리까지 꼼꼼히 설명하는 부분이다.GANs 가치함수

    이어 대량 확률추론 계산을 피하는 법, 훈련 중 발생하는 이슈, 와서스타인 거리, 추론 네트워크 등이 소개되기에 GANs의 발전 과정과 핵심 아이디어를 유기적으로 배울 수 있다.

    수식이 난무하고 원리를 대충 지나가는 법이 없으니 수월치 않은 것도 사실이지만 실전에서 나의 문제에만, 나의 데이터에만 발생하는 문제에 대응하기 위해서는 원리의 이해가 필수라 생각한다.

    인터뷰에서 이 정도 깊이의 문제가 나오면 얼마나 나오냐 부정적으로 볼 수도 있을텐데 흔히 접하는 80%의 문제는 잘 외우기만 하면 된다. 하지만 면접관 분들이 외워서 해결되는 문제만 질문할까?

    본 책에서도 저자 중 한 사람인 천라밍의 경우 지원자들의 경험에 맞춰 맞춤형 문제를 미리 만들어 간다 했다.

    흔히 마주치기 어려운 20%의 문제에 대한 어떤 아이디어가 있는지, 빨리 해결할 수 있는 능력이 있는지 파악하기 위해 응용뒤에 숨겨진 원리를 물어보게 될텐데 이에 대한 대답이 승부수가 아닐까 한다.

    예전에 본 어떤 영화에서 A에서 D를 유추하기까지 일반인들은 A, B, C, D를 하나씩 단계적으로 배워가야 하지만 천재들은 A에서 바로 D가 나온다고 한 대사가 기억에 남는다.

    비숍의 PRML이 다들 칭송하는 책임에도 생각보다 우리 곁에 오래 머물지 않는 이유도 마찬가지가 아닐까? 우리는 B, C 를 알아야 하는데 자꾸 D만 이야기 하니 말이다.

    그렇다고 언제까지 B, C를 피할수도 없고 피해서도 안되며 즐길 수 있어야 한다. B, C를 알고 싶은 호기심은 데이터 사이언스 분야에서 일하는 이들의 원동력이기도 하다. 저자 중 한 사람인 쉬샤오란의 말처럼 공리적인 이유나 현란한 기술을 뽐내기 위해 이 분야에 들어왔다면 금방 지치고 말것이기 때문이다.

    이 책은 그런 B, C의 과정을 익히는데 제격이라는 생각이 든다. 수학을 근간으로 하면서도 설명은 직관적으로 서술하고자 노력한 흔적이 돋보인다. 행렬 분해가 어디에 응용되는지 자꾸 언급되기에 자연스레 선형대수에 호기심이 생길 수 밖에 없다.

    용어, 수학, 원리, 선행연구와 더불어 다들 왜 그렇게 만들고 돌리는지 명확하게 알고 있어야 나에게만 닥칠 혼돈 속에서 길을 잃지 않고 방향을 잡을 수 있지 않을까?

    그렇게 경험이 쌓여야 기존 학문의 진의를 깨치고, 나아가 기존 학술 연구에 존재하는 편견과 고정관념에서 탈피해 자유로운 상상력을 펼 수 있을 것 같다.


  • 만들줄 안다고 제대로 알고 있는걸까?
    좋은 모델을 설계할 수 있다고, 잘 구현할 수 있다고, 데이터 분석을 능숙하게 한다고 해도 과연 제대로 알고 있는 것인지 반문하는 것은 스스로의 발전에 정말 중요하다고 생각한다.

    이 책에는 그런 점에서 스스로의 실력을 되돌아 볼 만한 날카로운 질문과 그에 대한 해답이 등장한다.

    • N차원 입력의 임의의 부울함수는 최소 몇 개의 노드와 층을 필요로 할까?
    • 부트스트래핑 과정 중 n이 무한대로 커진다면 한 번도 추출되지 않는 데이터 수는 얼마나 될지?
    • 수치형 데이터에 왜 정규화를 해야 하는지?
    • 신경망의 가중치를 0으로 초기화하면 무슨일이 벌어지는지?

    왜 해야 하는지도 모르고 했던 많은 작업들의 진의를 알 수 있다면 실무에서 간혹 발생하는 안개를 뚫고 지나갈 수 있는 묘안도 얻을 수 있을 것이다.


  • 융합에서 얻는 아이디어
    데이터 사이언스 분야는 컴퓨터 과학, 통계학, 심리학, 신경과학, 인지과학, 사회학 등 방대한 스펙트럼이 폭넓게 융합된 학문인지라 모든 분야를 다 잘하는 사람은 있을 수가 없다.

    마찬가지로 아무리 전문가라 할 지라도 이 책에서 다루는 모든 분야를 완벽하게 다 알고 있는 사람은 드물 것이다. 책을 통해 잘 모르는 분야를 빠르게 익힌다면 연구 및 실무에 새로운 아이디어를 떠올릴 수 있는 계기가 될지도 모른다.

    마치 GANs과 CNN이 융합하여 DCGAN이 탄생한 것 처럼 말이다.가치함수


  • 인터뷰와 커리어
    이 책의 주된 관심사는 아마도 인터뷰일 것 이다. 본 도서에서 다루는 인터뷰 문제는 실제 HULU 채용에 활용되었던 문제들이기에 이미 검증된 셈이다.

    Tensorflow, Pytorch 등 특정 플랫폼이나 언어의 구현 방법이나 팁 등은 다루지 않아 불만인 분들도 있을 것 같다. 하지만 그런 부분들은 지면상 모두 언급될 수도 없거니와 사실 참고할 만한 도서도 많다.

    42p에는 아래와 같이 인터뷰에 대한 팁도 나온다.인터뷰중요한 핵심을 모두 담고있는 유용한 팁이 아닐까?

    이런 부류의 책들이 더 많이 출간되었으면 좋겠다. 참고로 개인적으로 유용했던 인터넷 정보들도 같이 정리해본다.


그 외 책을 읽으며 느꼈던 전반적인 내용들을 정리해 보겠다. 7장 최적화 및 9장 피드 포워드 신경망은 보통 대부분의 분들이 딥러닝, 머신러닝을 통해 입문하시기에 가장 친숙하실 것 같다. 책이 본인에게 맞는지 판단하려면 서점에서 7, 9장을 먼저 확인해보는 것도 좋을 것 같다.

1, 2장은 피처 엔지니어링과 모델 평가를 다루는데 쉬워보이지만 언제나 활용되는 매우 중요한 개념들이 가득하다. 특히 케이스가 다양하여 이론과 실제를 연동하기 힘든 부분 임에도 적은 지면에 필요한 내용을 잘 정리한 느낌이었다.

AI 분야에 처음 발을 딛는 일반인 혹은 입문자 분들이라면 15명 저자의 에필로그, 14장 인공지능의 응용 현황 부터 읽으신다면 발걸음이 좀 가벼울 것이다. 이미 지식이 있는 분들이라면 목차를 보고 늘 궁금했던 질문 순서로 읽는 것도 좋은 방법일 것 같다.

더불어 번역의 질이 매우 뛰어나 읽는데 매우 편하다. 역자의 또 다른 역서 단단한 머신러닝도 번역이 잘 되어 읽기 좋았다. 최근에 출간된 퀀트 전략을 위한 인공지능 트레이딩의 저자이기도 하다. 이 책 또한 특유의 매끄러운 전개 방식과 뛰어난 가독성이 일품이다.

데이터 사이언스 인터뷰를 준비하시는 지원자, 면접관은 물론 AI 기술의 핵심을 빠르게 훑고 싶은 관리자, 사업가께도 좋은 책이라 생각한다. 더불어 새로운 주제를 찾는 연구자 분들께도 적합하며 난이도는 쉽지 않지만 메타 지식을 활용하기 위해 입문자 분들께 가장 추천드리고 싶다.



댓글 0 6명이 이 리뷰를 추천합니다. 공감 6
데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집 내용 평점4점   편집/디자인 평점4점 YES마니아 : 로얄 y*****e | 2020.09.18 | 추천1 | 댓글0 리뷰제목
소위 인공지능으로 통칭할 수 있는 분야의 책들이 다양한 구성과 형태로 쏟아지는게 현실인 것다.나도 뒤늦게나마 이 전선에 뛰어 들어보니 쉬운 분야는 아닌 듯 하다.그간 해왔던 IT공학적인 업무와는 전혀 다른 형태의 분야rk 아닌가 싶다, 공부해야 할 것도 많고 알아야 하는 것들에 대한 스펙트럼도 넓고... 반면에 발전속도는 엄청나게 빨라서 따라가기도 힘겨운게 사실이다.그러던;
리뷰제목

소위 인공지능으로 통칭할 수 있는 분야의 책들이 다양한 구성과 형태로 쏟아지는게 현실인 것다.

나도 뒤늦게나마 이 전선에 뛰어 들어보니 쉬운 분야는 아닌 듯 하다.

그간 해왔던 IT공학적인 업무와는 전혀 다른 형태의 분야rk 아닌가 싶다, 공부해야 할 것도 많고 알아야 하는 것들에 대한 스펙트럼도 넓고... 반면에 발전속도는 엄청나게 빨라서 따라가기도 힘겨운게 사실이다.


그러던 와중에 재미난 책을 발견했다. 

'데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집'

이 책은 그간 봐왔던 여러 책들과는 이야기를 풀어나가는 형식과 구성이 다르다.


이쪽 계통 보통의 입문서들 예를들면 '밑바닥부터 시작하는 딥러닝 시리즈'나 '그로킹 딥러닝' 같은 책들은 파이썬 같은 개발언어 소개로 시작해서 머신러닝이나 딥러닝(신경망)으로 이야기를 풀면서 순전파, 역전파, 그리고 학습 효과를 높이기 위한 여러 기법들을 풀어가면서 CNN이나 RNN 등으로 주제를 옮겨가며 소개하거나,


'핸즈온 머신러닝' 처럼 앞서 언급된 내용들을 사이킷런, 텐서플로 등과 같은 프레임웍 기반으로 학습할 수 있는 형태로 되어 있는데,


이 책은 전형적인 업계 표준 공식을 따르지 않는다.


인공지능(머신러닝, 딥러닝, 강화학습)에 필요한 이론적이고 개념적인 내용을 인터뷰 형식을 빌어 Q&A 형태로 설명하고 있다.

100개 이상의 질문을 피처 엔지니어링부터 GAN까지 분야별 주제별로 나누어 잘 풀어 설명해놨다.


주제나 용어에 대한 상황을 설명하고,

질문과 답변으로 정리가 되어 있다.

다른 입문서나 개발서를 볼때, 아직 이분야 내공이 부족해서 인지 순간순간 용어나 개념이 이해가 안될때고 있고, 대충 가볍게 언급만 하고 코드로 설명하는 경우에는 이해가 안되서 따로 찾아봤던 경험들이 종종 있는데, 그때 이 책이 있었으면 어땠을까 하는 생각이 든다.


이 책은 이 책 자체로 정독해볼 필요도 있지만 다른 인공지능 개발서를 볼때 옆에 끼고 중간중간 이해 안되는 부분이 있으면 관련내용을 찾아 보충해서 보면 도움이 많이 되겠다 생각을 해본다.


그렇게 꽤 넓은 스펙트럼의 내용을 깔끔하게 잘 정리해놨다, 약간 오버해서 말하면 백과사전식으로...


반대로 살짝 아쉬운 부분도, 그림과 그래프 만큼이나 수식이 많다.

뭐 분야 자체가 깊게 들어가자면 미/적분, 확률/통계와 같은 수학적 지식이 많이 필요한 영역이다 보니 여러가지 이론적 배경을 설명하기 위해서 수식이 필요하긴 하지만 나 같이 학창시절 이후 오랜만에 수식을 보게되는 IT엔지니어들은 다소 어려운 부분이 없지않아 있다.

간단한 소스들이 함께 있으면 더 좋았겠지만, 구성상 그걸 함께 넣기는 힘들었으리라...

그럼에도 불구하고, 다른 인공지능 책들 옆에 놓고 상호 보완적으로 두고두고 볼만하다 생각한다.



※ 제이펍 출판사 도서 리뷰어로 선정되어 제공받은 책을 읽고 작성한 리뷰입니다. 

댓글 0 1명이 이 리뷰를 추천합니다. 공감 1

한줄평 (6건) 한줄평 총점 9.6

혜택 및 유의사항 ?
평점5점
제목이 좀 허접해서 그렇지, 굉장히 훌륭한책입니다.
이 한줄평이 도움이 되었나요? 공감 0
y*****4 | 2022.02.28
구매 평점4점
인터뷰 형식으로 어려운 개념을 잘 정리한 책
1명이 이 한줄평을 추천합니다. 공감 1
YES마니아 : 플래티넘 j****p | 2021.07.13
평점5점
산발적으로 흩어져있는 머신러닝 개념을 정리하기 좋은 책
이 한줄평이 도움이 되었나요? 공감 0
YES마니아 : 플래티넘 마***뜨 | 2021.06.27
스프링분철 서비스를 선택하세요.
수량감소 수량증가 30,600
  •  다운받은 받은 쿠폰은 결제 페이지에서 적용해 주세요.
  •  분철옵션 선택 시, 영업일 기준 3일내 출고됩니다.
  •  분철상품은 해외배송이 불가합니다.
1   30,600

스프링분철 신청 가능

뒤로 앞으로 맨위로 aniAlarm