품목정보
발행일 | 2023년 05월 26일 |
---|---|
쪽수, 무게, 크기 | 400쪽 | 724g | 183*235*16mm |
ISBN13 | 9791169211062 |
ISBN10 | 1169211062 |
발행일 | 2023년 05월 26일 |
---|---|
쪽수, 무게, 크기 | 400쪽 | 724g | 183*235*16mm |
ISBN13 | 9791169211062 |
ISBN10 | 1169211062 |
[PART 1 행동의 이해] CHAPTER 1 인과-행동 프레임워크 1.1 인과관계 분석을 선택한 이유 1.2 회귀 분석을 방해하는 교란 1.3 정리하기 CHAPTER 2 행동 데이터를 이해하는 방법 2.1 인간 행동의 기본 모델 2.2 행동과 데이터의 연결고리 2.3 정리하기 [PART 2 인과관계 다이어그램과 교란 해소] CHAPTER 3 인과관계 다이어그램의 개요 3.1 인과관계 다이어그램과 인과-행동 프레임워크 3.2 인과관계 다이어그램의 기본 구조 3.3 인과관계 다이어그램의 일반적인 변환 방법 3.4 정리하기 CHAPTER 4 인과관계 다이어그램 만들기 4.1 비즈니스 문제와 데이터 설정 4.2 포함할 변수 식별하기 4.3 데이터를 기반으로 포함할 관찰 가능한 변수 검증하기 4.4 인과관계 다이어그램 확장 4.5 인과관계 다이어그램 단순화 4.6 정리하기 CHAPTER 5 인과관계 다이어그램을 통한 데이터 분석의 교란 해소 5.1 비즈니스 문제: 아이스크림과 생수 매출 5.2 분리 인과 기준 5.3 백도어 기준 5.4 정리하기 [PART 3 견고한 데이터 분석] CHAPTER 6 결측 데이터 처리 6.1 데이터와 패키지 6.2 결측 데이터 시각화 6.3 결측 데이터 진단 6.4 결측 데이터 처리 6.5 정리하기 CHAPTER 7 부트스트랩을 활용한 불확실성 측정 7.1 부트스트랩의 개요 7.2 회귀 분석을 위한 부트스트랩 7.3 부트스트랩을 사용하는 경우 7.4 R과 파이썬에서 부트스트랩 최적화 7.5 정리하기 [PART 4 실험 설계와 분석] CHAPTER 8 실험 설계의 기초 8.1 실험 계획: 변화 이론 8.2 데이터와 패키지 8.3 무작위 배정과 표본 크기/검정력 8.4 실험 결과 분석과 해석 8.5 정리하기 CHAPTER 9 층화 무작위 배정 9.1 실험 계획 9.2 데이터와 패키지 9.3 무작위 배정과 표본 크기/검정력 결정 9.4 실험 결과 분석과 해석 9.5 정리하기 CHAPTER 10 군집 무작위 배정과 계층적 모델링 10.1 실험 계획 10.2 데이터와 패키지 10.3 계층적 모델링의 개요 10.4 무작위 배정과 표본 크기/검정력 결정 10.5 실험 결과 분석과 해석 10.6 정리하기 [PART 5 행동 데이터 분석을 위한 고급 도구] CHAPTER 11 조절효과 11.1 데이터와 패키지 11.2 조절효과의 행동적 다양성 11.3 조절효과 적용 방법 11.4 정리하기 CHAPTER 12 매개효과와 도구 변수 12.1 매개효과 12.2 도구 변수 12.3 정리하기 |
구독형 서비스를 제공하는 담당자가 잠재 고객에게 이메일을 보내 서비스를 구독하게 하려면 어떻게 해야 할까요?
고객 통계 정보에서 개인 구매 이력까지 다양한 데이터를 분석하여 이를 기반으로 어떤 고객층에 언제 어떤 광고를 내보낼 지 전략을 세워야 합니다.
이 책에서는 다양한 사용자 행동을 설명하고 그 원인을 파악하는 것으로 분석의 관점을 전환하고 있으며, 선형회귀와 로지스틱 회귀만 사용해 변수 사이의 관계성을 알아내는 방법을 설명하고 있습니다.
무엇이 행동을 유발하는가?
데이터는 하나의 자원이며 데이터를 처리하는 알고리즘은 경제를 발전시키는 일종의 의새로운 엔진이 되었습니다.
많은 데이터 사이의 인과 관계에서 관계성이 얼마나 강한지 측정하고 데이터를 통해 인간의 심리와 행동을 들여다 보는 행동 과학적인 사고 방식을 통해 동기를 파악할 수 있습니다.
이 책은 저자의 10년간 경영, 분석 및 행동과학 분야에서 쌓은 노하우, 실무 경험을 담은 사례와 예제가 수록되어 있어 책의 구성 순서대로 학습하면 이론과 분석 도구를 통한 실습을 경험할 수 있습니다.
구성
1부 : 인과-행동 프레임워크라는 새로운 데이터 분석 접근법을 소개하고 행동 데이터의 특성, 인과 관계 추론과 데이터 사이의 관계성을 설명합니다.
2부 : 변수사이의 관계를 표현하고 이해하며 인과 관계 다이어그램을 그리는 방법, 교란의 개념과 인과 관계 다이어그램을 사용하여 데이터 분석할 때 교란을 해소하는 방법을 소개하고 있습니다.
3부 : 결측 데이터를 처리하는 방법과 부트 스트랩 사용한 컴퓨터 시뮬레이션을 예제로 보여줍니다.
4부 : 실험 설계와 분석, 회귀와 부트스크랩을 사용한 A/B 테스트를 소개합니다.
5부 : 행동 데이터 분석을 위한 도구와 지금까지 다뤘던 모든 내용을 종합하여 조절효과, 매개효과와 도구 변수를 살펴 보는 구성으로 되어 있습니다.
대상 독자
"R과 파이썬으로 시작하는 행동 데이터 분석 가이드" 라는 부제와 표지 디자인이 개발자를 위한 기술서적으로 생각했습니다.
그러나 기술적인 내용만 다루는 것이 아니고 행동 분석 인과관계에 대한 심층적인 접근을 하고 있기 때문에 이를 활용하고자 하는 모든 분들에게 도움이 될 것입니다.
행동 데이터 분석
이 책은 선형 회귀와 로지스틱 회귀에 대한 지식을 필요로 하며, 기술적인 부분에서도 R과 파이썬 언어를 이용해 데이터 분석 경험이 있는 독자를 대상으로 하고 있습니다.
책에서 다루고 있는 내용의 스펙트럼이 넓어 모든 내용을 이해할 수는 없었지만 데이터 본질을 파악하고 결과를 해석하는 기술에 대해 접근하는 방법에 대해 한 단계 더 접근하게 된 것 같습니다.
사용자 행동 데이터 분석에 관심이 있는 분이라면 이 책을 통해 보다 깊이 있는 이론과 실무를 경험해 보시기 바랍니다.
* YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다.
최근 사람들이 구글애널리틱스 등 고객 행동 데이터에 부쩍 많은 관심을 가지고 있으며, 다양한 머신러닝 기법 등으로 데이터를 분석하여 인사이트를 내고자 합니다. 하지만 이 책은 조금 다른 결이었습니다. 동일한 데이터라도 고객의 행동 방식을 바라보는 시각을 좀 더 깊게 다루었습니다.
실제로 현업에서는 이와 같은 분석방법이 훨~~씬 더 잘 먹힐 거라 믿습니다. 현업에서는 인과관계가 명확히 설명되는 것을 훨씬 더 선호하기 때문입니다. 머신러닝 기법의 경우 예측이 중요하지만 현업은 설명이 더 중요합니다. 이에 혹시 내가 데이터를 깊이있게 다루지 못하는 분들에게는 추천 드립니다.
다만, 추천 독자의 경우 파이썬이나 R 둘 중 하나라도 기본적인 문법은 다룰 줄 아시는 분들이 보시는 편이 좋을 것 같습니다. 이 책은 코드별 설명 등은 없습니다. 다만 코드는 잘 되어있고, 시각화 부분 파트는 필자가 R로 만들어두었습니다.
결론적으로 말씀드리면 기존 통계기법과 머신러닝 기법을 공부하였지만 현업에서 설명이 막막하신 분들에게는 추천드립니다.
YES24 리뷰어클럽 서평단 자격으로 작성한 리뷰입니다
상관관계는 인과관계가 아니다.
아이스크림이 많이 팔릴수록 상어가 사람을 많이 공격하니, 아이스크림을 덜 팔면 상어가 인간을 덜 공격할 것이다.
말도 안되는 명제임에 틀림없음에도 분명 데이터 분석 세계에서는 흔히 일어날 수 있는 결론이다. 아이스크림 판매량과 상어의 공격 빈도는 계절별로 놀라울 정도의 상관성을 갖기 때문이다.
두 데이터의 패턴은 일치하지만 저런 어리석은 결론이 도출된 결정적인 이유는 인과관계가 결여되어있기 떄문이다. 무엇 때문에 아이스크림이 많이 팔렸는지, 무엇 때문에 상어에게 공격을 당하는지 찾아본다면 쉽게 위 결론을 부정할 수 있다.
문제는 위 명제가 상식에 의해 참이 아니라는 나름의 믿음이 있기에 오류를 발견할 수 있다는 점이다. 이 책에 등장하는 예제처럼 무엇때문에 매출이 증가했는지, 혹은 할인 프로모션이 과연 매출 상승에 도움을 준 것이 사실인지와 같은 결론을 알지 못하는 명제를 맞딱드린다면 저런 우를 범하기 쉬워진다.
이런 문제를 해결하고자 이 책에서 도입한 기법이 인과관계 기법이다. 위에 언급한 “무엇”이 무엇인지를 찾기 위해 즉, 원인을 찾기 위해 데이터 분석에서 사용할 수 있는 다양한 실용적인 실무 기법이 소개된 것이 이 책의 가장 큰 장점이다.
교란 데이터를 찾아내는 기법이 그 중 하나이다. 단순히 아이스크림의 판매량이 기온이라는 원인에 의해 영향을 받는 것으로 분석하여 모델을 만들고 계절 특성이 타지 않는 갑작스런 기온 상승에 본 모델을 활용하여 재고량을 비축하는 과정에서 모델의 예측이 어긋나는 경우를 그 예시로 들고 있다.
사실 판매량은 기온 외에도 특정 계절에 학생들이 방학을 맞이하여 판매량이 늘었다는 또 다른 원인이 숨어있었다는 사실을 밝히고 교랸 변수를 찾다보면 인과관계를 찾아내는 과정은 결코 쉬운 일이 아님을 깨닫게 된다.
인간의 복잡한 마음이 단순하게 규명되긴 쉽지 않기에 그 과정을 도식화 하는 과정을 통해 모델의 정확성을 높이고 단순화하여 이해하기 쉽게 만들 수 있는 여러 기법이 소개되는데 그 중 가장 먼저 등장하는 것이 인과관계 다이어그램이다.
특히 사슬, 분기, 충돌이라는 세가지 기본 구조의 소개가 인상적이었다. 사슬이란 기온이 아이스크림 매출을 올리고, 아이스 크림 매출이 도넛 매출을 따라 올리는 연쇄적인 유발 관계를 의미한다. 이러한 사슬은 확장도 가능하고 축소도 가능하다.
분기란 기온이 아이스크림 매출을 올리기도 하지만 아이스커피의 매출을 올리기도 하는 관계를 의미한다. 반면 충돌은 2가지 이상의 변수가 동일한 결과를 유발한다. 여름철 여부라는 변수가 기온에도 영향을 주고 매출량에도 영향을 주면서도, 기온이 또 매출량에도 영향을 주는 셈이다.
이런 복잡한 매커니즘을 단순화하는 방법으로 피처를 분할하거나 집계를 내거나 순환을 관리하는 방법들이 존재하는데 기법 자체로도 중요하지만 데이터를 분석하는 사람이라면 철학적으로도 반드시 알아둬야 할 기본 교양이라 생각한다.
이를 토대로 4장에서는 인과관계 다이어그램을 만들어보는 예제가 여럿 등장하는데 한 과정씩 따라하다보면 구체적으로 인과관계 다이어그램을 어떤 방식으로 그릴 수 있는지 감을 잡을 수 있다.
아울러 앞서 언급한 교란 해소 방법으로 DCC(분리 인과 기준)과 BC(백도어 기준)은 반드시 읽어볼 것을 권하고 싶다. 이런 교란은 실무에서는 본능적으로 애써 외면하게 된다. 별다른 성과없이 엄청난 시간과 노동력을 잡아 먹을만한 주제라는 것을 알기 때문이다.
하지만 대부분의 문제는 먼 길을 돌다보면 결국 이 교랸 문제의 모순을 해결해야 풀리는 경우를 자주 발견한다. 비록 구체적인 예제가 등장하지 않아 아쉽지만 그럼에도 좋은 예시와 해결방법이 소개되어 있다.
이 책은 인과관계만 다루는 것은 아니다. 또 하나의 주제로 그동안 입문서나 교과서에서 다루지 않던 또는 수학과 같이 엄밀함을 보장할 수 없어 어두운 그늘에서 실무자 사이에만 구전으로 전해오던 현실에서의 실전 분석 방법도 상당수 소개되고 있다.
그 중 대표적인 것이 결측치 처리이다. 결측치를 처음 접했을 때만 해도 어차피 없는 데이터 따위는 없애거나 대체하면 그만이라 쉽게 생각했는데 그 없다는 것도 나름의 정보이다. 이를 무시하면 절대 성능좋은 모델을 만들 수 없다.
보이지 않는 데이터가 때로는 보이는 데이터보다 결정적인 결과를 도출하기도 한다. 교양서이지만 통계학의 대가 데이비드 핸드가 저술한다크데이터라는 책을 읽어본다면 결측치를 결코 만만하게 볼 수 없음을 깨달을 수 있다.
아무튼 MCAR, MAR, MNAR 등을 인과관계 다이어그램과 결부시켜 실습해보는 것이 인상적인 부분인데 비교적 적은 코드로 결측치의 숨은 진실을 쉽게 파악할 수 있게 잘 정리되어있다 생각했다.
부트스트랩을 이용한 불확실성 측정 또한 놀라웠다. 그동안 그저 모델이 정확도를 높이기 위해 부트스트랩을 활용해 왔는데 p-value의 남용 이슈와 관련된 부분에서도 큰 도움을 받을 수 있다는 사실을 직접 실습할 수 있어 유익했다.
p값 남용 문제는 통계학회의 권고 외에도 무수히 많은 책에서 확인해 온 내용이지만 그래서 결론은 어쩌라구? 라는 내 질문에 나름의 해법조차 전달한 책을 찾기는 드물었다. 분명 분석가 나름의 방법이 있을텐데 엄밀하지 않아서 확실하지 않아서 명예가 훼손될까 감춰진 경향이 강했다. 저자는 그 기법을 쿨하게 밝히고 있다. 물론 서문에서 다른 학자 및 전문가와 견해를 달리할 수 있음을 밝혀두었다.
그 외에도 실험을 직접 설계해보며 조절효과나 매개효과를 측정하는 방법 또한 매우 유익했다. 논문을 읽을 때마다 확실한 이해가 부족하여 막혔던 부분인데 이 책을 읽고 어느정도 감을 잡고 자신감을 얻을 수 있었다.
실습 언어는 R, Python 두 언어를 모두 사용하고 있다. 예제에 따라 두 언어 중 보다 적합한 언어를 선택하여 예제를 구성하고 있다.
다만 실습 위주의 책은 아니다. 크게 얻을 것이 없는데 실습 량이 많아 질 것 같은 부분은 예시로 대체하고 있으며 짧은 실습으로 언어적 기술보다 이해에 도움이 될 부분만 예제를 도입하고 있는데 그 완급조절이 가히 예술이다. 최대한 적은 분량으로 많은 것들을 알기 쉽게 전하는 책이다.
이렇듯 이 책은 99%의 입문서나 교과서가 담고 있지 않은 현실에서의 더럽고, 복잡하고, 자신있게 주장하기 힘든 데이터 분석 문제에 대하여 저자 나름의 해법을 용기있게 전달하는 책이다. 아울러 이 책에서 소개한 큰 주제 중 하나인 인과관계는 개인적으로 강인공지능(AGI)을 위한 열쇠라고 생각한다.
저자의 경험에서 얻은 노하우의 공유에 감사드리며 데이터 분석에 임하는 모든이들에게 꼭 한 번 읽어볼 것을 권하고 싶다.