“엑셀로 설명하므로 누구나 배우면 바로 활용할 수 있습니다. 분석 도구로 엑셀을 사용합니다. 데이터 분석이라면 R이나 Python을 떠올리지만, 고급 도구는 평범한 직장인에게 딱히 쓸모가 없습니다. 쉽게 손이 가는 간단한 도구로 배워야 실용적으로 쓸 수 있습니다.”
--- p.7, 「머리말」 중에서
“전처리란 빈 데이터를 결측치로, 이상한 데이터를 이상치로 분류하고 확보한 전체 데이터에 발생하는 문제를 바로잡는 일을 가리킨다. 데이터 전처리 단계를 거친 깨끗한 데이터 셋을 마스터 데이터 셋이라고 부른다.“
--- p.27, 「현실 세계의 데이터 모델링 」 중에서
“몬테카를로 실험은 무작위 추출 실험을 무수히 많이 반복한 결과의 확률적 분포를 알아내는 실험법으로, 수학자 스타니스와프 울람이 모나코의 그랑 카지노 도박 게임 승률 계산법에서 착안하여 만들었다. 몬테카를로 실험은 비용이 지나치게 많이 들거나 불확실성이 너무 클 때, 혹은 미래 예측의 해석적인 약점을 극복하기 어려울 때 주로 사용한다. “
--- p.75, 「데이터 분석과 통계 - 통계의 이해 」 중에서
“피어슨 추론에서 P값을 활용하여 유의성을 검정하는 원리를 알아보자. 어떤 사람이 자신이 축구 경기를 시청하면 반드시 한국 팀이 진다는 징크스를 가지고 있다고 주장하고 있는데, 나는 이 징크스를 미신이라고 주장하고 싶다. 징크스가 미신이라는 주장을 검증하려면, 이상적인 상황에서 TV시청과 축구 패배가 무관함을 밝혀야 한다. 이것을 어떻게 판단할 수 있을까? “
--- p.95, 「데이터 분석과 통계 - 추론 통계 」 중에서
“마지막으로, A쇼핑은 모바일 애플리케이션 로딩 시간이 매출액에 미치는 영향을 파악하기 위해 영수증 1,000건을 회귀분석했다고 한다. 로딩 시간이 0.1초 늘어날 때 매출은 얼마만큼 감소할까? 이처럼 우리가 현실에서 다양한 비즈니스 문제를 해결할 때 유의성 검정 도구를 활용할 수 있다.”
- 104, 「데이터 분석과 통계 - 추론 통계 」 중에서
“카이제곱검정은 문자와 문자 데이터, 즉 범주형 변수 간의 관련성을 검증하는 방법이다. 카이제곱검정의 창시자는 피어슨 통계의 칼 피어슨(Karl Pearson)이다. 이 검정 방법은 수집한 자료의 빈도가 이론상 기대 빈도와 통계적으로 다른지 판단하고자 할 때 사용하는 추론 통계 방식이다.”
--- p.106, 「데이터 분석과 통계 - 추론 통계」 중에서
“이전 챕터에서 데이터 분석은 보통 매출과 이익을 중심으로 진행한다고 설명했다. 하지만 매출과 이익은 BSC 프레임워크가 분류한 네 가지 영역 중 재무 중심 분석에만 해당한다. 그런데, 부서나 직무에 따라서는 매출과 이익이라는 KPI가 적합하지 않은 경우가 있을 수 있다. 이를테면 마케팅 부서라면 신규가입자 유치나, 시장 점유율 35% 확대, 우수고객 만족도, 휴면회원 매출 전환율과 같이 고객 영역에서의 성과 달성 여부를 판단할 수 있는 KPI가 필요하다. 이처럼 같은 회사라 하더라도 부서나 구성원 단위마다 성과분석을 위한 관련된 KPI가 다르다.”
--- p.192, 「비즈니스 데이터 분석 실무」 중에서
“비즈니스 분석 모델에는 경향분석, 비교분석, 순위분석, 기여분석, 빈도분석, 차이분석, 파레토 분석, 상관분석 등 매우 다양한 분석 모델이 존재한다. 확보한 데이터에서 목적에 알맞은 분석 모델을 적용하여 인사이트를 도출하고, 의미 있는 가설을 세워가는 방식으로 다양한 추가 분석을 진행할 수 있다.”
--- p.196, 「비즈니스 데이터 분석 실무」 중에서
“상관 분석은 두 변수에 대한 데이터를 비교하여 상호 관련 여부를 도출하는 분석 방법이다. 주로 ‘매출과 이익의 관련 여부 분석이나 ‘국가별 매출과 이익의 관련성 분석’과 같은 케이스에 활용한다. 이때 매출과 이익이 일정한 패턴으로 선형을 이루며 연관성이 있기를 많이 기대하지만, 고객이나 제품에 따라 기대와 다른 결과가 나오기도 한다. 이처럼 기대치와 다른 영역을 분석할 때에도 상관분석을 활용할 수 있으며, 주로 분산형 그래프 혹은 거품형 그래프로 시각화한다.”
--- p.252, 「비즈니스 데이터 분석 실무」 중에서
“확률 추측에는 언제나 방대한 정보를 사용한다. 그런데 매번 모든 정보를 일일일 총동원해서 추측해야 한다면 굉장히 번거롭고, 저장 용량도 많이 필요할 것이다. 반면 계산이 끝날 때마다 필요한 정보만 남겨 재사용하고, 나머지 정보를 삭제할 수 있다면 많은 에너지를 절약할 수 있다. 이것이 베이즈 추정의 힘이다.”
--- p.285, 「머신러닝 입문」 중에서