품목정보
발행일 | 2014년 07월 30일 |
---|---|
쪽수, 무게, 크기 | 419쪽 | 751g | 183*235*18mm |
ISBN13 | 9788968481093 |
ISBN10 | 8968481091 |
발행일 | 2014년 07월 30일 |
---|---|
쪽수, 무게, 크기 | 419쪽 | 751g | 183*235*18mm |
ISBN13 | 9788968481093 |
ISBN10 | 8968481091 |
1장. 개요 : 데이터 분석적 사고 방식 __1.1 데이터가 제공하는 무한한 기회 __1.2 예 : 허리케인 프란시스 __1.3 예제 : 고객 이탈 예측 __1.4 데이터 과학, 데이터 공학, 데이터 주도 의사 결정 __1.5 데이터 처리와 ‘빅 데이터’ __1.6 빅 데이터 1.0에서 빅 데이터 2.0으로 __1.7 전략적 자산으로서의 데이터 및 데이터 과학 능력 __1.8 데이터 분석적 사고 __1.9 이 책에 대하여 __1.10 다시 보는 데이터 마이닝과 데이터 과학 __1.11 데이터 과학과 데이터 과학자의 일은 화학과 시험관의 관계 __1.12 요약 2장 비즈니스 문제와 데이터 과학 해결책 __2.1 비즈니스 문제에서 시작해 데이터 마이닝 작업으로 __2.2 감독 방법과 자율 방법 __2.3 데이터 마이닝과 그 결과 __2.4 데이터 마이닝 프로세스 __2.5 데이터 과학팀을 관리한다는 것은? __2.6 그 외 분석 기법 및 기술 __2.7 요약 3장. 예측 모델링 개요 : 연관성에서 감독 세분화까지 __3.1 모델, 유도, 예측 __3.2 감독 세분화 __3.3 세분화 과정의 시각화 __3.4 규칙 집합으로서의 트리 __3.5 확률 추정 __3.6 사례 : 트리 유도로 고객 이탈 문제 해결하기 __3.7 요약 4장. 데이터에 대한 모델 적합화 __4.1 수학 함수를 통한 분류 __4.2 수학 함수를 이용한 회귀 분석 __4.3 계층 확률 추정과 로지스틱 회귀 분석 __4.4 사례 : 로지스틱 회귀 분석과 트리 유도 비교 __4.5 비선형 함수, 지원 벡터 기계, 신경망 __4.6 요약 5장. 과적합화 문제 해결 __5.1 일반화 __5.2 과적합화 __5.3 과적합화 검사 __5.4 사례 : 선형 함수 과적합화 __5.5 * 사례 : 왜 과적합화가 문제인가? __5.6 예비 데이터 평가에서 교차 검증까지 __5.7 다시 모델링한 고객 이탈 문제 __5.8 학습 곡선 __5.9 과적합화 회피와 복잡도 제어 __5.10 요약 6장. 유사도, 이웃, 군집 __6.1 유사도와 거리 __6.2 최근접 이웃 추론 __6.3 유사도 및 이웃에 관한 주요 세부 사항 __6.4 군집화 __6.5 비즈니스 문제 해결과 데이터 탐사 문제 __6.6 요약 7장. 결정 분석적 사고 1 : 좋은 모델은? __7.1 분류자 평가 __7.2 모델 평가에 대한 일반적인 원리 __7.3 핵심 분석 프레임워크 : 기댓값 __7.4 평가, 기준선 성능, 데이터 투자의 영향 __7.5 요약 8장. 모델 성능 시각화 __8.1 분류 대신 서열화하기 __8.2 수익 곡선 __8.3 ROC 그래프와 곡선 __8.4 ROC 곡선 하위 영역(AUC) __8.5 누적 응답 곡선과 향상도 곡선 __8.6 예제 : 고객 이탈 모델링에 대한 성능 분석 __8.7 요약 9장. 증거와 확률 __9.1 예제 : 온라인 고객 광고 타겟팅 __9.2 증거의 통계적 조합 __9.3 데이터 과학에 베이즈 규칙 응용 __9.4 증거 ‘향상도’ 모델 __9.5 예제 : 페이스북 ‘좋아요’의 증거 향상도 __9.6 요약 10장. 텍스트 표현 및 마이닝 __10.1 텍스트가 중요한 이유 __10.2 텍스트가 어려운 이유 __10.3 텍스트 표현법 __10.4 예제 : 재즈 음악가 __10.5 * IDF와 엔트로피의 관계 __10.6 단어 주머니보다 복잡한 표현들 __10.7 예제 : 주가 변동을 예측하기 위한 뉴스 기사 마이닝 __10.8 요약 11장. 결정 분석적 사고 2 : 분석 공학 __11.1 자선 단체 후원할 가능성이 높은 후원자 타겟팅 __11.2 훨씬 더 복잡한 고객 이탈 문제 __11.3 요약 12장. 기타 데이터 과학 작업과 기법 __12.1 동시 발생과 연관성의 발견 __12.2 프로파일링 : 전형적인 행동의 발견 __12.3 연결 예측과 친구 추천 __12.4 데이터 축소, 잠재 정보, 영화 추천 __12.5 편중, 편차, 조합 기법 __12.6 데이터 주도 인과 관계 설명과 바이럴 마케팅 예제 __12.7 요약 13장. 데이터 과학과 비즈니스 전략 __13.1 돌아온 데이터 분석적 사고 __13.2 데이터 과학으로 경쟁 우위 획득 __13.3 데이터 과학으로 경쟁 우위 유지 __13.4 데이터 과학자 및 팀의 영입과 육성 __13.5 데이터 과학 사례 연구 조사 __13.6 모든 창조적인 아이디어의 수용 __13.7 데이터 과학 프로젝트 제안서 평가 __13.8 기업의 데이터 과학 성숙도 14장. 결론 __14.1 데이터 과학의 기본 개념 __14.2 데이터가 할 수 없는 일 : 사람이 중심에 __14.3 개인 정보 보호, 윤리, 데이터 마이닝 __14.4 데이터 과학에 대한 남은 이야기 __14.5 마지막 사례 : 크라우드 소싱에서 클라우드 소싱으로 __14.6 책을 마치며 부록 A.1 제안서 검토 가이드 부록 A.2 또 다른 제안서 예제 부록 A.3 용어 정리 |
사회적 관심이 집중되고 있는 빅데이터 및 데이터 마이닝. 이 책은 데이터 과학의 기본 개념과 중요성에 대해 설명하고 다양한 예들을 보고주고 있다. 마이닝 알고리즘과 용어의 정의 및 쓰임세에 대해 쉬고 논리정연하게 설명하고 있다. 하지만 전문적 지식을 요하는 내용들도 많아 초보자들이 이해하기에는 다소 어려움이 있을 것 같다.
데이터 마이닝을 위한 데이터 과학을 재미있게(?) 설명한 책으로 대학 교재로 활용해도 괜찮을 것 같은 생각이 든다.
지금까지 데이터 마이닝 도구 및 기법에 대해서만 배웠지 그 기본 원리(근간)이 되는 데이터 과학에 대해서 배운적은 없은 것 같다. (원리도 모르면서 툴만 사용한 것이 조금은 부끄럽네요..ㅠㅠ)
제목 그대로 비즈니스를 위한 데이터이 과학이기 때문에 알고리즘 설명이나 어려운 수학은 자제하고 있으며 그림과 설명을 곁들여 설명하고 있다.
저자는 서문에서 이 책을 읽을 대상을 지정해주고 있다.
그리고 데이터 과학에 대한 이 책의 3가지 개념적 접근 방법을 소개해주고 있다. (이런 내용 및 개념을 다루고 있다고 생각하면 된다.)
. 데이터 과학을 기업 조직에 결합하는 방법에 대한 개념- 데이터 과학팀을 모집, 조직, 육성하는 방법이 포함된다.
- 데이터 과학이 경쟁력을 향상시키도록 생각하는 방법이 포함된다.
- 데이터 과학 프로젝트를 성공적으로 수행하기 위한 전략적 개념이 포함된다.
2. 데이터 분석적으로 사고하는 일반적인 방법
- 이 개념을 갖고 있으면 적절한 데이터를 찾아내 적절한 방법을 적용하는 데 도움이 된다.
- 여러 상위 수준의 데이터 작업과 '데이터 마이닝 프로세스'가 이에 포함된다.
3. 실제로 데이터에서 지식을 추출하는 일반적인 개념
- 방대한 데이터 과학 작업 및 작업에 사용하는 알고리즘의 기반이 된다.
이 책을 읽은 독자들이 아래와 같은 평가를 한게 눈에 띈다.
데이터 과학에 입문하는 사람들에게 도움이 될 것이며, 비즈니스 문제에 데이터 과학 문제를 적용하는데 중점을 두었고, 고객 이탈, 타겟 마켓팅, 위스키 분석처럼 실제 비즈니스에서 발생하는 익숙한 문제를 여러 곳에서 예제로 다뤘다. 알고리즘을 나열하기보다는 데이터 과학에 깔려 있는 개념을 독자가 자 이해할 수 있으며, 문제 해결 방법을 알려준다.
데이터를 현명하게 사용하면 비즈니스 경쟁력을 새로운 차원으로 끌어올릴 수 있으며, 데이터가 주도하는 환경에서 성공하려면 엔지니어, 분석가, 관리자 모두 자신 앞에 놓여 있는 선택사항, 설계 결정 사항, 장단점을 반드시 이해하고 있어야 한다. 흥미로운 예제, 명확한 설명, '방법'뿐만 아니라 '이유'도 자세하고 폭넓게 설명하고 있으므로, 데이터 주도 시스템을 개발하고 응용하는 업무를 수행하려는 사람에게 완벽한 입문서이다.
이 책의 초반부는 개념 및 예제, 비즈니스 측면에서 풀어나갔으며, 중반부는 모델, 과적합, 유사도, 군집, 이웃, 시각화, 증거, 확률, 마이닝 등 데이터 분석 기법 설명한다. 후반부에는 비즈니스 전략 및 결론으로 끝을 맺는다. 챕터별 새부 내용을 나름대로 정리한 내용은 아래와 같다.
1. 개요: 데어터 분석적 사고 방식
- 데이터의 제공하는 기회를 데이터 주도 의사 결정을 축으로 분석 활용하면 어떤 이익이 있는지 설명한다. (데이터 마이닝과 데이터 과학의 차이점 포함)
2. 비즈니스 문제와 데이터 과학 해결책
- 데이터 마이닝의 프로세스 (비즈니스이해->데이터이해->데이터준비->모델링->평가->배치)와 분석 기법 및 기술 (통계학, 데이터베이스 쿼리, 데이터 웨어하우스, 회귀분석, 기계학습과 데이터마이닝)
3. 예측 모델 개요 : 연관성에서 감독 세분화
- 모델 유도(예측)을 기반으로 감독 세분화 및 시각화 과정 설명
4. 데이터에 대한 모델 적합화
- 회귀분석 및 선형/비선형 함수, 벡터 기계 설명
5. 과적합화 문제 해결
- 일반화(Generalization)와 과적합화(Overfitting) : 데이터 마이닝은 모델 복잡도와 과적합화 문제간의 싸움 (균일화(Regularization)를 통해 모델 복잡도 통제)
6. 유사도, 이웃, 군집
- 비슷한 항목을 찾아내는 일, 예측 모델링, 개체 군집화을 통해 유사도 사용 방법 설명, 유사도 및 거리 계산 방법, 최근접 이웃법 계열의 방법 설명
7. 결정 분석적 사고 1 : 좋은 모델은?
- 모델의 적절한 평가 척도 고안이 필요하며, 기댓값은 좋은 틀을 제공한다.
8. 모델 성능 시각화
- 모델의 평가 결과를 시각화하는 것은 평가 업무에서 매우 중요한 부분이며, 훈련 데이터 및 표본을 이용해 결과를 예측해야 한다. (수익 곡선 및 수신자 운용 특성 곡선 등은 중요한 시각화 도구이다.)
9. 증거와 확률
- '각 타겟이 특정값을 어떻게 생성하는가?'라는 질문을 통해 새로운 기법 설명 (생성기법(Generative Method), 베이지안 기법(Bayesian Method)
10. 텍스트 표현 및 마이닝
- 텍스트를 특정 벡터로 변환하는 방법 설명 ( 각 문서를 개별적인 단어로 분할하거나 TFIDF 공식을 이용해 각 단어에 값을 할당하는 방법)
11. 결정 분석적 사고 2 : 분석 공학
- 문제에 대해 데이터를 분석적으로 장려함으로써 데이터 마이닝의 역할을 명확히 하고 비즈니스 제약, 비용, 효과를 고려ㅏ며, 문제를 단순화하기 위한 가정을 명확히 표현하는 것
12. 기타 데이터 과학 작업 과 기법
- 항목드의 동시 발생 또는 연관성 찾아내기 : 상품 구매
- 전형적인 행위의 프로파일링 : 신용카드 사용량이나 고객 대기 시간
- 데이터 항목 간의 연결 예측 : 사람들 간의 소셜 네트워크에서의 연결
- 데이터를 관리하기 쉽게 만들거나 데이터에서 숨은 정보를 찾아내기 위해 축소 : 잠재적인 영화 선호도
- 모델을 하나의 전문가로 생각하고 모델을 조합하기 : 영화 추천 모델 개선
- 데이터 간의 인과 관계 도출 : 소셜 네트워크에 연결된 사람들이 동일한 상품을 구입하는 이유
13. 데이터 과학과 비즈니스 전략
- 데이터 과학은 운용도 아니고 공학도 아니다.
14. 결론
- '명확히 설명할 수 없다면 그것을 제대로 알고 있는 것이 아니다.' (알버트 아인슈타인)
일반적인 개발자를 대상으로 작성된 책이 아니기 때문에 책의 중간적인 부분은 상당히 어려울 수도 있다. (그래서 조금 더 흥미를 잃지 않기 위해 1~2장을 읽고 11~14장을 읽은 후에 관심이 가는 장부터 이리저리 읽는 방식을 취했다.) 하지만 데이터베이스를 설계하는 개발자나 데이터를 설계하는 기획자(개발자)는 꼭 읽어보기를 권한다. (데이터를 바라보는 관점을 비즈니스에 초점을 맞췄기 때문이다.)
자매품으로 '데이터 시각화를 위한 데이터 인사이트 : 빅데이터를 바라보는 통찰의 눈'도 추천한다.
데이터 분석 : R
[표지가 말해주는 것 처럼, R 을 사용한 데이터 분석에 대한 책이다. 이론적인 접근 보다는 실용적인 분석 위주로 설명하고 있다]
이 번 서평은 개인적인 관심이 있는 분야인 데이터 분석에 관한 책으로 선택했다. 현실 세계에서 데이터로 분석할 만한 것은 생각보다 많다. 매일 먹는 음식의 양, 영양소의 종류, 하루 중 사용하는 시간의 분류, 매일 걷는 거리와 시간, 출퇴근에 사용하는 시간 등, 찾으려고 한다면 개인의 삶과 업무에서 많은 부분이 데이터로 표현될 수 있고 분석될 자료가 된다.
이렇게 수집한 데이터를 알맞은 분석 방법을 통해 이전에는 알 수 없었던 가치를 찾아내는 것이 데이터 과학에서 다루어지는 작업이다.
책은 크게 두 부분으로 이루어 진다. 1,2 장의 데이터 과학에 대해 소개하고 일반적인 작업의 흐름을 소개하는 부분, 그리고 3~10 장에 걸친 사례 중심으로 알아보는 데이터 과학의 사용 예를 소개하는 부분이다.
참고로, 이 책은 R 을 기초로 한 데이터 분석 사례를
제공한다. 하지만, 데이터 분석에 쓰인 코드에 대한 설명 보다는 사례에 설명한 방법이 적용되는 과정과 이유에 대한 설명이 더
많은 편이다. 이런 설명 덕분에, 데이터 분석에 대한 사전 지식이나 R 에 대한 지식이 부족하더라도 충분히 따라가면서 읽을 수 있었다.
책에서는 R 의 설치도 설명하고 있지만 윈도우 기반이다. linux 기반에서 작업하는 분들은 각 배포판에 맞게 인스톨을 해주면 된다. ubuntu 기반에서 R 설치와 책에서 사용하는 packages 를 설치하기 위한 참조 링크는 아래와 같다. 윈도우 기반이라면 책에서 설명한 것을 그대로 따라가면 된다.
R 설치 작업이 다 끝났다면, 책의 예제를 따라 실습할 환경이 다 구축된 것이다. 책의 소스는 홈페이지에서 다운 받을 수 있다. (소스링크)
책을 읽으면서 재미있어 보였던 사례 중 하나를 실습해 볼까 한다.
6
장은 인터넷과 매스미디어라는 두 개의 매체에 어떻게 하면 효율적으로 광고를 할 것인지가 목적이다. 책에서 사용한 분석에 필요한
데이터는 월별 TV 광고비와 잡지 광고비, 그리고 신규 유저수이다. 이 데이터를 바탕으로 중회귀분석을 적용, 의미있는 값을 찾아내
적용하는게 최종 결론이다.
자세한 내용은 생략하고, 책을 토대로 작업해본 내용은 아래와 같다.
먼저 다운받은 압축파일을 풀면, 위와 같은 실습 스크립트가 포함되어 있다. 간단한 주석과 실제 동작하는 코드 덕분에 작업을 수월하게 해준다.
TV 광고비 부분만 작업을 수행해 본 결과이다. 참고로, 실습파일에 들어있는 csv 파일의 데이터가 잘못 되어있다. R 에서 데
이터를 읽어서 확인해보면 tvcm 과 magazine 의 데이터가 책에 나온 것과는 다르다는 것을 알 수 있다. 정확히 끝에 0 이
하나가 없다. 혹시나해서 원본 csv 파일을 열어서 확인해봤지만 파일이 만들어질때부터 잘못 들어간 듯 하다. 나의 경우엔 csv
파일을 수정 후 데이터를 로드시켰다.
잡지 광고비까지 산점도를 그려준 후, 회귀분석을 수행하면 아래와 같은 결과가 나온다.
사실, 여기까지 실습하는건 그리 어렵지 않다. 어려운 것은 데이터를 분석할 상황에 적용할 방법을 찾고 실제 동작하도록 하는 것, 그리고 결과가 옳게 나왔는지 분석하는 것이라고 생각한다.
다행스럽게도, 이 책은 그러한 부분에 대해서 친절히 설명해주고 있다. 위의 결과값에 대해서도 각 항목이 가지는 의미와 설명을 추가함으로 독자들의 이해를 돕고 있다.
총평
통계학이나 R 에 대한 기초가 있었다면 더 재미있게 읽었을 테지만, 그런 기초가 부족한 사람이더라도 데이터 과학에 관심있는 사람들이 충분히 즐겁게 읽을 수 있게 구성된 책이라는데 좋은 점수를 주고 싶다.
실습에 필요한 파일 중에 책과 다른 데이터가 있기는 하지만, 작업을 하는데 큰 영향을 주는 부분은 아니었다. 전체적으로 실습 코드에 대한 설명도 잘 되어있는 편이라 차근차근 실습하면서 익혀나간다면 좋겠다는 생각을 해본다.