확장메뉴
주요메뉴


소득공제
미리보기 공유하기

비즈니스를 위한 데이터 과학

: 빅데이터를 바라보는 데이터 마이닝과 분석적 사고

리뷰 총점8.3 리뷰 6건
베스트
IT 모바일 top100 16주
정가
28,000
판매가
25,200 (10% 할인)
YES포인트
구매 시 참고사항
eBook이 출간되면 알려드립니다. eBook 출간 알림 신청
시원한 여름을 위한 7월의 선물 - 동물 이중 유리컵/문학 아크릴 화병/썸머 보냉백/이육사 여름담요
[단독]『혼자 공부하는 파이썬』 개정판 출간
내일은 개발자! 코딩테스트 대비 도서전
7월 전사
쇼핑혜택
1 2 3 4 5

품목정보

품목정보
출간일 2014년 07월 30일
쪽수, 무게, 크기 419쪽 | 751g | 183*235*18mm
ISBN13 9788968481093
ISBN10 8968481091

이 상품의 태그

목차 목차 보이기/감추기

1장. 개요 : 데이터 분석적 사고 방식
__1.1 데이터가 제공하는 무한한 기회
__1.2 예 : 허리케인 프란시스
__1.3 예제 : 고객 이탈 예측
__1.4 데이터 과학, 데이터 공학, 데이터 주도 의사 결정
__1.5 데이터 처리와 ‘빅 데이터’
__1.6 빅 데이터 1.0에서 빅 데이터 2.0으로
__1.7 전략적 자산으로서의 데이터 및 데이터 과학 능력
__1.8 데이터 분석적 사고
__1.9 이 책에 대하여
__1.10 다시 보는 데이터 마이닝과 데이터 과학
__1.11 데이터 과학과 데이터 과학자의 일은 화학과 시험관의 관계
__1.12 요약

2장 비즈니스 문제와 데이터 과학 해결책
__2.1 비즈니스 문제에서 시작해 데이터 마이닝 작업으로
__2.2 감독 방법과 자율 방법
__2.3 데이터 마이닝과 그 결과
__2.4 데이터 마이닝 프로세스
__2.5 데이터 과학팀을 관리한다는 것은?
__2.6 그 외 분석 기법 및 기술
__2.7 요약

3장. 예측 모델링 개요 : 연관성에서 감독 세분화까지
__3.1 모델, 유도, 예측
__3.2 감독 세분화
__3.3 세분화 과정의 시각화
__3.4 규칙 집합으로서의 트리
__3.5 확률 추정
__3.6 사례 : 트리 유도로 고객 이탈 문제 해결하기
__3.7 요약

4장. 데이터에 대한 모델 적합화
__4.1 수학 함수를 통한 분류
__4.2 수학 함수를 이용한 회귀 분석
__4.3 계층 확률 추정과 로지스틱 회귀 분석
__4.4 사례 : 로지스틱 회귀 분석과 트리 유도 비교
__4.5 비선형 함수, 지원 벡터 기계, 신경망
__4.6 요약

5장. 과적합화 문제 해결
__5.1 일반화
__5.2 과적합화
__5.3 과적합화 검사
__5.4 사례 : 선형 함수 과적합화
__5.5 * 사례 : 왜 과적합화가 문제인가?
__5.6 예비 데이터 평가에서 교차 검증까지
__5.7 다시 모델링한 고객 이탈 문제
__5.8 학습 곡선
__5.9 과적합화 회피와 복잡도 제어
__5.10 요약

6장. 유사도, 이웃, 군집
__6.1 유사도와 거리
__6.2 최근접 이웃 추론
__6.3 유사도 및 이웃에 관한 주요 세부 사항
__6.4 군집화
__6.5 비즈니스 문제 해결과 데이터 탐사 문제
__6.6 요약

7장. 결정 분석적 사고 1 : 좋은 모델은?
__7.1 분류자 평가
__7.2 모델 평가에 대한 일반적인 원리
__7.3 핵심 분석 프레임워크 : 기댓값
__7.4 평가, 기준선 성능, 데이터 투자의 영향
__7.5 요약

8장. 모델 성능 시각화
__8.1 분류 대신 서열화하기
__8.2 수익 곡선
__8.3 ROC 그래프와 곡선
__8.4 ROC 곡선 하위 영역(AUC)
__8.5 누적 응답 곡선과 향상도 곡선
__8.6 예제 : 고객 이탈 모델링에 대한 성능 분석
__8.7 요약

9장. 증거와 확률
__9.1 예제 : 온라인 고객 광고 타겟팅
__9.2 증거의 통계적 조합
__9.3 데이터 과학에 베이즈 규칙 응용
__9.4 증거 ‘향상도’ 모델
__9.5 예제 : 페이스북 ‘좋아요’의 증거 향상도
__9.6 요약

10장. 텍스트 표현 및 마이닝
__10.1 텍스트가 중요한 이유
__10.2 텍스트가 어려운 이유
__10.3 텍스트 표현법
__10.4 예제 : 재즈 음악가
__10.5 * IDF와 엔트로피의 관계
__10.6 단어 주머니보다 복잡한 표현들
__10.7 예제 : 주가 변동을 예측하기 위한 뉴스 기사 마이닝
__10.8 요약

11장. 결정 분석적 사고 2 : 분석 공학
__11.1 자선 단체 후원할 가능성이 높은 후원자 타겟팅
__11.2 훨씬 더 복잡한 고객 이탈 문제
__11.3 요약

12장. 기타 데이터 과학 작업과 기법
__12.1 동시 발생과 연관성의 발견
__12.2 프로파일링 : 전형적인 행동의 발견
__12.3 연결 예측과 친구 추천
__12.4 데이터 축소, 잠재 정보, 영화 추천
__12.5 편중, 편차, 조합 기법
__12.6 데이터 주도 인과 관계 설명과 바이럴 마케팅 예제
__12.7 요약

13장. 데이터 과학과 비즈니스 전략
__13.1 돌아온 데이터 분석적 사고
__13.2 데이터 과학으로 경쟁 우위 획득
__13.3 데이터 과학으로 경쟁 우위 유지
__13.4 데이터 과학자 및 팀의 영입과 육성
__13.5 데이터 과학 사례 연구 조사
__13.6 모든 창조적인 아이디어의 수용
__13.7 데이터 과학 프로젝트 제안서 평가
__13.8 기업의 데이터 과학 성숙도

14장. 결론
__14.1 데이터 과학의 기본 개념
__14.2 데이터가 할 수 없는 일 : 사람이 중심에
__14.3 개인 정보 보호, 윤리, 데이터 마이닝
__14.4 데이터 과학에 대한 남은 이야기
__14.5 마지막 사례 : 크라우드 소싱에서 클라우드 소싱으로
__14.6 책을 마치며

부록 A.1 제안서 검토 가이드
부록 A.2 또 다른 제안서 예제
부록 A.3 용어 정리

저자 소개 관련자료 보이기/감추기

저 자 소 개
포스터 프로보스트(Foster Provost)
뉴욕대 스턴 비즈니스 스쿨의 NEC 교수로서 비즈니스 분석학, 데이터 과학, MBA 프로그램을 강의하고 있으며, 다양한 수상 경력에 빛나는 연구 업적은 여러 곳에서 인용되고 있다. 뉴욕대에 오기 전에는 버라이즌에서 데이터 과학 연구원으로 근무했으며, 지난 10여 년간 여러 성공적인 데이터 과학 전문 기업들을 공동 설립했다.

톰 포셋 (Tom Fawcett)
기계 학습으로 박사 학위를 받았으며 GTE, NYNEX/Verizon, HP 등 기업의 연구소에서 근무해왔다. 포셋 박사는 데이터 마이닝 결과 평가 등의 데이터 과학 기법, 사기 사건 탐지 및 스팸 필터링 등 데이터 과학 응용에 대한 논문들을 발표했으며, 이 논문들은 데이터 과학 분야의 필수 논문이 되었다.
역자 : 강권학
중앙대학교 컴퓨터공학과에서 학사와 석사 학위를 받았다. 국방과학연구소, 퓨쳐시스템, 안철수연구소에서 13년간 개발자, 보안전문가, 프로젝트 관리자로 근무했으며, 2009년 4월 호주 멜번에 iGonagi Pty. Ltd.를 설립하고 아이폰 앱을 개발 중이다. 『만들면서 배우는 아이폰 게임 프로그래밍』을 공동으로 저술했고, 『Head First iPhone Development』, 『Head First Programming』, 『Head First Python』, 『iPhone Programming 제대로 배우기』, 『iPhone 3D Programming: using OpenGL ES』(이상 한빛미디어)를 번역했다.

출판사 리뷰 출판사 리뷰 보이기/감추기

왜 이 책을 읽어야 할까?
데이터 과학을 직접 응용할 일이 없더라도 데이터 과학을 이해하는 일은 매우 중요하다. 데이터 분석적 사고 방식에 익숙해지면 데이터 마이닝 프로젝트를 평가하는 데 도움이 된다. 예를 들어 어떤 컨설턴트나 잠재적인 투자자가 데이터에서 지식을 추출하는 업무를 개선하고자 제안할 경우, 제안서를 체계적으로 평가함으로써 제안이 과연 타당한지, 아니면 문제가 있는지를 판단할 수 있다. 그렇다고 해서 프로젝트가 성공한다고는 확신할 수 없지만(데이터 마이닝 프로젝트는 실제로 시도해봐야 결과를 알 수 있는 경우가 많다) 적어도 제안서에 있는 결함이나 비현실적 가정, 빠진(놓치는) 부분은 알아낼 수 있다.

데이터 과학에 대한 이 책의 개념적 접근 방법
이 책에서는 데이터 과학에서 가장 중요한 기본 개념을 설명한다. 이 개념의 일부는 각 장의 ‘제목’이 되기도 하고 다른 일부는 설명을 통해 자연스럽게 소개된다(설명에 들어 있는 개념은 기본 개념이라고 표시되어 있지 않다). 이 개념들은 문제에 대한 계획을 세우는 일부터 데이터 과학 기법을 적용하고 더 나은 의사 결정을 하기 위해 결과를 배치하는 과정까지 폭 넓게 적용될 뿐만 아니라 다양한 비즈니스 분석 방법론 및 기법의 기반이 되기도 한다.

대상 독자
-. 데이터 과학자와 함께 일을 하거나 데이터 과학 중심의 프로젝트를 관리하는 사람들
-. 데이터 과학 벤처 기업에 투자하려는 기업가
-. 데이터 과학 프로젝트를 구현하려는 개발자
-. 데이터 과학자를 지망하는 사람

이 책으로 가르치는 분들께
“이 책은 매우 다양한 데이터 과학 과정 교재로 훌륭히 사용되어 왔습니다. 초기에 이 책은 포스터 교수가 2005년 가을 뉴욕대 스턴 스쿨에서 여러 과의 주제를 종합해 가르치기 위해 만든 교재에서 시작되었습니다*. 원래 강의는 MBA와 MSIS 학생을 대상으로 했지만, 대학의 다른 학과의 학생들이 많이 몰려와 원래 이 강의 대상이었던 MBA 및 MSIS 학생들뿐만 아니라 기계 학습 등에서 든든한 기반이 있는 학생들에게도 특히 유용했다는 점이 이채롭습니다. 아마도 그들의 교과 과정에서는 알고리즘 이외에 근본적인 원리에 대해 주목하지 않았기 때문일 것 같습니다.
뉴욕대에서는 현재 이 책을 데이터 과학에 관련된 다양한 강의에서 교재로 사용하고 있습니다. 원래의 MBA 및 MSIS 과정은 물론이고, 학부 비즈니스 분석학, 뉴욕대 스턴 스쿨의 비즈니스 분석학 석사 과정, 뉴욕대에 신설된 데이터 과학 석사과정을 위한 데이터 과학 입문 교재로 사용되고 있습니다. 게다가 이 책이 출판되기도 전에 이미 7개국 10여 개 대학의 경영대, 컴퓨터 과학과 및 데이터 과학에 대한 입문 일반 과정에서 이 책을 교재로 채택해 사용해 왔습니다.”

추천평 추천평 보이기/감추기

“빅데이터가 제공하는 기회를 잡으려는 모든 사람이 꼭 읽어야 할 책”
- 크레이그 본
SAP 글로벌 부사장

“결국 현대 사회에서 데이터는 비즈니스며, 데이터를 생각하지 않고는 더 이상 비즈니스를 생각할 수 없습니다. 이 책은 이 점을 명확히 설명하고 있습니다. 필요한 시기에 나와준 이 책을 통해 데이터를 과학적으로 생각하는 방법에 대해 이해하게 되리라 생각합니다.”
- 론 베커먼
카멜 벤처(Carmel Ventures) 데이터 총괄 이사

“데이터 과학자를 관리하거나 함께 작업하는, 기술적인 내용에 파묻히지 않고 데이터 과학에 대한 주요 내용과 알고리즘을 더 쉽게 이해하려는 비즈니스 관리자에게 최고의 책입니다.”
- 로니 코하비
마이크로소프트 온라인 서비스 부문 공동 아키텍트

“저자 프로보스트와 포셋은 실세계에서 적용하고 있는 데이터 분석 기술에 정통하며, 이 분야에서 누구도 따라올 수 없을 만큼 잘 요약해 설명하고 있습니다.”
- 지오프 웹
Data Mining and Knowledge Discovery지 수석 편집자

“나와 함께 일하는 모든 사람이 이 책을 읽었으면 좋겠습니다.”
- 클로디아 펄릭
M6D(Media6Degrees) 수석 과학자
2013년 Advertising Research Foundation 혁신 대상 입상자

“빠르게 발전해가는 데이터 과학 분야의 기초, 빅데이터 혁명에 관심 있는 사람들의 필독서”
- 저스틴 개퍼
Teledyne Scientific and Imaging 비즈니스 부문 분석 관리자

“두 저자는 모두 데이터 과학이라는 이름이 존재하기도 전부터 잘 알려져 있었으며, 복잡한 주제를 모든 사람들이 이해할 수 있게 설명하고 있습니다. 특히 데이터 과학에 입문하는 사람들에게 도움이 될 것입니다. 내가 알기로 비즈니스 문제에 데이터 과학 문제를 적용하는 데 중점을 두고 있는 책은 이 책이 최초입니다. 이 책은 고객 이탈, 타겟 마케팅, 심지어 위스키 분석처럼 실제 비즈니스에서 발생하는 익숙한 문제를 여러 곳에서 예제로 다룹니다.
이 책은 알고리즘을 나열하기보다는 데이터 과학에 깔려 있는 개념을 독자가 잘 이해할 수 있게 해주며, 무엇보다도 문제를 해결하기 위해 어떻게 접근해 성공적으로 해결하는지에 대한 방법을 알려줍니다. 데이터 과학에 대한 좋은 입문서를 찾거나 데이터 과학자를 지망하는 독자를 위한 필독서입니다.”
- 크리스 볼린스키
AT&T 연구소 통계 연구부장, 넷플릭스 백만 불 도전 우승팀원

“이 책은 단순한 데이터 분석학 입문서가 아닙니다. 이 책은 세상에 널린 데이터를 이용해 비즈니스를 하고 있는 사람들, 즉 우리 모두를 위한 핵심적인 안내서며 데이터에 기반해 의사 결정을 하기 위한 필독서입니다.”
- 톰 필립스
Media6Degrees CEO, 전 구글 검색 및 웹로그 분석팀장

“데이터를 현명하게 사용하면 비즈니스 경쟁력을 새로운 차원으로 끌어올릴 수 있습니다. 데이터가 주도하는 환경에서 성공하려면 엔지니어, 분석가, 관리자 모두 자신 앞에 놓여 있는 선택 사항, 설계 결정 사항, 장단점을 반드시 이해하고 있어야 합니다. 『비즈니스를 위한 데이터 과학』은 흥미로운 예제, 명확한 설명, ‘방법’뿐만 아니라 ‘이유’도 자세하고 폭넓게 설명하고 있으므로, 데이터 주도 시스템을 개발하고 응용하는 업무를 수행하려는 모든 사람에게 완벽한 입문서입니다.”
- 조쉬 애텐버그
Etsy 데이터 과학팀장

“생산성 향상, 혁신, 고객에 대한 이해 증대의 기반에 데이터가 있습니다. 최근에서야 기업 간 경쟁에서 우위를 선점하기 위해서는 데이터를 잘 다뤄야 비즈니스를 유지할 수 있다는 인식이 급속히 퍼져나가고 있습니다. 저자의 깊이 있는 경험이 녹아 있는 이 책은 비즈니스 경쟁력 향상을 위해 반드시 읽어야 할 필독서입니다.”
- 앨런 머레이
다수의 스타트업 투자자, Coriolis Ventures 공동 투자자

“외환 거래를 하고 있는 나는 유동성 분석하는 데 있어서 이 책으로부터 많은 아이디어를 얻었습니다. 데이터 마이닝에 대한 최고의 책입니다. 훌륭한 예제를 통해 데이터 과학에 대해 깊이 있게 이해할 수 있게 되었습니다. 이 책은 내 서재에 평생 놓여 있을 겁니다.”
- 니디 카수리아
스코틀랜드 왕립 은행 FX 부사장

회원리뷰 (6건) 리뷰 총점8.3

혜택 및 유의사항?
비즈니스 활용 사례로 배우는 데이터 분석 : R 내용 평점4점   편집/디자인 평점4점 i*******m | 2015.12.07 | 추천0 | 댓글0 리뷰제목
데이터 분석 : R [표지가 말해주는 것 처럼, R 을 사용한 데이터 분석에 대한 책이다. 이론적인 접근 보다는 실용적인 분석 위주로 설명하고 있다]이 번 서평은 개인적인 관심이 있는 분야인 데이터 분석에 관한 책으로 선택했다. 현실 세계에서 데이터로 분석할 만한 것은 생각보다 많다. 매일 먹는 음식의 양, 영양소의 종류, 하루 중 사용하는 시간의 분류, 매일 걷는 거리와 시간,;
리뷰제목

데이터 분석 : R

[표지가 말해주는 것 처럼, R 을 사용한 데이터 분석에 대한 책이다. 이론적인 접근 보다는 실용적인 분석 위주로 설명하고 있다]



이 번 서평은 개인적인 관심이 있는 분야인 데이터 분석에 관한 책으로 선택했다. 현실 세계에서 데이터로 분석할 만한 것은 생각보다 많다. 매일 먹는 음식의 양, 영양소의 종류, 하루 중 사용하는 시간의 분류, 매일 걷는 거리와 시간, 출퇴근에 사용하는 시간 등, 찾으려고 한다면 개인의 삶과 업무에서 많은 부분이 데이터로 표현될 수 있고 분석될 자료가 된다.


이렇게 수집한 데이터를 알맞은 분석 방법을 통해 이전에는 알 수 없었던 가치를 찾아내는 것이 데이터 과학에서 다루어지는 작업이다.


책은 크게 두 부분으로 이루어 진다. 1,2 장의 데이터 과학에 대해 소개하고 일반적인 작업의 흐름을 소개하는 부분, 그리고 3~10 장에 걸친 사례 중심으로 알아보는 데이터 과학의 사용 예를 소개하는 부분이다.


참고로, 이 책은 R 을 기초로 한 데이터 분석 사례를 제공한다. 하지만, 데이터 분석에 쓰인 코드에 대한 설명 보다는 사례에 설명한 방법이 적용되는 과정과 이유에 대한 설명이 더 많은 편이다. 이런 설명 덕분에, 데이터 분석에 대한 사전 지식이나 R 에 대한 지식이 부족하더라도 충분히 따라가면서 읽을 수 있었다.


책에서는 R 의 설치도 설명하고 있지만 윈도우 기반이다. linux 기반에서 작업하는 분들은 각 배포판에 맞게 인스톨을 해주면 된다. ubuntu 기반에서 R 설치와 책에서 사용하는 packages 를 설치하기 위한 참조 링크는 아래와 같다. 윈도우 기반이라면 책에서 설명한 것을 그대로 따라가면 된다.


우분투에서 R 설치하기

R 에서 패키지 설치하기



R 설치 작업이 다 끝났다면, 책의 예제를 따라 실습할 환경이 다 구축된 것이다. 책의 소스는 홈페이지에서 다운 받을 수 있다. (소스링크)


책을 읽으면서 재미있어 보였던 사례 중 하나를 실습해 볼까 한다.


6 장은 인터넷과 매스미디어라는 두 개의 매체에 어떻게 하면 효율적으로 광고를 할 것인지가 목적이다. 책에서 사용한 분석에 필요한 데이터는 월별 TV 광고비와 잡지 광고비, 그리고 신규 유저수이다. 이 데이터를 바탕으로 중회귀분석을 적용, 의미있는 값을 찾아내 적용하는게 최종 결론이다.


자세한 내용은 생략하고, 책을 토대로 작업해본 내용은 아래와 같다.



먼저 다운받은 압축파일을 풀면, 위와 같은 실습 스크립트가 포함되어 있다. 간단한 주석과 실제 동작하는 코드 덕분에 작업을 수월하게 해준다.



TV 광고비 부분만 작업을 수행해 본 결과이다. 참고로, 실습파일에 들어있는 csv 파일의 데이터가 잘못 되어있다. R 에서 데 이터를 읽어서 확인해보면 tvcm 과 magazine 의 데이터가 책에 나온 것과는 다르다는 것을 알 수 있다. 정확히 끝에 0 이 하나가 없다. 혹시나해서 원본 csv 파일을 열어서 확인해봤지만 파일이 만들어질때부터 잘못 들어간 듯 하다. 나의 경우엔 csv 파일을 수정 후 데이터를 로드시켰다.


잡지 광고비까지 산점도를 그려준 후, 회귀분석을 수행하면 아래와 같은 결과가 나온다.



사실, 여기까지 실습하는건 그리 어렵지 않다. 어려운 것은 데이터를 분석할 상황에 적용할 방법을 찾고 실제 동작하도록 하는 것, 그리고 결과가 옳게 나왔는지 분석하는 것이라고 생각한다.


다행스럽게도, 이 책은 그러한 부분에 대해서 친절히 설명해주고 있다. 위의 결과값에 대해서도 각 항목이 가지는 의미와 설명을 추가함으로 독자들의 이해를 돕고 있다.



총평


통계학이나 R 에 대한 기초가 있었다면 더 재미있게 읽었을 테지만, 그런 기초가 부족한 사람이더라도 데이터 과학에 관심있는 사람들이 충분히 즐겁게 읽을 수 있게 구성된 책이라는데 좋은 점수를 주고 싶다.


실습에 필요한 파일 중에 책과 다른 데이터가 있기는 하지만, 작업을 하는데 큰 영향을 주는 부분은 아니었다. 전체적으로 실습 코드에 대한 설명도 잘 되어있는 편이라 차근차근 실습하면서 익혀나간다면 좋겠다는 생각을 해본다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
데이터를 곧 비즈니스다 내용 평점4점   편집/디자인 평점5점 YES마니아 : 로얄 스타블로거 : 블루스타 진***학 | 2015.06.20 | 추천0 | 댓글0 리뷰제목
사회적 관심이 집중되고 있는 빅데이터 및 데이터 마이닝. 이 책은 데이터 과학의 기본 개념과 중요성에 대해 설명하고 다양한 예들을 보고주고 있다. 마이닝 알고리즘과 용어의 정의 및 쓰임세에 대해 쉬고 논리정연하게 설명하고 있다. 하지만 전문적 지식을 요하는 내용들도 많아 초보자들이 이해하기에는 다소 어려움이 있을 것 같다.;
리뷰제목

사회적 관심이 집중되고 있는 빅데이터 및 데이터 마이닝. 이 책은 데이터 과학의 기본 개념과 중요성에 대해 설명하고 다양한 예들을 보고주고 있다. 마이닝 알고리즘과 용어의 정의 및 쓰임세에 대해 쉬고 논리정연하게 설명하고 있다. 하지만 전문적 지식을 요하는 내용들도 많아 초보자들이 이해하기에는 다소 어려움이 있을 것 같다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
[Review] 비즈니스를 위한 데이터 과학 내용 평점5점   편집/디자인 평점3점 g*******8 | 2014.10.28 | 추천0 | 댓글0 리뷰제목
빅데이터?? 사물인터넷?? 과연...요즘 IoT 사물인터넷으로부터 많은 양의 데이터들이 주는 많은 정보력과 분석의 필요성에 대해 많은이야기가 대두되고 있다. 특히 이런 데이터들의 양은 빅데이터라 불릴만큼 많아질 것이며, 그만큼 빅데이터를 분석하고 분석할 환경을 만들 인재에 대해서 정부와 학계에서 발벗고 나서서 많은 지원사업을 벌이고 있다. 과연 많은 양의 데이터로부터;
리뷰제목

빅데이터?? 사물인터넷?? 과연...


요즘 IoT 사물인터넷으로부터 많은 양의 데이터들이 주는 많은 정보력과 분석의 필요성에 대해 많은

이야기가 대두되고 있다. 특히 이런 데이터들의 양은 빅데이터라 불릴만큼 많아질 것이며, 그만큼 

빅데이터를 분석하고 분석할 환경을 만들 인재에 대해서 정부와 학계에서 발벗고 나서서 많은 지원

사업을 벌이고 있다. 과연 많은 양의 데이터로부터 정말 의미있는 정보를 얻을 수 있을까??..

누구나 빅데이터 분석에 대한 이야기를 처음 접한 사람이라면 한번쯤은 생각해볼 의문일 것이다.

빅데이터... 필자의 생각에는 충분히 이 빅데이터로부터 의미있는 정보를 얻을수 있다. 단, 그만큼의

분석력과 분석 계획 및 목표가 명확하다면 말이다..



비즈니스를 위한 데이터 과학

 필자가 맨 처음 이 책을 펼쳐 목차를 보고 사실 좀 아쉬운 감이 있었다. 바로 챕터간 연관성이 부족하다고 생각했기 때문이다. 사실 공부를 하는 학생의 입장에서 보면 각 챕터의 연관성은 곧 공부의 흐름이기 때문에 중요하다고 생각한다. 이 목차가 각각의 연관성을 가지고 잘 배치가 되어있다면 학생의 이해도는 높아져 정보의 흡수력이 높아질 것이다. 하지만 반대로 목차의 배치가 연관성이 부족하게 배치가 되어있다면 이대로 공부했던 학생의 이해도는 떨어져 여러번 책을 읽어봐야 할꺼 같다는 생각이 든다. 물론 책이 전체적으로 이상하다 그런게 아니라 각 목차들이 연관성이 조금 떨어지게 배치되었다는 것이다. 즉, 이 책은 초보자들에게는 약간 어려울 수 있다고생각한다.


물론 내용은 아주아주 명쾌하고 하나하나 단어들의 설명이 자세해서 좋다. 


아래는 이 책의 목차이다.


1장. 개요 : 데이터 분석적 사고 방식

    1.1 데이터가 제공하는 무한한 기회 

    1.2 예 : 허리케인 프란시스 

    1.3 예제 : 고객 이탈 예측 

    1.4 데이터 과학, 데이터 공학, 데이터 주도 의사 결정 

    1.5 데이터 처리와 '빅 데이터' 

    1.6 빅 데이터 1.0에서 빅 데이터 2.0으로 

    1.7 전략적 자산으로서의 데이터 및 데이터 과학 능력 

    1.8 데이터 분석적 사고 

    1.9 이 책에 대하여 

    1.10 다시 보는 데이터 마이닝과 데이터 과학 

    1.11 데이터 과학과 데이터 과학자의 일은 화학과 시험관의 관계 

    1.12 요약 


2장. 비즈니스 문제와 데이터 과학 해결책

    2.1 비즈니스 문제에서 시작해 데이터 마이닝 작업으로 

    2.2 감독 방법과 자율 방법 

    2.3 데이터 마이닝과 그 결과 

    2.4 데이터 마이닝 프로세스 

    2.5 데이터 과학팀을 관리한다는 것은? 

    2.6 그 외 분석 기법 및 기술 

    2.7 요약 


3장. 예측 모델링 개요 : 연관성에서 감독 세분화까지

    3.1 모델, 유도, 예측 

    3.2 감독 세분화 

    3.3 세분화 과정의 시각화 

    3.4 규칙 집합으로서의 트리 

    3.5 확률 추정 

    3.6 사례 : 트리 유도로 고객 이탈 문제 해결하기 

    3.7 요약 


4장. 데이터에 대한 모델 적합화

    4.1 수학 함수를 통한 분류 

    4.2 수학 함수를 이용한 회귀 분석 

    4.3 계층 확률 추정과 로지스틱 회귀 분석 

    4.4 사례 : 로지스틱 회귀 분석과 트리 유도 비교 

    4.5 비선형 함수, 지원 벡터 기계, 신경망 

    4.6 요약 


5장. 과적합화 문제 해결

    5.1 일반화 

    5.2 과적합화 

    5.3 과적합화 검사 

    5.4 사례 : 선형 함수 과적합화 

    5.5 * 사례 : 왜 과적합화가 문제인가? 

    5.6 예비 데이터 평가에서 교차 검증까지 

    5.7 다시 모델링한 고객 이탈 문제 

    5.8 학습 곡선 

    5.9 과적합화 회피와 복잡도 제어 

    5.10 요약 


6장. 유사도, 이웃, 군집

    6.1 유사도와 거리 

    6.2 최근접 이웃 추론 

    6.3 유사도 및 이웃에 관한 주요 세부 사항 

    6.4 군집화 

    6.5 비즈니스 문제 해결과 데이터 탐사 문제 

    6.6 요약 


7장. 결정 분석적 사고 1 : 좋은 모델은?

    7.1 분류자 평가 

    7.2 모델 평가에 대한 일반적인 원리 

    7.3 핵심 분석 프레임워크 : 기댓값 

    7.4 평가, 기준선 성능, 데이터 투자의 영향 

    7.5 요약 


8장. 모델 성능 시각화

    8.1 분류 대신 서열화하기 

    8.2 수익 곡선 

    8.3 ROC 그래프와 곡선 

    8.4 ROC 곡선 하위 영역(AUC) 

    8.5 누적 응답 곡선과 향상도 곡선 

    8.6 예제 : 고객 이탈 모델링에 대한 성능 분석 

    8.7 요약 


9장. 증거와 확률

    9.1 예제 : 온라인 고객 광고 타겟팅 

    9.2 증거의 통계적 조합 

    9.3 데이터 과학에 베이즈 규칙 응용 

    9.4 증거 '향상도' 모델 

    9.5 예제 : 페이스북 '좋아요'의 증거 향상도 

    9.6 요약 


10장. 텍스트 표현 및 마이닝

    10.1 텍스트가 중요한 이유 

    10.2 텍스트가 어려운 이유 

    10.3 텍스트 표현법 

    10.4 예제 : 재즈 음악가 

    10.5 * IDF와 엔트로피의 관계 

    10.6 단어 주머니보다 복잡한 표현들 

    10.7 예제 : 주가 변동을 예측하기 위한 뉴스 기사 마이닝 

    10.8 요약 


11장. 결정 분석적 사고 2 : 분석 공학

    11.1 자선 단체 후원할 가능성이 높은 후원자 타겟팅 

    11.2 훨씬 더 복잡한 고객 이탈 문제 

    11.3 요약 


12장. 기타 데이터 과학 작업과 기법

    12.1 동시 발생과 연관성의 발견 

    12.2 프로파일링 : 전형적인 행동의 발견 

    12.3 연결 예측과 친구 추천 

    12.4 데이터 축소, 잠재 정보, 영화 추천 

    12.5 편중, 편차, 조합 기법 

    12.6 데이터 주도 인과 관계 설명과 바이럴 마케팅 예제 

    12.7 요약 


13장. 데이터 과학과 비즈니스 전략

    13.1 돌아온 데이터 분석적 사고 

    13.2 데이터 과학으로 경쟁 우위 획득 

    13.3 데이터 과학으로 경쟁 우위 유지 

    13.4 데이터 과학자 및 팀의 영입과 육성 

    13.5 데이터 과학 사례 연구 조사 

    13.6 모든 창조적인 아이디어의 수용 

    13.7 데이터 과학 프로젝트 제안서 평가 

    13.8 기업의 데이터 과학 성숙도 


14장. 결론

    14.1 데이터 과학의 기본 개념 

    14.2 데이터가 할 수 없는 일 : 사람이 중심에 

    14.3 개인 정보 보호, 윤리, 데이터 마이닝 

    14.4 데이터 과학에 대한 남은 이야기 

    14.5 마지막 사례 : 크라우드 소싱에서 클라우드 소싱으로 

    14.6 책을 마치며 


부록 A.1 제안서 검토 가이드

부록 A.2 또 다른 제안서 예제

부록 A.3 용어 정리 

 

내용면으로 봐서는 너무나 이책은 자세하다. 용어 하나하나에 대한 정의와 설명이 세세하게 잘 되어있다. 마치 용어사전을 보는 것 같이 정의와 쓰임세들이 잘 나와있다.


이 책에서 아쉬운 점이 하나 더 있다. 처음부터 끝까지 약간 딱딱한 느낌이 든다. 많은 수식과 모델링 

개념들 그리고 다양한 유사도 비교를 포함한 알고리즘들에 대해선 설명이 잘 되어있다. 하지만 이런 

개념들로만 끝나있다. 실제 약간의 소스들을 이용한 구현부분이나 활용된 사례들이 좀 들어가 있다면 

보기 좋지 않을까라는 생각이 든다. 


아!! 그리고 처음부터 끝까지 흑백이다. 조금 컬러풀하게 나와도 되는 부분에서도 흑백이라서 눈은 

즐겁지 못하다.

하지만 이 책은 데이터 분석 개념서로써 많은 마이닝 알고리즘들에 대해서 다루지는 못했지만 각각의 

기본 개념 설명은 아주 충실하다. 표과 설명을 위한 그림도 충실히 들어가 있기 때문에 어느정도 데이터 

분석에 대한 기본 개념이 있는 사람이라면 한번쯤 읽어봐도 좋을꺼 같다. 



서평을 마치고..

위에서 언급했던 이 책의 장점과 단점을 나열하자면 아래와 같다.


[장점]

- 용어 하나하나에 대한 정의와 설명이 세세하게 잘 되어있다. 마치 용어사전을 보는 것 

  같이 정의와 쓰임세들이 잘 나와있다.


- 데이터 분석 개념서로써 많은 마이닝 알고리즘들에 대해서 다루지는 못했지만 각각의 

  기본 개념 설명은 아주 충실하다.


- 표과 설명을 위한 그림도 충실히 들어가 있기 때문에 어느정도 데이터 분석에 대한 기본

   개념이 있는 사람이라면 한번쯤 읽어봐도 좋을꺼 같다.



[단점]

- 각 목차들이 연관성이 조금 떨어지게 배치되어 데이터 분석을 처음 접하는 사람에게는 

   전체적으로 이해가 어려울 수 있다.


- 조금 컬러풀하게 나와도 되는 부분에서도 흑백이라서 눈은 즐겁지 못하다. 게다가 수식이 

   많아서 그런지 조금 지루하고 딱딱하게 느낄수 있다. 



이로써 이책의 리뷰를 마치고자 한다. 필자는 보안전공이다. 하지만 데이터 분석이라는 분야는 

데이터를 항상 다루고 접하는 모든 연구원들이라면 알아두어야 하는 내용이라 생각한다. 

그런 의미에서 막 데이터 분석 공부에 빠진 사람들에게 이 책은 자신의 지식을 좀더 촘촘히

다듬어서 빈틈이 없게 만들어줄 마감재 역할을 해줄 것이라 생각한다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0

한줄평 (3건) 한줄평 총점 10.0

혜택 및 유의사항 ?
평점5점
지하철 오가며 볼만한 책!
이 한줄평이 도움이 되었나요? 공감 0
YES마니아 : 플래티넘 s******8 | 2017.05.05
평점5점
데이터를 분석하기 위해 어떤 것을 해야 하는지 잘 나와있는 책
이 한줄평이 도움이 되었나요? 공감 0
나***줘 | 2016.05.26
평점5점
데이터 과학의 기본개념과 연관 용어를 알고 싶다면 손색이 없는 책이다.
이 한줄평이 도움이 되었나요? 공감 0
YES마니아 : 로얄 진***학 | 2015.06.20
  • 절판 상태입니다.
뒤로 앞으로 맨위로 aniAlarm