확장메뉴
주요메뉴


닫기
사이즈 비교
소득공제
비즈니스를 위한 데이터 과학

비즈니스를 위한 데이터 과학

: 빅데이터를 바라보는 데이터 마이닝과 분석적 사고

리뷰 총점8.3 리뷰 6건
베스트
IT 모바일 top100 16주
정가
28,000
판매가
25,200 (10% 할인)
구매 시 참고사항
eBook이 출간되면 알려드립니다. eBook 출간 알림 신청
분철서비스 시작 시 알려드립니다. 분철서비스 알림신청

품목정보

품목정보
발행일 2014년 07월 30일
쪽수, 무게, 크기 419쪽 | 751g | 183*235*18mm
ISBN13 9788968481093
ISBN10 8968481091

이 상품의 태그

그릿 (50만 부 판매 기념 리커버 골드에디션)

그릿 (50만 부 판매 기념 리커버 골드에디션)

16,200 (10%)

'그릿 (50만 부 판매 기념 리커버 골드에디션)' 상세페이지 이동

팩트풀니스

팩트풀니스

17,820 (10%)

'팩트풀니스' 상세페이지 이동

딥 워크

딥 워크

15,300 (10%)

'딥 워크' 상세페이지 이동

혼자 공부하는 머신러닝+딥러닝

혼자 공부하는 머신러닝+딥러닝

23,400 (10%)

'혼자 공부하는 머신러닝+딥러닝' 상세페이지 이동

떨림과 울림

떨림과 울림

13,500 (10%)

'떨림과 울림' 상세페이지 이동

Clean Code 클린 코드

Clean Code 클린 코드

29,700 (10%)

'Clean Code 클린 코드' 상세페이지 이동

나는 4시간만 일한다

나는 4시간만 일한다

15,120 (10%)

'나는 4시간만 일한다' 상세페이지 이동

클린 아키텍처

클린 아키텍처

26,100 (10%)

'클린 아키텍처' 상세페이지 이동

지금 이 순간을 살아라

지금 이 순간을 살아라

11,250 (10%)

'지금 이 순간을 살아라' 상세페이지 이동

다산선생 지식경영법

다산선생 지식경영법

25,200 (10%)

'다산선생 지식경영법' 상세페이지 이동

객체지향의 사실과 오해

객체지향의 사실과 오해

18,000 (10%)

'객체지향의 사실과 오해' 상세페이지 이동

이펙티브 자바 Effective Java 3/E

이펙티브 자바 Effective Java 3/E

32,400 (10%)

'이펙티브 자바 Effective Java 3/E' 상세페이지 이동

밑바닥부터 시작하는 딥러닝

밑바닥부터 시작하는 딥러닝

21,600 (10%)

'밑바닥부터 시작하는 딥러닝 ' 상세페이지 이동

한 권으로 읽는 컴퓨터 구조와 프로그래밍

한 권으로 읽는 컴퓨터 구조와 프로그래밍

31,500 (10%)

'한 권으로 읽는 컴퓨터 구조와 프로그래밍' 상세페이지 이동

HTTP 완벽 가이드

HTTP 완벽 가이드

35,100 (10%)

'HTTP 완벽 가이드' 상세페이지 이동

리팩터링 2판

리팩터링 2판

31,500 (10%)

'리팩터링 2판' 상세페이지 이동

구글 엔지니어는 이렇게 일한다

구글 엔지니어는 이렇게 일한다

40,500 (10%)

'구글 엔지니어는 이렇게 일한다' 상세페이지 이동

인공지능 쫌 아는 10대

인공지능 쫌 아는 10대

11,700 (10%)

'인공지능 쫌 아는 10대' 상세페이지 이동

최소한의 선의

최소한의 선의

13,500 (10%)

'최소한의 선의' 상세페이지 이동

개발자의 글쓰기

개발자의 글쓰기

16,200 (10%)

'개발자의 글쓰기' 상세페이지 이동

책소개 책소개 보이기/감추기

목차 목차 보이기/감추기

1장. 개요 : 데이터 분석적 사고 방식
__1.1 데이터가 제공하는 무한한 기회
__1.2 예 : 허리케인 프란시스
__1.3 예제 : 고객 이탈 예측
__1.4 데이터 과학, 데이터 공학, 데이터 주도 의사 결정
__1.5 데이터 처리와 ‘빅 데이터’
__1.6 빅 데이터 1.0에서 빅 데이터 2.0으로
__1.7 전략적 자산으로서의 데이터 및 데이터 과학 능력
__1.8 데이터 분석적 사고
__1.9 이 책에 대하여
__1.10 다시 보는 데이터 마이닝과 데이터 과학
__1.11 데이터 과학과 데이터 과학자의 일은 화학과 시험관의 관계
__1.12 요약

2장 비즈니스 문제와 데이터 과학 해결책
__2.1 비즈니스 문제에서 시작해 데이터 마이닝 작업으로
__2.2 감독 방법과 자율 방법
__2.3 데이터 마이닝과 그 결과
__2.4 데이터 마이닝 프로세스
__2.5 데이터 과학팀을 관리한다는 것은?
__2.6 그 외 분석 기법 및 기술
__2.7 요약

3장. 예측 모델링 개요 : 연관성에서 감독 세분화까지
__3.1 모델, 유도, 예측
__3.2 감독 세분화
__3.3 세분화 과정의 시각화
__3.4 규칙 집합으로서의 트리
__3.5 확률 추정
__3.6 사례 : 트리 유도로 고객 이탈 문제 해결하기
__3.7 요약

4장. 데이터에 대한 모델 적합화
__4.1 수학 함수를 통한 분류
__4.2 수학 함수를 이용한 회귀 분석
__4.3 계층 확률 추정과 로지스틱 회귀 분석
__4.4 사례 : 로지스틱 회귀 분석과 트리 유도 비교
__4.5 비선형 함수, 지원 벡터 기계, 신경망
__4.6 요약

5장. 과적합화 문제 해결
__5.1 일반화
__5.2 과적합화
__5.3 과적합화 검사
__5.4 사례 : 선형 함수 과적합화
__5.5 * 사례 : 왜 과적합화가 문제인가?
__5.6 예비 데이터 평가에서 교차 검증까지
__5.7 다시 모델링한 고객 이탈 문제
__5.8 학습 곡선
__5.9 과적합화 회피와 복잡도 제어
__5.10 요약

6장. 유사도, 이웃, 군집
__6.1 유사도와 거리
__6.2 최근접 이웃 추론
__6.3 유사도 및 이웃에 관한 주요 세부 사항
__6.4 군집화
__6.5 비즈니스 문제 해결과 데이터 탐사 문제
__6.6 요약

7장. 결정 분석적 사고 1 : 좋은 모델은?
__7.1 분류자 평가
__7.2 모델 평가에 대한 일반적인 원리
__7.3 핵심 분석 프레임워크 : 기댓값
__7.4 평가, 기준선 성능, 데이터 투자의 영향
__7.5 요약

8장. 모델 성능 시각화
__8.1 분류 대신 서열화하기
__8.2 수익 곡선
__8.3 ROC 그래프와 곡선
__8.4 ROC 곡선 하위 영역(AUC)
__8.5 누적 응답 곡선과 향상도 곡선
__8.6 예제 : 고객 이탈 모델링에 대한 성능 분석
__8.7 요약

9장. 증거와 확률
__9.1 예제 : 온라인 고객 광고 타겟팅
__9.2 증거의 통계적 조합
__9.3 데이터 과학에 베이즈 규칙 응용
__9.4 증거 ‘향상도’ 모델
__9.5 예제 : 페이스북 ‘좋아요’의 증거 향상도
__9.6 요약

10장. 텍스트 표현 및 마이닝
__10.1 텍스트가 중요한 이유
__10.2 텍스트가 어려운 이유
__10.3 텍스트 표현법
__10.4 예제 : 재즈 음악가
__10.5 * IDF와 엔트로피의 관계
__10.6 단어 주머니보다 복잡한 표현들
__10.7 예제 : 주가 변동을 예측하기 위한 뉴스 기사 마이닝
__10.8 요약

11장. 결정 분석적 사고 2 : 분석 공학
__11.1 자선 단체 후원할 가능성이 높은 후원자 타겟팅
__11.2 훨씬 더 복잡한 고객 이탈 문제
__11.3 요약

12장. 기타 데이터 과학 작업과 기법
__12.1 동시 발생과 연관성의 발견
__12.2 프로파일링 : 전형적인 행동의 발견
__12.3 연결 예측과 친구 추천
__12.4 데이터 축소, 잠재 정보, 영화 추천
__12.5 편중, 편차, 조합 기법
__12.6 데이터 주도 인과 관계 설명과 바이럴 마케팅 예제
__12.7 요약

13장. 데이터 과학과 비즈니스 전략
__13.1 돌아온 데이터 분석적 사고
__13.2 데이터 과학으로 경쟁 우위 획득
__13.3 데이터 과학으로 경쟁 우위 유지
__13.4 데이터 과학자 및 팀의 영입과 육성
__13.5 데이터 과학 사례 연구 조사
__13.6 모든 창조적인 아이디어의 수용
__13.7 데이터 과학 프로젝트 제안서 평가
__13.8 기업의 데이터 과학 성숙도

14장. 결론
__14.1 데이터 과학의 기본 개념
__14.2 데이터가 할 수 없는 일 : 사람이 중심에
__14.3 개인 정보 보호, 윤리, 데이터 마이닝
__14.4 데이터 과학에 대한 남은 이야기
__14.5 마지막 사례 : 크라우드 소싱에서 클라우드 소싱으로
__14.6 책을 마치며

부록 A.1 제안서 검토 가이드
부록 A.2 또 다른 제안서 예제
부록 A.3 용어 정리

저자 소개 관련자료 보이기/감추기

저 자 소 개
포스터 프로보스트(Foster Provost)
뉴욕대 스턴 비즈니스 스쿨의 NEC 교수로서 비즈니스 분석학, 데이터 과학, MBA 프로그램을 강의하고 있으며, 다양한 수상 경력에 빛나는 연구 업적은 여러 곳에서 인용되고 있다. 뉴욕대에 오기 전에는 버라이즌에서 데이터 과학 연구원으로 근무했으며, 지난 10여 년간 여러 성공적인 데이터 과학 전문 기업들을 공동 설립했다.

톰 포셋 (Tom Fawcett)
기계 학습으로 박사 학위를 받았으며 GTE, NYNEX/Verizon, HP 등 기업의 연구소에서 근무해왔다. 포셋 박사는 데이터 마이닝 결과 평가 등의 데이터 과학 기법, 사기 사건 탐지 및 스팸 필터링 등 데이터 과학 응용에 대한 논문들을 발표했으며, 이 논문들은 데이터 과학 분야의 필수 논문이 되었다.
역자 : 강권학
중앙대학교 컴퓨터공학과에서 학사와 석사 학위를 받았다. 국방과학연구소, 퓨쳐시스템, 안철수연구소에서 13년간 개발자, 보안전문가, 프로젝트 관리자로 근무했으며, 2009년 4월 호주 멜번에 iGonagi Pty. Ltd.를 설립하고 아이폰 앱을 개발 중이다. 『만들면서 배우는 아이폰 게임 프로그래밍』을 공동으로 저술했고, 『Head First iPhone Development』, 『Head First Programming』, 『Head First Python』, 『iPhone Programming 제대로 배우기』, 『iPhone 3D Programming: using OpenGL ES』(이상 한빛미디어)를 번역했다.

출판사 리뷰 출판사 리뷰 보이기/감추기

왜 이 책을 읽어야 할까?
데이터 과학을 직접 응용할 일이 없더라도 데이터 과학을 이해하는 일은 매우 중요하다. 데이터 분석적 사고 방식에 익숙해지면 데이터 마이닝 프로젝트를 평가하는 데 도움이 된다. 예를 들어 어떤 컨설턴트나 잠재적인 투자자가 데이터에서 지식을 추출하는 업무를 개선하고자 제안할 경우, 제안서를 체계적으로 평가함으로써 제안이 과연 타당한지, 아니면 문제가 있는지를 판단할 수 있다. 그렇다고 해서 프로젝트가 성공한다고는 확신할 수 없지만(데이터 마이닝 프로젝트는 실제로 시도해봐야 결과를 알 수 있는 경우가 많다) 적어도 제안서에 있는 결함이나 비현실적 가정, 빠진(놓치는) 부분은 알아낼 수 있다.

데이터 과학에 대한 이 책의 개념적 접근 방법
이 책에서는 데이터 과학에서 가장 중요한 기본 개념을 설명한다. 이 개념의 일부는 각 장의 ‘제목’이 되기도 하고 다른 일부는 설명을 통해 자연스럽게 소개된다(설명에 들어 있는 개념은 기본 개념이라고 표시되어 있지 않다). 이 개념들은 문제에 대한 계획을 세우는 일부터 데이터 과학 기법을 적용하고 더 나은 의사 결정을 하기 위해 결과를 배치하는 과정까지 폭 넓게 적용될 뿐만 아니라 다양한 비즈니스 분석 방법론 및 기법의 기반이 되기도 한다.

대상 독자
-. 데이터 과학자와 함께 일을 하거나 데이터 과학 중심의 프로젝트를 관리하는 사람들
-. 데이터 과학 벤처 기업에 투자하려는 기업가
-. 데이터 과학 프로젝트를 구현하려는 개발자
-. 데이터 과학자를 지망하는 사람

이 책으로 가르치는 분들께
“이 책은 매우 다양한 데이터 과학 과정 교재로 훌륭히 사용되어 왔습니다. 초기에 이 책은 포스터 교수가 2005년 가을 뉴욕대 스턴 스쿨에서 여러 과의 주제를 종합해 가르치기 위해 만든 교재에서 시작되었습니다*. 원래 강의는 MBA와 MSIS 학생을 대상으로 했지만, 대학의 다른 학과의 학생들이 많이 몰려와 원래 이 강의 대상이었던 MBA 및 MSIS 학생들뿐만 아니라 기계 학습 등에서 든든한 기반이 있는 학생들에게도 특히 유용했다는 점이 이채롭습니다. 아마도 그들의 교과 과정에서는 알고리즘 이외에 근본적인 원리에 대해 주목하지 않았기 때문일 것 같습니다.
뉴욕대에서는 현재 이 책을 데이터 과학에 관련된 다양한 강의에서 교재로 사용하고 있습니다. 원래의 MBA 및 MSIS 과정은 물론이고, 학부 비즈니스 분석학, 뉴욕대 스턴 스쿨의 비즈니스 분석학 석사 과정, 뉴욕대에 신설된 데이터 과학 석사과정을 위한 데이터 과학 입문 교재로 사용되고 있습니다. 게다가 이 책이 출판되기도 전에 이미 7개국 10여 개 대학의 경영대, 컴퓨터 과학과 및 데이터 과학에 대한 입문 일반 과정에서 이 책을 교재로 채택해 사용해 왔습니다.”

추천평 추천평 보이기/감추기

“빅데이터가 제공하는 기회를 잡으려는 모든 사람이 꼭 읽어야 할 책”
- 크레이그 본
SAP 글로벌 부사장

“결국 현대 사회에서 데이터는 비즈니스며, 데이터를 생각하지 않고는 더 이상 비즈니스를 생각할 수 없습니다. 이 책은 이 점을 명확히 설명하고 있습니다. 필요한 시기에 나와준 이 책을 통해 데이터를 과학적으로 생각하는 방법에 대해 이해하게 되리라 생각합니다.”
- 론 베커먼
카멜 벤처(Carmel Ventures) 데이터 총괄 이사

“데이터 과학자를 관리하거나 함께 작업하는, 기술적인 내용에 파묻히지 않고 데이터 과학에 대한 주요 내용과 알고리즘을 더 쉽게 이해하려는 비즈니스 관리자에게 최고의 책입니다.”
- 로니 코하비
마이크로소프트 온라인 서비스 부문 공동 아키텍트

“저자 프로보스트와 포셋은 실세계에서 적용하고 있는 데이터 분석 기술에 정통하며, 이 분야에서 누구도 따라올 수 없을 만큼 잘 요약해 설명하고 있습니다.”
- 지오프 웹
Data Mining and Knowledge Discovery지 수석 편집자

“나와 함께 일하는 모든 사람이 이 책을 읽었으면 좋겠습니다.”
- 클로디아 펄릭
M6D(Media6Degrees) 수석 과학자
2013년 Advertising Research Foundation 혁신 대상 입상자

“빠르게 발전해가는 데이터 과학 분야의 기초, 빅데이터 혁명에 관심 있는 사람들의 필독서”
- 저스틴 개퍼
Teledyne Scientific and Imaging 비즈니스 부문 분석 관리자

“두 저자는 모두 데이터 과학이라는 이름이 존재하기도 전부터 잘 알려져 있었으며, 복잡한 주제를 모든 사람들이 이해할 수 있게 설명하고 있습니다. 특히 데이터 과학에 입문하는 사람들에게 도움이 될 것입니다. 내가 알기로 비즈니스 문제에 데이터 과학 문제를 적용하는 데 중점을 두고 있는 책은 이 책이 최초입니다. 이 책은 고객 이탈, 타겟 마케팅, 심지어 위스키 분석처럼 실제 비즈니스에서 발생하는 익숙한 문제를 여러 곳에서 예제로 다룹니다.
이 책은 알고리즘을 나열하기보다는 데이터 과학에 깔려 있는 개념을 독자가 잘 이해할 수 있게 해주며, 무엇보다도 문제를 해결하기 위해 어떻게 접근해 성공적으로 해결하는지에 대한 방법을 알려줍니다. 데이터 과학에 대한 좋은 입문서를 찾거나 데이터 과학자를 지망하는 독자를 위한 필독서입니다.”
- 크리스 볼린스키
AT&T 연구소 통계 연구부장, 넷플릭스 백만 불 도전 우승팀원

“이 책은 단순한 데이터 분석학 입문서가 아닙니다. 이 책은 세상에 널린 데이터를 이용해 비즈니스를 하고 있는 사람들, 즉 우리 모두를 위한 핵심적인 안내서며 데이터에 기반해 의사 결정을 하기 위한 필독서입니다.”
- 톰 필립스
Media6Degrees CEO, 전 구글 검색 및 웹로그 분석팀장

“데이터를 현명하게 사용하면 비즈니스 경쟁력을 새로운 차원으로 끌어올릴 수 있습니다. 데이터가 주도하는 환경에서 성공하려면 엔지니어, 분석가, 관리자 모두 자신 앞에 놓여 있는 선택 사항, 설계 결정 사항, 장단점을 반드시 이해하고 있어야 합니다. 『비즈니스를 위한 데이터 과학』은 흥미로운 예제, 명확한 설명, ‘방법’뿐만 아니라 ‘이유’도 자세하고 폭넓게 설명하고 있으므로, 데이터 주도 시스템을 개발하고 응용하는 업무를 수행하려는 모든 사람에게 완벽한 입문서입니다.”
- 조쉬 애텐버그
Etsy 데이터 과학팀장

“생산성 향상, 혁신, 고객에 대한 이해 증대의 기반에 데이터가 있습니다. 최근에서야 기업 간 경쟁에서 우위를 선점하기 위해서는 데이터를 잘 다뤄야 비즈니스를 유지할 수 있다는 인식이 급속히 퍼져나가고 있습니다. 저자의 깊이 있는 경험이 녹아 있는 이 책은 비즈니스 경쟁력 향상을 위해 반드시 읽어야 할 필독서입니다.”
- 앨런 머레이
다수의 스타트업 투자자, Coriolis Ventures 공동 투자자

“외환 거래를 하고 있는 나는 유동성 분석하는 데 있어서 이 책으로부터 많은 아이디어를 얻었습니다. 데이터 마이닝에 대한 최고의 책입니다. 훌륭한 예제를 통해 데이터 과학에 대해 깊이 있게 이해할 수 있게 되었습니다. 이 책은 내 서재에 평생 놓여 있을 겁니다.”
- 니디 카수리아
스코틀랜드 왕립 은행 FX 부사장

회원리뷰 (6건) 리뷰 총점8.3

혜택 및 유의사항?
데이터를 곧 비즈니스다 내용 평점4점   편집/디자인 평점5점 YES마니아 : 로얄 진***학 | 2015.06.20 | 추천0 | 댓글0 리뷰제목
사회적 관심이 집중되고 있는 빅데이터 및 데이터 마이닝. 이 책은 데이터 과학의 기본 개념과 중요성에 대해 설명하고 다양한 예들을 보고주고 있다. 마이닝 알고리즘과 용어의 정의 및 쓰임세에 대해 쉬고 논리정연하게 설명하고 있다. 하지만 전문적 지식을 요하는 내용들도 많아 초보자들이 이해하기에는 다소 어려움이 있을 것 같다.;
리뷰제목

사회적 관심이 집중되고 있는 빅데이터 및 데이터 마이닝. 이 책은 데이터 과학의 기본 개념과 중요성에 대해 설명하고 다양한 예들을 보고주고 있다. 마이닝 알고리즘과 용어의 정의 및 쓰임세에 대해 쉬고 논리정연하게 설명하고 있다. 하지만 전문적 지식을 요하는 내용들도 많아 초보자들이 이해하기에는 다소 어려움이 있을 것 같다.

이 리뷰가 도움이 되었나요? 공감 0 댓글 0
비즈니스를 위한 데이터 과학 : 빅데이터를 바라보는 데이터 마이닝과 분석적 사고 - 한빛미디어 내용 평점5점   편집/디자인 평점4점 h****m | 2014.07.27 | 추천0 | 댓글0 리뷰제목
    데이터 마이닝을 위한 데이터 과학을 재미있게(?) 설명한 책으로 대학 교재로 활용해도 괜찮을 것 같은 생각이 든다. 지금까지 데이터 마이닝 도구 및 기법에 대해서만 배웠지 그 기본 원리(근간)이 되는 데이터 과학에 대해서 배운적은 없은 것 같다. (원리도 모르면서 툴만 사용한 것이 조금은 부끄럽네요..ㅠㅠ) 제목 그대로 비즈니스를 위한 데이터이 과학이기 때;
리뷰제목

 

 

데이터 마이닝을 위한 데이터 과학을 재미있게(?) 설명한 책으로 대학 교재로 활용해도 괜찮을 것 같은 생각이 든다.

지금까지 데이터 마이닝 도구 및 기법에 대해서만 배웠지 그 기본 원리(근간)이 되는 데이터 과학에 대해서 배운적은 없은 것 같다. (원리도 모르면서 툴만 사용한 것이 조금은 부끄럽네요..ㅠㅠ)

제목 그대로 비즈니스를 위한 데이터이 과학이기 때문에 알고리즘 설명이나 어려운 수학은 자제하고 있으며 그림과 설명을 곁들여 설명하고 있다.

 

저자는 서문에서 이 책을 읽을 대상을 지정해주고 있다.

 

 

 

그리고 데이터 과학에 대한 이 책의 3가지 개념적 접근 방법을 소개해주고 있다. (이런 내용 및 개념을 다루고 있다고 생각하면 된다.)

 

. 데이터 과학을 기업 조직에 결합하는 방법에 대한 개념

 - 데이터 과학팀을 모집, 조직, 육성하는 방법이 포함된다.

 - 데이터 과학이 경쟁력을 향상시키도록 생각하는 방법이 포함된다.

 - 데이터 과학 프로젝트를 성공적으로 수행하기 위한 전략적 개념이 포함된다.

2. 데이터 분석적으로 사고하는 일반적인 방법

 - 이 개념을 갖고 있으면 적절한 데이터를 찾아내 적절한 방법을 적용하는 데 도움이 된다.

 - 여러 상위 수준의 데이터 작업과 '데이터 마이닝 프로세스'가 이에 포함된다.

3. 실제로 데이터에서 지식을 추출하는 일반적인 개념

 - 방대한 데이터 과학 작업 및 작업에 사용하는 알고리즘의 기반이 된다. 

 

이 책을 읽은 독자들이 아래와 같은 평가를 한게 눈에 띈다.

데이터 과학에 입문하는 사람들에게 도움이 될 것이며, 비즈니스 문제에 데이터 과학 문제를 적용하는데 중점을 두었고, 고객 이탈, 타겟 마켓팅, 위스키 분석처럼 실제 비즈니스에서 발생하는 익숙한 문제를 여러 곳에서 예제로 다뤘다. 알고리즘을 나열하기보다는 데이터 과학에 깔려 있는 개념을 독자가 자 이해할 수 있으며, 문제 해결 방법을 알려준다.

데이터를 현명하게 사용하면 비즈니스 경쟁력을 새로운 차원으로 끌어올릴 수 있으며, 데이터가 주도하는 환경에서 성공하려면 엔지니어, 분석가, 관리자 모두 자신 앞에 놓여 있는 선택사항, 설계 결정 사항, 장단점을 반드시 이해하고 있어야 한다. 흥미로운 예제, 명확한 설명, '방법'뿐만 아니라 '이유'도 자세하고 폭넓게 설명하고 있으므로, 데이터 주도 시스템을 개발하고 응용하는 업무를 수행하려는 사람에게 완벽한 입문서이다. 

이 책의 초반부는 개념 및 예제, 비즈니스 측면에서 풀어나갔으며, 중반부는 모델, 과적합, 유사도, 군집, 이웃, 시각화, 증거, 확률, 마이닝 등 데이터 분석 기법 설명한다. 후반부에는 비즈니스 전략 및 결론으로 끝을 맺는다. 챕터별 새부 내용을 나름대로 정리한 내용은 아래와 같다. 

 

1. 개요: 데어터 분석적 사고 방식

 - 데이터의 제공하는 기회를 데이터 주도 의사 결정을 축으로 분석 활용하면 어떤 이익이 있는지 설명한다. (데이터 마이닝과 데이터 과학의 차이점 포함)

 

2. 비즈니스 문제와 데이터 과학 해결책

 - 데이터 마이닝의 프로세스 (비즈니스이해->데이터이해->데이터준비->모델링->평가->배치)와 분석 기법 및 기술 (통계학, 데이터베이스 쿼리, 데이터 웨어하우스, 회귀분석, 기계학습과 데이터마이닝)

 

3. 예측 모델 개요 : 연관성에서 감독 세분화

 - 모델 유도(예측)을 기반으로 감독 세분화 및 시각화 과정 설명

 

4. 데이터에 대한 모델 적합화

 - 회귀분석 및 선형/비선형 함수, 벡터 기계 설명

 

5. 과적합화 문제 해결

 - 일반화(Generalization)와 과적합화(Overfitting) : 데이터 마이닝은 모델 복잡도와 과적합화 문제간의 싸움 (균일화(Regularization)를 통해 모델 복잡도 통제)

 

6. 유사도, 이웃, 군집

 - 비슷한 항목을 찾아내는 일, 예측 모델링, 개체 군집화을 통해 유사도 사용 방법 설명, 유사도 및 거리 계산 방법, 최근접 이웃법 계열의 방법 설명

 

7. 결정 분석적 사고 1 : 좋은 모델은?

 - 모델의 적절한 평가 척도 고안이 필요하며, 기댓값은 좋은 틀을 제공한다.

 

8. 모델 성능 시각화

 - 모델의 평가 결과를 시각화하는 것은 평가 업무에서 매우 중요한 부분이며, 훈련 데이터 및 표본을 이용해 결과를 예측해야 한다. (수익 곡선 및 수신자 운용 특성 곡선 등은 중요한 시각화 도구이다.)

 

9. 증거와 확률

 - '각 타겟이 특정값을 어떻게 생성하는가?'라는 질문을 통해 새로운 기법 설명 (생성기법(Generative Method), 베이지안 기법(Bayesian Method)

 

10. 텍스트 표현 및 마이닝

 - 텍스트를 특정 벡터로 변환하는 방법 설명 ( 각 문서를 개별적인 단어로 분할하거나 TFIDF 공식을 이용해 각 단어에 값을 할당하는 방법)

 

11. 결정 분석적 사고 2 : 분석 공학

 - 문제에 대해 데이터를 분석적으로 장려함으로써 데이터 마이닝의 역할을 명확히 하고 비즈니스 제약, 비용, 효과를 고려ㅏ며, 문제를 단순화하기 위한 가정을 명확히 표현하는 것

 

12. 기타 데이터 과학 작업 과 기법

 - 항목드의 동시 발생 또는 연관성 찾아내기 : 상품 구매

 - 전형적인 행위의 프로파일링 : 신용카드 사용량이나 고객 대기 시간

 - 데이터 항목 간의 연결 예측 : 사람들 간의 소셜 네트워크에서의 연결

 - 데이터를 관리하기 쉽게 만들거나 데이터에서 숨은 정보를 찾아내기 위해 축소 : 잠재적인 영화 선호도

 - 모델을 하나의 전문가로 생각하고 모델을 조합하기 : 영화 추천 모델 개선

 - 데이터 간의 인과 관계 도출 : 소셜 네트워크에 연결된 사람들이 동일한 상품을 구입하는 이유

 

13. 데이터 과학과 비즈니스 전략

 - 데이터 과학은 운용도 아니고 공학도 아니다.

 

14. 결론

 - '명확히 설명할 수 없다면 그것을 제대로 알고 있는 것이 아니다.' (알버트 아인슈타인)

 

 

 

일반적인 개발자를 대상으로 작성된 책이 아니기 때문에 책의 중간적인 부분은 상당히 어려울 수도 있다. (그래서 조금 더 흥미를 잃지 않기 위해 1~2장을 읽고 11~14장을 읽은 후에 관심이 가는 장부터 이리저리 읽는 방식을 취했다.) 하지만 데이터베이스를 설계하는 개발자나 데이터를 설계하는 기획자(개발자)는 꼭 읽어보기를 권한다. (데이터를 바라보는 관점을 비즈니스에 초점을 맞췄기 때문이다.)

 

자매품으로 '데이터 시각화를 위한 데이터 인사이트 : 빅데이터를 바라보는 통찰의 눈'도 추천한다.

 

이 리뷰가 도움이 되었나요? 공감 0 댓글 0
비즈니스 활용 사례로 배우는 데이터 분석 : R 내용 평점4점   편집/디자인 평점4점 i*******m | 2015.12.07 | 추천0 | 댓글0 리뷰제목
데이터 분석 : R [표지가 말해주는 것 처럼, R 을 사용한 데이터 분석에 대한 책이다. 이론적인 접근 보다는 실용적인 분석 위주로 설명하고 있다]이 번 서평은 개인적인 관심이 있는 분야인 데이터 분석에 관한 책으로 선택했다. 현실 세계에서 데이터로 분석할 만한 것은 생각보다 많다. 매일 먹는 음식의 양, 영양소의 종류, 하루 중 사용하는 시간의 분류, 매일 걷는 거리와 시간,;
리뷰제목

데이터 분석 : R

[표지가 말해주는 것 처럼, R 을 사용한 데이터 분석에 대한 책이다. 이론적인 접근 보다는 실용적인 분석 위주로 설명하고 있다]



이 번 서평은 개인적인 관심이 있는 분야인 데이터 분석에 관한 책으로 선택했다. 현실 세계에서 데이터로 분석할 만한 것은 생각보다 많다. 매일 먹는 음식의 양, 영양소의 종류, 하루 중 사용하는 시간의 분류, 매일 걷는 거리와 시간, 출퇴근에 사용하는 시간 등, 찾으려고 한다면 개인의 삶과 업무에서 많은 부분이 데이터로 표현될 수 있고 분석될 자료가 된다.


이렇게 수집한 데이터를 알맞은 분석 방법을 통해 이전에는 알 수 없었던 가치를 찾아내는 것이 데이터 과학에서 다루어지는 작업이다.


책은 크게 두 부분으로 이루어 진다. 1,2 장의 데이터 과학에 대해 소개하고 일반적인 작업의 흐름을 소개하는 부분, 그리고 3~10 장에 걸친 사례 중심으로 알아보는 데이터 과학의 사용 예를 소개하는 부분이다.


참고로, 이 책은 R 을 기초로 한 데이터 분석 사례를 제공한다. 하지만, 데이터 분석에 쓰인 코드에 대한 설명 보다는 사례에 설명한 방법이 적용되는 과정과 이유에 대한 설명이 더 많은 편이다. 이런 설명 덕분에, 데이터 분석에 대한 사전 지식이나 R 에 대한 지식이 부족하더라도 충분히 따라가면서 읽을 수 있었다.


책에서는 R 의 설치도 설명하고 있지만 윈도우 기반이다. linux 기반에서 작업하는 분들은 각 배포판에 맞게 인스톨을 해주면 된다. ubuntu 기반에서 R 설치와 책에서 사용하는 packages 를 설치하기 위한 참조 링크는 아래와 같다. 윈도우 기반이라면 책에서 설명한 것을 그대로 따라가면 된다.


우분투에서 R 설치하기

R 에서 패키지 설치하기



R 설치 작업이 다 끝났다면, 책의 예제를 따라 실습할 환경이 다 구축된 것이다. 책의 소스는 홈페이지에서 다운 받을 수 있다. (소스링크)


책을 읽으면서 재미있어 보였던 사례 중 하나를 실습해 볼까 한다.


6 장은 인터넷과 매스미디어라는 두 개의 매체에 어떻게 하면 효율적으로 광고를 할 것인지가 목적이다. 책에서 사용한 분석에 필요한 데이터는 월별 TV 광고비와 잡지 광고비, 그리고 신규 유저수이다. 이 데이터를 바탕으로 중회귀분석을 적용, 의미있는 값을 찾아내 적용하는게 최종 결론이다.


자세한 내용은 생략하고, 책을 토대로 작업해본 내용은 아래와 같다.



먼저 다운받은 압축파일을 풀면, 위와 같은 실습 스크립트가 포함되어 있다. 간단한 주석과 실제 동작하는 코드 덕분에 작업을 수월하게 해준다.



TV 광고비 부분만 작업을 수행해 본 결과이다. 참고로, 실습파일에 들어있는 csv 파일의 데이터가 잘못 되어있다. R 에서 데 이터를 읽어서 확인해보면 tvcm 과 magazine 의 데이터가 책에 나온 것과는 다르다는 것을 알 수 있다. 정확히 끝에 0 이 하나가 없다. 혹시나해서 원본 csv 파일을 열어서 확인해봤지만 파일이 만들어질때부터 잘못 들어간 듯 하다. 나의 경우엔 csv 파일을 수정 후 데이터를 로드시켰다.


잡지 광고비까지 산점도를 그려준 후, 회귀분석을 수행하면 아래와 같은 결과가 나온다.



사실, 여기까지 실습하는건 그리 어렵지 않다. 어려운 것은 데이터를 분석할 상황에 적용할 방법을 찾고 실제 동작하도록 하는 것, 그리고 결과가 옳게 나왔는지 분석하는 것이라고 생각한다.


다행스럽게도, 이 책은 그러한 부분에 대해서 친절히 설명해주고 있다. 위의 결과값에 대해서도 각 항목이 가지는 의미와 설명을 추가함으로 독자들의 이해를 돕고 있다.



총평


통계학이나 R 에 대한 기초가 있었다면 더 재미있게 읽었을 테지만, 그런 기초가 부족한 사람이더라도 데이터 과학에 관심있는 사람들이 충분히 즐겁게 읽을 수 있게 구성된 책이라는데 좋은 점수를 주고 싶다.


실습에 필요한 파일 중에 책과 다른 데이터가 있기는 하지만, 작업을 하는데 큰 영향을 주는 부분은 아니었다. 전체적으로 실습 코드에 대한 설명도 잘 되어있는 편이라 차근차근 실습하면서 익혀나간다면 좋겠다는 생각을 해본다.

이 리뷰가 도움이 되었나요? 공감 0 댓글 0

한줄평 (3건) 한줄평 총점 10.0

혜택 및 유의사항 ?
평점5점
지하철 오가며 볼만한 책!
이 한줄평이 도움이 되었나요? 공감 0
YES마니아 : 플래티넘 s******8 | 2017.05.05
평점5점
데이터를 분석하기 위해 어떤 것을 해야 하는지 잘 나와있는 책
이 한줄평이 도움이 되었나요? 공감 0
나***줘 | 2016.05.26
평점5점
데이터 과학의 기본개념과 연관 용어를 알고 싶다면 손색이 없는 책이다.
이 한줄평이 도움이 되었나요? 공감 0
YES마니아 : 로얄 진***학 | 2015.06.20
  • 절판 상태입니다.
뒤로 앞으로 맨위로 공유하기