확장메뉴
주요메뉴


소득공제
공유하기

데이터 천재들은 어떻게 기획하고 분석할까?

: 직관을 넘어 핵심을 꿰뚫는 데이터 분석의 절대 법칙

리뷰 총점9.4 리뷰 20건 | 판매지수 2,484
베스트
CEO/비즈니스맨 top100 6주
정가
18,000
판매가
16,200 (10% 할인)
북클럽머니
최대혜택가
14,700?
YES포인트
시원한 여름을 위한 7월의 선물 - 동물 이중 유리컵/문학 아크릴 화병/썸머 보냉백/이육사 여름담요
7월 얼리리더 주목신간 : FIND YOUR WAVE 북서핑 배지 증정
2021 우량 투자서 35선 “최고의 주식 책을 소개합니다!”
7월 전사
쇼핑혜택
1 2 3 4 5

품목정보

품목정보
출간일 2022년 03월 30일
쪽수, 무게, 크기 272쪽 | 456g | 128*188*20mm
ISBN13 9788950900229
ISBN10 895090022X

이 상품의 태그

책소개 책소개 보이기/감추기

상품 이미지를 확대해서 볼 수 있습니다. 원본 이미지
‘직관’과 ‘경험’으로 성공하는 시대는 끝났다!
국내 최고 데이터 전문가들이 말하는 실전 데이터 분석법!

지난 30여 년간 대한민국 AI·빅데이터 분야를 이끌어온 국내 최고 전문가들이 한자리에 뭉쳐 ‘데이터 활용 입문서’를 출간했다. 금융, 제조, 마케팅, 영업, HR 등 비즈니스 전반에 걸친 빅데이터 최신 경향과 풍부한 사례를 담아, 실제 빅데이터가 어떻게 활용되고 있으며 어떻게 현업의 문제를 해결하고 성과를 내는지 생생하게 보여준다.

‘직관’이나 ‘경험’은 주관적일 뿐 아니라 저마다 해석을 달리할 수밖에 없는 반면, ‘데이터’는 객관적이다. 그렇기 때문에 데이터는 의견과 해석이 넘치는 세상에서 합리적이고 과학적인 의사결정을 할 수 있게 돕는 가장 효과적인 도구다. 이 책은 비전공자도 데이터를 기반으로 합리적인 의사결정을 할 수 있도록, 자신에게 필요한 데이터 분석 방법을 찾고 활용할 수 있는 노하우를 제공한다.

목차 목차 보이기/감추기

추천사
프롤로그

1부 데이터 문맹 탈출, 반드시 알아야 할 데이터 상식

더 나은 의사결정을 위한 빅데이터
좋은 기획이 빅데이터의 가치를 결정한다
어떻게 빅데이터를 분석할 것인가
비전공자가 데이터 전문가로 성장하는 방법
기획과 분석, 핵심 원리만 이해하면 성공한다

2부 데이터 시각화로 트렌드를 읽어라

복잡한 정보를 시각적으로 탐색하면 생기는 변화
데이터에 숨어 있는 본질을 발견하다
데이터 마이닝과 비즈니스 인텔리전스가 만나면
결국 다양한 데이터 경험이 중요하다

3부 분류와 예측, 미래를 읽는 가장 확실한 방법

인공지능과 머신러닝을 움직이는 기본 원리
데이터 활용은 분류와 예측에서 시작한다
함수를 찾으면 미래가 보인다
무한한 가능성의 인공지능

4부 데이터를 끼리끼리 뭉쳐 보는 군집분석의 힘

데이터의 특징을 파악해야 하는 이유
군집분석, 어디에 어떻게 쓰일 것인가
데이터 간 거리를 읽으면 결과가 명확해진다
중요한 의사결정일수록 반복적으로 분석하라

5부 인공지능, 더 빠르고 능숙하게 이미지를 분석하다

기계가 인간처럼 스스로 학습하고 분석하는 세상
단순한 원리로 극강의 성과를 내는 딥러닝
알파고 이후 인공지능이 만든 놀라운 성과들
앞으로 10년, 빅데이터로 준비하는 미래

부록 빅데이터 직업 제대로 알기
데이터 전문가를 키우는 대학들
Q/A 묻고 답하기

저자 소개 (6명)

책 속으로 책속으로 보이기/감추기

데이터의 의미와 데이터를 바라보는 관점, 핵심 분석 방법인 시각화, 예측, 클러스터링, 그리고 이미지와 텍스트 데이터의 분석 방법 등은 전공과 무관하게 누구나 이해하고 활용할 수 있어야 한다. 왜냐하면 빅데이터는 미래가 아니라 현재 우리의 일상에서 일어나는 일이고, 기업과 공공기관에서는 이를 활용해 중요한 의사결정을 하고 있기 때문이다. 무엇보다 이제 빅데이터는 더는 ‘알면 좋은’ 대상이 아닌 ‘모르면 안 되는’ 대상이 되었다.
--- 「프롤로그」 중에서

잘 팔리지 않는 전자오븐의 경우, 어떤 의사결정을 통해 판매를 증진시킬 수 있을까? 데이터에서 도출한 인사이트를 갖고 가격을 대폭 낮추거나 친절하게 레시피를 주며 프로모션 활동을 하는 것 중 합리적인 선택하는 일이 곧 의사결정이다. 이를 개인에게 적용할 수도 있겠다. 현실에서 내가 당장 부딪힌 문제를 어떤 행동으로 해결할 수 있을까? 하나의 선명한 문제에 부딪혔을 때 그 의사결정을 선진화하는 것, 조금 더 체계적인 근거를 가지고 현명한 의사결정을 하는 것, 이것이 분석의 궁극적인 목표라고 할 수 있겠다.
--- 「1부 데이터 문맹 탈출, 반드시 알아야 할 데이터 상식」 중에서

데이터 시각화는 데이터 분석 결과를 이해하기 쉽게 시각적으로 표현하는 과정이다. 엑셀, 태블로 등 많은 비즈니스 데이터 시각화 솔루션과 D3.js, 차티드 등 오픈소스 계열의 소프트웨어는 다양한 차팅 방법을 제공해준다. 최근 데이터 시각화 분야에 대한 투자가 크게 증가하고 있으며, 이에 따라 사용자 인터페이스의 편의성이 좋아지고 엔드유저(end user)의 분석기술 수준이 높아지고 있다.
--- 「2부 데이터 시각화로 트렌드를 읽어라」 중에서

현재 우리 사회의 미래를 이끄는 인공지능과 머신러닝을 이해하기 위해 가장 기본이 되는 것은 ‘분류’와 ‘예측’이다. 데이터 활용 공부는 이로부터 시작해야 한다. 인공지능과 머신러닝은 인류 몸속 깊숙이 잠재해 있는 ‘호기심’이라는 DNA가 사라지지 않는 한 끊임없이 발전할 것이다. 이를 두려워하기보다는 인간이기 때문에 가지게 되는 부족함과 한계를 극복할 수 있는 수단으로 즐겁게 사용되어야 할 것이다.
--- 「3부 분류와 예측, 미래를 읽는 가장 확실한 방법」 중에서

군집분석은 금융 시장에도 적용되어 균형 포트폴리오 작성에 도움을 준다. 포트폴리오 작성에서 데이터는 개체가 기업이고, 특징은 주가, 주식 거래량, 매출액 등이 될 수 있다. 특징이 비슷한 기업끼리 묶어보면, 그 특징에 따라 우량기업과 고평가된 기업, 그리고 저평가된 기업 등으로 세분화할 수 있다. 일반적으로 주식 투자에서는 투자효율을 높이기 위해 우량기업에만 투자하지 않고, 다양한 기업에 대해 일정한 비율로 투자함으로써 투자의 위험을 분산한다. 이러한 전략을 세우는 데 군집분석이 활용될 수 있다.
--- 「4부 데이터를 끼리끼리 뭉쳐 보는 군집분석의 힘」 중에서

빅데이터에 내재되어 있는 가치를 창출하기 위해서는 수집된 데이터가 분석의 대상인 동시에 분석 및 예측을 위한 모델링의 재료임을 유의해야 한다. 널리 사용되고 있는 기계학습 방법들은 모델을 구축하기 위해 레이블이 기록된 대용량의 데이터가 필요하므로 사전에 이에 대한 세심한 준비를 해두자. 또한 수집된 데이터와 분석 도구만으로는 유용한 가치를 창출할 수 없기 때문에 무엇을 알아내려고 하는지 분석의 목적을 명확히 해야 한다. 이때 문제에 대한 직관과 창의적인 해석능력이 필요하다. 대용량의 데이터를 처리할 수 있는 딥러닝과 같은 획기적인 분석 방법의 등장과 함께, GPU나 클라우드 컴퓨팅과 같은 저가의 고성능 컴퓨팅 자원이 널리 보급되었다. 따라서 새로운 차원의 분석 결과를 얻는 일이 손쉽게 가능해진 것이다.
--- 「5부 인공지능, 더 빠르고 능숙하게 이미지를 분석하다」 중에서

우리가 접하는 데이터는 날이 갈수록 기하급수적으로 증가하고 있다. 그런데 데이터의 증가를 좀 더 심도 있게 살펴보면 데이터 증가의 대부분인 80% 이상의 비중을 차지하는 것이 바로 텍스트 데이터임을 파악할 수 있다. 물론 전반적인 데이터의 양이 증가하고 있는 것도 사실이지만 세부적으로 보았을 때, 데이터 양적 성장의 핵심 요인은 텍스트 데이터이다. 이는 우리가 왜 텍스트 데이터 분석에 집중해야 하는지를 자명하게 드러내주는 객관적인 증거가 된다.
--- 「6부 비즈니스 성패를 가르는 텍스트 데이터에 주목하라」 중에서

출판사 리뷰 출판사 리뷰 보이기/감추기

왜 어떤 사람은 데이터로 성공하고 어떤 사람은 실패하는가!
정답을 찾고 싶은 당신에게 필요한 특별한 빅데이터 강의


지금 우리는 일상이 데이터가 되는 시대를 넘어, 데이터가 일상이 되는 시대를 살고 있다. 넷플릭스는 사용자 시청 기록을 분석하여 추천 영상으로 매출을 올리고, 나아가 무엇이 성공할지 미리 예측하여 소비자 입맛에 맞는 콘텐츠를 제작한다. 성공적인 비즈니스 모델들을 살펴보면 데이터가 그 중심에 있다고 해도 과언이 아니다. 이러한 흐름 속에서 이제 데이터는 누구에게나 필요한 소양이자 역량이 된 셈이다. 그렇다면 우리는 데이터를 얼마나 알고 활용하고 있을까?

빅데이터의 중요성을 알리고 대중화에 앞장서온 ‘빅데이터 국민 멘토’ 조성준 서울대학교 산업공학과 교수의 주도로 2010년부터 최근까지 열린 서울대 데이터마이닝캠프가 그간의 경험과 노하우를 엮어 책으로 만들어졌다. 문과, 이과 가리지 않고 수만 명의 지원을 받으며 매회 뜨거운 반응을 얻은 이 캠프에는 산업공학, 통계학, 경영학, 컴퓨터공학 등 데이터 분야의 최고 석학들이 참여해 빅데이터 활용에 있어 중요한 모든 것을 다뤘다. 캠프의 프로그램을 고스란히 담은 이 책을 통해 데이터 천재들이 데이터를 활용해 어떻게 비즈니스 가치를 만들고 성과를 내는지 생생하게 알게 될 것이다.

실제 국내 기업에서는 비즈니스에 사용 가능한 데이터의 절반 이상이 활용되지 않은 채 방치되고 있다고 한다. 잠자고 있는 데이터를 비즈니스 성과와 기업 가치로 바꿀 사람은 누구일까 이 책의 저자들은 비전공자도 자신의 분야에서 데이터 중요성을 인식하고 활용할 수 있도록 최소한의 데이터 경쟁력을 갖추는 것이 무엇보다 시급하다고 강조하고 있다. 안타깝게도 우리 사회에는 데이터 교육을 단 한 번도 받아본 적 없는 데이터 문맹들이 여전히 많다. 이 책을 통해 빅데이터 세계에 첫발을 내디뎌볼 것을 권한다. 저자들의 친절한 안내를 따라가다 보면 저절로 빅데이터라는 강력한 무기를 갖추게 될 것이다.

핵심만 쏙쏙 뽑아 정리한 데이터 분석의 절대 법칙!
데이터 문맹도 빅데이터 전문가로 성장하는 비밀!


실제 데이터 분석에는 큰 비용과 긴 시간이 필요하다. 데이터 전문가들은 금을 캐기 위해 어두컴컴한 터널 속에 들어간 광부와 같다. 이때의 금은 바로 ‘인사이트’이고, 데이터의 광산에서 금을 캐는 활동은 곧 ‘데이터 분석’이다. 그러나 이 책은 데이터 사이언티스트가 아닌 사람들을 위한 책이다. 즉 마케팅, 영업, 상품기획, HR, 재경 같은 기업의 핵심 부서에서 일하는 사람들, 또는 공공기관의 대통령, 국무총리, 장관, 차관, 국장, 과장 등을 포함한 비전공자들이다.

이 책은 모든 사람이 코딩을 배우고 데이터 사이언티스트가 될 필요는 없다고 말한다. 단지 2~4주 정도 투자해 데이터 분석의 핵심 이론과 응용을 이해하는 수준의 준전문가가 되는 것만으로 충분하다는 것이다. 이 책에서는 이를 ‘시티즌 데이터 사이언티스트’라 부른다. 시티즌 데이터 사이언티스트는 자신이 직접 간단한 분석을 할 줄 아는 파워 유저이자, 어려운 분석은 전문가에게 맡겨 정확히 원하는 바를 이야기할 수 있는 빅데이터 기획자이다. 비즈니스의 최종 목표를 설정하고 필요한 인사이트를 정의하는 것은 이들의 몫이다.
그렇다면 비전공자나 입문자가 시티즌 데이터 사이언티스트가 되기 위해서는 어떻게 해야 할까?

이 책은 3가지 단계를 제시한다. 첫째 ‘데이터 분석의 기본 이론과 알고리즘을 공부한다’, 둘째 ‘실제 데이터가 인사이트를 도출하는 과정을 실습한다’, 셋째 ‘비즈니스 가치를 분석 문제로 변환시키는 방법을 모색한다’. 이 책에서 소개하는 분석 방법론과 사례가 현업의 의사결정자들에게 빅데이터, 인공지능, 데이터 마이닝, 애널리틱스의 기초 핵심 이론과 응용을 이해하고 비즈니스 가치를 만드는 과정의 길잡이가 되어줄 것이다.

가장 객관적으로, 가장 합리적으로, 가장 과학적으로
최고의 선택과 결정을 돕는 데이터 기초 체력을 키워라!


금융, 통신, 유통업 등 경쟁이 치열한 분야에서는 이미 상당히 많은 빅데이터 프로젝트가 진행되고 있다. 메가트렌드라 해도 과언이 아닌 이 흐름 속에서, 데이터에 대한 막연한 두려움을 떨쳐낼 힘이 되어줄 이 책은 총 6부로 구성되어 있다.

1부에서는 데이터의 의미와 데이터 분석의 목적을 구체적인 사례와 함께 설명한다. 어떤 가치를 추구하고 어떤 인사이트를 기대해야 하는지, 어떤 데이터가 필요하고 어떤 분석 방법을 사용해야 하는지 판단하는 데 도움이 되는 프레임워크를 제공한다.
2부에서는 데이터에 숨겨진 이야기를 시각적으로 탐색하는 방법을 소개한다. 조직의 데이터 문해력을 높여주고 의사결정자에게 통찰을 제공하는 데이터 시각화가 어느 분야에서 어떻게 활용되고 있는지 생생하게 보여준다.
3부와 4부에서는 데이터를 기반으로 의미 있는 정보를 추출하고 미래를 예측하는 분석 방법을 다룬다. 인공지능을 이해하는 데 가장 기본이 되는 분류와 예측, 군집분석을 중심으로 살펴본다. 어려운 코딩 문법이나 복잡한 통계학, 기계 학습 이론에 기초하지 않고도 데이터 분석의 프레임워크를 접할 수 있다.
마지막으로 5부와 6부에서는 데이터 분석의 응용과 가능성을 확인할 수 있다. 이미지와 영상, 텍스트 데이터 분석의 직관적 방법들을 통해 데이터에서 정보를 추출하고 의사결정에 활용하는 일련의 과정을 소개한다. 인공지능과 딥러닝의 활용 분야와 적용 사례를 쉽게 이해하는 데도 도움이 될 것이다.

추천평 추천평 보이기/감추기

서울대 조성준 교수를 포함한 여섯 명의 어벤저스급 필진이 모였다. 이 사실만으로도 우리는 이 책에 주목할 필요가 있다. 지난 30여 년간 국내 인공지능과 데이터 마이닝 분야를 이끌어온 석학들의 경험과 노하우가 이 책에 고스란히 녹아 있다. 데이터 분석이 멀게만 느껴지는 비전공자와 일반인에게 전문가들이 쌓아놓은 높은 진입장벽을 넘어설 수 있도록 도와주는 최고의 입문서이다.
- 황보현우 (하나금융지주 그룹데이터총괄 겸 하나은행 데이터&제휴투자본부장, 『감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나』 저자)

이제는 데이터 불모지로 여겨졌던 예술의 영역에서조차 데이터를 활용하고 있다. 데이터가 이 시대를 살아가는 사람들에게 새로운 교양이자 역량이 된 것이다. 나는 문과생들에게 ‘인사이트’와 ‘가치’를 발견할 수 있는 자신의 인문학적 강점을 뾰족하게 세워나가면서 이 책을 읽어볼 것을 권한다. 데이터 활용법을 상세히 설명한 이 책은 각자의 강점이 데이터 기반의 날개를 달 수 있도록 도와줄 것이다.
- 차현나 (하이브 데이터랩 랩장,『문과생, 데이터 사이언티스트 되다』 저자)

회원리뷰 (20건) 리뷰 총점9.4

혜택 및 유의사항?
데이터 천재들은 어떻게 기획하고 분석할까? 내용 평점5점   편집/디자인 평점5점 미*별 | 2022.05.18 | 추천0 | 댓글0 리뷰제목
https://blog.naver.com/johnpotter04/222737332629 빅데이터 분석에 입문해보자! 빅데이터를 소개하기 위해 태어난 책 데이터 전문가들이 일반인에게 빅데이터를 소개한다. 일반인이 빅데이터를 개괄적으로 이해할 수 있도록 돕는다. 어려운 통계 이론을 정말 쉽게 설명한다. 이론을 주해하기보다 어떻게 실생활에 이용되는지 보여주면서, 자연스럽게 이론을 습득할 수 있다. 통계;
리뷰제목

https://blog.naver.com/johnpotter04/222737332629

빅데이터 분석에 입문해보자!

빅데이터를 소개하기 위해 태어난 책

데이터 전문가들이 일반인에게 빅데이터를 소개한다. 일반인이 빅데이터를 개괄적으로 이해할 수 있도록 돕는다. 어려운 통계 이론을 정말 쉽게 설명한다. 이론을 주해하기보다 어떻게 실생활에 이용되는지 보여주면서, 자연스럽게 이론을 습득할 수 있다. 통계에 아무런 지식이 없어도 충분히 이해할 수 있다. 빅데이터 입문으로 최적이다.

빅데이터란 무엇인가요?

빅데이터의 세계를 들여다보자

1장은 빅데이터가 무엇인지 소개하는 데 초점을 맞췄다. 마케팅, 품질검사, 예측, 정보 조회 등 다양한 분야에서 응용되고 있는 빅데이터를 소개한다. SNS, 마케팅 광고 등 생활에서 쉽게 접해볼 만한 것들로 하여금 빅데이터가 어떻게 활용되는지 보여준다.

 

데이터 접근 단계는 '데이터', '인사이트', '가치'로 이루어져 있다. 추출된 데이터에 인사이트를 결합해, 가치를 창출하는 과정을 거쳐야 한다. 설문조사 등을 통해 데이터를 수집하면, 이 데이터를 적절하게 처리하고 해석해서 유의미한 결과를 도출한다.

빅데이터 분석에는 각 단계에 맞는 역할이 있다. 데이터 사이언티스트(Data Scientist)는 데이터 이론을 연구하고 개발한다. 데이터 엔지니어(Data Engineer)는 데이터 사이언티스트들이 개발한 데이터 이론을 기반으로 데이터를 수집하고 추출한다. 데이터 애널리스트(Data Analyst)는 데이터 엔지니어가 추출한 데이터로부터 인사이트(Insight)를 도출한다.

데이터 수집 단계는 데이터 사이언티스트와 데이터 엔지니어의 영역이며, 데이터에서 가치를 창출하는 건 데이터 애널리스트의 역할이다. 데이터를 해석해 결론을 이끌어내는 과정은 통계 지식만 가지고 할 수 없다. 인사이트는 통계 지식만을 의미하는 게 아니라, 각 분야의 전문 지식과 경험을 총괄한다. 따라서, 데이터 애널리스트는 빅데이터뿐만 아니라, 각계 전문 지식을 갖고 있는 융복합 인재여야만 한다.

빅데이터의 순간들

머신러닝, 딥러닝, 회귀분석, 데이터 시각화 등 다양한 빅데이터의 기법들

2장은 데이터 시각화를 다룬다. 비즈니스 데이터, 공공 데이터, SNS 데이터, 데이터 시각화에서 자주 활용되는 세 가지 데이터를 통해 다양한 데이터 시각화 방법을 보여준다. 어릴 때부터 접하는 그래프와 분포도 뿐만 아니라, 주식 차트에서 볼 수 있는 박스 플롯 등을 볼 수 있다. 데이터 시각화는 실생활에서 자주 접하기 때문에 어색하지 않다. 평소에 생활하면서 접하던 그래프나 도표의 명칭이 어떤 것이었는지 알게 된다. 특히, 신문 기사나 PPT, 일상생활에서 자주 접하는 다섯 가지(시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 공간 시각화) 시각화를 설명해 주는데, 대학생 이 조별 과제를 수행하면서 숱하게 제작하는 PPT에서 이용하는 그래프들이 각각 어떤 효과를 가지고 있는지 배운다.

3장은 인공지능과 머신러닝의 기본 원리를 다룬다. 인공지능과 머신러닝의 핵심인 분류와 예측이 어떤 원리로 작용하는지 보여주는 게 핵심이다. 독립변수(예측변수)와 종속변수(반응변수)의 관계, 범주형 데이터와 연속형 데이터 등을 여러 사례로 만날 수 있다. 여러 변수 간의 상관관계를 분석하여 특정 경향성을 나타내는 함수를 찾아 다음 결과를 예측하는 회귀분석의 원리를 상당히 쉽게 설명한다. 특히, 경제학이나 통계학 전공자라면 공식으로만 배운 어려운 이론을 실례를 통해 쉽게 접근할 수 있다. 이론 위주 강의실 수업에서 벗어나, 실제 생활에서 쓰이는 통계를 만나는 계기가 된다.

4장은 여러 데이터를 비슷한 특성끼리 모아 분석하여 비지도 학습 등에 사용되는 군집분석을 소개한다. 군집에서 서로 다른 개체 또는 특징 간 비슷한 정도를 나타내는 유사도의 중요성을 설명하고, 유사도를 측정하는 다양한 거리함수를 소개한다. 군집분석에는 '군집'을 어떻게 형성할 것인가가 핵심이기 때문에, 군집에 따라 같은 데이터라도 결과가 달라질 수 있다. 같은 군집끼리는 같은 점이, 다른 군집끼리는 다른 점이 명확해야 잘 구성된 군집이다. 따라서, 여러 선택에도 같은 군집으로 묶인다면 그 군집의 신뢰도는 높다며, 어떻게 군집을 선택하냐에 따라 결과가 달라질 수 있으니 다양한 선택과 결과를 고민해 볼 필요가 있다고 조언한다.

5장은 인공신경망으로 데이터를 학습하는 딥러닝, 알고리즘에 따라 데이터를 수집하고 판단하는 머신러닝을 소개한다. 직관적으로 사물을 이해하는 사람과 달리, 컴퓨터는 모든 걸 숫자로 인식하기 때문에 인물 사진 등의 데이터를 숫자로 변환하여 딥러닝과 머신러닝을 수행한다. 다양한 데이터 변환 법과 알고리즘이 존재하는데, 적절한 방법을 선택하는 건 사용자의 몫이다. 여기서, 머신러닝은 가중치를 어떻게 설정할 것인지가 핵심 논제다. 머신러닝에 있어서 가중치가 설정되면 데이터는 자동으로 결정되는 특징이 있기 때문이다. 또한, 데이터 마이닝은 딥러닝의 기초이기 때문에, 목표에 적합한 데이터 마이닝을 찾아야 한다. 저자는 머신러닝과 딥러닝에 있어서 적절한 가중치와 데이터 마이닝이 핵심이라는 걸 강조한다.

6장은 데이터와 텍스트 분석을 설명한다. 데이터는 숫자와 같은 정형 데이터와 동영상과 사진 같은 비정형 데이터가 있다. 세상은 비정형 데이터의 세계로 머신러닝과 딥러닝에서는 비정형 데이터를 정형 데이터로 변환하는 게 핵심이다. 비정형 데이터를 크롤링(스크리밍) 작업과 전처리 작업 등 사전 작업으로 정형 데이터로 변환하고, 키워드 분석, 트렌드 분석, 네트워크 분석, 임베딩 분석 등 텍스트 분석에 활용한다. 텍스트 분석은 텍스트의 문맥이나 숨은 의미를 파악하는 것이 핵심이다. 은유인지, 직설인지, 무의미한지 그 의미를 파악하는 게 사람도 어려운진데 컴퓨터는 더 지옥이다. 저자는 'Garbage in, Garbage out(쓰레기를 넣으면, 쓰레기가 나온다)'이라는 대전제를 이야기하면서, 텍스트 분석에 앞서 명확한 목표와 소스를 파악해야 한다는 것에 방점을 찍는다.

연금술사와 빅데이터

흥미로운 유사성

한창 빅데이터에 관심이 많아, 애널리스트 과정에 집중적으로 공부하고 있는 요즘, 데이터 산업이 광산업과 상당히 유사하다는 걸 느낀다. 채광하기 전에 원하는 광물의 수율에 맞는 광산을 찾고(데이터 수집 및 소스 분석), 불필요한 광물을 걸러내어 제련하고(데이터 전처리), 제련된 광물을 원하는 목적에 맞게 가공한다(데이터 분석). 맨땅(빅데이터)에서 금(가치)을 찾는다는 목표까지 유사하다. 예나 지금이나, 금을 향한 인간의 탐욕은 끊임없었고, 빅데이터도 다르지 않다.

과거, 연금술사라는 직업이 있었다. 연금술사는 흔하게 만날 수 있는 원소를 이용해, 완전무결한 원소 '금'을 연성하는 방법을 연구했다. 애니메이션 <강철의 연금술사>로 대중에게 알려진 그들은 금을 연성할 수 있는 물질인 '현자의 돌'을 찾아 일생을 바쳤다. 화학이 발전하지 않았던 시대, 그들의 도전은 현대인의 시선에선 이그노벨상이나 다윈상이 떠오를 만큼 하찮은 낭비로 보인다. 하지만, 그들의 도전은 절대 무용한 게 아니었다. 현자의 돌을 찾는 과정에서 새로운 화학 물질을 발견하고, 더 효율적인 제련 방법을 발견한다. 연금술사들이 현대 화학의 기틀을 다졌다고 해도 과언이 아니다.

빅데이터도 마찬가지다. 빅데이터 산업을 한마디로 요약하라면, 쓸모없는 데이터에서 유형의 가치를 창출하는 산업이라고 볼 수 있다. 연금술사가 금과 현자의 돌을 찾으려는 것과 같다. 광고 등 돈에 몰두하는 모습이 금을 찾아 헤매던 연금술사와 비슷하지만, 연금술사가 화학을 발전시켜 인류에 공헌했듯이, 빅데이터도 인류 삶에 공헌하고 있다. 음성을 텍스트로 전환하는 알고리즘을 개발해서 청각장애인을 돕거나, 부정부패와 단합 등 불공정 행위를 찾아내는 알고리즘을 이용해 발각되지 않았던 부정행위를 찾아낸다. 이렇듯, 빅데이터 산업은 점점 우리 삶에 스며들고 있고, 우리 삶을 더 풍요롭게 한다. 앞으로 빅데이터가 어떤 세상을 만들어갈지 흥미진진하다. 일생을 바칠 가치가 있는 재미있는 산업이다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
데이터 천재들은 어떻게 기획하고 분석할까? 내용 평점4점   편집/디자인 평점5점 잇* | 2022.04.29 | 추천0 | 댓글0 리뷰제목
    중고등학생 시절부터 '인터넷은 정보의 바다'라는 말을 듣고 살았으니, 지금은 '바다'라는 말로 표현하기엔 부족할 것 같은 시대이다. 글을 적고있는 이 시간에도 SNS든 포털이든 많은 양의 정보가 계속 생성되고 있을 것이다. 여기서 정보는 누군가가 필요한 데이터를 가공 처리한 것들을 말한다. 이것은 많은 양의 정보는 그보다 더 방대한 데이터에서 창출된다는 것;
리뷰제목

 

 

중고등학생 시절부터 '인터넷은 정보의 바다'라는 말을 듣고 살았으니, 지금은 '바다'라는 말로 표현하기엔 부족할 것 같은 시대이다. 글을 적고있는 이 시간에도 SNS든 포털이든 많은 양의 정보가 계속 생성되고 있을 것이다. 여기서 정보는 누군가가 필요한 데이터를 가공 처리한 것들을 말한다. 이것은 많은 양의 정보는 그보다 더 방대한 데이터에서 창출된다는 것을 의미할 것이다. 그럼 그 많은 데이터 중에서 어떤 것이 내게 필요한지 판단해서 가공해야하는 나는, 무엇을 기준으로 데이터를 가공할 것인가?

 

나의 직무 수행을 위해서 또는 어떠한 일의 성공을 위해서 데이터를 잘 활용할 줄 아는 것은 아주 큰 능력이라고 생각한다. 수많은 데이터 중에서 내가 필요한 것과 필요하지 않은 것을 가려낼 줄 알고, 그걸 잘 활용할 수 있게 도와주는 것에 대해 막연함을 가지고 있었는데 이 책에서는 독자들이 어렵지 않게 데이터를 활용할 수 있는 방법과 다양한 사례들을 소개한다. 사람들이 많이 알고 있는 브랜드, 사례 등을 통해 묘사분석, 예측분석, 진단분석 등을 소개하고 어떻게 빅데이터를 다루는지 설명해주는데 특히 비전공자가 데이터를 잘 다룰 수 있는 방법이나 더 나은 의사결정을 위한 데이터 접근 방법을 소개하는 부분이 인상적이다.

 

판매자의 입장으로 구매자들의 후기를 모두 살펴보다가 보기 쉽게 시각화 하기 위해 워드 클라우드를 사용해 본 경험이 있다.(요즘은 R이나 파이썬 같은 프로그램을 쓰지 않아도 최근에는 구글이나 포털 서비스를 통해서 간단한 워드 클라우드를 어렵지 않게 할 수 있다.) 간단하게 말해보자면 구매 후기 중에서 디자인이 유의미했는지, 또는 활용성이 좋았는지 등을 알고 싶었는데 가장 크게 표현된 글자는 '잘받았어요'인 것이 충격적이었다. 기사에서 활용 사례를 봤던 것처럼 내가 필요하고, 보고싶은 단어만 추출될 줄 알았는데 그러지 않아서 '역시 난 전공자가 아니라서 할 줄 모르네'라고 넘겼던 것들이, 이 책을 읽고나서 어떤 점을 잘못했던 건지 그러기 위해선 내가 미리 잘 짜놔야만 필요한 자료를 추출할 수 있다는 것을 깨닫게 된 것이었다.

 

이 책은 왜 데이터를 활용하는 것이 중요하고, 어떻게 활용한 사례가 있는지. 그리고 왜 이러한 분석이 중요한지를 나처럼 쉽게 생각하고 도전했다 실패한 사람이 읽기에 유익하다.

 

데이터 분석의 기본 전제 중에 '쓰레기를 넣으면 쓰레기가 나온다(Garbage in, garbage out)'이라는 말이 있다고 한다. 데이터를 대하는데 어떤 마음가짐을 가져야 하는지 많은 생각을 하게 만드는 명제인 것 같다.

 

데이터 천재들은 어떻게 기획하고 분석할까?

조성준,조재희,김성범,이성임,조성배,이영훈 공저
21세기북스 | 2022년 03월

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
데이터마이닝에 대한 전문가들의 지면 강의를 들어서 좋습니다. 내용 평점4점   편집/디자인 평점5점 c*****i | 2022.04.23 | 추천0 | 댓글0 리뷰제목
21세기북스의 책을 아끼는 이유 중 하나는 전문가들이 집필한 최신 흐름을 독자가 지면으로 만날 수 있다는 장점이다. <서가명강>과 <인생명강> 등의 기획을 통하여 요즘 믿고 선택하는 책들을 선보이고 있어서 독자로서 때로는 도전적이기도 하지만 무척 흥미롭다. 이과 영역에 관심을 더 보이는 아이를 본다면, (아무 것도 모르는 저지만) 권하고 싶은 분야는 바이오과학과 데이;
리뷰제목

21세기북스의 책을 아끼는 이유 중 하나는 전문가들이 집필한 최신 흐름을 독자가 지면으로 만날 수 있다는 장점이다. <서가명강>과 <인생명강> 등의 기획을 통하여 요즘 믿고 선택하는 책들을 선보이고 있어서 독자로서 때로는 도전적이기도 하지만 무척 흥미롭다. 이과 영역에 관심을 더 보이는 아이를 본다면, (아무 것도 모르는 저지만) 권하고 싶은 분야는 바이오과학과 데이터 분야 쪽이다. 사실 우리 큰 아이에게 빅데이터를 밀고 있다. 몇 해전에 아이와 함께 송길영 데이터마이너(광부^^)의 특강에 데리고 가고 가끔 그 분의 특강을 재미있게 즐기는 팬심도 작용한다. 이 책의 공동 저자로 참여할 뻔했으나 못한 사연도 머리말에 소개되어 반가웠다.

 

이렇듯, 이 책의 저자군은 빅데이터의 강자 학자들로, 서울대에서 개최해 온 마이닝 캠프 등을 중심으로 학문, 기업간의 협업이 빚어낸 책이다. 캠프 등의 활동을 바탕으로 공동집필진이 대중에게 꼭 전달하고 싶은 것은

데이터의 의미와 이를 바라보는 관점,

시각화, 예측, 클러스터링, 이미지와 덱스트 데이터의 분석 등 핵심 분석 방법

을 각자의 전공과 무관하게 이해하고 활용할 수 있는 능력이라고 밝힌다.

기업과 공공기관에서 활용하여 의사결정을 하고 있는 우리 일상 속에서 이제는 모르면 안되는 것이라고 힘 주어 말한다.

 

덱스트 분석 등은 송길영 전문가 등의 특강 등으로 이해가 더 쉬운 편이었으나 - 아쉽게도 고교 입시 문과 수학이 경험한 수학의 전부인 탓에 수학적 수식이 가득한 장은 건너 뛰며 볼 수밖에 없었다. 5부의 이미지/동영상 분석도 흥미로운 장이다. 아무리 멋진 사진과 동영상이어도 컴퓨터는 숫자로 변화해서 인식하고 작업한다는데 동일한 곳, 사람을 인식하게 하는 숫자의 임계치를 통하여 번개 같은 속도로 처리하는 능력으로 분석을 해낸다. 제일 쉬운 예로는 자동차의 번호판 등 숫자나 문자를 인식하는 것이다. 저자는 의료 영상에서 정상 세포와 질병 관련 세포를 구분하는 것도 언급하는데, 최근 왓슨을 매각한 IBM의 행보와 우리나라 의료 현장의 상황을 바탕으로 보면 정교한 단계는 아닌 것 같다.

읽고 쓰는 것을 즐기는 내가 가장 즐겁게 읽은 장은 '비지니스 성패를 가르는 텍스트 데이터에 주목하라'는 6부이다. 6부 말미에 텍스트 분석을 잘 하기 위한 저자의 제안이 뒤따르는데 최근에 읽은 <AI는 차별을 인간에게서 배운다> (역시 21세기북스의 책이라 반가운^^) 도 환기됐다.

 

부록으로 데이터마이닝과 관련한 구체적인 직업과 해당 학과를 소개하고 있다. 아이들에게 권하고 싶을 정도로 이 분야에 관심을 갖고 있는 나로선 반가운 부록이다.

진로로 고민 중인 청(소)년들을 비롯하여

책의 서두처럼 나의 온라인 활동을 기업과 공공기관이 어떻게 수익 등 여러 활동에 어떻게 사용하는지 궁금한 모든 이들께 추천한다.

댓글 0 이 리뷰가 도움이 되었나요? 공감 0
  •  쿠폰은 결제 시 적용해 주세요.
1   16,200
뒤로 앞으로 맨위로 aniAlarm