품목정보
발행일 | 2022년 03월 30일 |
---|---|
쪽수, 무게, 크기 | 272쪽 | 456g | 128*188*20mm |
ISBN13 | 9788950900229 |
ISBN10 | 895090022X |
발행일 | 2022년 03월 30일 |
---|---|
쪽수, 무게, 크기 | 272쪽 | 456g | 128*188*20mm |
ISBN13 | 9788950900229 |
ISBN10 | 895090022X |
추천사 프롤로그 1부 데이터 문맹 탈출, 반드시 알아야 할 데이터 상식 더 나은 의사결정을 위한 빅데이터 좋은 기획이 빅데이터의 가치를 결정한다 어떻게 빅데이터를 분석할 것인가 비전공자가 데이터 전문가로 성장하는 방법 기획과 분석, 핵심 원리만 이해하면 성공한다 2부 데이터 시각화로 트렌드를 읽어라 복잡한 정보를 시각적으로 탐색하면 생기는 변화 데이터에 숨어 있는 본질을 발견하다 데이터 마이닝과 비즈니스 인텔리전스가 만나면 결국 다양한 데이터 경험이 중요하다 3부 분류와 예측, 미래를 읽는 가장 확실한 방법 인공지능과 머신러닝을 움직이는 기본 원리 데이터 활용은 분류와 예측에서 시작한다 함수를 찾으면 미래가 보인다 무한한 가능성의 인공지능 4부 데이터를 끼리끼리 뭉쳐 보는 군집분석의 힘 데이터의 특징을 파악해야 하는 이유 군집분석, 어디에 어떻게 쓰일 것인가 데이터 간 거리를 읽으면 결과가 명확해진다 중요한 의사결정일수록 반복적으로 분석하라 5부 인공지능, 더 빠르고 능숙하게 이미지를 분석하다 기계가 인간처럼 스스로 학습하고 분석하는 세상 단순한 원리로 극강의 성과를 내는 딥러닝 알파고 이후 인공지능이 만든 놀라운 성과들 앞으로 10년, 빅데이터로 준비하는 미래 부록 빅데이터 직업 제대로 알기 데이터 전문가를 키우는 대학들 Q/A 묻고 답하기 |
어느 순간부터인지 데이터니 빅데이터니 하는 단어들이 당연하게 사용되고 있지지만 과연 그 의미를 제대로 이해하고 있을까 하는 생각이 든다.
이 책의 저자는 지금의 현실을 살아가는데 무엇보다 중요해진 데이터 분석에 대해 알려주고 그 분석 결과를 어떻게 도출하고 또 활용하는지에 대해 알려준다.
데이터 분석이라고 하면 그저 어려운 공식의 숫자들만을 생각하기 쉽지만 세상의 모든 정보들이 데이터라는 사실부터 인지하는 것이 먼저일 것이다.
특히 빅데이터는 보다 나은 의사결정을 위해서 꼭 필요한 방법으로 이제는 누구에게나 중요한 수단이 되었다.
나 역시도 전공자가 아니기에 빅테이터라고 해도 그저 막연하게 그런 건 전문가들의 영역이라고 생각했었다.
비즈니스 상에서 등장하는 다양한 문제들을 해결하는 데에도 빅테이터 분석을 활용하는 보다 나은 해결 방법을 찾을 수 있을 거 같다.
다양한 정보들을 빅데이터화 해서 분석한다면 다양한 분야에서 활용이 가능하다는 사실을 이 책을 통해서 알 수 있었다.
하지만 이러한 데이터 분석도 사람과 마찬가지로 다양한 경험 즉 다양한 경우의 정보들을 필요로 한다.
그 데이터에 숨어있는 본질을 찾아내며 복잡한 정보들을 탐색하고 분석하는 것을 생활화할 수 있다면 일상생활에서도 지금보다 나은 일을 할 수 있을 거 같았다.
특히 복잡한 정보들을 시각화하는 것은 다양한 분야에서 유용하게 활용할 수 있을 거 같다.
데이터 분석에 대한 책이라 이과적인 내용만 있을 거라고 생각했는데 다양한 분석에 대해서도 알 수 있었고, 상황에서 따라 합리적 의사 결정을 내리기 위한 데이터 활용법에 대해서도 알 수 있었다.
데이터 천재들은 어떻게 기획하고 분석할까?
데이터는 사실 쉽게 배울 수 있는 것이 아니다.
읽으면서도 30년동안 AI, 빅데이터 분야를 공부하고 이끌어온 국내 전문가들이 쓴 책이다.
이 책은 금융, 제조, 마케팅, 영업, HR 등 다양한 분야에서 사용하고 있는 빅데이터의 최신동향과 현업에서 사용했던 사례와 협업의 문제를 담았다고 한다.
그래서인지 읽으면서도 어려운 내용이라 그래서인지 쉽게 이해가 잘 되지 않아서 몇번씩 다시 보기도 했다.
그럼에도 불구하고 우리는 데이터에 대해서 알아야 한다.
모든 분야와 직군, 문과,이과를 떠나서말이다.
데이터는 객관적인 자료이기 때문에 경험이나 직관에 비해서 정확하다.
책은 총 5부로 나누어져있다.
1부 데이터 문맹 탈출, 반드시 알아야 할 데이터 상식
2부 데이터 시각화로 트렌드를 읽어라
3부 분류와 예측, 미래를 읽는 가장 확실한 방법
4부 데이터를 끼리끼리 뭉쳐 보는 군집분석의 힘
5부 인공지능, 더 빠르고 능숙하게 이미지를 분석하다
사실 나는 IT분야에서 일을 하고 있어서 데이터의 중요성을 잘 알고 있다.
데이터가 기반이 되어야 모든 일을 할 수 있기 때문이다.
우리가 흔히 알고 있는 넷플릭스도 빅데이터를 기반으로 영상을 제공하고,
그 영상을 본 사용자들의 시청 기록과 취향을 분석하여 추천 영상으로 매출을 올리고,
또 콘텐츠를 제작한다.
이렇듯 데이터를 활용하면, 사업방향과 앞으로의 수요도 예측도 가능하며 기업이 더 성장해 나갈 수 있는 방향을 제시할 수도 있다.
이미 저자인 조성준 서울대학교 산업공학과 교수는 2010년부터 최근까지 열린 서울대 데이터마이닝 캠프에서의 경험과 노하우를 가지고 책을 쓴것이다.
이렇듯 책 하나를 쓰는데도 많은 데이터가 필요하다.
이쯤되면 빅데이터는 어디서든지 쓸수 있다는 것을 알 수 있지 않을까?ㅎ
여튼 책에서는 데이터의 상식부터하여, 시각화로 트렌드를 발견할 수 있는 방법과 중요성, 그리고 미래를 예측할 수 있는 방법과 데이터를 뭉쳐서 보는 군집, 그리고 인공지능을 더 빠르고 분석할 수 있는 방법까지 함께 알려주고 있다.
점점 거대해지고 있는 세상에서 살아남기 위해서는 트렌드도 따라가며 배워갈 필요가 있다고 생각했다.
https://blog.naver.com/johnpotter04/222737332629
빅데이터 분석에 입문해보자!
빅데이터를 소개하기 위해 태어난 책
데이터 전문가들이 일반인에게 빅데이터를 소개한다. 일반인이 빅데이터를 개괄적으로 이해할 수 있도록 돕는다. 어려운 통계 이론을 정말 쉽게 설명한다. 이론을 주해하기보다 어떻게 실생활에 이용되는지 보여주면서, 자연스럽게 이론을 습득할 수 있다. 통계에 아무런 지식이 없어도 충분히 이해할 수 있다. 빅데이터 입문으로 최적이다.
빅데이터란 무엇인가요?
빅데이터의 세계를 들여다보자
1장은 빅데이터가 무엇인지 소개하는 데 초점을 맞췄다. 마케팅, 품질검사, 예측, 정보 조회 등 다양한 분야에서 응용되고 있는 빅데이터를 소개한다. SNS, 마케팅 광고 등 생활에서 쉽게 접해볼 만한 것들로 하여금 빅데이터가 어떻게 활용되는지 보여준다.
데이터 접근 단계는 '데이터', '인사이트', '가치'로 이루어져 있다. 추출된 데이터에 인사이트를 결합해, 가치를 창출하는 과정을 거쳐야 한다. 설문조사 등을 통해 데이터를 수집하면, 이 데이터를 적절하게 처리하고 해석해서 유의미한 결과를 도출한다.
빅데이터 분석에는 각 단계에 맞는 역할이 있다. 데이터 사이언티스트(Data Scientist)는 데이터 이론을 연구하고 개발한다. 데이터 엔지니어(Data Engineer)는 데이터 사이언티스트들이 개발한 데이터 이론을 기반으로 데이터를 수집하고 추출한다. 데이터 애널리스트(Data Analyst)는 데이터 엔지니어가 추출한 데이터로부터 인사이트(Insight)를 도출한다.
데이터 수집 단계는 데이터 사이언티스트와 데이터 엔지니어의 영역이며, 데이터에서 가치를 창출하는 건 데이터 애널리스트의 역할이다. 데이터를 해석해 결론을 이끌어내는 과정은 통계 지식만 가지고 할 수 없다. 인사이트는 통계 지식만을 의미하는 게 아니라, 각 분야의 전문 지식과 경험을 총괄한다. 따라서, 데이터 애널리스트는 빅데이터뿐만 아니라, 각계 전문 지식을 갖고 있는 융복합 인재여야만 한다.
빅데이터의 순간들
머신러닝, 딥러닝, 회귀분석, 데이터 시각화 등 다양한 빅데이터의 기법들
2장은 데이터 시각화를 다룬다. 비즈니스 데이터, 공공 데이터, SNS 데이터, 데이터 시각화에서 자주 활용되는 세 가지 데이터를 통해 다양한 데이터 시각화 방법을 보여준다. 어릴 때부터 접하는 그래프와 분포도 뿐만 아니라, 주식 차트에서 볼 수 있는 박스 플롯 등을 볼 수 있다. 데이터 시각화는 실생활에서 자주 접하기 때문에 어색하지 않다. 평소에 생활하면서 접하던 그래프나 도표의 명칭이 어떤 것이었는지 알게 된다. 특히, 신문 기사나 PPT, 일상생활에서 자주 접하는 다섯 가지(시간 시각화, 분포 시각화, 관계 시각화, 비교 시각화, 공간 시각화) 시각화를 설명해 주는데, 대학생 이 조별 과제를 수행하면서 숱하게 제작하는 PPT에서 이용하는 그래프들이 각각 어떤 효과를 가지고 있는지 배운다.
3장은 인공지능과 머신러닝의 기본 원리를 다룬다. 인공지능과 머신러닝의 핵심인 분류와 예측이 어떤 원리로 작용하는지 보여주는 게 핵심이다. 독립변수(예측변수)와 종속변수(반응변수)의 관계, 범주형 데이터와 연속형 데이터 등을 여러 사례로 만날 수 있다. 여러 변수 간의 상관관계를 분석하여 특정 경향성을 나타내는 함수를 찾아 다음 결과를 예측하는 회귀분석의 원리를 상당히 쉽게 설명한다. 특히, 경제학이나 통계학 전공자라면 공식으로만 배운 어려운 이론을 실례를 통해 쉽게 접근할 수 있다. 이론 위주 강의실 수업에서 벗어나, 실제 생활에서 쓰이는 통계를 만나는 계기가 된다.
4장은 여러 데이터를 비슷한 특성끼리 모아 분석하여 비지도 학습 등에 사용되는 군집분석을 소개한다. 군집에서 서로 다른 개체 또는 특징 간 비슷한 정도를 나타내는 유사도의 중요성을 설명하고, 유사도를 측정하는 다양한 거리함수를 소개한다. 군집분석에는 '군집'을 어떻게 형성할 것인가가 핵심이기 때문에, 군집에 따라 같은 데이터라도 결과가 달라질 수 있다. 같은 군집끼리는 같은 점이, 다른 군집끼리는 다른 점이 명확해야 잘 구성된 군집이다. 따라서, 여러 선택에도 같은 군집으로 묶인다면 그 군집의 신뢰도는 높다며, 어떻게 군집을 선택하냐에 따라 결과가 달라질 수 있으니 다양한 선택과 결과를 고민해 볼 필요가 있다고 조언한다.
5장은 인공신경망으로 데이터를 학습하는 딥러닝, 알고리즘에 따라 데이터를 수집하고 판단하는 머신러닝을 소개한다. 직관적으로 사물을 이해하는 사람과 달리, 컴퓨터는 모든 걸 숫자로 인식하기 때문에 인물 사진 등의 데이터를 숫자로 변환하여 딥러닝과 머신러닝을 수행한다. 다양한 데이터 변환 법과 알고리즘이 존재하는데, 적절한 방법을 선택하는 건 사용자의 몫이다. 여기서, 머신러닝은 가중치를 어떻게 설정할 것인지가 핵심 논제다. 머신러닝에 있어서 가중치가 설정되면 데이터는 자동으로 결정되는 특징이 있기 때문이다. 또한, 데이터 마이닝은 딥러닝의 기초이기 때문에, 목표에 적합한 데이터 마이닝을 찾아야 한다. 저자는 머신러닝과 딥러닝에 있어서 적절한 가중치와 데이터 마이닝이 핵심이라는 걸 강조한다.
6장은 데이터와 텍스트 분석을 설명한다. 데이터는 숫자와 같은 정형 데이터와 동영상과 사진 같은 비정형 데이터가 있다. 세상은 비정형 데이터의 세계로 머신러닝과 딥러닝에서는 비정형 데이터를 정형 데이터로 변환하는 게 핵심이다. 비정형 데이터를 크롤링(스크리밍) 작업과 전처리 작업 등 사전 작업으로 정형 데이터로 변환하고, 키워드 분석, 트렌드 분석, 네트워크 분석, 임베딩 분석 등 텍스트 분석에 활용한다. 텍스트 분석은 텍스트의 문맥이나 숨은 의미를 파악하는 것이 핵심이다. 은유인지, 직설인지, 무의미한지 그 의미를 파악하는 게 사람도 어려운진데 컴퓨터는 더 지옥이다. 저자는 'Garbage in, Garbage out(쓰레기를 넣으면, 쓰레기가 나온다)'이라는 대전제를 이야기하면서, 텍스트 분석에 앞서 명확한 목표와 소스를 파악해야 한다는 것에 방점을 찍는다.
연금술사와 빅데이터
흥미로운 유사성
한창 빅데이터에 관심이 많아, 애널리스트 과정에 집중적으로 공부하고 있는 요즘, 데이터 산업이 광산업과 상당히 유사하다는 걸 느낀다. 채광하기 전에 원하는 광물의 수율에 맞는 광산을 찾고(데이터 수집 및 소스 분석), 불필요한 광물을 걸러내어 제련하고(데이터 전처리), 제련된 광물을 원하는 목적에 맞게 가공한다(데이터 분석). 맨땅(빅데이터)에서 금(가치)을 찾는다는 목표까지 유사하다. 예나 지금이나, 금을 향한 인간의 탐욕은 끊임없었고, 빅데이터도 다르지 않다.
과거, 연금술사라는 직업이 있었다. 연금술사는 흔하게 만날 수 있는 원소를 이용해, 완전무결한 원소 '금'을 연성하는 방법을 연구했다. 애니메이션 <강철의 연금술사>로 대중에게 알려진 그들은 금을 연성할 수 있는 물질인 '현자의 돌'을 찾아 일생을 바쳤다. 화학이 발전하지 않았던 시대, 그들의 도전은 현대인의 시선에선 이그노벨상이나 다윈상이 떠오를 만큼 하찮은 낭비로 보인다. 하지만, 그들의 도전은 절대 무용한 게 아니었다. 현자의 돌을 찾는 과정에서 새로운 화학 물질을 발견하고, 더 효율적인 제련 방법을 발견한다. 연금술사들이 현대 화학의 기틀을 다졌다고 해도 과언이 아니다.
빅데이터도 마찬가지다. 빅데이터 산업을 한마디로 요약하라면, 쓸모없는 데이터에서 유형의 가치를 창출하는 산업이라고 볼 수 있다. 연금술사가 금과 현자의 돌을 찾으려는 것과 같다. 광고 등 돈에 몰두하는 모습이 금을 찾아 헤매던 연금술사와 비슷하지만, 연금술사가 화학을 발전시켜 인류에 공헌했듯이, 빅데이터도 인류 삶에 공헌하고 있다. 음성을 텍스트로 전환하는 알고리즘을 개발해서 청각장애인을 돕거나, 부정부패와 단합 등 불공정 행위를 찾아내는 알고리즘을 이용해 발각되지 않았던 부정행위를 찾아낸다. 이렇듯, 빅데이터 산업은 점점 우리 삶에 스며들고 있고, 우리 삶을 더 풍요롭게 한다. 앞으로 빅데이터가 어떤 세상을 만들어갈지 흥미진진하다. 일생을 바칠 가치가 있는 재미있는 산업이다.