품목정보
출간일 | 2019년 04월 30일 |
---|---|
쪽수, 무게, 크기 | 204쪽 | 370g | 173*230*12mm |
ISBN13 | 9791186697788 |
ISBN10 | 1186697784 |
출간일 | 2019년 04월 30일 |
---|---|
쪽수, 무게, 크기 | 204쪽 | 370g | 173*230*12mm |
ISBN13 | 9791186697788 |
ISBN10 | 1186697784 |
파이썬을 이용한 텍스트 마이닝으로 ‘아’ 다르고 ‘어’ 다른 한글 텍스트 분석하기 알고리즘에 대한 수학적인 이해가 없어도 개념 파악을 도와주며 독자들이 코드를 따라하면서 결과를 바로바로 확인할 수 있도록 구성했다. 또한 텍스트 데이터 추출을 위해 필수적인 웹 크롤링 기술도 익힌다. 따라서 독자들은 어떠한 웹페이지라도 이 책의 내용을 응용하여 스스로 데이터를 추출 할 수 있다. 이 책을 본 이후에는 데이터 수집부터 분석까지 전 과정을 스스로 할 수 있다. 텍스트 마이닝 분야는 공학자들 이외에 인문, 사회, 예체능 학생들 및 기업에서도 논문, 마케팅을 위해 쓸 수 있다. 세상 속에 존재하는 전체 데이터의 90% 이상이 비정형 텍스트 데이터로 이루어져 있다. 특히 각종 웹 페이지, sns 등에서 엄청난 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터를 잘 활용한다면 연구, 기업 경영 전략에 매우 유익하게 활용될 수 있으며 이를 위해서는 텍스트 마이닝 기술이 필수적이다. |
1. 텍스트 마이닝이란? 1.1. 문서 수집 1.2. 문서 특징 2. 데이터 사전 처리를 위한 기초 파이썬 코딩 2.1. 아나콘다 설치 2.2. 주피터 노트북 2.3. pandas 라이브러리 2.4. numpy 라이브러리 3.텍스트 데이터 3.1. 정규 표현식 3.2. 사전 처리 3.3. 품사 분석 4. 텍스트 마이닝 기법 4.1. 단어 빈도분석 - 기본적인 통계정보를 알아보자! 4.2. 군집 분석 - 유사한 문서들을 모아보자! 4.3. 토픽 모델링 - 토픽 모델링을 이용하여 문서의 토픽을 추론하자! 4.4. 감성 분석 - 텍스트의 감성 정도를 지표로 나타내자! 4.5. 연관어 분석 5. 텍스트 크롤링 5.1. Beautifulsoup을 이용한 크롤링 5.2. 셀레니움을 이용한 크롤링 5.3. lxml을 이용한 크롤링 6. 실전: 트위터 메시지 분석 7. 실전: 소셜커머스 후기 분석 |
텍스트 데이터 분석 및 특정 텍스트 추출이 필요해 적합한 도서를 찾다가 구매한 도서다.
주피터 노트북의 설치와 pandas, numpy 모듈 등의 설치 방법에 대해 친절하게 사진으로 설명하고 다양한 텍스트 분석 방법을 설명한다.
특정 텍스트 추출에 있어서는 정규 표현식이 무척 중요하다. 여러 권의 책을 통해 공부 했었지만 매번 어렵게 느껴진다. 본서는 다양한 예제를 통해 차근차근 이해하기 쉽게 설명하고 있어 도움이 된다.
단어의 빈도를 이용해 단어구름(wordcloud) 형태로 표현하는 방법도 상세히 설명하고 있어 텍스트 분석에 관심 있는 분들에게 많은 도움이 될 것 이다.
꽤나 많이들 배우는 분야인데에 반해서, 텍스트 마이닝 관련한 교재가 많이 없습니다. 그 중에서도 파이썬을 이용한 책은 더 없고요. 이 책은 파이썬으로 텍스트 마이닝 하는 방법을 소개한다는 것만으로도 충분히 구매의 가치가 있었습니다. 전체적으로 자주 쓰이는 부분들을 알려준다는 점이 만족스러웠고요, 파이썬 쌩기초 문법을 공부하신 후에 보면 더 좋을 것 같습니다.
"텍스트 마이닝"이란 무엇이고 전체적으로 어떤 일을 어떻게 하는 지를 알아보기 위한 책이다. 작은 도서 판형에 200페이지 정도 되는 두께와 최소한의 편집, 그리고 인터넷 할인가 1.5만원이라는 가격대 역시 이 목적에 부합한다.
내용을 살펴보면, 매우 상세하고 친절해 보이는 목차와는 달리, 본문은 전개가 상당히 빠르다. 대학교 강의자료와 비슷한 느낌이다.
1장에서는 텍스트 마이닝이 무엇을 하는 것인지 간략하게 정의한다.
2장은 파이썬 설치 및 pandas, numpy 라이브러리에 대한 기초 설명이 나온다. 정말 간단하다. 다 합쳐서 20페이지다.
3장은 텍스트 데이터를 정리하는 방법이다. 즉 정규 표현식, 사전 처리, 품사 분석 등을 알려준다. 핵심만 나와있는 부분이 오히려 좋았다.
4장에서는 텍스트 마이닝을 직접 수행해본다. 빈도 분석, 군집 분석, 토픽 모델링, 감성 분석, 연관어 분석 등을 맛볼 수 있다. 약 100페이지 정도인데 소스코드에 대한 설명이 상세하지는 않다. "17~19줄까지는 감성사전을 이용하는 내용이다."와 같은 식이다. 파이썬 기초, 혹은 최소한 다른 프로그래밍 언어를 하나라도 아는 사람만 무리 없이 이해할 수 있을 것 같다. 2~3장에 소개된 대부분의 파이썬 기초 및 관련 라이브러리 활용법을 독자가 대충이라도 미리 알고 있어야 한다는 이야기다.
5장~6장은 실전 예제로 트위터와 소셜커머스 후기를 수집해서 앞에서 배운 텍스트 마이닝 기법을 적용해본다.
개인적으로는 파이썬을 어느 정도 알면서 텍스트 마이닝이란 분야가 궁금했었기에 상당히 재미있게 읽었다. 설명과 내용에 군더더기가 없고 책이 가벼워서 부담이 없었다.
예제 데이터와 코드도 깃헙에서 다운 받아서 실행해볼 수 있었다. 장별로 예제파일 정리도 안 되어있고, 소스도 좀 미묘한 상태라 이런 저런 수정을 해야 했지만 말이다.
위와 같은 이유로 이 책은 파이썬과 데이터 과학 관련 라이브러리에 친숙하지 않은 초보자들이 도전하기에는 쉽지 않을 것으로 예상된다. 그렇지만 파이썬 유저이면서 가볍게 텍스트 마이닝을 접해보고 싶은 사람들에게는 추천할만한 도서이다.