품목정보
발행일 | 2019년 04월 30일 |
---|---|
쪽수, 무게, 크기 | 204쪽 | 370g | 173*230*12mm |
ISBN13 | 9791186697788 |
ISBN10 | 1186697784 |
발행일 | 2019년 04월 30일 |
---|---|
쪽수, 무게, 크기 | 204쪽 | 370g | 173*230*12mm |
ISBN13 | 9791186697788 |
ISBN10 | 1186697784 |
1. 텍스트 마이닝이란? 1.1. 문서 수집 1.2. 문서 특징 2. 데이터 사전 처리를 위한 기초 파이썬 코딩 2.1. 아나콘다 설치 2.2. 주피터 노트북 2.3. pandas 라이브러리 2.4. numpy 라이브러리 3.텍스트 데이터 3.1. 정규 표현식 3.2. 사전 처리 3.3. 품사 분석 4. 텍스트 마이닝 기법 4.1. 단어 빈도분석 - 기본적인 통계정보를 알아보자! 4.2. 군집 분석 - 유사한 문서들을 모아보자! 4.3. 토픽 모델링 - 토픽 모델링을 이용하여 문서의 토픽을 추론하자! 4.4. 감성 분석 - 텍스트의 감성 정도를 지표로 나타내자! 4.5. 연관어 분석 5. 텍스트 크롤링 5.1. Beautifulsoup을 이용한 크롤링 5.2. 셀레니움을 이용한 크롤링 5.3. lxml을 이용한 크롤링 6. 실전: 트위터 메시지 분석 7. 실전: 소셜커머스 후기 분석 |
국내 서적중 텍스트마이닝에 대해 재대로 소개해준 책이 없었는데, 이 책을 읽고 너무 많은 도움이 되었습니다. 텍스트마이닝의 기본적인 내용과, 활용방안에 대해서 제대로 나타나있습니다. 특히, 코드가 보기 쉽게 작성이 되어서 익히기에도 편하네요. 파이썬을 어느정도 아시는 분이라면 관련지식이 없어도 보기 편하게 책이 구성되어 있습니다. 현재 데이터마이닝 관련한 직장에서 일하는중인데, 팀원들과 함께 이 책으로 공부를 하고 있습니다.
텍스트 마이닝 방법론들을 이것저것 다 볼 수 있어서 좋았습니다.
파이썬 코드도 있어서 실제 분석시 참고해서 쓸 수 있을거 같아요.
텍스트 마이닝을 평소 공부하고 싶었는데 책으로 정리된게 없어서 못하고 있었는데 이책으로 어느정도 기본을 익혔습니다.
파이썬으로 텍스트 마이닝을 공부하려는 독자들이 처음 공부하는 책으로 보기에 좋을거 같습니다.
한가지 아쉬운점은 코드가 깃허브에 없습니다. 직접 타자로 따라쳐야합니다.
"텍스트 마이닝"이란 무엇이고 전체적으로 어떤 일을 어떻게 하는 지를 알아보기 위한 책이다. 작은 도서 판형에 200페이지 정도 되는 두께와 최소한의 편집, 그리고 인터넷 할인가 1.5만원이라는 가격대 역시 이 목적에 부합한다.
내용을 살펴보면, 매우 상세하고 친절해 보이는 목차와는 달리, 본문은 전개가 상당히 빠르다. 대학교 강의자료와 비슷한 느낌이다.
1장에서는 텍스트 마이닝이 무엇을 하는 것인지 간략하게 정의한다.
2장은 파이썬 설치 및 pandas, numpy 라이브러리에 대한 기초 설명이 나온다. 정말 간단하다. 다 합쳐서 20페이지다.
3장은 텍스트 데이터를 정리하는 방법이다. 즉 정규 표현식, 사전 처리, 품사 분석 등을 알려준다. 핵심만 나와있는 부분이 오히려 좋았다.
4장에서는 텍스트 마이닝을 직접 수행해본다. 빈도 분석, 군집 분석, 토픽 모델링, 감성 분석, 연관어 분석 등을 맛볼 수 있다. 약 100페이지 정도인데 소스코드에 대한 설명이 상세하지는 않다. "17~19줄까지는 감성사전을 이용하는 내용이다."와 같은 식이다. 파이썬 기초, 혹은 최소한 다른 프로그래밍 언어를 하나라도 아는 사람만 무리 없이 이해할 수 있을 것 같다. 2~3장에 소개된 대부분의 파이썬 기초 및 관련 라이브러리 활용법을 독자가 대충이라도 미리 알고 있어야 한다는 이야기다.
5장~6장은 실전 예제로 트위터와 소셜커머스 후기를 수집해서 앞에서 배운 텍스트 마이닝 기법을 적용해본다.
개인적으로는 파이썬을 어느 정도 알면서 텍스트 마이닝이란 분야가 궁금했었기에 상당히 재미있게 읽었다. 설명과 내용에 군더더기가 없고 책이 가벼워서 부담이 없었다.
예제 데이터와 코드도 깃헙에서 다운 받아서 실행해볼 수 있었다. 장별로 예제파일 정리도 안 되어있고, 소스도 좀 미묘한 상태라 이런 저런 수정을 해야 했지만 말이다.
위와 같은 이유로 이 책은 파이썬과 데이터 과학 관련 라이브러리에 친숙하지 않은 초보자들이 도전하기에는 쉽지 않을 것으로 예상된다. 그렇지만 파이썬 유저이면서 가볍게 텍스트 마이닝을 접해보고 싶은 사람들에게는 추천할만한 도서이다.