품목정보
발행일 | 2015년 04월 30일 |
---|---|
쪽수, 무게, 크기 | 872쪽 | 1708g | 188*250*40mm |
ISBN13 | 9788960777026 |
ISBN10 | 8960777021 |
발행일 | 2015년 04월 30일 |
---|---|
쪽수, 무게, 크기 | 872쪽 | 1708g | 188*250*40mm |
ISBN13 | 9788960777026 |
ISBN10 | 8960777021 |
1장 소개 1.1 왜 데이터 마이닝인가? 1.1.1 정보화시대로 이동 1.1.2 정보기술의 진보된 형태로서의 데이터 마이닝 1.2 데이터 마이닝의 의미 1.3 어떠한 종류의 데이터를 마이닝할 수 있나? 1.3.1 데이터베이스 데이터 1.3.2 데이터웨어하우스 1.3.3 거래 데이터 1.3.4 다른 종류의 데이터 1.4 어떤 종류의 패턴을 마이닝할 수 있는가? 1.4.1 클래스/개념 설명: 특성화와 차별화 1.4.2 빈발 패턴 마이닝, 연관성 분석, 상관 분석 1.4.3 예측 분석을 위한 분류와 회귀 분석 1.4.4 군집 분석 1.4.5 이상치 분석 1.4.6 모든 패턴이 흥미 있는가? 1.5 어떤 기술이 사용되는가? 1.5.1 통계학 1.5.2 기계학습 1.5.3 데이터베이스 시스템과 데이터웨어하우스 1.5.4 정보 검색 1.6 어떤 종류의 애플리케이션을 대상으로 하는가? 1.6.1 비즈니스 인텔리전스 1.6.2 웹 검색 엔진 1.7 데이터 마이닝의 주요 이슈사항 1.7.1 마이닝 밥법 1.7.2 사용자 상호작용 1.7.3 효율성과 확장성 1.7.4 데이터베이스 유형의 다양성 1.7.5 데이터 마이닝과 관련 모임 1.8 정리 1.9 연습문제 1.10 참고문헌 2장 데이터 알아두기 2.1 데이터 객체와 속성 유형 2.1.1 속성의 의미 2.1.2 명목 속성 2.1.3 이진 속성 2.1.4 서수 속성 2.1.5 숫자 속성 2.1.6 이산형 대 연속형 속성 2.2 데이터에 대한 기술통계 2.2.1 중앙 경향을 측정: 평균, 중위수, 최빈값 2.2.2 데이터의 분포를 측정: 범위, 사분위수, 분산, 표준편차, 사분위 범위 2.2.3 데이터 기초 통계설명에 대한 그래픽 디스플레이 2.3 데이터 시각화 2.3.1 픽셀지향 시각화 기술 2.3.2 기하학 투시 시각화 기술 2.3.3 아이콘 기반 시각화 기술 2.3.4 계층적 가시화 기술 2.3.5 복잡한 데이터와 관계의 가시화 방법 2.4 데이터 유사도와 비유사성의 측정 2.4.1 데이터 행렬 대 차이 행렬 2.4.2 명목 속성의 유사도 측정 2.4.3 이진 속성의 유사도 측정 2.4.4 수치형 데이터의 유사도(민코브스키 거리) 2.4.5 서열 속성에 대한 유사도 측정 2.4.6 혼합 유형 속성에 대한 차이 2.4.7 코사인 유사도 2.5 정리 2.6 연습문제 2.7 참고문헌 3장 데이터 전처리 3.1 데이터 전처리: 개요 3.1.1 데이터 품질: 왜 데이터 전처리를 하는가? 3.1.2 데이터 전처리 주요 작업 3.2 데이터 클리닝 3.2.1 결측치 3.2.2 노이즈 데이터 3.2.3 프로세스로서 데이터 클리닝 3.3 데이터 통합 3.3.1 엔티티 확인 문제 3.3.2 중복과 상관관계 분석 3.3.3 튜플 복사 3.3.4 데이터 값 충돌 감지와 해결 3.4 데이터 감소 3.4.1 데이터 감소 전략 3.4.2 웨이브렛 변환 3.4.3 주성분 분석 3.4.4 속성 부분집합 선택 3.4.5 회귀모형과 로그선형모형: 모수 데이터 축소 3.4.6 히스토그램 3.4.7 클러스터링 3.4.8 샘플링 3.4.9 데이터 큐브 합계 3.5 데이터 변환과 데이터 이산화 3.5.1 데이터 변환 전략 3.5.2 정규화에 의한 데이터 변환 3.5.3 비닝에 의한 구분 3.5.4 히스토그램에 의한 구분 3.5.5 클러스터링, 의사결정나무, 상관 분석에 의한 구분 3.5.6 명목 데이터에 대한 개념계층 생성 3.6 정리 3.7 연습문제 3.8 참고문헌 4장 데이터웨어하우스와 OLAP 4.1 데이터웨어하우스: 기본 개념 4.1.1 데이터웨어하우스란? 4.1.2 업무 데이터베이스와 데이터웨어하우스의 차이 4.1.3 왜 별도로 데이터웨어하우스가 필요한가? 4.1.4 DataWarehousing: A Multitiered Architecture 4.1.5 데이터웨어하우스 모델: 엔터프라이즈 웨어하우스, 데이터마트, 가상 웨어하우스 4.1.6 추출, 변환, 로딩 4.1.7 메타 데이터 저위치 4.2 데이터웨어하우스 모델링: 데이터 큐브와 OLAP 4.2.1 데이터 큐브: 다차원 데이터 모형 4.2.4 스타, 눈송이, 팩트별자리: 다차원 데이터 모형을 위한 스키마 4.2.3 차원: 개념계층의 역할 4.2.4 측도: 범주화와 계산 4.2.5 전형적인 OLAP 작업 4.2.6 다차원 데이터베이스 쿼리를 위한 스타넷 쿼리모형 4.3 데이터웨어하우스 설계와 사용 4.3.1 데이터웨어하우스 설계를 위한 비즈니스 분석 프레임워크 4.3.2 데이터웨어하우스 설계 프로세스 4.3.3 정보처리를 위한 데이터웨어하우스 사용 4.3.4 온라인 분석프로세싱에서 다차원 데이터 마이닝까지 4.4 데이터웨어하우스 구현 4.4.1 데이터 큐브의 효율적인 계산: 개요 4.4.2 OLAP 데이터를 인덱싱하기: 비트맵 인덱스와 조인 인덱스 4.4.3 효율적 OLAP 쿼리 처리 4.4.4 OLAP 서버 아키텍처: ROLAP, MOLAP, HOLAP 4.5 속성지향 도입에 의한 데이터 일반화 4.5.1 데이터 특성화를 위한 속성지향 유도 4.5.2 속성지향 유도의 효율적 구현 4.5.3 클래스 비교에 대한 속성지향 유도 4.6 정리 4.7 연습문제 4.8 참고 문헌 5장 데이터 큐브 기술 5.1 데이터 큐브 계산: 사전 컨셉 5.1.1 큐브 실체화: 전체 큐브, 빙산 큐브, 폐쇄 큐브, 큐브 셸 5.1.2 데이터 큐브 계산을 위한 일반 전략 5.2 데이터 큐브 계산 방법 5.2.1 전체 큐브 계산용 멀티웨이 집계 5.2.2 BUC: 아펙스 큐보이드에서 아래 방향으로 빙산 큐브를 계산하기 5.2.3 스타큐빙: 동적 스타트리 구조를 이용한 빙산 큐브 계산 5.2.4 빠른 고차원 OLAP에 대해 사전 셸 부분 계산 5.3 탐색 큐브 기술에 의한 고급 질의 처리하기 5.3.1 샘플링 큐브: 샘플링 데이터에 대한 OLAP 기반 마이닝 5.3.2 큐브순위매기기: 탑-k개의 질의에 대한 효율적 계산 5.4 큐브공간 내 다차원 데이터 분석 5.4.1 예측 큐브: 큐브공간에서 예측마이닝 5.4.2 다특성 큐브: 다양한 분석단위에 따른 혼합집계 5.4.3 예외 기반, 발견지향 큐브공간 탐색 5.5 정리 5.6 연습문제 5.7 참고 문헌 6장 빈발패턴, 연관관계, 상관관계 마이닝: 기본 개념과 방법 6.1 기본 개념 6.1.1 장바구니 분석: 동기부여 예제 6.1.2 빈발항목집합, 폐쇄항목집합, 연관규칙 6.2 빈발항목집합 마이닝 방법 6.2.1 Apriori 알고리즘: 한정된 후보생성으로 빈발항목집합 발견하기 6.2.2 빈발 항목집합에서 연관규칙 생성하기 6.2.3 Apriori의 효율개선하기 6.2.4 빈발항목집합을 마이닝하기 위한 패턴 성장 접근법 6.2.5 수직데이터 형태를 이용한 빈발항목집합 마이닝 6.2.6 폐쇄된 최대패턴 마이닝 6.3 관심대상 패턴은 어느 것인가? - 패턴평가방법 6.3.1 강한 규칙이 반드시 관심대상이 되는 것은 아니다. 6.3.2 연관관계 분석에서 상관 분석까지 6.3.3 패턴평가 측도의 비교 6.4 정리 6.5 연습문제 6.6 참고 문헌 7장 고급 패턴마이닝 7.1 패턴마이닝: 로드맵 7.2 다수준, 다차원 공간의 패턴 마이닝 7.2.1 다수준 연관도 분석 7.2.2 다차원 연관관계 마이닝 7.2.3 정량적 연관규칙에 대한 마이닝 7.2.4 희소한 패턴과 네거티브 패턴 마이닝 7.3 제약조건 기반 빈발 패턴 마이닝 7.3.1 연관규칙에 대한 메타규칙가이드 마이닝 7.3.2 제약 기반 패턴 생성: 패턴 공간 정리하기와 데이터 공간 정리하기 7.4 고차원 데이터와 거대한 패턴 마이닝 7.4.1 패턴 퓨전을 이용한 거대 패턴마이닝 7.5 압축 또는 근사패턴 마이닝 7.5.1 패턴 클러스터링으로 압축패턴을 마이닝하기 7.5.2 중복인식 최상위 k개의 패턴을 추출하기 7.6 패턴 탐색과 응용 7.6.1 빈발패턴에 대한 시맨틱 주석 7.6.2 패턴마이닝의 응용사례 7.7 정리 7.8 연습문제 7.9 참고문헌 8장 클래스 분류: 기초 개념과 방법 8.1 기본 개념 8.1.1 클래스 분류의 의미 8.1.2 일반적인 클래스 분류 기법 8.2 결정 트리 유도 8.2.1 결정 트리 유도 8.2.2 속성 선택 방법 8.2.3 가지치기 8.2.4 결정 트리 유도와 규모 8.2.5 결정 트리 눈으로 보기 8.3 베이즈 분류 8.3.1 베이즈 이론 8.3.2 나이브 베이지안 분류자 8.4 규칙 기반 클래스 분류 8.4.2 결정 트리에서 규칙 추출 8.4.3 순차 포괄 알고리즘의 규칙 구성 8.5 모델 검증과 선택 8.5.1 분류자 성능 비교 측정법 8.5.2 홀드아웃 메소드와 무작위 서브샘플링 8.5.3 교차 검증 8.5.4 부트스트랩 8.5.5 통계적 유의성의 모델 선택 8.5.6 비용효율과 ROC 곡선의 분류자 비교 8.6 분류 정확성 향상 기법 8.6.1 앙상블 개론 8.6.2 배깅 8.6.3 부스팅과 AdaBoost 8.6.4 랜덤 포레스트 8.6.5 불균형 클래스 데이터의 정확성 향상 8.7 정리 8.8 연습문제 8.9 참고문헌 9장 클래스 분류: 고급 기법 9.1 베이지안 신뢰 네트워크 9.1.1 신뢰 네트워크의 개념과 원리 9.1.2 베이지안 신뢰 네트워크 훈련 9.2 복습 분류법 9.2.1 멀티레이어 피드포워드 신경망 9.2.2 네트워크 구조 정의 9.2.3 복습 9.2.4 블랙박스 속으로: 복습과 해독력 9.3 서포트 벡터 머신 9.3.1 데이터를 선형으로 구분할 수 있는 경우 9.3.2 데이터의 선형 분단이 불가능한 경우 9.4 빈도 패턴의 분류 9.4.1 연관성 분류 9.4.2 빈도 패턴 분류 9.5 게으른 학습자 9.5.1 k-최인접 이웃 분류자 9.5.2 사례 입증 9.6 기타 분류 방법론 9.6.1 유전 알고리즘 9.6.2 러프 세트 9.6.3 퍼지 세트 9.7 기타 분류 방법 관련 이슈 9.7.1 다중 클래스 분류 9.7.2 준 지도 분류 9.7.3 능동 학습 9.7.4 전달 학습 9.8 정리 9.9 연습문제 9.10 참고문헌 10장 클러스터 분석: 기본 개념과 방법론 10.1 클러스터 분석 10.1.1. 클러스터 분석이란 무엇인가? 10.1.2 클러스터 분석의 필수 요소 10.1.3 기본 클러스터링 방법 개론 10.2 분할 클러스터링 10.2.1 k-평균: 중심자 클러스터링의 대표 10.2.2 k-중앙자: 오브젝트 클러스터링 기법의 대표 10.3 구조적 클러스터링 10.3.1 조적식 vs. 분할식 구조적 클러스터링 10.3.2 클러스터링 알고리즘의 거리 측정법 10.3.3 BIRCH: 클러스터링 특성 트리의 다단계 구조적 클러스터링 10.3.4 Chameleon: 동적 모델링의 다단계 구조적 클러스터링 10.3.5 확률식 구조 클러스터링 10.4 밀도 기반 클러스터링 10.4.1 DBSCAN: 고밀도 연결 영역에 대한 밀도 기반 클러스터링 10.4.2 OPTICS: 클러스터링 구조 규명을 위한 점 정렬 10.4.3 DENCLUE: 밀도 분포 함수에 따른 클러스터링 10.5 그리드 기반 방법론 10.5.1 STING: STatistical INformation Grid 10.5.2 CLIQUE: 연역적 하위 공간 클러스터링 10.6 클러스터링의 평가 10.6.1 클러스터링 경향성 측정 10.6.1 클러스터 숫자 결정 10.6.3 클러스터링 품질 측정 10.7 정리 10.8 연습문제 10.9 참고문헌 11장 고급 클러스터 분석 11.1 확률 모델 기반 클러스터링 11.1.1 퍼지 클러스터 11.1.2 확률 모델 기반 클러스터 11.1.3 기대 값-최대화 알고리즘 11.2 고차원 데이터의 클러스터링 11.2.1 고차원 데이터의 클러스터링: 문제와 난점, 주요 방법론 11.2.2 부분 공간 클러스터링 11.2.3 바이클러스터링 11.2.4 차원 축소와 분절 클러스터링 11.3 그래프/네트워크 데이터의 클러스터링 11.3.1 그래프/네트워크 클러스터링의 적용 분야와 난제 11.3.2 그래프/네트워크 데이터의 유사성 측정법 11.3.3 그래프 클러스터링 방법 11.4 클러스터링의 제약 11.4.1 제약 조건의 분류 11.4.2 조건이 있는 클러스터링 방법론 11.5 정리 11.6 연습문제 11.7 참고문헌 12장 아웃라이어 12.1 아웃라이어와 아웃라이어 분석 12.1.1 아웃라이어란? 12.1.2 아웃라이어의 유형 12.1.3 아웃라이어 탐색의 난제 12.2 아웃라이어 탐색 방법 12.2.1 지도/준지도/비지도 탐색 12.2.2 통계, 인접성, 클러스터링 방법 12.3 통계적 아웃라이어 12.3.1 파라미터 아웃라이어 탐색 12.3.2 비파라미터 아웃라이어 탐색 12.4 인접성 기반 아웃라이어 탐색 12.4.1 거리 기반 아웃라이어 탐색과 중첩 반복문 12.4.2 그리드 기반 아웃라이어 탐색 12.4.3 밀도 기반 아웃라이어 탐색 12.5 클러스터링 아웃라이어 12.6 클래스 분류 아웃라이어 12.7 맥락/군집 아웃라이어 12.7.1 일반적인 아웃라이어 탐색 방법의 맥락 아웃라이어 탐색 변용 12.7.2 맥락상 정상 행동의 모델링 12.7.3 군집 아웃라이어 12.8 고차원 데이터의 아웃라이어 탐색 12.8.1 통상 아웃라이어 탐색 방법 활용 12.8.2 부분 공간의 아웃라이어 탐색 12.8.3 고차원 아웃라이어 모델링 12.9 정리 12.10 연습문제 12.11 참고문헌 13장 데이터 마이닝의 흐름과 선구자들 13.1 복잡한 데이터 형식의 처리 13.1.1 시퀀스 데이터 마이닝: 시계열/기호/생물학 시퀀스의 처리 13.1.2 그래프/네트워크 마이닝 13.1.3 기타 유형 데이터의 마이닝 13.2 기타 데이터 마이닝 방법 13.2.1 통계적 데이터 마이닝 13.2.2 데이터 마이닝을 보는 관점 13.2.3 시청각 데이터 마이닝 13.3 데이터 마이닝의 활용 13.3.1 회계 데이터 분석의 데이터 마이닝 13.3.2 유통과 통신 업계의 데이터 마이닝 13.3.3 과학과 공학의 데이터 마이닝 13.3.4 네트워크 침입의 감지와 예방에 대한 데이터 마이닝 13.3.5 데이터 마이닝과 추천 시스템 13.4 데이터 마이닝과 사회 13.4.1 어디에나 있고 보이지는 않는 데이터 마이닝 13.4.2 데이터 마이닝과 사생활, 보안, 사회에 대한 영향 13.5 데이터 마이닝 트랜드 13.6 정리 13.7 연습문제 13.8 참고문헌 |
원서의 내용은 개략적인 데이터마이닝 부터 현재의 데이터마이닝 기술까지 전문적인 내용에 대한 자세한 설명은 없지만 충실하게 다루고 있는 책이다. 본 번역서가 2016년도 대한민국학술원 선정이 되어서, 원서를 보는 것보다 번역서를 토대로 원서와 같이 보면 좋을 것 같아 구매를 하게 되었다. 하지만 한마디로 내가 지금까지 읽은 최악의 번역서 중 하나가 될법한 책이다.
1) 번역서의 문단 중 쓰여진 수식들 중 대부분은 오타의 영향으로 전혀 다른 수식이 적혀 있다. 예를 들어 '23 = 8' 은 전혀 알 수 없는 수식이다. 하지만, 이는 2의 3승을 의미한다. 물론 원서는 2의 3승 수식을 잘 표현하고 있다. 본 번역서의 대부분은 제곱승을 표시하지 않는다.
2) 6장, 7장은 정말 최악의 번역이다. 원서를 보면 '없다'라는 결론이 번역서는 '있다.'라고 번역하고, 도무지 번역서를 읽어서는 어떤 내용인지 알 수 없는 내용이 태반이다. 과연 옮긴이가 원서와 대조하면서 저자의 정확한 의도를 알고 번역하였는지 의심이 들 정도이다.
3) 대한민국학술원은 책의 내용을 살표본 후에 정말 추천할 책인지 선정하는지 의문스럽다. 원서를 추천한 것이라면 본 필자도 학술원의 추천이 맞다고 본다. 하지만, 대한민국학술원이지 않은가? 나는 분명 변역서를 추천한 것으로 본다. 그러면 선정이유가 무엇인지(후원금만 있으면 선정되는가?) 의아스럽다.
4) 출판사는 책을 출판하는데 있어서 교정의 책임이 있다. 기술서적에 대한 이해도가 어려워 교정이 어렵다고 하여도 수식이 틀린 내용은 그림으로 수식을 비교해도 바로 알 수 있다. 틀린 부분이 수십군데를 훌쩍 넘는 수준이라면 출판사도 책임이 있다고 본다.
한다미로 요약하자면 본 번역서는 원서없이 절대로 볼 수 없는 책이다.
쉽게 다양한 분야의 내용을 설명해놓은 책이네요. 교재로도 많이 사용하는 책이라서 구매했네요.
국내서에서도 데이터마이닝 관련된 책은 많으나 대부분 일부 맛보기로만 설명해놓은 책들이 대부분이고 깊이있는 이론이나 로직을 설명해놓은 책은 별로 없어 보입니다.
게다가 친절한 설명이 곁들여져 있는 책을 구하기 힘들죠.
이 책은 데이터마이닝 관련하여 오랫동안 읽혀져온 책이고
아마도 second edition도 국내 교수들이 번역했었던 책으로 알고 있습니다.
이번에 third edition으로 내용도 많이 보충된 원서를 번역한 책으로 용어 선정도 잘되어 있고 설명도 깔끔하게 잘 정리된 것 같습니다.
한글로 번역된 책들은 학계에서 쓰는 용어를 제멋대로 한글로 바꾸어놓는 경우가 많아서 잘 안보는 편이지만, 정사범, 송용근님이 번역해주신 데이터 마이닝 개념과 기법은 아주 좋네요.
주요 용어들을 한글로 번역하실 때, 표준에 따르려고 많이 노력하신 모습을 볼 수 있고, 책에서 번역한 용어 옆에 영어로 원래 어떤 건지도 다 달아두었습니다.
원래 책 자체가 데이터 마이닝을 공부할 때 중요한 알파부터 오메가까지 빠짐없이 망라된 책이라 아주 좋습니다.
이 책의 앞부분을 읽다보면 자세하게 설명은 안해주고 개론서라는 느낌을 받을 수 있는데요. 뒷 부분의 알고리즘 설명이 잘 되어 있어서 매주 한 가지 기법을 공부하고, 구현해보는 목표로 하고 있습니다.
원 저자의 웹사이트를 가보면 이 책의 슬라이드 자료(링크)도 있어서, 핵심만 파악해서 공부하는 진도를 빠르게 나가고 싶다면 참고하시면 되겠습니다