이 상품은 구매 후 지원 기기에서 예스24 eBook앱 설치 후 바로 이용 가능한 상품입니다.
|
1장. 데이터 마이닝 개요 1.1 데이터 마이닝이란?1.2 데이터 마이닝: 지식 발견의 핵심 절차1.3 데이터 타입의 다양성 1.4 다양한 지식 유형의 마이닝1.4.1 다차원 데이터의 요약 기법1.4.2 빈발 패턴, 연관성, 상관관계 마이닝1.4.3 예측적 분석을 위한 분류와 회귀 분석1.4.4 클러스터 분석1.4.5 딥러닝1.4.6 이상점 분석1.4.7 데이터 마이닝 결과의 유의미성1.5 데이터 마이닝: 다양한 학문의 융합1.5.1 데이터와 통계학1.5.2 머신러닝과 데이터 마이닝1.5.3 데이터베이스와 데이터 마이닝1.5.4 데이터 과학과 데이터 마이닝 1.5.5 다른 학문과 데이터 마이닝1.6 데이터 마이닝과 응용 분야1.7 데이터 마이닝과 사회과학 1.8 정리 1.9 연습 문제 1.10 참고 자료2장. 데이터, 측정, 전처리2.1 데이터 타입 2.1.1 명목형 데이터 2.1.2 이진 데이터 2.1.3 서수형 데이터 2.1.4 수치형 데이터2.1.5 이산형 및 연속형 데이터2.2 데이터 분석을 위한 통계의 주요 개념2.2.1 중심화 경향의 측정2.2.2 분산화 수준의 측정 2.2.3 공분산과 상관관계 2.2.4 통계적 분석 결과의 시각화 2.3 유사성과 비유사성 측정 2.3.1 데이터 행렬과 비유사성 행렬 2.3.2 명목형 데이터의 확률 측정2.3.3 이진 데이터의 확률 측정 2.3.4 수치형 데이터의 비유사성: 민코프스키 거리2.3.5 서수형 데이터의 확률 측정2.3.6 혼합 데이터 타입의 비유사성 측정2.3.7 코사인 유사성2.3.8 유사성 분포도 측정: KL 발산 2.3.9 유사성을 이용한 패턴 발견2.4 전처리: 데이터 품질 개선을 위한 정련, 통합2.4.1 데이터 품질 측정 2.4.2 데이터 정련 기법 2.4.3 데이터 통합 기법 2.5 데이터 변환 2.5.1 데이터 정규화2.5.2 데이터 이산화 2.5.3 데이터 압축2.5.4 데이터 표본 추출 2.6 복잡한 데이터의 차원 축소 기법2.6.1 PCA 기법 2.6.2 속성 하위 집합 선택 기법2.6.3 비선형 차원 축소 기법 2.7 정리2.8 연습 문제 2.9 참고 자료3장. 데이터 웨어하우스와 OLAP3.1 데이터 웨어하우스 3.1.1 데이터 웨어하우스란? 3.1.2 데이터 웨어하우스 아키텍처: 기업용 데이터 웨어하우스 및 데이터 마트3.1.3 데이터 레이크 3.2 데이터 웨어하우스 구현: 스키마와 측정 기법 3.2.1 데이터 큐브: 다차원 데이터 모델 3.2.2 다차원 데이터 스키마: 스타, 스노플레이크, 팩트 컨스텔레이션 3.2.3 개념 계층 구조 3.2.4 측정: 카테고리화 및 연산 3.3 OLAP 연산 3.3.1 전형적인 OLAP 연산 3.3.2 OLAP 데이터 인덱싱: 비트맵 인덱싱 및 조인 인덱싱 3.3.3 스토리지 구현: 칼럼 기반 데이터베이스3.4 데이터 큐브 연산 3.4.1 데이터 큐브 연산의 주요 용어 3.4.2 데이터 큐브 구현: 아이디어 3.4.3 OLAP 서버 아키텍처: ROLAP, MOLAP, HOLAP 비교3.4.4 데이터 큐브 연산의 검증된 전략3.5 데이터 큐브 연산 기법3.5.1 MultiWay - 전체 큐브에 대한 다방향 배열 집계3.5.2 BUC: 꼭지점 큐보이드에서 하향 아이스버그 큐브 계산하기 3.5.3 셸 프래그먼트: 고차원 OLAP에 대한 사전 연산 3.5.4 큐보이드를 이용한 OLAP 쿼리 효율성 개선 3.6 정리3.7 연습 문제3.8 참고 문헌 4장. 패턴 마이닝의 개념과 기법 4.1 빈발 패턴의 기본 개념 4.1.1 마켓 바스켓 분석 4.1.2 빈발 아이템셋, 닫힌 아이템셋, 연관 규칙4.2 빈발 아이템셋 마이닝 기법 4.2.1 Apriori 알고리듬: 제한된 후보 생성을 통한 빈발 아이템셋 탐색 4.2.2 빈발 아이템을 통한 연관 규칙 생성4.2.3 Apriori의 효율성 개선4.2.4 빈발 아이템셋 마이닝을 위한 FP-growth 기법4.2.5 수직적 데이터 형식을 이용한 빈발 아이템셋 마이닝4.2.6 닫힌 패턴 및 최대 패턴 마이닝4.3 패턴 검증: 패턴의 유용성 평가4.3.1 강한 규칙이 항상 유용한 것은 아니다4.3.2 상관관계 분석을 위한 연관성 분석4.3.3 패턴 검증 방식 비교4.4 정리4.5 연습 문제4.6 참고 문헌5장. 패턴 마이닝: 고급 기법5.1 다양한 패턴의 마이닝 기법5.1.1 다수준 연관 규칙 마이닝5.1.2 다차원 연관 규칙 마이닝5.1.3 양적 연관 규칙 마이닝5.1.4 고차원 데이터 마이닝5.1.5 희귀 패턴 및 부정적 패턴 마이닝5.2 압축 패턴 또는 근사 패턴 마이닝5.2.1 패턴 클러스터링 기반의 압축 패턴 마이닝5.2.2 중복성을 고려한 상위 k 패턴 마이닝5.3 제약 조건 기반 패턴 마이닝5.3.1 제약 조건 기반 패턴 공간 가지치기5.3.2 제약 조건 기반의 데이터 공간 가지치기5.3.3 간결성 조건 기반의 마이닝 공간 가지치기5.4 순차적 패턴 마이닝5.4.1 순차적 패턴 마이닝: 개념과 원리5.4.2 순차적 패턴 마이닝 기법의 확장5.4.3 제약 조건 기반 순차적 패턴 마이닝5.5 서브그래프 패턴 마이닝5.5.1 빈발 서브그래프 마이닝 기법5.5.2 다양성 기반 및 제약 조건 기반 서브그래프 마이닝5.6 패턴 마이닝 사례 분석5.6.1 대규모 텍스트 데이터의 구 마이닝5.6.2 소프트웨어의 복사 및 붙여넣기 오류 마이닝5.7 정리5.8 연습 문제 5.9 참고 자료 6장. 분류: 기본 개념과 기법 6.1 분류의 기본 개념6.1.1 분류의 정의6.1.2 기본적인 분류 기법6.2 분류 모델: 의사결정 트리6.2.1 의사결정 트리 모델 개요6.2.2 속성 선택 척도6.2.3 의사결정 트리 가지치기6.3 베이즈 분류 기법6.3.1 베이즈 정리 6.3.2 나이브 베이즈 분류기6.4 레이지 러너 6.4.1 KNN 분류기6.4.2 사례 기반 추론6.5 선형 분류기 6.5.1 선형 회귀 6.5.2 퍼셉트론: 선형 회귀의 분류 변환6.5.3 로지스틱 회귀6.6 모델 평가 및 선택6.6.1 분류 모델 성능 평가 지표6.6.2 홀드아웃 기법 및 랜덤 서브샘플링6.6.3 교차 평가 기법6.6.4 부트스트랩6.6.5 모델 선택을 위한 통계적 유의성 검정6.6.6 비용-이익 및 ROC 커브를 이용한 분류기 성능 비교6.7 분류 정확도 개선 방법6.7.1 앙상블 기법 개요6.7.2 배깅6.7.3 부스팅6.7.4 랜덤 포레스트6.7.5 클래스 불균형 데이터의 분류 정확도 개선6.8 정리6.9 연습 문제6.10 참고 문헌7장. 분류의 고급 기법 7.1 특성치 선택, 특성치 구성7.1.2 래퍼 기법7.1.3 임베디드 기법7.2 베이즈 신뢰 네트워크7.2.1 개념과 작동 원리7.2.2 베이즈 신뢰 네트워크 훈련시키기7.3 서포트 벡터 머신7.3.1 선형 서포트 벡터 머신7.3.2 비선형 서포트 벡터 머신7.4 규칙 기반 분류, 패턴 기반 분류7.4.1 IF-THEN 규칙 기반 분류7.4.2 의사결정 트리에서 규칙 추출하기7.4.3 순차적 커버링 알고리듬을 이용한 규칙 유추7.4.4 연관 분류7.4.5 차별적 빈발 패턴 기반 분류7.5 약한 지도식 분류7.5.1 반지도식 분류7.5.2 액티브 러닝7.5.3 전이 학습7.5.4 원격 지도7.5.5 제로샷 러닝7.6 리치 데이터 타입의 분류7.6.1 스트림 데이터 분류7.6.2 시퀀스 데이터 분류7.6.3 그래프 데이터 분류7.7 최신의 분류 기법, 연관 기술7.7.1 멀티클래스 분류7.7.2 거리 지표 학습7.7.3 분류의 의미 해석7.7.4 유전적 알고리듬7.7.5 강화 학습7.8 정리7.9 연습 문제7.10 참고 문헌8장. 클러스터링의 기본 개념과 주요 기법 8.1 클러스터 분석8.1.1 클러스터 분석의 개요8.1.2 클러스터링을 위한 요구 사항8.1.3 기본적인 클러스터링 기법 개요8.2 파티셔닝 클러스터링 기법8.2.1 k-means: 중심 기반 클러스터링8.2.2 k-means 변형 클러스터링 기법8.3 계층적 클러스터링 기법 8.3.1 계층적 클러스터링의 기본 개념8.3.2 병합식 계층적 클러스터링8.3.3 분할식 계층적 클러스터링8.3.4 BIRCH: 클러스터 피처 트리 기반의 계층적 클러스터링8.3.5 확률식 계층적 클러스터링8.4 밀도 기반 클러스터링과 그리드 기반 클러스터링8.4.1 DBSCAN: 고밀도 연결 지역을 이용한 밀도 기반 클러스터링8.4.2 DENCLUE: 밀도 분포 함수 기반 클러스터링8.4.3 그리드 기반 클러스터링 8.5 클러스터링 성능 평가8.5.1 클러스터링 경향 평가8.5.2 클러스터의 수 결정 방식8.5.3 클러스터링 품질 측정: 외연적 기법 8.5.4 내재적 기법8.6 정리8.7 연습 문제8.8 참고 문헌9장. 고급 클러스터링 기법 9.1 확률적 모델 기반 클러스터링9.1.1 퍼지 클러스터9.1.2 확률적 모델 기반 클러스터9.1.3 기댓값 최대화 알고리듬9.2 고차원 데이터에 대한 클러스터링9.2.1 고차원 데이터에 대한 클러스터링이 어려운 이유9.2.2 축 방향 하위 공간 접근법9.2.3 임의 방향 하위 공간 접근법9.3 바이클러스터링9.3.1 바이클러스터링의 활용 방식9.3.2 바이클러스터의 종류9.3.3 바이클러스터링 기법9.3.4 MaPle을 이용한 바이클러스터 열거 기법9.4 클러스터링을 위한 차원 축소9.4.1 클러스터링을 위한 선형 차원 축소9.4.2 비음수 행렬 분해 9.4.3 스펙트럴 클러스터링9.5 그래프 및 네트워크 데이터 클러스터링9.5.1 응용 분야 및 도전 과제9.5.2 그래프 데이터의 유사성 측정9.5.3 그래프 데이터의 클러스터링 기법9.6 반지도식 클러스터링9.6.1 부분적 라벨 지정 데이터의 반지도식 클러스터링9.6.2 쌍별 제약 조건 기반의 반지도식 클러스터링9.6.3 반지도식 클러스터링을 위한 기반 지식9.7 정리9.8 연습 문제9.9 참고 문헌 10장. 딥러닝과 CNN, RNN, GNN 모델 10.1 딥러닝의 기본 개념10.1.1 딥러닝 개요10.1.2 역전파 알고리듬10.1.3 딥러닝 모델 학습의 주요 도전 과제10.1.4 딥러닝 아키텍처 개요10.2 딥러닝 모델의 학습 효율 개선10.2.1 반응형 활성화 함수10.2.2 적응형 학습률10.2.3 드롭아웃10.2.4 사전 학습10.2.5 크로스 엔트로피10.2.6 오토인코더: 비지도식 딥러닝10.2.7 딥러닝 성능 및 효율 개선 기법10.3 CNN 모델10.3.1 컨볼루션 연산 개요10.3.2 다차원 컨볼루션 10.3.3 컨볼루셔널 레이어10.4 RNN 모델10.4.1 기본적인 RNN 모델과 활용 방법10.4.2 게이트 RNN 모델10.4.3 장기 의존성을 고려한 RNN 기법10.5 GNN 모델10.5.1 GNN의 기본 개념10.5.2 GCN 모델10.5.3 GNN의 또 다른 기법10.6 정리10.7 연습 문제10.8 참고 문헌11장. 이상치 감지 11.1 기본 개념11.1.1 이상치란?11.1.2 이상점의 유형11.1.3 이상치 감지의 도전 과제11.1.4 이상치 감지 기법의 개요11.2 통계적 이상치 감지11.2.1 모수적 방법11.2.2 비모수적 방법11.3 인접성 기반 이상치 감지11.3.1 거리 기반 이상치 감지11.3.2 밀도 기반 이상치 감지11.4 재구성 기반 이상치 감지11.4.1 수치형 데이터에 대한 행렬 분해 기반 이상치 감지11.4.2 범주형 데이터에 대한 패턴 기반 압축 이상치 감지11.5 클러스터링 및 분류 모델을 이용한 이상치 감지11.5.1 클러스터링 기반 이상치 감지 기법11.5.2 분류 모델 기반 이상치 감지11.6 맥락적 이상치 및 집단적 이상치 마이닝11.6.1 맥락적 이상치 감지를 전통적인 이상치 감지로 변환하기11.6.2 맥락을 고려한 정상 행동 모델링11.6.3 집단적 이상치 마이닝11.7 고차원 데이터의 이상치 감지11.7.1 전통적인 이상치 감지 기법의 확장11.7.2 하위 공간에서 이상치 찾기11.7.3 앙상블 기반의 고차원 데이터 이상치 감지11.7.4 딥러닝 기반의 고차원 데이터 이상치 감지11.7.5 고차원 데이터의 이상치 감지 모델 구현11.8 정리11.9 연습 문제11.10 참고 문헌12장. 데이터 마이닝 트렌드 및 최신 연구 분야12.1 다양한 데이터의 마이닝12.1.1 텍스트 데이터 마이닝12.1.2 공간-시간 데이터12.1.3 그래프 및 네트워크 데이터12.2 데이터 마이닝 애플리케이션12.2.1 감정 및 의견 데이터의 마이닝12.2.2 진실 발견 및 거짓 정보 식별12.2.3 정보와 질병의 전파 모델12.2.4 생산성과 팀 과학12.3 데이터 마이닝 방법론 및 체계12.3.1 지식 마이닝을 위한 비구조적 데이터의 구조화: 데이터 중심 접근법 12.3.2 데이터 증강12.3.3 상관성 분석과 인과성 분석12.3.4 맥락으로서 네트워크12.3.5 Auto-ML의 주요 기법과 체계12.4 데이터 마이닝, 사람, 사회12.4.1 개인 정보 보호를 고려한 데이터 마이닝12.4.2 인간과 알고리듬의 상호작용12.4.3 데이터 마이닝 평가 지표: 공정성, 해석 가능성, 견고성12.4.4 공익을 고려한 데이터 마이닝13장. 데이터 분석을 위한 수학적 기초A.1 확률과 통계A.1.1 기본 분포의 확률 밀도 함수A.1.2 최대 우도 추정과 최대 사후 확률 추정A.1.3 유의성 검정A.1.4 밀도 추정A.1.5 편향-분산 상쇄A.1.6 교차 검증과 잭나이프A.2 수치 최적화A.2.1 경사 하강법A.2.2 다양한 경사 하강법A.2.3 뉴턴 방법A.2.4 좌표 하강법A.2.5 이차 프로그래밍A.3 행렬과 선형 대수A.3.1 선형 시스템 Ax = bA.3.2 벡터와 행렬 거리A.3.3 행렬 분해A.3.4 벡터 공간과 하위 공간A.3.5 직교성A.4 신호 처리의 개념 및 분석 도구A.4.1 엔트로피A.4.2 KL 분산A.4.3 상호 정보A.4.4 이산 푸리에 변환과 고속 푸리에 변환A.5 참고 문헌
|
Jiawei Han
Jian Pei
Hanghang Tong
동준상의 다른 상품
|
◈ 이 책에서 다루는 내용 ◈◆ 딥러닝에 대한 포괄적인 지식을 제공하기 위해 딥러닝 모델 기반의 훈련 개선 전략, 합성곱 신경망(CNN), 순환 신경망(RNN), 그래프 신경망(GNN) 등에 대해 심도 있게 알아본다. ◆ 최신 연구 성과를 파악할 수 있도록 데이터 마이닝의 트렌드 및 각광받는 연구 분야를 다룬다. 텍스트, 시공간 데이터, 그래프/네트워크 등 리치 데이터 유형, 감정 분석, 진실 발견, 정보 전파 등 데이터 마이닝 응용 방법론, 데이터 마이닝 방법론 및 시스템, 사회적 가치를 고려한 데이터 마이닝에 대해 소개한다. ◆ 데이터에서 여러분이 필요로 하는 최상의 가치를 추출하기 위한 개념과 기법에 대해 살펴본다.◈ 이 책의 구성 ◈이 책의 1, 2, 3판 출간 이후 데이터 마이닝 분야에서 다수의 큰 진전이 있었다. 특히 정보 네트워크, 그래프, 복합 구조, 데이터 스트림 등 새로운 유형의 데이터 처리에 특화된 데이터 마이닝 방법론, 시스템, 애플리케이션이 개발됐다. 이러한 빠른 발전과 새롭게 추가된 풍부한 기술을 한 권의 책에 담기는 어려우므로 우리 공저자는 나름의 대안을 찾아야 했다. 결국, 이번 4판에서는 책의 범위를 확장하는 대신 핵심 주제를 충분한 범위와 깊이로 다루고, 복잡한 데이터 유형과 분석 환경 등 해당 주제에 좀 더 집중하기로 결정했다. 4판은 지난 1~3판의 내용을 큰 폭에서 개정하고, 데이터 마이닝 기술 부분을 재구성했다. 특히, 다양한 데이터 유형에 대한 마이닝 방법론을 처리하는 핵심 기술 자료가 크게 확장되고 개선됐다. 우리 공저자는 책을 간결하면서도 최신 상태로 유지하기 위해 다음 방법으로 개정 작업을 진행했다. (1) 3판에서 두 개 장으로 구성된 ‘데이터 이해’와 ‘데이터 전처리’를 하나의 장, ‘데이터, 측정, 데이터 전처리’로 통합했다. 또, 기존 ‘데이터 시각화’는 개념의 이해가 쉽고, 다른 전문 데이터 시각화 서적에서 다뤘으며, 소프트웨어 도구가 웹에서 널리 사용 가능하므로 제외했다. (2) 3판의 ‘데이터 웨어하우징과 온라인 분석 처리’와 ‘데이터 큐브 기술’ 장을 하나의 장으로 병합했으며, 유용성이 다소 떨어지는 데이터 큐브 계산 방법과 데이터 큐브 확장을 생략하고, ‘데이터 레이크(lake)’라는 새로운 개념을 추가했다. (3) 3판의 주요 데이터 마이닝 방법론 장인 패턴 발견, 분류, 클러스터링, 이상치 분석은 내용을 향상시키고 최신의 트렌드를 반영해 업데이트했다. (4) 새로운 장으로 ‘딥러닝’을 추가했으며, 신경망과 딥러닝 방법론에 대한 체계적인 소개를 포함시켰다. (5) 마지막 장인 ‘데이터 마이닝 트렌드 및 최신 연구 분야’는 완전히 다시 작성했으며, 데이터 마이닝의 다양한 고급 주제를 종합적이며 간결하게 다뤘다. 마지막으로, (6) 이 책의 내용을 이해하는 데 필요한 기본적인 수학적 배경 지식을 부록으로 포함시켰다.◈ 지은이의 말 ◈현대 사회의 컴퓨터화는 인간의 능력을 크게 향상시켰으며 다양한 출처에서 데이터를 생성하고 수집하는 데 많은 도움이 됐다. 우리 삶의 거의 모든 측면에서 엄청난 양의 데이터가 쏟아지고 있으며, 저장된 데이터 또는 전송 중 데이터의 급증으로 인해 데이터를 유용한 정보와 지식으로 변환하는 데 지능적으로 도움을 주는 새로운 기술과 자동화된 도구를 찾아야 한다. 데이터 마이닝과 다양한 응용 분야를 포함한 컴퓨터 과학의 발전은 대규모 데이터 처리에 대한 우리의 필요성을 반영한 것이다. 데이터 마이닝은 데이터로부터 지식 발견 또는 KDD(Knowledge Discovery from Data)로도 부르며, 대규모 데이터베이스, 데이터 웨어하우스(warehouse), 웹, 기타 대규모 정보 저장소 또는 데이터 스트림에 암묵적으로 저장되거나 캡처된 지식의 패턴을 자동으로 편리하게 추출하기 위한 개념, 방법, 절차를 의미한다. 이 책은 지식의 발견 및 데이터 마이닝을 위한 개념과 기술을 탐구한다. 데이터 마이닝은 통계학, 머신러닝, 패턴 인식, 데이터베이스 기술, 정보 검색, 자연어 처리, 네트워크 과학, 지식 기반 시스템, AI, 고성능 컴퓨팅, 데이터 시각화 등 다양한 분야와 연계된 연구 분야다. 데이터 마이닝 연구자는 대량의 데이터 집합에서 숨겨진 패턴을 발견하기 위한 기술의 타당성, 유용성, 효과성, 확장성 등 다양한 측면을 연구한다. 따라서 이 책은 통계학, 머신러닝, 데이터베이스 시스템 또는 다른 해당 분야의 입문서로 집필된 것은 아니지만, 이들 분야에 관심을 가진 독자를 위한 폭넓은 배경 지식을 제공한다. 이 책은 데이터 마이닝에 대한 포괄적인 입문서이며, 컴퓨터 과학 전공자, 애플리케이션 개발자, 비즈니스 전문가, 그리고 통계학, 머신러닝 등 앞서 언급한 연구자 모두에게 유용한 교과서 또는 참고서가 될 수 있다.데이터 마이닝은 1980년대 후반에 등장한 뒤 1990년대에 큰 발전을 이뤘으며, 2000년대에도 지속적으로 발전하고 있다. 이 책은 데이터 마이닝 분야의 전반적인 그림을 제시하며, 흥미로운 데이터 마이닝의 개념과 기술을 소개하고 응용 분야와 연구 방향에 대해 논의한다. 이 책의 중요한 집필 동기 중 하나는 데이터 마이닝 연구를 위한 조직화된 프레임워크를 구축하는 것이며, 이는 다양한 학문 분야에 연계됐으며, 빠르게 발전하는 데이터 마이닝의 학문적 특성으로 인해 어려운 작업이었다. 우리는 이 책이 다양한 배경과 경험을 가진 사람들과 데이터 마이닝에 대한 의견을 교환하고, 흥미로우며 역동적인 우리의 연구 분야가 좀 더 활성화되는 데 도움이 되기를 기대한다.◈ 옮긴이의 말 ◈1970년대의 기나긴 AI 침체기를 지나 1980년대 AI 부흥기에 등장한 데이터 마이닝은 머신 러닝과 딥러닝의 기반 기술로서, 데이터에서 유의미한 패턴과 지식을 추출해 AI 모델의 학습 효율과 성능 강화에 기여해왔다. 2000년대에 데이터 마이닝은 데이터 전처리, 특성 추출, 차원 축소 등 데이터의 품질을 높이고 효율적 분석 프로세스를 의미했으며, 이상치 감지, 연관 규칙 탐색, 분류 및 클러스터링 등 데이터 마이닝의 전통적인 접근 방식은 현대적인 머신러닝 기법이 돼 데이터에 대한 이해 수준을 높이고 알고리듬의 예측 정확성을 높이는 데 도움을 줬다. 2010년 이후 데이터 마이닝 기술은 현대 머신러닝 및 딥러닝 모델이 더욱 정교하고 신뢰성 있는 결과를 생성하도록 지원하며, 챗GPT 등 생성형 AI을 포함한 다양한 응용 분야가 발전하고 성장하기 위한 기반 기술로서 역할을 수행하고 있다. 데이터 과학자 및 데이터 엔지니어 등 연구자는 데이터 마이닝의 개념과 기법을 이해함으 로써 최신의 생성형 AI의 발전에 필요한 데이터 기반 통찰과 최적화 방법을 제공할 수 있으 며, 현대 AI 모델이 지닌 잠재력을 극대화할 수 있다. 지난 3판 이후 거의 10여 년 만에 출간된 이번 4판은 그동안 있었던 AI 산업과 데이터 분 석 기법의 변화를 반영했으며, 데이터 분석의 기초라고 할 수 있는 데이터 수집 및 전처리, 데이터 웨어하우스, 단순 또는 복잡한 데이터에서의 패턴 마이닝, 지도식 기법인 분류와 회귀분석, 비지도식 기법인 클러스터링 기법을 상세히 설명한다. 책의 후반부에서는 딥러닝 구현을 위한 기반 기술인 신경망 구현, 피드포워드와 역전파, 활 성 함수 및 손실 함수, 엔트로피, 오토인코더 등 전문적인 주제와 다양한 데이터 맥락에서의 이상치 탐색법, 최근 학계 및 산업계에서 주목받는 연구 주제도 알아본다. 이번 『데이터 마이닝 개념과 기법 4/e』은 데이터 분석가는 물론이고, 최신의 생성형 AI 연 구자에게 필요한 지난 40여 년간의 데이터 마이닝 개념과 기술을 이해할 수 있는 소중한 기회가 될 것이다.
|