이미 소장하고 있다면 판매해 보세요.
CHAPTER 1 소개 1
1.1 예시: 다항식 곡선 피팅 _ 5 1.2 확률론 _ 13 1.3 모델 선택 _ 36 1.4 차원의 저주 _ 37 1.5 결정 이론 _ 42 1.6 정보 이론 _ 54 CHAPTER 2 확률 분포 75 2.1 이산 확률 변수 _ 76 2.2 다항 변수 _ 83 2.3 가우시안 분포 _ 87 2.4 지수족 _ 126 2.5 비매개변수적 방법 _ 134 CHAPTER 3 선형 회귀 모델 155 3.1 선형 기저 함수 모델 _ 156 3.2 편향 분산 분해 _ 166 3.3 베이지안 선형 회귀 _ 172 3.4 베이지안 모델 비교 _ 181 3.5 증거 근사 _ 186 CHAPTER 4 선형 분류 모델 201 4.1 판별 함수 _ 203 4.2 확률적 생성 모델 _ 221 4.3 확률적 판별 모델 _ 229 4.4 라플라스 근사 _ 240 4.5 베이지안 로지스틱 회귀 _ 245 CHAPTER 5 뉴럴 네트워크 253 5.1 피드 포워드 네트워크 함수 _ 255 5.2 네트워크 훈련 _ 261 5.3 오차 역전파 _ 271 5.4 헤시안 행렬 _ 281 5.5 뉴럴 네트워크에서의 정규화 _ 289 5.6 혼합 밀도 네트워크 _ 306 5.7 베이지안 뉴럴 네트워크 _ 312 CHAPTER 6 커널 방법론 327 6.1 듀얼 표현 _ 329 6.2 커널의 구성 _ 330 6.3 방사 기저 함수 네트워크 _ 336 6.4 가우시안 과정 _ 341 CHAPTER 7 희박한 커널 머신 363 7.1 최대 마진 분류기 _ 364 7.2 상관 벡터 머신 _ 387 CHAPTER 8 그래프 모델 403 8.1 베이지안 네트워크 _ 404 8.2 조건부 독립 _ 418 8.3 마르코프 무작위장 _ 431 8.4 그래프 모델에서의 추론 _ 443 CHAPTER 9 혼합 모델과 EM 477 9.1 K 평균 집단화 _ 478 9.2 혼합 가우시안 _ 485 9.3 EM에 대한 다른 관점 _ 495 9.4 일반적 EM 알고리즘 _ 507 CHAPTER 10 근사 추정 517 10.1 변분적 추론 _ 518 10.2 예시: 변분적 가우시안 혼합 분포 _ 531 10.3 변분적 선형 회귀 _ 545 10.4 지수족 분포 _ 549 10.5 지역적 변분 방법론 _ 552 10.6 변분적 로지스틱 회귀 _ 558 10.7 EP _ 566 CHAPTER 11 표집법 587 11.1 기본적인 표집 알고리즘 _ 590 11.2 마르코프 연쇄 몬테 카를로 _ 603 11.3 기브스 표집법 _ 608 11.4 조각 표집법 _ 613 11.5 하이브리드 몬테 카를로 알고리즘 _ 615 11.6 분할 함수 추정 _ 622 CHAPTER 12 연속 잠재 변수 627 12.1 PCA _ 629 12.2 확률적 PCA _ 640 12.3 커널 PCA _ 657 12.4 비선형 잠재 변수 모델 _ 662 CHAPTER 13 순차 데이터 677 13.1 마르코프 모델 _ 679 13.2 은닉 마르코프 모델 _ 682 13.3 선형 동적 시스템 _ 710 CHAPTER 14 모델 조합 729 14.1 베이지안 모델 평균 _ 730 14.2 위원회 방식 _ 732 14.3 부스팅 _ 733 14.4 트리 기반 모델 _ 740 14.5 조건부 혼합 모델 _ 744 부록 A. 데이터 집합 757 손글씨 숫자 _ 757 오일 흐름 _ 758 오래된 믿음 _ 761 합성 데이터 _ 762 부록 B. 확률 분포 765 베르누이 분포 _ 765 베타 분포 _ 766 이항 분포 _ 766 디리클레 분포 _ 767 감마 분포 _ 768 가우시안 분포 _ 768 가우시안 감마 분포 _ 770 가우시안 위샤트 분포 _ 770 다항 분포 _ 771 정규 분포 _ 772 스튜던트 t 분포 _ 772 균등 분포 _ 773 폰 미제스 분포 _ 773 위샤트 분포 _ 774 부록 C. 행렬의 성질 775기본 행렬 성질 _ 775 대각합과 행렬식 _ 777 행렬 미분 _ 778 고윳값 공식 _ 779 부록 D. 변분법 783 부록 E. 라그랑주 승수법 787 |
저크리스토퍼 비숍
관심작가 알림신청Christopher M. Bishop
역김형진
관심작가 알림신청
주어진 데이터에서 어떤 특정한 패턴을 찾아내는 것은 때때로 아주 중요한 문제다. 이 문제에 대해서 인류는 오랜 시간 동안 답을 찾아왔으며, 성공적으로 패턴을 찾아내곤 했다. 예를 들어, 요하네스 케플러(Johannes Kepler)는 티코 브라헤(Tycho Brahe)가 16세기에 관찰하여 축적해 놓은 대량의 천문학 데이터에서 패턴을 찾아내어 케플러의 행성 운동 법칙을 발견했다. 이 법칙은 고전 역학의 밑거름이 되었다. 또 다른 예로, 원자 스펙트럼에서 규칙성을 발견해 낸 것은 20세기 초의 양자 물리학의 발전과 확인에 중요한 역할을 해냈다. 이처럼 패턴 인식은 컴퓨터 알고리즘을 활용하여 데이터의 규칙성을 자동적으로 찾아내고, 이 규칙성을 이용하여 데이터를 각각의 카테고리로 분류하는 등의 일을 하는 분야다. _1p
매개변수적인 접근법의 한계점 한 가지는 분포가 특정한 함수의 형태를 띠고 있다고 가정한다는 것이다. 몇몇 적용 사례의 경우에는 이 가정이 적절하지 않다 이런 경우에는 비매개변수적(nonparametric) 밀도 추정 방식이 대안으로 활용될 수 있다. 비매개변수적 밀도 추정 방식에서는 분포의 형태가 데이터 집합의 크기에 대해 종속적이다. 이러한 모델들은 여전히 매개변수를 가지고 있지만, 이 매개변수들은 분포 형태를 결정짓는 것이 아니라 모델의 복잡도에 영향을 미친다. 또한, 이 장 마지막에서는 히스토그램, 최근접 이웃, 커널을 바탕으로 한 비매개변수적 방법에 대해서 살펴볼 것이다. _76p 이 장에서는 특정 함수의 형태를 가진 확률 분포들에 대해 살펴보았다. 그리고 이 분포들은 데이터 집합에 의해 결정되는 적은 수의 매개변수에 의해 조절되었다. 이러한 방법을 밀도 모델링의 매개변수적(parametric) 방법이라고 한다. 이 방법론의 중요한 한계점은 선택된 밀도 함수가 관측된 데이터를 만들어낸 분포를 표현하기에 적절하지 않은 모델이었을 수도 있다는 점이다. 이 경우 모델의 예측 성능이 매우 떨어지게 된다. 예를 들어, 데이터를 만들어낸 원 분포가 다봉 분포였을 경우 단봉 분포인 가우시안 분포를 사용해서는 이 다봉성의 성질을 절대로 잡아낼 수가 없다. 134p 모델의 매개변숫값에 대한 점 추정을 시행하는 대신에 해당 매개변수를 바탕으로 주변화(합산 혹은 적분)를 시행함으로써 최대 가능도 방법과 연관된 과적합 문제를 피할 수 있다. 이 경우 훈련 집합을 바탕으로 모델들을 직접 비교할 수 있어 검증 집합이 필요하지 않게 된다. 모든 사용 가능한 데이터들을 훈련에 쓸 수 있으며, 교차 검증법을 시행하기 위해 필요한 각 모델에 대한 여러 번의 훈련을 피할 수 있다. 또한, 여러 복잡도 매개변수들을 한 번의 훈련 과정에서 동시에 결정할 수 있다. 예를 들어, 7장에서는 상관 벡터 머신(relevance vector machine)에 대해 살펴보게 될 것인데, 이는 각각의 훈련 데이터 포인트 하나마다 하나씩의 복잡도 매개변수를 가지는 베이지안 모델이다. _182p ‘뉴럴 네트워크(neural network)’라는 용어는 생물학 시스템상에서의 정보 처리 과정을 수학적으로 표현하고자 하는 노력으로부터 기인하였으며(McCulloch and Pitts, 1943; Widrow and Hoff, 1960; Rosenblatt, 1962; Rumelhart et al., 1986), 또한, 다양한 모델들을 표현하는 용어로서 매우 포괄적으로서 사용되어 왔다. 이 모델들 중 일부는 그 생물학적 타당성이 과장되었다는 의심을 받기도 했다. 하지만 패턴 인식의 응용 측면에서 보자면 생물학적으로 실제 현실에 가까운지 아닌지는 불필요한 추가적 제약 조건일 뿐이다. 따라서 이 장에서는 효과적인 통계적 패턴 인식 모델로써의 뉴럴 네트워크에 대한 논의에 초점을 맞출 것이다. 특히, 뉴럴 네트워크들 중에서 실제적인 가치를 가장 많이 주는 것으로 증명된 다층 퍼셉트론 모델에 대해 집중적으로 살펴볼 것이다. _254p 만약 우리가 관측 변수와 잠재 변수들에 대한 결합 분포를 정의한다면, 이에 해당하는 관측 변수들만의 분포는 주변화를 통해서 구할 수 있다. 이는 복잡한 관측 변수들에 대한 주변 분포를 상대적으로 더 다루기 쉬운 관측 변수와 잠재 변수 확장 공간상의 결합 분포를 통해서 표현할 수 있도록 해준다. 따라서 잠재 변수를 도입하면 단순한 원소들을 바탕으로 복잡한 분포를 구성할 수 있다. 이번 장에서는 이산 잠재 변수를 바탕으로 해석할 수 있는 혼합 모델들에 대해 살펴볼 것이다. 이 예시로는 앞의 2.3.9절에서 살펴본 가우시안 혼합 모델이 있다. 연속적인 잠재 변수에 대해서는 12장에서 살펴볼 것이다. _477p --- 본문 중에서 |
현대 패턴 인식과 머신 러닝의 개념과 효과적 이해를 위한 수학적 사고!
지난 수년간 머신 러닝은 그 어느 때보다도 뜨거운 관심을 받았다. 특히, 2016년 알파고와 이세돌 9단의 대국은 더 많은 사람이 인공지능 분야에 관심을 가지게 하는 촉매제가 되었다. 이는 딥 러닝을 비롯한 여러 머신 러닝 알고리즘의 성능이 최근 매우 향상되었기 때문이다. 머신 러닝은 최근에 새롭게 생겨난 기술이 아니다. 데이터를 기반으로 해서 최적화 문제를 풀거나 예측해야 하는 다양한 분야에서 이미 오랜 시간 동안 머신 러닝 기술이 활용되었다. 최근에 가장 주목을 받고 있는 딥 러닝은 수십 년 전에 처음 제안된 뉴럴 네트워크 알고리즘이 기반이다. 오랜 시간 동안 학계로부터 외면받고 있었던 뉴럴 네트워크 기술이 GPU 등 하드웨어의 발전과 구글/페이스북 등의 회사에서 발생하는 엄청난 양의 데이터, 여러 알고리즘 개선법 등을 만나면서 새로운 모습을 보이게 된 것이다. 이 책은 지난 수십 년간 발전되어 온 확률/통계 기반의 패턴 인식과 머신 러닝 분야의 전반적인 내용을 다루고 있다. 내용을 이해하는 데 있어서 패턴 인식이나 머신 러닝 분야에 대한 사전 지식은 필요하지 않지만, 다변량 미적분과 기초 선형 대수학을 다뤄본 경험은 필요하다. 또한 기초적인 확률 이론에 대한 소개가 포함되어 있으므로 확률론에 대한 기초 지식이 반드시 필요하지는 않다. 기본적으로 학부 고학년생들이나 박사과정 1년 차 학생들을 대상으로 하고 있으나, 해당 분야의 연구자들이나 업계에서 머신 러닝을 활용하는 사람들이 읽기에도 적합하다. 그리고 머신 러닝, 통계, 컴퓨터 공학, 신호 처리, 컴퓨터 비전, 데이터 마이닝, 바이오 인포매틱스와 같은 분야의 강의 과정에서 사용하기도 적합하다. |