약 한달간 Pattern Recognition and Machine Learning (이하 PRML) 을 읽고 있는데 1장을 한번 보는데도 꽤 시간이 걸렸습니다. Introduction 챕터인데도 다루는 주제가 광범위하고 깊은 것 같습니다. 저자이신 Bishop 님은 정말 천재의 지니어스인 것 같습니다. 이렇게 방대한 분량을 정리하시다니 -_-; 수학의 정석 이후로 이렇게 정리 잘 되어있는 수학책은 처음봅니다. 인간의 범주를 한참 벗어나신듯.
1장에서 본 주요 키워드 - 대략 60개 -만 나열해보면 다음과 같습니다. 도입하는 챕터라 키워드만 우선 나열하고 추후에 각 챕터에서 집중 공략할 거라고 Bishop 아저씨가 그러셨으니 그러셨을것이라 믿고 일단 주요 키워드만 정리합니다. 틀린 부분이 있으면 알려주세요 >_<!
Keywords
- training set: 모델의 파라메터 학습을 위해 훈련에 사용하는 데이터
- test set: 훈련된 파라메터가 올바른지 테스트 하기 위해 사용하는 데이터
- feature extraction: preprocessing 단계이며 주어진 데이터를 다른 공간으로 변형시키는 걸 의미
Supervised Learning
- training set과 그에 대응하는 목표값도 같이 알 경우 지도 학습 방법을 적용
- classification: 유한한 갯수의 class에 대해서 주어진 데이터가 어떤 class에 속하는지 예측하는 것을 classification problem이라 부름
- regression: 실수와 같이 유한한 클래스로 제한할 수 없는 데이터에 대해 예측하는 것을 regression problem이라 부름
Unsupervised Learning
- training set이 주어져 있지만 대응하는 목표값이 주어지지 않을 때 자율 학습 방법을 적용
- clustering: 비슷한 특징을 보이는 데이터를 그룹화
- density estimation: 데이터의 분포를 파악
Reinforcement Learning
- 강화 학습은 주어진 환경에서 어떤 행동을 취해야 보상을 최대화 할 수 있을지 찾아내는 방법
- 에이전트가 어떤 행위를 하였을 때 그에 대응하는 보상의 피드백으로 최적화 된 행동을 찾아가는 학습 방법, 하지만 이 책은 다루지 않는다!
Polynomial Curve Fitting
- 다항식을 활용하여 주어진 데이터를 어떻게 해석할 수 있는지 설명하는 것으로 본격적인 챕터 시작!
- 목표는 매우 간단함: 새로운 데이터가 주어졌을 때 예측을 잘할 수 있도록 일반화를 잘하자
- random noise: 데이터가 임의의 노이즈로 인해 변형이 생겼을 것으로 가정, 해당 챕터에서는 random noise가 Gaussian distribution분포를 갖고 있다고 가정한 후 training set 생성
- polynomial function: 익히 알고 있는 선형함수, 아래의 형태를 갖고 있음
- linear model: 위 다항식에서 모르는 파라메터 값은 w인데 이와 같은 형태를 선형모델이라고 부름 - x가 고차원인 것은 상관없음
- error function: training set으로 학습한 모델이 목표치와 얼마나 다른지 나타내는 함수
- RMSE (root-mean-square-error): 대표적인 error function 중 하나, 우항의 1/2은 추후 편의를 위해 임의로 추가한 값, 목표값과 추정한 값의 차이에 대해 제곱한 값의 합
- model complexity
- over-fitting
- 학습 데이터에 대해서만 최적화 된 상태로 새로운 데이터에 대해선 예측이 잘 안되는 상태를 말함
- 모델이 복잡한데 비해 학습 데이터가 부족할 경우 발생할 가능성이 높음
- maximum likelihood
- Bayesian approach, Bayesian model
- Regularization
- 위에서 언급한 over-fitting을 방지하는 방법 중 하나
- shrinkage
- ridge regression, weight decay
- validation set, hold-out set
Probability Theory
- The Rules of Probability
- sum rule
- \(p(X) = \sum_{Y} p(X, Y)\)
- product rule
- \(p(X, Y) = p(Y \mid X) p(X)\)
- 앞면/뒷면으로 이루어진 동전 하나를 던진다고 할 때 아래와 같이 해석 가능
- prior: 앞면/뒷면이 나타날 확률에 대해 사전에 알고 있는 정보 (앞면/뒷면의 확률은 5:5)
- likelihood: 실험을 통해 앞면/뒷면이 나타난 분포에 대한 정보
- posterior: 사전에 알고 있던 분포에 실험을 통해 나타난 분포를 결합하여 나타난 분포
- Gaussian distribution
- Bayesian curve fitting
Model Selection
- validation set
- cross-validation
- leave-one-out
- information criteria
- AIC (Akaike information criteria)
- BIC (Bayesian information criteria)
The Curse of Dimensionality
Decision Theory
- decision boundaries, decision surfaces
- loss function, cost function
- loss matrix
- reject option
- inference stage, decision stage
- discriminant function
- three distinct approaches to solving decision problem
- generative models: solve inference problem for each class individually + infer prior class probabilities, then use Bayes’ theorem
- discriminative models: solve inference problem of posterior class probabilities directly
- find a function f(X), called a discriminant function
- outlier detection, novelty detection
- naive Bayes model
Information Theory
- entropy
- noiseless coding theorem
- multiplicity
- microstate, macrostate
- Lagrange multiplier
- mean value theorem
- differential entropy
- conditional entropy
- KL divergence, Kullback-Leibler divergence, relative entropy
- convex function, convexity
- strictly convex
- concave
- strictly concave
- Jensen’s inequality
- mutual information