목록머신러닝 (5)
혼자 정리
frequentist 단일한 $\theta$의 값을 추정하고 이 하나의 추정을 바탕으로 모든 예측 수행 $\theta$의 참값은 고정되어 있지만 알려져 있지 않음 점추정치 $\hat{\theta}$는 랜덤하게 관측되는 데이터셋의 함수이므로 확률 변수다. Bayesian 확률을 어떤 지식의 상태에 대한 확실한 정도(certainty)를 나타내기 위해 사용한다. $\theta$의 모든 가능한 값들을 고려하여 예측을 수행한다. 데이터셋은 직접적으로 관측된 것이므로 non-random이다. (관찰되기 전에도 non-random이라는 뜻이 아님) true parameter $\theta$는 알려져 있지 않을뿐더러 unceratain하므로 확률 변수로 취급된다. 사전적 확률 분포(prior probability d..
앞에서는 추정량에 대한 함수를 guess하고, 그 추정량의 bias와 variance와 같은 성질들을 분석했었다. 그러는 대신 특정한 원칙을 통해 여러 모형들에서 좋은 추정량 함수를 구해보자. Maximum likelihood principle이 그러한 원칙 중 가장 많이 쓰이는 것 MLE의 가정 알려지지 않은 true data generating distribution $p_{\text{data}} ( \boldsymbol{x})$에서 독립적으로 추출된 $m$개 example의 집합, $\mathbb{X} = { x^{(1)} ,..., x^{(m)} }$을 가정 $p_{\text{model}} (\boldsymbol{x}; \theta)$는 임의의 벡터 $x$를 true probability $p_{..
5.4 Estimators, Bias and Variance 통계학의 도움을 통해 training set에서 학습한 모델을 generalize하는 데 큰 도움을 얻을 수 있다. 모수 추정(parameter estimation), 편의(bias), 분산(variance) 등을 통해 generalization, underfitting, overfitting의 개념을 formal하게 특징지어볼 수 있다. 5.4.1 Point Estimation(점 추정) 점 추정은 관심있는 무언가의 '가장 나은' prediction을 얻는 것이다. 관심있는 것은 parametric 모형에서 하나의 parameter일 수도 있고 parameter의 벡터일 수도 있고(선형 회귀이면 weights), 그냥 함수 전체..
5.3 Hyperparameters and Validation Sets Hyperparameter를 통해 학습 알고리즘의 행동을 제어할 수 있다. 하이퍼파라미터는 학습 알고리즘 자체에 의해 조정되지 않는다(물론 다른 학습 알고리즘의 하이퍼파라미터를 학습할 수는 있다) 다항 회귀 예시에서 하이퍼파라미터는 다항식의 차수 하나만 있었고, 이는 capacity hyperparameter로 작용했다. weight decay의 강도를 조절하는데 쓰였던 $\lambda$값도 하이퍼파라미터라고 할 수 있다. 하이퍼파라미터를 최적화 문제를 통해 정하기도 하지만 보통은 최적화 솔루션을 구하는 게 쉽지 않다. 게다가 training set에서 하이퍼파라미터를 학습하는 것은 보통 적절하지 않다. 특히 모델 capacity를 ..
Ch.5 Machine Learning Basics 5.1 Learning Algorithms 머신 러닝 알고리즘은 데이터에서 학습(learn)할 수 있는 알고리즘. Mitchell(1997)에서 다음과 같이 말함 A computer program is said to learn from experience $E$ with respect to some class of tasks $T$ and performance measure $P$, if its performance at tasks in $T$, as measured by $P$, improves with experience $E$. 5.1.1 The Task, $T$ ex) 로봇이 걷게 하고 싶다 하면 '걷는'것이 task 머신 러닝 t..