정규화

    정규화 모델 (Regularization Model)의 기본 원리

    정규화 모델 (Regularization Model)의 기본 원리

    좋은 모델이란? 현재 데이터(training data)를 잘 설명하는 모델이자 미래 데이터(testing data)에 대한 예측 성능이 좋은 모델 Explanatory modeling + Predictive modeling 현재 데이터를 잘 설명하는 모델이란 학습 에러를 최소화 하는 모델이다. 즉 트레이닝 에러를 최소화 하는 모델을 만들어야 한다. $Expected MSE = E[(Y-\hat{Y})]$$ $ = \sigma + (E[\hat{Y}]- \hat{Y})^2 + E[\hat{Y} - E[\hat{Y}]]^2$ $ = \sigma^2 + Bias^2(\hat{Y}) + Var(\hat{Y})$ $ = Irreducible Error + Bias^2 +Variance$ Expected MSE를 ..

    정규화는 데이터 분리 전? 후? 언제 해야할까?

    정규화는 데이터 분리 전? 후? 언제 해야할까?

    데이터 분석 / 기계학습 과정 중 개인적으로 가장 중요하게 생각되는 분야 중 하나가 데이터 전처리이다. 데이터를 분석하고, 시각화를 통해 데이터 Feature 간 관계성과 분포 등을 파악한다. 유의미한 Feature를 선택하거나 새로운 Feature를 생성하는 과정 등을 거치는 과정은 매우 필수적이고 중요한 과정이다. 해당 과정을 학습하면서 궁금했던 점이 있었다. 처음 데이터과학을 공부하면서 정규화와 트레이닝,테스트 데이터를 분리하는 과정을 공부하게 되면서 생긴 궁금증. 정규화는 트레이닝, 테스트 데이터셋으로 분리전에 진행을 하는게 좋을까? 아니면 분리 이후에 진행을 하는게 좋은가에 대한 궁금증이다. 정규화를 먼저하는게 좋을까? 트레이닝, 테스트 데이터 분리를 먼저하는게 좋을까? 아니면 데이터 전처리 과..

    Solving the problem of overfitting

    Solving the problem of overfitting

    Solving the problem of overfitting 아래 내용은 Andrew Ng 교수님의 강의와 자료를 기반으로 학습한 내용을 정리하여 작성하였습니다. 개인의 학습 내용이기에 잘못 해석 및 이해하고 있는 부분도 있을 수 있으니, 다양한 자료를 기반으로 참고하시는 걸 추천드립니다. 앞에서 Linear regression과 Logistic regression에 대해 정리해보았습니다. 이번 글에서는 Machine Learning에서 중요한 문제인 Overfitting(과적합)에 대해서 알아보고 어떻게 해결할 수 있는지에 대해 정리하고자 합니다. What is overfitting?우리나라 말로 과적합이란 용어로 사용되는 Overfitting이 뭔지에 대해 알아보겠습니다. 아래 그림은 Linear ..