AI/Machine Learning

    이상치 탐지(Anomaly Detection) - Overview

    이상치 탐지(Anomaly Detection) - Overview

    이상치 탐지는 데이터 분석과 기계학습 분야에서 중요한 주제 중 하나로, 데이터에서 이상한 패턴이나 값들을 식별하는 과정을 의미합니다. 이상치는 데이터 분석의 정확성과 안정성을 저해할 수 있기 때문에 그 중요성이 더욱 커집니다. 이상치 탐지: 데이터 분석의 핵심 데이터 분석은 현대 비즈니스 및 연구 분야에서 핵심적인 역할을 합니다. 데이터는 다양한 분야에서 수집되며, 이를 분석함으로써 중요한 의사결정을 내릴 수 있습니다. 그러나 데이터에는 종종 이상치가 포함되어 있을 수 있으며, 이러한 이상치는 정확한 분석을 방해할 수 있습니다. 이상치는 다양한 형태로 나타날 수 있으며, 이러한 이상치를 식별하고 처리하는 것은 데이터 분석가나 기계학습 엔지니어에게 중요한 작업입니다. 이상치란 무엇인가? 이상치란 주어진 데..

    데이터 불균형 - Over Sampling

    데이터 불균형 - Over Sampling

    데이터 분석 및 기계학습을 위해 데이터를 수집하다보면 데이터의 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 만날 수 있다. 이와 같은 상황은 매우 빈번하게 마주할 수 있다. 이러한 데이터 불균형은 왜 문제가 되는가? 우리는 데이터를 기반으로 정상을 정확하게 분류하는 것과 이상값을 정확히 분류하는 문제로 크게 나뉠 수 있다. 보통 정상인 데이터들이 다수이며 이상값이 소수이다. 일반적으로 정상을 분류하는 것보다 이상값을 분류하는 것이 더 중요한 문제로 다뤄진다. 이렇게 클래스 별로 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 하며, 이러한 상황을 해결하기 위한 방법들을 간략하게 정리한다. 데이터 불균형을 해결하기 위한 방법은 Data-based 접근 방식과..

    데이터 불균형 - Under Sampling

    데이터 불균형 - Under Sampling

    데이터 분석 및 기계학습을 위해 데이터를 수집하다보면 데이터의 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 만날 수 있다. 이와 같은 상황은 매우 빈번하게 마주할 수 있다. 이러한 데이터 불균형은 왜 문제가 되는가? 우리는 데이터를 기반으로 정상을 정확하게 분류하는 것과 이상값을 정확히 분류하는 문제로 크게 나뉠 수 있다. 보통 정상인 데이터들이 다수이며 이상값이 소수이다. 일반적으로 정상을 분류하는 것보다 이상값을 분류하는 것이 더 중요한 문제로 다뤄진다. 이렇게 클래스 별로 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 하며, 이러한 상황을 해결하기 위한 방법들을 간략하게 정리한다. 데이터 불균형을 해결하기 위한 방법은 Data-based 접근 방식과..

    의사결정 나무 (Decision Tree) 예측, 분류 정리

    의사결정 나무 (Decision Tree) 예측, 분류 정리

    의사결정나무(Decision Tree)는 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측 / 분류 모델을 나무의 형태로 만든 것이다. 과거에 수집된 자료를 분석하여 이들 사이에 존재하는 패턴을 나타내는 모델을 나타낸다. 질문을 던져서 맞고 틀리는 것에 따라 우리가 생각하고 있는 대상을 좁혀나가게 된다. 예전에 '스무고개' 게임과 비슷한 개념이다. 사람이 스무번의 질문을 던지면서 하나의 정답을 맞춰나가는 과정이 이와 매우 유사하다. 데이터가 입력되었을 때 알고리즘에 의해 데이터를 2개 혹은 그 이상의 부분집합으로 분할하게 된다. 분류-의사결정나무의 분할는 비슷한 범주를 갖고 있는 관측치끼리 모으는 것이고 예측-의사결정나무의 분할은 비슷한 수치를 갖고 있는 관측치끼리의 모음이다. 이러한 과정을 ..

    정규화 모델 (Regularization Model)의 기본 원리

    정규화 모델 (Regularization Model)의 기본 원리

    좋은 모델이란? 현재 데이터(training data)를 잘 설명하는 모델이자 미래 데이터(testing data)에 대한 예측 성능이 좋은 모델 Explanatory modeling + Predictive modeling 현재 데이터를 잘 설명하는 모델이란 학습 에러를 최소화 하는 모델이다. 즉 트레이닝 에러를 최소화 하는 모델을 만들어야 한다. $Expected MSE = E[(Y-\hat{Y})]$$ $ = \sigma + (E[\hat{Y}]- \hat{Y})^2 + E[\hat{Y} - E[\hat{Y}]]^2$ $ = \sigma^2 + Bias^2(\hat{Y}) + Var(\hat{Y})$ $ = Irreducible Error + Bias^2 +Variance$ Expected MSE를 ..

    [Machine Learning] 차원축소 - #1 PCA

    [Machine Learning] 차원축소 - #1 PCA

    차원축소 (Dimension Reduction) 데이터에는 중요한 정보와 중요하지 않은 정보가 함께 혼재되어 있다. 여기서 우리는 중요하지 않은 정보를 노이즈(Noise) 라고도 부른다. 이런 노이즈들은 우리가 데이터에서 유의미한 결과를 분석하기 위한 과정에 방해가 되는 요소이다. 데이터분석, 기계학습분야에서는 이러한 노이즈를 제거하는 것이 매우 중요한 과제 중 하나이다. 데이터 표본의 수와 변수가 매우 많으면 데이터 분석 과정에서 데이터를 파악하는 일이 매우 어렵다. 이러한 문제를 해결하기 위해 제시된 것이 차원 축소이다. 차원축소는 고차원의 데이터를 저차원의 데이터로 변환하는 과정이다. 차원은 간단하게 말해 데이터 분석 측면에서 하나의 차원이 하나의 변수로 이해하면 쉽다. 변수의 수가 늘어나게되면, ..