AI/Machine Learning

    [차원축소] LDA (Linear Discriminant Analysis)

    차원 축소는 데이터 분석과 머신러닝에서 중요한 역할을 하는 기법입니다. 차원이 높은 데이터는 분석하기 어렵고, 과적합 문제나 계산 복잡도를 증가시킬 수 있기 때문에 이를 효과적으로 낮추는 방법이 필요합니다. LDA는 차원 축소 기법 중 하나로, 특히 분류 문제에서 강력한 성능을 발휘합니다.LDA는 데이터의 차원을 줄이면서도 각 클래스 간의 분리도를 최대화하는 방법을 찾습니다. 이는 학습 데이터의 선형 조합을 사용하여 새 좌표 공간을 만들고, 그 공간에서 클래스 간의 경계를 명확하게 정의할 수 있도록 합니다. LDA는 주로 데이터가 여러 개의 클래스로 구분되어 있는 경우에 유용하며, 새로운 차원에서 클래스 간의 분리도를 최대화하는 방식으로 차원을 축소합니다.주요 아이디어LDA의 핵심은 차원 축소를 통해 데..

    선형회귀 Regularization(Lasso, Ridge 등) 수행 시 연속형 변수의 표준화가 수렴속도에 미치는 영향

    선형회귀 Regularization(Lasso, Ridge 등) 수행 시 연속형 변수의 표준화가 수렴속도에 미치는 영향

    선형 회귀에서 회귀계수에 대해 Regularization(정규화)을 할 때, 연속형 변수에 대한 표준화 또는 정규화가 매우 중요합니다. 그 이유는 다음과 같습니다.회귀계수의 크기:정규화 기법들(L1 정규화(Lasso)나 L2 정규화(Ridge))은 회귀계수의 크기를 제어하는 데 사용됩니다. 만약 독립 변수들의 스케일이 다르면, 스케일이 큰 변수는 더 큰 회귀계수를 가지게 되어 정규화의 효과가 비대칭적으로 적용될 수 있습니다.정규화 페널티의 일관성:L1 및 L2 정규화는 페널티 항을 추가하여 회귀계수를 줄이는 방식입니다. 이 때, 변수들의 스케일이 동일하지 않으면 페널티가 각 변수에 공평하게 적용되지 않아 모델이 왜곡될 수 있습니다.수렴 속도:표준화된 데이터는 경사 하강법과 같은 최적화 알고리즘의 수렴 속..

    이상치 탐지(Anomaly Detection) - Overview

    이상치 탐지(Anomaly Detection) - Overview

    이상치 탐지는 데이터 분석과 기계학습 분야에서 중요한 주제 중 하나로, 데이터에서 이상한 패턴이나 값들을 식별하는 과정을 의미합니다. 이상치는 데이터 분석의 정확성과 안정성을 저해할 수 있기 때문에 그 중요성이 더욱 커집니다. 이상치 탐지: 데이터 분석의 핵심 데이터 분석은 현대 비즈니스 및 연구 분야에서 핵심적인 역할을 합니다. 데이터는 다양한 분야에서 수집되며, 이를 분석함으로써 중요한 의사결정을 내릴 수 있습니다. 그러나 데이터에는 종종 이상치가 포함되어 있을 수 있으며, 이러한 이상치는 정확한 분석을 방해할 수 있습니다. 이상치는 다양한 형태로 나타날 수 있으며, 이러한 이상치를 식별하고 처리하는 것은 데이터 분석가나 기계학습 엔지니어에게 중요한 작업입니다. 이상치란 무엇인가? 이상치란 주어진 데..

    데이터 불균형 - Over Sampling

    데이터 불균형 - Over Sampling

    데이터 분석 및 기계학습을 위해 데이터를 수집하다보면 데이터의 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 만날 수 있다. 이와 같은 상황은 매우 빈번하게 마주할 수 있다. 이러한 데이터 불균형은 왜 문제가 되는가? 우리는 데이터를 기반으로 정상을 정확하게 분류하는 것과 이상값을 정확히 분류하는 문제로 크게 나뉠 수 있다. 보통 정상인 데이터들이 다수이며 이상값이 소수이다. 일반적으로 정상을 분류하는 것보다 이상값을 분류하는 것이 더 중요한 문제로 다뤄진다. 이렇게 클래스 별로 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 하며, 이러한 상황을 해결하기 위한 방법들을 간략하게 정리한다. 데이터 불균형을 해결하기 위한 방법은 Data-based 접근 방식과..

    데이터 불균형 - Under Sampling

    데이터 불균형 - Under Sampling

    데이터 분석 및 기계학습을 위해 데이터를 수집하다보면 데이터의 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 만날 수 있다. 이와 같은 상황은 매우 빈번하게 마주할 수 있다. 이러한 데이터 불균형은 왜 문제가 되는가? 우리는 데이터를 기반으로 정상을 정확하게 분류하는 것과 이상값을 정확히 분류하는 문제로 크게 나뉠 수 있다. 보통 정상인 데이터들이 다수이며 이상값이 소수이다. 일반적으로 정상을 분류하는 것보다 이상값을 분류하는 것이 더 중요한 문제로 다뤄진다. 이렇게 클래스 별로 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 하며, 이러한 상황을 해결하기 위한 방법들을 간략하게 정리한다. 데이터 불균형을 해결하기 위한 방법은 Data-based 접근 방식과..

    의사결정 나무 (Decision Tree) 예측, 분류 정리

    의사결정 나무 (Decision Tree) 예측, 분류 정리

    의사결정나무(Decision Tree)는 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측 / 분류 모델을 나무의 형태로 만든 것이다. 과거에 수집된 자료를 분석하여 이들 사이에 존재하는 패턴을 나타내는 모델을 나타낸다. 질문을 던져서 맞고 틀리는 것에 따라 우리가 생각하고 있는 대상을 좁혀나가게 된다. 예전에 '스무고개' 게임과 비슷한 개념이다. 사람이 스무번의 질문을 던지면서 하나의 정답을 맞춰나가는 과정이 이와 매우 유사하다. 데이터가 입력되었을 때 알고리즘에 의해 데이터를 2개 혹은 그 이상의 부분집합으로 분할하게 된다. 분류-의사결정나무의 분할는 비슷한 범주를 갖고 있는 관측치끼리 모으는 것이고 예측-의사결정나무의 분할은 비슷한 수치를 갖고 있는 관측치끼리의 모음이다. 이러한 과정을 ..