Category

    [Metrics] 분류 모델 평가를 위한 지표는 어떻게 선정해야 하는가?

    [Metrics] 분류 모델 평가를 위한 지표는 어떻게 선정해야 하는가?

    모델 평가지표를 선택할 때에는 해당 문제의 특성과 목표, 그리고 모델이 사용되는 상황을 고려해야 합니다. 다양한 모델 평가지표 중에서 어떤 것을 선택할지 결정하는 데에는 여러 요소가 영향을 미칩니다. 모델 지표 선택 시 고려사항 해결하려는 문제에 대한 정확한 이해가 필요 분류 문제인지 회귀 문제인지를 고려해야 합니다. 분류 문제에서는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 스코어 등이 중요한 평가지표입니다. 회귀 문제에서는 평균 제곱 오차(Mean Squared Error), 평균 절대 오차(Mean Absolute Error) 등이 일반적입니다. 데이터의 불균형 문제에 대한 고민 클래스 간의 샘플 수가 불균형하다면 정확도만으로는 모델 성능을 올바르게 평가할 ..

    [numpy] r_, c_ 함수에 대하여

    numpy 라이브러리에서 제공되는 r_과 c_ 함수는 배열을 생성하고 결합하는 데 유용한 도구입니다. 이 두 함수는 배열을 만들거나 배열을 연결하는 데 사용되며, 주로 슬라이싱, 배열 결합, 또는 인덱싱 작업을 수행하는 데 활용됩니다. 각 함수의 기능과 사용법에 대해 알아보겠습니다. numpy.r_ numpy.r_은 배열을 연결하여 행 방향(axis 0)으로 확장하는 데 사용됩니다. 이 함수는 배열을 수평 방향으로 결합합니다. 여러 슬라이스 또는 배열을 사용하여 새로운 배열을 만들 수 있습니다. 예를 들어, 다음은 r_ 함수를 사용하여 배열을 생성하는 예제입니다: import numpy as np # 슬라이싱을 이용한 배열 생성 arr1 = np.array([1, 2, 3]) arr2 = np.array..

    [결측치 확인] Missingno 이용하기

    [결측치 확인] Missingno 이용하기

    데이터 분석 시 결측치를 확인하고 처리하는 것은 필수 요소입니다. missingno 모듈은 데이터셋에서 누락된 데이터를 시각적으로 파악하고 분석하는 데 도움을 주는 Python 라이브러리입니다. 주로 데이터셋의 결측치를 시각화하여 어떤 부분이 비어 있는지, 데이터의 패턴을 파악하는 데 사용됩니다. 이 모듈은 주로 판다스 데이터프레임과 함께 사용되며, 데이터셋에서 결측치를 식별하고 시각적으로 보여주는 기능을 제공합니다. missingno 모듈의 주요 기능으로는: Matrix: missingno.matrix() 함수는 데이터셋의 결측치를 매트릭스 형태로 시각화하여 데이터셋 전체의 결측치 분포를 파악할 수 있습니다. import missingno as msno import pandas as pd # 데이터프레..

    이상치 탐지(Anomaly Detection) - Overview

    이상치 탐지(Anomaly Detection) - Overview

    이상치 탐지는 데이터 분석과 기계학습 분야에서 중요한 주제 중 하나로, 데이터에서 이상한 패턴이나 값들을 식별하는 과정을 의미합니다. 이상치는 데이터 분석의 정확성과 안정성을 저해할 수 있기 때문에 그 중요성이 더욱 커집니다. 이상치 탐지: 데이터 분석의 핵심 데이터 분석은 현대 비즈니스 및 연구 분야에서 핵심적인 역할을 합니다. 데이터는 다양한 분야에서 수집되며, 이를 분석함으로써 중요한 의사결정을 내릴 수 있습니다. 그러나 데이터에는 종종 이상치가 포함되어 있을 수 있으며, 이러한 이상치는 정확한 분석을 방해할 수 있습니다. 이상치는 다양한 형태로 나타날 수 있으며, 이러한 이상치를 식별하고 처리하는 것은 데이터 분석가나 기계학습 엔지니어에게 중요한 작업입니다. 이상치란 무엇인가? 이상치란 주어진 데..

    Increase SWAP memory size

    sudo swapoff -v /swapfile sudo fallocate -l 16G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile Result : $free -mh total used free shared buff/cache available Mem: 31Gi 3.8Gi 25Gi 37Mi 1.5Gi 26Gi Swap: 127Gi 0B 127Gi

    데이터 불균형 - Over Sampling

    데이터 불균형 - Over Sampling

    데이터 분석 및 기계학습을 위해 데이터를 수집하다보면 데이터의 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 만날 수 있다. 이와 같은 상황은 매우 빈번하게 마주할 수 있다. 이러한 데이터 불균형은 왜 문제가 되는가? 우리는 데이터를 기반으로 정상을 정확하게 분류하는 것과 이상값을 정확히 분류하는 문제로 크게 나뉠 수 있다. 보통 정상인 데이터들이 다수이며 이상값이 소수이다. 일반적으로 정상을 분류하는 것보다 이상값을 분류하는 것이 더 중요한 문제로 다뤄진다. 이렇게 클래스 별로 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 하며, 이러한 상황을 해결하기 위한 방법들을 간략하게 정리한다. 데이터 불균형을 해결하기 위한 방법은 Data-based 접근 방식과..