전체 글

전체 글

    [결측치 확인] Missingno 이용하기

    [결측치 확인] Missingno 이용하기

    데이터 분석 시 결측치를 확인하고 처리하는 것은 필수 요소입니다. missingno 모듈은 데이터셋에서 누락된 데이터를 시각적으로 파악하고 분석하는 데 도움을 주는 Python 라이브러리입니다. 주로 데이터셋의 결측치를 시각화하여 어떤 부분이 비어 있는지, 데이터의 패턴을 파악하는 데 사용됩니다. 이 모듈은 주로 판다스 데이터프레임과 함께 사용되며, 데이터셋에서 결측치를 식별하고 시각적으로 보여주는 기능을 제공합니다. missingno 모듈의 주요 기능으로는: Matrix: missingno.matrix() 함수는 데이터셋의 결측치를 매트릭스 형태로 시각화하여 데이터셋 전체의 결측치 분포를 파악할 수 있습니다. import missingno as msno import pandas as pd # 데이터프레..

    이상치 탐지(Anomaly Detection) - Overview

    이상치 탐지(Anomaly Detection) - Overview

    이상치 탐지는 데이터 분석과 기계학습 분야에서 중요한 주제 중 하나로, 데이터에서 이상한 패턴이나 값들을 식별하는 과정을 의미합니다. 이상치는 데이터 분석의 정확성과 안정성을 저해할 수 있기 때문에 그 중요성이 더욱 커집니다. 이상치 탐지: 데이터 분석의 핵심 데이터 분석은 현대 비즈니스 및 연구 분야에서 핵심적인 역할을 합니다. 데이터는 다양한 분야에서 수집되며, 이를 분석함으로써 중요한 의사결정을 내릴 수 있습니다. 그러나 데이터에는 종종 이상치가 포함되어 있을 수 있으며, 이러한 이상치는 정확한 분석을 방해할 수 있습니다. 이상치는 다양한 형태로 나타날 수 있으며, 이러한 이상치를 식별하고 처리하는 것은 데이터 분석가나 기계학습 엔지니어에게 중요한 작업입니다. 이상치란 무엇인가? 이상치란 주어진 데..

    Increase SWAP memory size

    sudo swapoff -v /swapfile sudo fallocate -l 16G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile Result : $free -mh total used free shared buff/cache available Mem: 31Gi 3.8Gi 25Gi 37Mi 1.5Gi 26Gi Swap: 127Gi 0B 127Gi

    데이터 불균형 - Over Sampling

    데이터 불균형 - Over Sampling

    데이터 분석 및 기계학습을 위해 데이터를 수집하다보면 데이터의 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 만날 수 있다. 이와 같은 상황은 매우 빈번하게 마주할 수 있다. 이러한 데이터 불균형은 왜 문제가 되는가? 우리는 데이터를 기반으로 정상을 정확하게 분류하는 것과 이상값을 정확히 분류하는 문제로 크게 나뉠 수 있다. 보통 정상인 데이터들이 다수이며 이상값이 소수이다. 일반적으로 정상을 분류하는 것보다 이상값을 분류하는 것이 더 중요한 문제로 다뤄진다. 이렇게 클래스 별로 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 하며, 이러한 상황을 해결하기 위한 방법들을 간략하게 정리한다. 데이터 불균형을 해결하기 위한 방법은 Data-based 접근 방식과..

    데이터 불균형 - Under Sampling

    데이터 불균형 - Under Sampling

    데이터 분석 및 기계학습을 위해 데이터를 수집하다보면 데이터의 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 만날 수 있다. 이와 같은 상황은 매우 빈번하게 마주할 수 있다. 이러한 데이터 불균형은 왜 문제가 되는가? 우리는 데이터를 기반으로 정상을 정확하게 분류하는 것과 이상값을 정확히 분류하는 문제로 크게 나뉠 수 있다. 보통 정상인 데이터들이 다수이며 이상값이 소수이다. 일반적으로 정상을 분류하는 것보다 이상값을 분류하는 것이 더 중요한 문제로 다뤄진다. 이렇게 클래스 별로 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 하며, 이러한 상황을 해결하기 위한 방법들을 간략하게 정리한다. 데이터 불균형을 해결하기 위한 방법은 Data-based 접근 방식과..

    [C#] DLL 포함시켜 단일 EXE로 만들기

    [C#] DLL 포함시켜 단일 EXE로 만들기

    프로젝트 파일 설정 프로젝트 파일 내에 PropertyGroup에 아래와 같은 항목을 추가한다. WinExe net6.0-windows ... true true win-x64 true PublishSingleFile : 하나의 파일로 게시(Publish)를 사용하도록 설정 SelfContained : 앱이 자체 포함대상인지, 프레임워크 종속인지 확인 RuntimeIdentifier : 대상으로 하는 OS / CPU 유형 지정 IncludeNativeLibrariesForSelfExtract : 코어 런타임 자체의 네이티브 이진 파일 포함하고 하나의 출력 파일을 얻기 위한 속성 ( 코어 런타임 자체의 네이티브 이진 파일은 단일 파일 번들에 기본적으로 포함되지 않음 ) 배포 (게시 / Publish) 1. ..