전체 글

전체 글

    데이터 불균형 - Over Sampling

    데이터 분석 및 기계학습을 위해 데이터를 수집하다보면 데이터의 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 만날 수 있다. 이와 같은 상황은 매우 빈번하게 마주할 수 있다. 이러한 데이터 불균형은 왜 문제가 되는가? 우리는 데이터를 기반으로 정상을 정확하게 분류하는 것과 이상값을 정확히 분류하는 문제로 크게 나뉠 수 있다. 보통 정상인 데이터들이 다수이며 이상값이 소수이다. 일반적으로 정상을 분류하는 것보다 이상값을 분류하는 것이 더 중요한 문제로 다뤄진다. 이렇게 클래스 별로 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 하며, 이러한 상황을 해결하기 위한 방법들을 간략하게 정리한다. 데이터 불균형을 해결하기 위한 방법은 Data-based 접근 방식과..

    데이터 불균형 - Under Sampling

    데이터 분석 및 기계학습을 위해 데이터를 수집하다보면 데이터의 정상 범주의 관측치 수와 이상 범주의 관측치 수의 차이가 크게 나타나는 경우를 만날 수 있다. 이와 같은 상황은 매우 빈번하게 마주할 수 있다. 이러한 데이터 불균형은 왜 문제가 되는가? 우리는 데이터를 기반으로 정상을 정확하게 분류하는 것과 이상값을 정확히 분류하는 문제로 크게 나뉠 수 있다. 보통 정상인 데이터들이 다수이며 이상값이 소수이다. 일반적으로 정상을 분류하는 것보다 이상값을 분류하는 것이 더 중요한 문제로 다뤄진다. 이렇게 클래스 별로 관측치의 수가 현저하게 차이가 나는 데이터를 불균형 데이터라고 하며, 이러한 상황을 해결하기 위한 방법들을 간략하게 정리한다. 데이터 불균형을 해결하기 위한 방법은 Data-based 접근 방식과..

    [C#] DLL 포함시켜 단일 EXE로 만들기

    프로젝트 파일 설정 프로젝트 파일 내에 PropertyGroup에 아래와 같은 항목을 추가한다. WinExe net6.0-windows ... true true win-x64 true PublishSingleFile : 하나의 파일로 게시(Publish)를 사용하도록 설정 SelfContained : 앱이 자체 포함대상인지, 프레임워크 종속인지 확인 RuntimeIdentifier : 대상으로 하는 OS / CPU 유형 지정 IncludeNativeLibrariesForSelfExtract : 코어 런타임 자체의 네이티브 이진 파일 포함하고 하나의 출력 파일을 얻기 위한 속성 ( 코어 런타임 자체의 네이티브 이진 파일은 단일 파일 번들에 기본적으로 포함되지 않음 ) 배포 (게시 / Publish) 1. ..

    [Hotfix] Cuda 설치 시 발생 문제 해결

    nvidia-drm driver 문제 문제 nvidia-drm driver 문제는 아래와 같은 Log를 남긴다. nvidia-drm 커널 모듈이 이미 커널에 로드되어 사용중이기 때문에 설치가 어렵다는 내용이다. ERROR: An NVIDIA kernel module 'nvidia-drm' appears to already be loaded in your kernel. This may be because it is in use (for example, by an X server, a CUDA program, or the NVIDIA Persistence Daemon), but this may also happen if your kernel was configured without support for mo..

    [Ubuntu 22.04] Whale browser gpg keyring warning

    Naver-whale 브라우저를 사용한다면 Ubuntu 22.04에서 update 시 아래와 같은 경고를 볼 수 있다. Ubuntu 22.04부터 apt-key를 이용하여 저장소용 gpg 키를 추가하는 것을 권장하지 않는다. 따라 저장소용 gpg 키에 대하여 Warning을 발생 시킨다. W: https://repo.whale.naver.com/stable/deb/dists/stable/InRelease: Key is stored in legacy trusted.gpg keyring (/etc/apt/trusted.gpg), see the DEPRECATION section in apt-key(8) for details. 해당 Warning은 무시해도 문제는 없다 하지만 해결하고 한다면 오류가 발생하는 ..

    [Linux] Ubuntu 22.02 Setting

    환경 1. zsh & oh-my-zsh 설치하기 $sudo apt -y install zsh $sh -c "$(curl -fsSL https://raw.github.com/robbyrussell/oh-my-zsh/master/tools/install.sh)" theme를 agnoster로 변경해주기 위해 ~/.zshrc 에서 ZSH_THEME을 변경해준다. ZSH_THEME="agnoster" 변경 후 Font가 깨진다면 아래와 같이 font를 설치해준다. $git clone https://github.com/powerline/fonts.git --depth=1 $cd fonts $./install.sh 그 후 터미널 Font를 powerline 중 하나로 변경해준다면 문제 해결된다. 2. fzf 설치하..

    [Linux] Ubuntu에서 Ubuntu 22.04 설치 USB 만들기

    1. Ubuntu Image 다운로드 저는 Ubuntu 22.04.3 LTS Desktop 버전을 다운로드 하였습니다. 다운로드 경로는 아래입니다. Download Ubuntu Desktop | Download | Ubuntu Ubuntu is an open source software operating system that runs from the desktop, to the cloud, to all your internet connected things. ubuntu.com 2. USB Creator 프로그램 설치하기 usb-creator-gtk 프로그램을 이용하여 설치 USB를 만들어 보려 합니다. 터미널에서 usb-creator-gtk를 설치해줍니다. sudo apt install usb-crea..

    [Python] Sliding Window

    def sliding_window(series, window_size, step = 1): """series is a column of a dataframe""" for start_row in range(0, len(series) - window_size + 1, step): yield series[start_row:start_row + window_size] tmp = np.arange(100) list(sliding_window(tmp, 10, 5)) 위의 코드를 실행하면 0부터 99까지의 데이터를 10개씩 5개씩 이동하면서 데이터를 만들어낸다. 결과는 아래와 같다. [array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), array([ 5, 6, 7, 8, 9, 10, 11, 12, ..

    [분석통계] 정규성 검정

    정규성 검정 정규성 검정은 3가지 방법으로 검정을 진행한다. 검정 방법은 시각화 또는 가설 검정을 이용한 방법으로 나뉜다. 가설검정을 이용 시 귀무가설 '$H_{0}$는 모집단의 분포는 정규분포이다' 가 된다. Q-Q Plot 시각화를 이용한 정규성 검정방법 Shapiro-Wilks Test from scipy import stats stats.shapiro(df) Kolmogorov-Smirnov Test (KS-Test) KS-Test 는 누적분포함수를 비교하는 방법이다. 따라서 이론정규분포와 표본의 누적분포함수(cdf)를 비교한다. 아래 코드에서 주의할 점은 kstest 전 데이터를 표준화 전처리가 필수적으로 수행되어야 한다. from scipy import stats data = (df - df...

});