반응형
데이터 분석 시 결측치를 확인하고 처리하는 것은 필수 요소입니다.
missingno 모듈은 데이터셋에서 누락된 데이터를 시각적으로 파악하고 분석하는 데 도움을 주는 Python 라이브러리입니다. 주로 데이터셋의 결측치를 시각화하여 어떤 부분이 비어 있는지, 데이터의 패턴을 파악하는 데 사용됩니다.
이 모듈은 주로 판다스 데이터프레임과 함께 사용되며, 데이터셋에서 결측치를 식별하고 시각적으로 보여주는 기능을 제공합니다.
missingno 모듈의 주요 기능으로는:
Matrix: missingno.matrix() 함수는 데이터셋의 결측치를 매트릭스 형태로 시각화하여 데이터셋 전체의 결측치 분포를 파악할 수 있습니다.
import missingno as msno
import pandas as pd
# 데이터프레임 생성 예시
data = {'A': [1, 2, None, 4, 5], 'B': [1, None, 3, 4, 5], 'C': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)
# 매트릭스 시각화
msno.matrix(df)
Bar: missingno.bar() 함수는 각 열(특성)별로 결측치의 비율을 막대 그래프로 시각화합니다.
# 각 열의 결측치 비율을 막대 그래프로 시각화
msno.bar(df)
bar() 호출 시 나타나는 그래프 입니다. 해당 그래프는 막대 그래프 형태로, 막대그래프의 높이가 낮을수록 결측치가 많다는 것을 의미합니다.
Heatmap: missingno.heatmap() 함수는 변수 간의 결측치 상관관계를 히트맵으로 나타냅니다. 이를 통해 결측치가 어떤 패턴으로 존재하는지 알 수 있습니다.
# 변수 간 결측치 상관관계 히트맵
msno.heatmap(df)
이 모듈은 데이터 전처리 단계에서 결측치를 이해하고 처리하는 데 도움을 주며, 데이터셋의 구조와 패턴을 더 잘 파악할 수 있도록 도와줍니다.
반응형
'AI > Data Science' 카테고리의 다른 글
희소행렬을 효율적으로 저장하는 COO, CSR 형식 (0) | 2024.03.30 |
---|---|
[Metrics] 분류 모델 평가를 위한 지표는 어떻게 선정해야 하는가? (2) | 2023.12.02 |
[분석통계] 정규성 검정 (0) | 2023.05.29 |
[분석통계] 통계적 검정 방법 간단 정리 (0) | 2023.05.27 |
[ANOVA] 일원 / 이원분산분석 해보기 (상호작용항) (0) | 2023.04.20 |