AI/Data Science

[결측치 확인] Missingno 이용하기

Linuxias 2023. 11. 30. 00:31
반응형

데이터 분석 시 결측치를 확인하고 처리하는 것은 필수 요소입니다.

missingno 모듈은 데이터셋에서 누락된 데이터를 시각적으로 파악하고 분석하는 데 도움을 주는 Python 라이브러리입니다. 주로 데이터셋의 결측치를 시각화하여 어떤 부분이 비어 있는지, 데이터의 패턴을 파악하는 데 사용됩니다.

이 모듈은 주로 판다스 데이터프레임과 함께 사용되며, 데이터셋에서 결측치를 식별하고 시각적으로 보여주는 기능을 제공합니다. 

missingno 모듈의 주요 기능으로는:

Matrix: missingno.matrix() 함수는 데이터셋의 결측치를 매트릭스 형태로 시각화하여 데이터셋 전체의 결측치 분포를 파악할 수 있습니다.

import missingno as msno
import pandas as pd

# 데이터프레임 생성 예시
data = {'A': [1, 2, None, 4, 5], 'B': [1, None, 3, 4, 5], 'C': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# 매트릭스 시각화
msno.matrix(df)


Bar: missingno.bar() 함수는 각 열(특성)별로 결측치의 비율을 막대 그래프로 시각화합니다.

# 각 열의 결측치 비율을 막대 그래프로 시각화
msno.bar(df)

bar() 호출 시 나타나는 그래프 입니다. 해당 그래프는 막대 그래프 형태로, 막대그래프의 높이가 낮을수록 결측치가 많다는 것을 의미합니다.



Heatmap: missingno.heatmap() 함수는 변수 간의 결측치 상관관계를 히트맵으로 나타냅니다. 이를 통해 결측치가 어떤 패턴으로 존재하는지 알 수 있습니다.

# 변수 간 결측치 상관관계 히트맵
msno.heatmap(df)


이 모듈은 데이터 전처리 단계에서 결측치를 이해하고 처리하는 데 도움을 주며, 데이터셋의 구조와 패턴을 더 잘 파악할 수 있도록 도와줍니다.

 

 

반응형