Linuxias
Developer's Delight
Linuxias
  • Category
    • AI
      • Deep Learning
      • Machine Learning
      • Data Science
      • Framework
      • MLOps
      • Paper-Review
      • Tips
    • Android
      • Kotlin
      • Component
      • Compose
      • Compose UI
      • Material
      • Testing
    • Software Architecture
      • Architecture Pattern
      • Design Pattern
      • Requirement Engineering
    • Linux
      • Compile & Link
      • Command & Tool
      • Container
      • Debugging & Testing
      • Profiling
      • Kernel Analysis
      • Server
      • Shell Script
      • System Programming
    • Language
      • Carbon
      • C,C++
      • C#
      • Java
      • Python
    • ETC
      • Data Struct | Algorithm
      • git
      • Security
    • Book
    • 경제공부
      • 세금
      • 부동산
hELLO · Designed By 정상우.
Linuxias

Developer's Delight

[결측치 확인] Missingno 이용하기
AI/Data Science

[결측치 확인] Missingno 이용하기

2023. 11. 30. 00:31
반응형

데이터 분석 시 결측치를 확인하고 처리하는 것은 필수 요소입니다.

missingno 모듈은 데이터셋에서 누락된 데이터를 시각적으로 파악하고 분석하는 데 도움을 주는 Python 라이브러리입니다. 주로 데이터셋의 결측치를 시각화하여 어떤 부분이 비어 있는지, 데이터의 패턴을 파악하는 데 사용됩니다.

이 모듈은 주로 판다스 데이터프레임과 함께 사용되며, 데이터셋에서 결측치를 식별하고 시각적으로 보여주는 기능을 제공합니다. 

missingno 모듈의 주요 기능으로는:

Matrix: missingno.matrix() 함수는 데이터셋의 결측치를 매트릭스 형태로 시각화하여 데이터셋 전체의 결측치 분포를 파악할 수 있습니다.

import missingno as msno
import pandas as pd

# 데이터프레임 생성 예시
data = {'A': [1, 2, None, 4, 5], 'B': [1, None, 3, 4, 5], 'C': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# 매트릭스 시각화
msno.matrix(df)


Bar: missingno.bar() 함수는 각 열(특성)별로 결측치의 비율을 막대 그래프로 시각화합니다.

# 각 열의 결측치 비율을 막대 그래프로 시각화
msno.bar(df)

bar() 호출 시 나타나는 그래프 입니다. 해당 그래프는 막대 그래프 형태로, 막대그래프의 높이가 낮을수록 결측치가 많다는 것을 의미합니다.



Heatmap: missingno.heatmap() 함수는 변수 간의 결측치 상관관계를 히트맵으로 나타냅니다. 이를 통해 결측치가 어떤 패턴으로 존재하는지 알 수 있습니다.

# 변수 간 결측치 상관관계 히트맵
msno.heatmap(df)


이 모듈은 데이터 전처리 단계에서 결측치를 이해하고 처리하는 데 도움을 주며, 데이터셋의 구조와 패턴을 더 잘 파악할 수 있도록 도와줍니다.

 

 

반응형
저작자표시 비영리 (새창열림)

'AI > Data Science' 카테고리의 다른 글

희소행렬을 효율적으로 저장하는 COO, CSR 형식  (0) 2024.03.30
[Metrics] 분류 모델 평가를 위한 지표는 어떻게 선정해야 하는가?  (2) 2023.12.02
[분석통계] 정규성 검정  (0) 2023.05.29
[분석통계] 통계적 검정 방법 간단 정리  (0) 2023.05.27
[ANOVA] 일원 / 이원분산분석 해보기 (상호작용항)  (0) 2023.04.20
    'AI/Data Science' 카테고리의 다른 글
    • 희소행렬을 효율적으로 저장하는 COO, CSR 형식
    • [Metrics] 분류 모델 평가를 위한 지표는 어떻게 선정해야 하는가?
    • [분석통계] 정규성 검정
    • [분석통계] 통계적 검정 방법 간단 정리
    Linuxias
    Linuxias
    I want to be a S/W developer who benefits people.

    티스토리툴바