전체 글

전체 글

    [MLflow] #5. MLflow Model Registry

    [MLflow] #5. MLflow Model Registry

    MLflow 플랫폼은 크게 MLflow Tracking, MLflow Projects, MLflow Models, MLflow Model Registry의 컴포넌트로 구성된다. 이 글에서는 그 중 MLflow Tracking 기능에 대해서 정리한다. MLflow Model Registry의 기본적인 기능은 아래와 같다. MLflow Model Registry MLflow 모델의 전체 수명 주기를 공동으로 관리하기 위한 중앙 집중식 모델 스토어, API 및 UI 모음 모델 계보(MLflow 실험 및 실행이 모델을 생성함), 모델 버전 관리, 단계 전환(예: 스테이징에서 프로덕션으로) 및 주석을 제공. 단순하게 설명하면 $Model Registry$ 는 이름에서 파악이 되듯 모델의 저장소 역할을 한다. 모델..

    [TroubleShooting] pyenv 문제 해결

    _bz2, _ctypes, readline, _ssl 등 ModuleNotFoundError pyenv 설치 이후 아래와 같은 문제가 발생하는 경우가 있다. 필요한 라이브러리들이 설치가 안된 경우다. 문제 Downloading Python-3.8.16.tar.xz... -> https://www.python.org/ftp/python/3.8.16/Python-3.8.16.tar.xz Installing Python-3.8.16... Traceback (most recent call last): File "", line 1, in File "/home/linuxias/.pyenv/versions/3.8.16/lib/python3.8/bz2.py", line 19, in from _bz2 import BZ2..

    [MLflow] #4. MLflow Projects 정리하기

    [MLflow] #4. MLflow Projects 정리하기

    MLflow 플랫폼은 크게 MLflow Tracking, MLflow Projects, MLflow Models, MLflow Model Registry의 컴포넌트로 구성된다. 이 글에서는 그 중 MLflow Projects 기능에 대해서 정리한다. MLflow Projects 의 기본적인 기능은 아래와 같다. MLflow Projects 머신러닝 코드를 재사용 가능하고 재현 가능한 형태로 패키징 -> 어떤 플랫폼에서도 재현가능하도록 지원 포장된 형태를 다른 데이터 사이언티스트와 공유하거나 프러덕션에 반영 프로젝트를 실행하기 위한 API와 명령줄 도구가 포함되어 있어 프로젝트를 워크플로우로 연결할 수 있는 기능 제공 기업에서는 다양한 머신러닝 학습 도구 세트를 활용하고 있고 이러한 학습도구를 다양한 환경..

    [Pandas] Apply, Map Practice

    이 예제는 https://www.datamanim.com/dataset/99_pandas/pandasMain.html#apply-map 를 풀이한 예제입니다. Import library import pandas as pd Load Data df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/pandas/main/BankChurnersUp.csv',index_col=0) df.info() Int64Index: 10127 entries, 0 to 10126 Data columns (total 18 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 CLIENTNUM 10..

    의사결정 나무 (Decision Tree) 예측, 분류 정리

    의사결정 나무 (Decision Tree) 예측, 분류 정리

    의사결정나무(Decision Tree)는 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측 / 분류 모델을 나무의 형태로 만든 것이다. 과거에 수집된 자료를 분석하여 이들 사이에 존재하는 패턴을 나타내는 모델을 나타낸다. 질문을 던져서 맞고 틀리는 것에 따라 우리가 생각하고 있는 대상을 좁혀나가게 된다. 예전에 '스무고개' 게임과 비슷한 개념이다. 사람이 스무번의 질문을 던지면서 하나의 정답을 맞춰나가는 과정이 이와 매우 유사하다. 데이터가 입력되었을 때 알고리즘에 의해 데이터를 2개 혹은 그 이상의 부분집합으로 분할하게 된다. 분류-의사결정나무의 분할는 비슷한 범주를 갖고 있는 관측치끼리 모으는 것이고 예측-의사결정나무의 분할은 비슷한 수치를 갖고 있는 관측치끼리의 모음이다. 이러한 과정을 ..

    정규화 모델 (Regularization Model)의 기본 원리

    정규화 모델 (Regularization Model)의 기본 원리

    좋은 모델이란? 현재 데이터(training data)를 잘 설명하는 모델이자 미래 데이터(testing data)에 대한 예측 성능이 좋은 모델 Explanatory modeling + Predictive modeling 현재 데이터를 잘 설명하는 모델이란 학습 에러를 최소화 하는 모델이다. 즉 트레이닝 에러를 최소화 하는 모델을 만들어야 한다. $Expected MSE = E[(Y-\hat{Y})]$$ $ = \sigma + (E[\hat{Y}]- \hat{Y})^2 + E[\hat{Y} - E[\hat{Y}]]^2$ $ = \sigma^2 + Bias^2(\hat{Y}) + Var(\hat{Y})$ $ = Irreducible Error + Bias^2 +Variance$ Expected MSE를 ..