'sklearn' 태그의 글 목록

본문 바로가기

728x90

sklearn

10/12 수 1. LogisticRegression sklearn.linear_model 사이킷런의 ML 알고리즘 모듈 안의 로지스틱 회귀를 사용할 때 모델 최적화를 위해 부여할 수 있는 옵션들이 있다. max_iter는 기본 100으로 설정되어 있는데, 간혹 반복 횟수가 적다는 경고(ConvergenceWarning: lbfgs failed to converge (status=1))가 뜰 때 solver(최적화에 사용할 알고리즘. default='lbfgs')가 충분히 수렴할 수 있도록 반복 횟수를 늘려주면 된다. 보통 작은 데이터 세트의 이진 분류인 경우 liblinear가 성능이 좋고, 데이터 세트가 크고 다중 분류인 경우 lbfgs가 적합하다. 출처 출처 2. 결정 트리 모델의 시각화 Graphviz 패키지 .. 더보기

4/8 금 금요일! 🐱‍🏍 오늘은 Regression을 끝낸다~~ 4/11 월요일은 머신러닝 필답 평가, 4/17 일요일은 수행평가 4가지 제출이 있다. 결측치 처리는 삭제하거나, imputation(보간, 대체) - 평균화 기법(독립변수를 대표값으로 대체), 머신러닝 기법(종속변수가 대상. KNN) KNN(K-Nearest Neighbors, K-최근접 이웃) : hyperparameter는 k(=1일 때 어느 정도의 성능 보장)와 거리측정 방식(주로 유클라디안 사용) 반드시 정규화를 진행해야 함. 모든 데이터에 대해 거리를 계산해야 하므로 시간이 오래 걸릴 수 있음 1. Logistic Regression + KNN - BMI data import numpy as np import pandas as pd fro.. 더보기

4/7 목 목요일! 오늘도 Multinomial Classification를 대표적인 예제(MNIST)를 통해 배운다~ 손으로 쓴 숫자들로 이루어진 대형 데이터베이스~ MNIST 이미지는 그 자체가 2차원이고 그런 게 여럿이기 때문에 3차원. 이미지를 1차원으로 ravel() 해야 함 https://www.kaggle.com/competitions/digit-recognizer/data?select=test.csv Digit Recognizer | Kaggle www.kaggle.com Tensorflow Ver. 1.15은 배운 이론을 코드로 이해하기에는 좋지만 코드가 너무 어렵다. 1. Multinomial Classification by Tensorflow Ver. 1.15 - MNIST import nump.. 더보기

4/6 수 수요일! 오늘은 Multinomial Classification을 배운다. Linear Regression(연속적인 숫자 값 예측)이 발전한 것이 Logistic Regression → Classification(분류를 판단하는 예측) - Binary Classification(이항분류) - Multinomial Classification(다항분류) Logistic Regression은 이진 분류에 특화됨 SKlearn이 제공하는 분류기인 Gradient Descent(경사하강법)가 발전한 형태인 SGD Classifier(Stochastic Gradient Descent, 확률적 경사하강법) 1. Binary Classification - 위스콘신 유방암 데이터 by Gradient Descent Cl.. 더보기

4/5 화 화요일! Logistic Regression을 활용해 머신러닝 진행 시 주의사항을 알아본다. 앞으로 우리는 Classification(이항분류)의 Metrics로 Accuracy를 사용할 예정이다. 모델 평가 전 고려해야 하는 것들 1. learning rate(학습률) : loss 값을 보면서 학습률을 조정해야 함. 보통 1의 마이너스 4승으로 잡음 학습률이 너무 크다면 global minima(W')를 찾을 수 없게 됨 → OverShooting 발생 학습률이 아주 작다면 local minima 찾게 됨 2. Normalization(정규화) : MinMax Scaling - 0 ~ 1. 이상치에 민감함 Standardization - 표준화, Z-Score. 상대적으로 이상치에 둔감함, 모든 칼럼에.. 더보기

4/1 금 금요일! 😎 어제 잠깐 소개한 Logistic Regression을 배운다~ Linear Regression(연속적인 숫자 값 예측)이 발전한 것이 Logistic Regression → Classification(분류를 판단하는 예측) - Binary Classification(이항분류) - Multinomial Classification(다항분류) 그래프를 볼 수 있는 유틸리티 모듈(mglearn)을 추가적으로 설치하자 conda activate maching_TF15 pip install mglearn conda install은 이미 설치되어 있는 모듈, 패키지에 대한 Dependency를 고려해서 최적인 버전을 설치, pip install은 그냥 깔아버림 Logistic Regression : L.. 더보기

3/30 수 수요일! 어제 사용한 Ozone data를 Python과 Sklearn으로 Simple Linear Regression(단순 선형 회귀)을 구현했을 때, 왜 모양이 다른지 알아보자~ 이유 1. Missing Value(결치값) 처리 - 삭제 : 전체 데이터가 100만 건 이상이며 결치값이 5% 이내일 때 - 대체 : 대표값으로 대체(평균, 중위, 최대, 최소, 최빈) 혹은 머신러닝 기법을 사용(더 좋은 방식! 결치값이 종속변수일 때) 이유 2. 이상치 처리 이상치는 값이 일반적인 다른 데이터에 비해 편차가 큰 데이터이기 때문에 평균, 분산에 큰 영향을 미침 → 데이터를 상당히 불안하게 만드는 요소 - 지대값 : 독립변수(원인)에 있는 이상치 - Outlier : 종속변수(결과)에 있는 이상치 1. 이상치.. 더보기

이전 1 다음

728x90

티스토리툴바