멀티캠퍼스 프로젝트형 AI 서비스 개발 5회차/ML 썸네일형 리스트형 4/8 금 금요일! 🐱🏍 오늘은 Regression을 끝낸다~~ 4/11 월요일은 머신러닝 필답 평가, 4/17 일요일은 수행평가 4가지 제출이 있다. 결측치 처리는 삭제하거나, imputation(보간, 대체) - 평균화 기법(독립변수를 대표값으로 대체), 머신러닝 기법(종속변수가 대상. KNN) KNN(K-Nearest Neighbors, K-최근접 이웃) : hyperparameter는 k(=1일 때 어느 정도의 성능 보장)와 거리측정 방식(주로 유클라디안 사용) 반드시 정규화를 진행해야 함. 모든 데이터에 대해 거리를 계산해야 하므로 시간이 오래 걸릴 수 있음 1. Logistic Regression + KNN - BMI data import numpy as np import pandas as pd fro.. 더보기 4/7 목 목요일! 오늘도 Multinomial Classification를 대표적인 예제(MNIST)를 통해 배운다~ 손으로 쓴 숫자들로 이루어진 대형 데이터베이스~ MNIST 이미지는 그 자체가 2차원이고 그런 게 여럿이기 때문에 3차원. 이미지를 1차원으로 ravel() 해야 함 https://www.kaggle.com/competitions/digit-recognizer/data?select=test.csv Digit Recognizer | Kaggle www.kaggle.com Tensorflow Ver. 1.15은 배운 이론을 코드로 이해하기에는 좋지만 코드가 너무 어렵다. 1. Multinomial Classification by Tensorflow Ver. 1.15 - MNIST import nump.. 더보기 4/6 수 수요일! 오늘은 Multinomial Classification을 배운다. Linear Regression(연속적인 숫자 값 예측)이 발전한 것이 Logistic Regression → Classification(분류를 판단하는 예측) - Binary Classification(이항분류) - Multinomial Classification(다항분류) Logistic Regression은 이진 분류에 특화됨 SKlearn이 제공하는 분류기인 Gradient Descent(경사하강법)가 발전한 형태인 SGD Classifier(Stochastic Gradient Descent, 확률적 경사하강법) 1. Binary Classification - 위스콘신 유방암 데이터 by Gradient Descent Cl.. 더보기 4/5 화 화요일! Logistic Regression을 활용해 머신러닝 진행 시 주의사항을 알아본다. 앞으로 우리는 Classification(이항분류)의 Metrics로 Accuracy를 사용할 예정이다. 모델 평가 전 고려해야 하는 것들 1. learning rate(학습률) : loss 값을 보면서 학습률을 조정해야 함. 보통 1의 마이너스 4승으로 잡음 학습률이 너무 크다면 global minima(W')를 찾을 수 없게 됨 → OverShooting 발생 학습률이 아주 작다면 local minima 찾게 됨 2. Normalization(정규화) : MinMax Scaling - 0 ~ 1. 이상치에 민감함 Standardization - 표준화, Z-Score. 상대적으로 이상치에 둔감함, 모든 칼럼에.. 더보기 4/4 월 월요일! 오늘은 금요일에 실습 예제로 주어졌던 admission(대학원 합격 여부) 데이터셋을 Sklearn, Tensorflow로 구현하고, 지난주에 배운 Logistic Regression을 활용해 평가지표(Metrics)를 알아본다. 1. Logistic Regression by Sklearn import numpy as np import pandas as pd import tensorflow as tf from sklearn import linear_model from sklearn.preprocessing import MinMaxScaler from scipy import stats import matplotlib.pyplot as plt import warnings warnings.filter.. 더보기 4/1 금 금요일! 😎 어제 잠깐 소개한 Logistic Regression을 배운다~ Linear Regression(연속적인 숫자 값 예측)이 발전한 것이 Logistic Regression → Classification(분류를 판단하는 예측) - Binary Classification(이항분류) - Multinomial Classification(다항분류) 그래프를 볼 수 있는 유틸리티 모듈(mglearn)을 추가적으로 설치하자 conda activate maching_TF15 pip install mglearn conda install은 이미 설치되어 있는 모듈, 패키지에 대한 Dependency를 고려해서 최적인 버전을 설치, pip install은 그냥 깔아버림 Logistic Regression : L.. 더보기 3/31 목 목요일! 오늘은 우리가 주력으로 사용할 Tensorflow를 배운다! 🐱🏍 수행평가 또 나왔넹.. 데이터 핸들링 2 + 머신러닝(다중선형회귀) 1. 4/5 화요일까지 제출!! Ozone 데이터로 다중선형회귀를 3가지 방법(Python, Sklearn, Tensorflow)으로 구현, 예측치가 비슷하게 나와야 한다! 당연히 데이터 전처리(결치값, 이상치, 정규화)도~ 가장 많이 쓰이는 딥러닝 오픈소스 라이브러리는 Google의 Tensorflow와 Facebook의 PyTorch~ Sklearn은 데이터 양과 변수가 많아지면 속도가 굉장히 느려지기 때문에, Tensorflow를 이용한다. Tensorflow 2.0 ver.이 등장하면서 이전 버전과는 완전히 다르게 바뀌었다. 기존에 만들었던 가상환경(ma.. 더보기 3/30 수 수요일! 어제 사용한 Ozone data를 Python과 Sklearn으로 Simple Linear Regression(단순 선형 회귀)을 구현했을 때, 왜 모양이 다른지 알아보자~ 이유 1. Missing Value(결치값) 처리 - 삭제 : 전체 데이터가 100만 건 이상이며 결치값이 5% 이내일 때 - 대체 : 대표값으로 대체(평균, 중위, 최대, 최소, 최빈) 혹은 머신러닝 기법을 사용(더 좋은 방식! 결치값이 종속변수일 때) 이유 2. 이상치 처리 이상치는 값이 일반적인 다른 데이터에 비해 편차가 큰 데이터이기 때문에 평균, 분산에 큰 영향을 미침 → 데이터를 상당히 불안하게 만드는 요소 - 지대값 : 독립변수(원인)에 있는 이상치 - Outlier : 종속변수(결과)에 있는 이상치 1. 이상치.. 더보기 이전 1 2 3 다음