sklearn ์ธ๋ค์ผํ ๋ฆฌ์คํธํ 10/12 ์ 1. LogisticRegression sklearn.linear_model ์ฌ์ดํท๋ฐ์ ML ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋ ์์ ๋ก์ง์คํฑ ํ๊ท๋ฅผ ์ฌ์ฉํ ๋ ๋ชจ๋ธ ์ต์ ํ๋ฅผ ์ํด ๋ถ์ฌํ ์ ์๋ ์ต์ ๋ค์ด ์๋ค. max_iter๋ ๊ธฐ๋ณธ 100์ผ๋ก ์ค์ ๋์ด ์๋๋ฐ, ๊ฐํน ๋ฐ๋ณต ํ์๊ฐ ์ ๋ค๋ ๊ฒฝ๊ณ (ConvergenceWarning: lbfgs failed to converge (status=1))๊ฐ ๋ฐ ๋ solver(์ต์ ํ์ ์ฌ์ฉํ ์๊ณ ๋ฆฌ์ฆ. default='lbfgs')๊ฐ ์ถฉ๋ถํ ์๋ ดํ ์ ์๋๋ก ๋ฐ๋ณต ํ์๋ฅผ ๋๋ ค์ฃผ๋ฉด ๋๋ค. ๋ณดํต ์์ ๋ฐ์ดํฐ ์ธํธ์ ์ด์ง ๋ถ๋ฅ์ธ ๊ฒฝ์ฐ liblinear๊ฐ ์ฑ๋ฅ์ด ์ข๊ณ , ๋ฐ์ดํฐ ์ธํธ๊ฐ ํฌ๊ณ ๋ค์ค ๋ถ๋ฅ์ธ ๊ฒฝ์ฐ lbfgs๊ฐ ์ ํฉํ๋ค. ์ถ์ฒ ์ถ์ฒ 2. ๊ฒฐ์ ํธ๋ฆฌ ๋ชจ๋ธ์ ์๊ฐํ Graphviz ํจํค์ง .. ๋๋ณด๊ธฐ 4/8 ๊ธ ๊ธ์์ผ! ๐ฑ๐ ์ค๋์ Regression์ ๋๋ธ๋ค~~ 4/11 ์์์ผ์ ๋จธ์ ๋ฌ๋ ํ๋ต ํ๊ฐ, 4/17 ์ผ์์ผ์ ์ํํ๊ฐ 4๊ฐ์ง ์ ์ถ์ด ์๋ค. ๊ฒฐ์ธก์น ์ฒ๋ฆฌ๋ ์ญ์ ํ๊ฑฐ๋, imputation(๋ณด๊ฐ, ๋์ฒด) - ํ๊ท ํ ๊ธฐ๋ฒ(๋ ๋ฆฝ๋ณ์๋ฅผ ๋ํ๊ฐ์ผ๋ก ๋์ฒด), ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ(์ข ์๋ณ์๊ฐ ๋์. KNN) KNN(K-Nearest Neighbors, K-์ต๊ทผ์ ์ด์) : hyperparameter๋ k(=1์ผ ๋ ์ด๋ ์ ๋์ ์ฑ๋ฅ ๋ณด์ฅ)์ ๊ฑฐ๋ฆฌ์ธก์ ๋ฐฉ์(์ฃผ๋ก ์ ํด๋ผ๋์ ์ฌ์ฉ) ๋ฐ๋์ ์ ๊ทํ๋ฅผ ์งํํด์ผ ํจ. ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํด ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํด์ผ ํ๋ฏ๋ก ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆด ์ ์์ 1. Logistic Regression + KNN - BMI data import numpy as np import pandas as pd fro.. ๋๋ณด๊ธฐ 4/7 ๋ชฉ ๋ชฉ์์ผ! ์ค๋๋ Multinomial Classification๋ฅผ ๋ํ์ ์ธ ์์ (MNIST)๋ฅผ ํตํด ๋ฐฐ์ด๋ค~ ์์ผ๋ก ์ด ์ซ์๋ค๋ก ์ด๋ฃจ์ด์ง ๋ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค~ MNIST ์ด๋ฏธ์ง๋ ๊ทธ ์์ฒด๊ฐ 2์ฐจ์์ด๊ณ ๊ทธ๋ฐ ๊ฒ ์ฌ๋ฟ์ด๊ธฐ ๋๋ฌธ์ 3์ฐจ์. ์ด๋ฏธ์ง๋ฅผ 1์ฐจ์์ผ๋ก ravel() ํด์ผ ํจ https://www.kaggle.com/competitions/digit-recognizer/data?select=test.csv Digit Recognizer | Kaggle www.kaggle.com Tensorflow Ver. 1.15์ ๋ฐฐ์ด ์ด๋ก ์ ์ฝ๋๋ก ์ดํดํ๊ธฐ์๋ ์ข์ง๋ง ์ฝ๋๊ฐ ๋๋ฌด ์ด๋ ต๋ค. 1. Multinomial Classification by Tensorflow Ver. 1.15 - MNIST import nump.. ๋๋ณด๊ธฐ 4/6 ์ ์์์ผ! ์ค๋์ Multinomial Classification์ ๋ฐฐ์ด๋ค. Linear Regression(์ฐ์์ ์ธ ์ซ์ ๊ฐ ์์ธก)์ด ๋ฐ์ ํ ๊ฒ์ด Logistic Regression → Classification(๋ถ๋ฅ๋ฅผ ํ๋จํ๋ ์์ธก) - Binary Classification(์ดํญ๋ถ๋ฅ) - Multinomial Classification(๋คํญ๋ถ๋ฅ) Logistic Regression์ ์ด์ง ๋ถ๋ฅ์ ํนํ๋จ SKlearn์ด ์ ๊ณตํ๋ ๋ถ๋ฅ๊ธฐ์ธ Gradient Descent(๊ฒฝ์ฌํ๊ฐ๋ฒ)๊ฐ ๋ฐ์ ํ ํํ์ธ SGD Classifier(Stochastic Gradient Descent, ํ๋ฅ ์ ๊ฒฝ์ฌํ๊ฐ๋ฒ) 1. Binary Classification - ์์ค์ฝ์ ์ ๋ฐฉ์ ๋ฐ์ดํฐ by Gradient Descent Cl.. ๋๋ณด๊ธฐ 4/5 ํ ํ์์ผ! Logistic Regression์ ํ์ฉํด ๋จธ์ ๋ฌ๋ ์งํ ์ ์ฃผ์์ฌํญ์ ์์๋ณธ๋ค. ์์ผ๋ก ์ฐ๋ฆฌ๋ Classification(์ดํญ๋ถ๋ฅ)์ Metrics๋ก Accuracy๋ฅผ ์ฌ์ฉํ ์์ ์ด๋ค. ๋ชจ๋ธ ํ๊ฐ ์ ๊ณ ๋ คํด์ผ ํ๋ ๊ฒ๋ค 1. learning rate(ํ์ต๋ฅ ) : loss ๊ฐ์ ๋ณด๋ฉด์ ํ์ต๋ฅ ์ ์กฐ์ ํด์ผ ํจ. ๋ณดํต 1์ ๋ง์ด๋์ค 4์น์ผ๋ก ์ก์ ํ์ต๋ฅ ์ด ๋๋ฌด ํฌ๋ค๋ฉด global minima(W')๋ฅผ ์ฐพ์ ์ ์๊ฒ ๋จ → OverShooting ๋ฐ์ ํ์ต๋ฅ ์ด ์์ฃผ ์๋ค๋ฉด local minima ์ฐพ๊ฒ ๋จ 2. Normalization(์ ๊ทํ) : MinMax Scaling - 0 ~ 1. ์ด์์น์ ๋ฏผ๊ฐํจ Standardization - ํ์คํ, Z-Score. ์๋์ ์ผ๋ก ์ด์์น์ ๋๊ฐํจ, ๋ชจ๋ ์นผ๋ผ์.. ๋๋ณด๊ธฐ 4/1 ๊ธ ๊ธ์์ผ! ๐ ์ด์ ์ ๊น ์๊ฐํ Logistic Regression์ ๋ฐฐ์ด๋ค~ Linear Regression(์ฐ์์ ์ธ ์ซ์ ๊ฐ ์์ธก)์ด ๋ฐ์ ํ ๊ฒ์ด Logistic Regression → Classification(๋ถ๋ฅ๋ฅผ ํ๋จํ๋ ์์ธก) - Binary Classification(์ดํญ๋ถ๋ฅ) - Multinomial Classification(๋คํญ๋ถ๋ฅ) ๊ทธ๋ํ๋ฅผ ๋ณผ ์ ์๋ ์ ํธ๋ฆฌํฐ ๋ชจ๋(mglearn)์ ์ถ๊ฐ์ ์ผ๋ก ์ค์นํ์ conda activate maching_TF15 pip install mglearn conda install์ ์ด๋ฏธ ์ค์น๋์ด ์๋ ๋ชจ๋, ํจํค์ง์ ๋ํ Dependency๋ฅผ ๊ณ ๋ คํด์ ์ต์ ์ธ ๋ฒ์ ์ ์ค์น, pip install์ ๊ทธ๋ฅ ๊น์๋ฒ๋ฆผ Logistic Regression : L.. ๋๋ณด๊ธฐ 3/30 ์ ์์์ผ! ์ด์ ์ฌ์ฉํ Ozone data๋ฅผ Python๊ณผ Sklearn์ผ๋ก Simple Linear Regression(๋จ์ ์ ํ ํ๊ท)์ ๊ตฌํํ์ ๋, ์ ๋ชจ์์ด ๋ค๋ฅธ์ง ์์๋ณด์~ ์ด์ 1. Missing Value(๊ฒฐ์น๊ฐ) ์ฒ๋ฆฌ - ์ญ์ : ์ ์ฒด ๋ฐ์ดํฐ๊ฐ 100๋ง ๊ฑด ์ด์์ด๋ฉฐ ๊ฒฐ์น๊ฐ์ด 5% ์ด๋ด์ผ ๋ - ๋์ฒด : ๋ํ๊ฐ์ผ๋ก ๋์ฒด(ํ๊ท , ์ค์, ์ต๋, ์ต์, ์ต๋น) ํน์ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉ(๋ ์ข์ ๋ฐฉ์! ๊ฒฐ์น๊ฐ์ด ์ข ์๋ณ์์ผ ๋) ์ด์ 2. ์ด์์น ์ฒ๋ฆฌ ์ด์์น๋ ๊ฐ์ด ์ผ๋ฐ์ ์ธ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋นํด ํธ์ฐจ๊ฐ ํฐ ๋ฐ์ดํฐ์ด๊ธฐ ๋๋ฌธ์ ํ๊ท , ๋ถ์ฐ์ ํฐ ์ํฅ์ ๋ฏธ์นจ → ๋ฐ์ดํฐ๋ฅผ ์๋นํ ๋ถ์ํ๊ฒ ๋ง๋๋ ์์ - ์ง๋๊ฐ : ๋ ๋ฆฝ๋ณ์(์์ธ)์ ์๋ ์ด์์น - Outlier : ์ข ์๋ณ์(๊ฒฐ๊ณผ)์ ์๋ ์ด์์น 1. ์ด์์น.. ๋๋ณด๊ธฐ ์ด์ 1 ๋ค์