๋ฉํฐ์บ ํผ์ค ์ธ๋ค์ผํ ๋ฆฌ์คํธํ 7ํ ์ฐจ | 4/4 ์ 7ํ ์ฐจ! ๋ฒ์จ ์คํฐ๋ 4์ฃผ ์ฐจ๋ค~ ์ฒซ์งธ ์ฃผ๋ ํ์ดํ๋, ๋์งธ ์ฃผ๋ MovieLens EDA · ์๊ฐํ · ๊ธฐ์ ํต๊ณ, ์ ์งธ ์ฃผ๋ ์บ๊ธ ๋ฐ ๋ฐ์ด์ฝ์ ์์ ํน์ ๊ฐ์ ์์งํ ๋ฐ์ดํฐ์ ์ผ๋ก ์งํํ๋ ๋จธ์ ๋ฌ๋ ํ๋ก์ ํธ๊ฐ ์์๋ค. ์ด๋ฒ ์ฃผ๋ ์ง๋๋ฒ์ ์์ ํ ์ปค๋ฆฌํ๋ผ์ ๋ฐ๋ผ ๋ฉ์บ ์ฃผ๊ฐ ์์ ์์ ๋ฐฐ์ด ์ธ๊ณต์ ๊ฒฝ๋ง์ ๋ณต์ตํ๊ณ ํ๋ ์์ํฌ๋ฅผ ๊ณต๋ถํ๋ ๊ฒ์ผ๋ก ๊ฐ๋ฅ์ ์ก์์๋ค. ํ์ง๋ง ์์ง ์ฑ๋ฅํ๊ฐ(Metrics)๋ฅผ ๋ฐฐ์ฐ๊ณ ์์ด, ์์ง ๋ฅ๋ฌ๋์ผ๋ก ์ง๋๊ฐ ๋๊ฐ์ง ์์๋ค. ๋ด์ผ๊น์ง ์ ์ถํด์ผ ํ๋ ์ํํ๊ฐ๋ ์์ด, ์ด์ ๋ํ ๊ฐ์์ ์งํ ์ํฉ์ ๋ฆฌ๋ทฐํ๋ ๊ฒ์ผ๋ก ๋์ฒดํ๋ค. (๋ฐ์ดํฐ ๋ถ์, ๋ฐ๋ณต๋ฌธ, ๋ถ๋ฆฐ ์ธ๋ฑ์ฑ, ์ ์ฒ๋ฆฌ, ์ ๊ทํ, ๊ฒฐ์ธก์น · ์ด์์น ์ฒ๋ฆฌ ๋ฑ ์คํ์ผ์ด ๋ค ๋ค๋ฅด๋ค. ์ฐธ๊ณ ํด์ ์ต์ ์ ๋ฐฉ๋ฒ์ ์ตํ์) ์ด์์ง ํ์๋ฅผ ๊ฑฐ์ณ ์ ํ ์ปค.. ๋๋ณด๊ธฐ 4/4 ์ ์์์ผ! ์ค๋์ ๊ธ์์ผ์ ์ค์ต ์์ ๋ก ์ฃผ์ด์ก๋ admission(๋ํ์ ํฉ๊ฒฉ ์ฌ๋ถ) ๋ฐ์ดํฐ์ ์ Sklearn, Tensorflow๋ก ๊ตฌํํ๊ณ , ์ง๋์ฃผ์ ๋ฐฐ์ด Logistic Regression์ ํ์ฉํด ํ๊ฐ์งํ(Metrics)๋ฅผ ์์๋ณธ๋ค. 1. Logistic Regression by Sklearn import numpy as np import pandas as pd import tensorflow as tf from sklearn import linear_model from sklearn.preprocessing import MinMaxScaler from scipy import stats import matplotlib.pyplot as plt import warnings warnings.filter.. ๋๋ณด๊ธฐ 6ํ ์ฐจ | 4/1 ๊ธ 6ํ ์ฐจ! ์คํฐ๋ ์ถ์๋ถ ๋ณด๋ค ๋ณด๋, ๊ต์ก์ด ์ผ๋ง ๋จ์ง ์์ ๊ฑธ ์ค๊ฐํ๋ค. 6์ 28์ผ์ ๋๋๋ ๊ต์ก ๊ธฐ๊ฐ ์ค AI์ ์ต๋ณตํฉ ํ๋ก์ ํธ์ ๋ค์ด๊ฐ๋ ๊ธฐ๊ฐ์ ์ ์ธํ๋ฉด, ์์ ์ 16์ผ ๋จ์๋ค. (๋จธ์ ๋ฌ๋ ๊ต์ก 2์ผ + ๋ฅ๋ฌ๋ ๊ต์ก 14์ผ) ํ๋ก์ ํธ ์์ ์ ๋จ์ ์คํฐ๋ ํ์๋ 6๋ฒ.. ๊ธฐ๊ฐ์ด ์งง๊ณ ๋ฐฐ์ธ ์์ด ๋ง๊ณ ์ฌ๋ ์๋ ๋ด์ฉ์ด๋ค ๋ณด๋ ๋ฐฐ์ธ ๋ ์ ๋๋ก ์ฒด๋ดํ ํด์ผ ํ๋ค!! ๐ฑ๐ ์ค๋์ ์ง๋์ฃผ ๊ธ์์ผ์ ๊ฐ์ ์ ์ ํ ๋จธ์ ๋ฌ๋ ํ๋ก์ ํธ๋ฅผ ๋ฐํํ๋ค. ์คํฐ๋ ์ธ์ ๋๋ถ๋ถ์ด ๋ฐ์ด์ฝ ์์ ๋ก ํ๋ก์ ํธ๋ฅผ ์งํํ๊ณ ์ค์ ๋ก ์์ฑํ ์ฝ๋ ์ ์ถ๋ ํ์๋๋ผ! ๐ ๊ฒฐ์ธก์น๊ฐ ์๊ณ , feature ๋ณ๋ก ํํ๊ฐ ๋ค๋ฅด๊ฑฐ๋, ์ฐ๋ฆฌ๊ฐ ๋ฐฐ์ด ํ๊ท๋ง ์ฐ๋ ๊ฒ์ด ์๋ ๋ถ๋ฅ ๋ฑ ๋ค์ํ ๋ชจ๋ธ์ ํ์ตํ๋๋ฐ ์ฐ๋ ๋๋ฃ๋ค. ๋๋ ์๊ณ ์์คํ๊ณ ๊น๋ํ ๋ฐ์ดํฐ .. ๋๋ณด๊ธฐ 4/1 ๊ธ ๊ธ์์ผ! ๐ ์ด์ ์ ๊น ์๊ฐํ Logistic Regression์ ๋ฐฐ์ด๋ค~ Linear Regression(์ฐ์์ ์ธ ์ซ์ ๊ฐ ์์ธก)์ด ๋ฐ์ ํ ๊ฒ์ด Logistic Regression → Classification(๋ถ๋ฅ๋ฅผ ํ๋จํ๋ ์์ธก) - Binary Classification(์ดํญ๋ถ๋ฅ) - Multinomial Classification(๋คํญ๋ถ๋ฅ) ๊ทธ๋ํ๋ฅผ ๋ณผ ์ ์๋ ์ ํธ๋ฆฌํฐ ๋ชจ๋(mglearn)์ ์ถ๊ฐ์ ์ผ๋ก ์ค์นํ์ conda activate maching_TF15 pip install mglearn conda install์ ์ด๋ฏธ ์ค์น๋์ด ์๋ ๋ชจ๋, ํจํค์ง์ ๋ํ Dependency๋ฅผ ๊ณ ๋ คํด์ ์ต์ ์ธ ๋ฒ์ ์ ์ค์น, pip install์ ๊ทธ๋ฅ ๊น์๋ฒ๋ฆผ Logistic Regression : L.. ๋๋ณด๊ธฐ 3/31 ๋ชฉ ๋ชฉ์์ผ! ์ค๋์ ์ฐ๋ฆฌ๊ฐ ์ฃผ๋ ฅ์ผ๋ก ์ฌ์ฉํ Tensorflow๋ฅผ ๋ฐฐ์ด๋ค! ๐ฑ๐ ์ํํ๊ฐ ๋ ๋์๋น.. ๋ฐ์ดํฐ ํธ๋ค๋ง 2 + ๋จธ์ ๋ฌ๋(๋ค์ค์ ํํ๊ท) 1. 4/5 ํ์์ผ๊น์ง ์ ์ถ!! Ozone ๋ฐ์ดํฐ๋ก ๋ค์ค์ ํํ๊ท๋ฅผ 3๊ฐ์ง ๋ฐฉ๋ฒ(Python, Sklearn, Tensorflow)์ผ๋ก ๊ตฌํ, ์์ธก์น๊ฐ ๋น์ทํ๊ฒ ๋์์ผ ํ๋ค! ๋น์ฐํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(๊ฒฐ์น๊ฐ, ์ด์์น, ์ ๊ทํ)๋~ ๊ฐ์ฅ ๋ง์ด ์ฐ์ด๋ ๋ฅ๋ฌ๋ ์คํ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ Google์ Tensorflow์ Facebook์ PyTorch~ Sklearn์ ๋ฐ์ดํฐ ์๊ณผ ๋ณ์๊ฐ ๋ง์์ง๋ฉด ์๋๊ฐ ๊ต์ฅํ ๋๋ ค์ง๊ธฐ ๋๋ฌธ์, Tensorflow๋ฅผ ์ด์ฉํ๋ค. Tensorflow 2.0 ver.์ด ๋ฑ์ฅํ๋ฉด์ ์ด์ ๋ฒ์ ๊ณผ๋ ์์ ํ ๋ค๋ฅด๊ฒ ๋ฐ๋์๋ค. ๊ธฐ์กด์ ๋ง๋ค์๋ ๊ฐ์ํ๊ฒฝ(ma.. ๋๋ณด๊ธฐ 3/30 ์ ์์์ผ! ์ด์ ์ฌ์ฉํ Ozone data๋ฅผ Python๊ณผ Sklearn์ผ๋ก Simple Linear Regression(๋จ์ ์ ํ ํ๊ท)์ ๊ตฌํํ์ ๋, ์ ๋ชจ์์ด ๋ค๋ฅธ์ง ์์๋ณด์~ ์ด์ 1. Missing Value(๊ฒฐ์น๊ฐ) ์ฒ๋ฆฌ - ์ญ์ : ์ ์ฒด ๋ฐ์ดํฐ๊ฐ 100๋ง ๊ฑด ์ด์์ด๋ฉฐ ๊ฒฐ์น๊ฐ์ด 5% ์ด๋ด์ผ ๋ - ๋์ฒด : ๋ํ๊ฐ์ผ๋ก ๋์ฒด(ํ๊ท , ์ค์, ์ต๋, ์ต์, ์ต๋น) ํน์ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉ(๋ ์ข์ ๋ฐฉ์! ๊ฒฐ์น๊ฐ์ด ์ข ์๋ณ์์ผ ๋) ์ด์ 2. ์ด์์น ์ฒ๋ฆฌ ์ด์์น๋ ๊ฐ์ด ์ผ๋ฐ์ ์ธ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋นํด ํธ์ฐจ๊ฐ ํฐ ๋ฐ์ดํฐ์ด๊ธฐ ๋๋ฌธ์ ํ๊ท , ๋ถ์ฐ์ ํฐ ์ํฅ์ ๋ฏธ์นจ → ๋ฐ์ดํฐ๋ฅผ ์๋นํ ๋ถ์ํ๊ฒ ๋ง๋๋ ์์ - ์ง๋๊ฐ : ๋ ๋ฆฝ๋ณ์(์์ธ)์ ์๋ ์ด์์น - Outlier : ์ข ์๋ณ์(๊ฒฐ๊ณผ)์ ์๋ ์ด์์น 1. ์ด์์น.. ๋๋ณด๊ธฐ 5ํ ์ฐจ | 3/29 ํ 5ํ ์ฐจ! ์ง๋์ฃผ ๊ธ์์ผ์ ๊ฐ์ ์ ์ ํ ๋จธ์ ๋ฌ๋ ํ๋ก์ ํธ ์ฃผ์ ์ ์งํ์ํฉ(EDA, ๋ฐ์ดํฐ ํธ๋ค๋ง, ์๊ฐํ, ๊ธฐ์ ํต๊ณ, ๋ชจ๋ธ๋ง)์ ๋ฆฌ๋ทฐํ๋ค. ๊ธ์์ผ์ ์ ์ฒด ๋ชจ์์์ 10๋ถ์ฉ ์ต์ข ๋ฆฌ๋ทฐ! ๊ธฐ์กด์ ๊ณจ๋๋ ์ฃผ์ ์ข ๋ฃ ๊ฐ๊ฒฉ ์์ธก์ ๋ํ๊ฐ ๋ง๊ฐ๋์ด ์ด๊ณณ์ ๊ณณ ์ฝ๋ ๋ฆฌ๋ทฐํ ๊ณณ๋ค์ ๋ค์ ธ๋, ๋ชจ๋ธ๋ง์ ํ์ํ ๋ฐ์ดํฐ์ (stock_list.csv : ์ข ๋ชฉ ๋ฒํธ ๋ฐ์ดํฐ, sample_submission.csv)์ ๊ตฌํ ์๊ฐ ์๊ธฐ์ ๋ถ๋์ดํ๊ฒ๋ ๊ธฐ์กด์ ์บ๊ธ ์์ ๋ก ๊ณจ๋๋ ๋ณด์คํด ์ง๊ฐ ์์ธก์ผ๋ก ๋ณ๊ฒฝํ๋ค. ๋ด๊ฐ ์ผํ๊ณ ์ถ์ ๋ถ์ผ๋ ์์ฐ์ด์ฉ์ ๋ก๋ณด์ด๋๋ฐ์ด์ ๋ถ๋ฌธ์ด๊ธฐ ๋๋ฌธ์, ๋์ค์ ๊ผญ ์ฃผ์ ๊ฐ๊ฒฉ ์์ธก์ ๊ตฌํํด ๋ณผ ์์ ์ด๋ค! https://dacon.io/competitions/official/235857/overview/descrip.. ๋๋ณด๊ธฐ 3/29 ํ ํ์์ผ! ์ค๋์ ์ด์ ๋ฐฐ์ด Simple Linear Regression(๋จ์ ์ ํ ํ๊ท)์ ์ฝ๋๋ก ๊ตฌํํ๋ค. 1. Training Data Set ์ค๋น : Data pre-processing(๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ). ์ฌ์ฉํ ์ ์๋ ํํ๋ก ์ค๋น 2. Linear Regression Model์ ์ ์ : y = Wx+b(์์ธก ๋ชจ๋ธ). hypothesis(๊ฐ์ค) 3. ์ต์ ์ W(weight, ๊ฐ์ค์น), b(bias, ํธ์ฐจ)๋ฅผ ๊ตฌํ๋ ค๋ฉด loss function(์์คํจ์)/cost function(๋น์ฉํจ์) → MSE 4. Gradient Descent Algorithm(๊ฒฝ์ฌํ๊ฐ๋ฒ) : loss function์ ํธ๋ฏธ๋ถ(W, b) × learning rate 5. ๋ฐ๋ณตํ์ต ์งํ 1. Training Dat.. ๋๋ณด๊ธฐ ์ด์ 1 2 3 4 5 6 ยทยทยท 8 ๋ค์