ํ๋ก์ ํธํAI์๋น์ค๊ฐ๋ฐ ์ธ๋ค์ผํ ๋ฆฌ์คํธํ 6ํ ์ฐจ | 4/1 ๊ธ 6ํ ์ฐจ! ์คํฐ๋ ์ถ์๋ถ ๋ณด๋ค ๋ณด๋, ๊ต์ก์ด ์ผ๋ง ๋จ์ง ์์ ๊ฑธ ์ค๊ฐํ๋ค. 6์ 28์ผ์ ๋๋๋ ๊ต์ก ๊ธฐ๊ฐ ์ค AI์ ์ต๋ณตํฉ ํ๋ก์ ํธ์ ๋ค์ด๊ฐ๋ ๊ธฐ๊ฐ์ ์ ์ธํ๋ฉด, ์์ ์ 16์ผ ๋จ์๋ค. (๋จธ์ ๋ฌ๋ ๊ต์ก 2์ผ + ๋ฅ๋ฌ๋ ๊ต์ก 14์ผ) ํ๋ก์ ํธ ์์ ์ ๋จ์ ์คํฐ๋ ํ์๋ 6๋ฒ.. ๊ธฐ๊ฐ์ด ์งง๊ณ ๋ฐฐ์ธ ์์ด ๋ง๊ณ ์ฌ๋ ์๋ ๋ด์ฉ์ด๋ค ๋ณด๋ ๋ฐฐ์ธ ๋ ์ ๋๋ก ์ฒด๋ดํ ํด์ผ ํ๋ค!! ๐ฑ๐ ์ค๋์ ์ง๋์ฃผ ๊ธ์์ผ์ ๊ฐ์ ์ ์ ํ ๋จธ์ ๋ฌ๋ ํ๋ก์ ํธ๋ฅผ ๋ฐํํ๋ค. ์คํฐ๋ ์ธ์ ๋๋ถ๋ถ์ด ๋ฐ์ด์ฝ ์์ ๋ก ํ๋ก์ ํธ๋ฅผ ์งํํ๊ณ ์ค์ ๋ก ์์ฑํ ์ฝ๋ ์ ์ถ๋ ํ์๋๋ผ! ๐ ๊ฒฐ์ธก์น๊ฐ ์๊ณ , feature ๋ณ๋ก ํํ๊ฐ ๋ค๋ฅด๊ฑฐ๋, ์ฐ๋ฆฌ๊ฐ ๋ฐฐ์ด ํ๊ท๋ง ์ฐ๋ ๊ฒ์ด ์๋ ๋ถ๋ฅ ๋ฑ ๋ค์ํ ๋ชจ๋ธ์ ํ์ตํ๋๋ฐ ์ฐ๋ ๋๋ฃ๋ค. ๋๋ ์๊ณ ์์คํ๊ณ ๊น๋ํ ๋ฐ์ดํฐ .. ๋๋ณด๊ธฐ 4/1 ๊ธ ๊ธ์์ผ! ๐ ์ด์ ์ ๊น ์๊ฐํ Logistic Regression์ ๋ฐฐ์ด๋ค~ Linear Regression(์ฐ์์ ์ธ ์ซ์ ๊ฐ ์์ธก)์ด ๋ฐ์ ํ ๊ฒ์ด Logistic Regression → Classification(๋ถ๋ฅ๋ฅผ ํ๋จํ๋ ์์ธก) - Binary Classification(์ดํญ๋ถ๋ฅ) - Multinomial Classification(๋คํญ๋ถ๋ฅ) ๊ทธ๋ํ๋ฅผ ๋ณผ ์ ์๋ ์ ํธ๋ฆฌํฐ ๋ชจ๋(mglearn)์ ์ถ๊ฐ์ ์ผ๋ก ์ค์นํ์ conda activate maching_TF15 pip install mglearn conda install์ ์ด๋ฏธ ์ค์น๋์ด ์๋ ๋ชจ๋, ํจํค์ง์ ๋ํ Dependency๋ฅผ ๊ณ ๋ คํด์ ์ต์ ์ธ ๋ฒ์ ์ ์ค์น, pip install์ ๊ทธ๋ฅ ๊น์๋ฒ๋ฆผ Logistic Regression : L.. ๋๋ณด๊ธฐ 3/31 ๋ชฉ ๋ชฉ์์ผ! ์ค๋์ ์ฐ๋ฆฌ๊ฐ ์ฃผ๋ ฅ์ผ๋ก ์ฌ์ฉํ Tensorflow๋ฅผ ๋ฐฐ์ด๋ค! ๐ฑ๐ ์ํํ๊ฐ ๋ ๋์๋น.. ๋ฐ์ดํฐ ํธ๋ค๋ง 2 + ๋จธ์ ๋ฌ๋(๋ค์ค์ ํํ๊ท) 1. 4/5 ํ์์ผ๊น์ง ์ ์ถ!! Ozone ๋ฐ์ดํฐ๋ก ๋ค์ค์ ํํ๊ท๋ฅผ 3๊ฐ์ง ๋ฐฉ๋ฒ(Python, Sklearn, Tensorflow)์ผ๋ก ๊ตฌํ, ์์ธก์น๊ฐ ๋น์ทํ๊ฒ ๋์์ผ ํ๋ค! ๋น์ฐํ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ(๊ฒฐ์น๊ฐ, ์ด์์น, ์ ๊ทํ)๋~ ๊ฐ์ฅ ๋ง์ด ์ฐ์ด๋ ๋ฅ๋ฌ๋ ์คํ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ Google์ Tensorflow์ Facebook์ PyTorch~ Sklearn์ ๋ฐ์ดํฐ ์๊ณผ ๋ณ์๊ฐ ๋ง์์ง๋ฉด ์๋๊ฐ ๊ต์ฅํ ๋๋ ค์ง๊ธฐ ๋๋ฌธ์, Tensorflow๋ฅผ ์ด์ฉํ๋ค. Tensorflow 2.0 ver.์ด ๋ฑ์ฅํ๋ฉด์ ์ด์ ๋ฒ์ ๊ณผ๋ ์์ ํ ๋ค๋ฅด๊ฒ ๋ฐ๋์๋ค. ๊ธฐ์กด์ ๋ง๋ค์๋ ๊ฐ์ํ๊ฒฝ(ma.. ๋๋ณด๊ธฐ 3/30 ์ ์์์ผ! ์ด์ ์ฌ์ฉํ Ozone data๋ฅผ Python๊ณผ Sklearn์ผ๋ก Simple Linear Regression(๋จ์ ์ ํ ํ๊ท)์ ๊ตฌํํ์ ๋, ์ ๋ชจ์์ด ๋ค๋ฅธ์ง ์์๋ณด์~ ์ด์ 1. Missing Value(๊ฒฐ์น๊ฐ) ์ฒ๋ฆฌ - ์ญ์ : ์ ์ฒด ๋ฐ์ดํฐ๊ฐ 100๋ง ๊ฑด ์ด์์ด๋ฉฐ ๊ฒฐ์น๊ฐ์ด 5% ์ด๋ด์ผ ๋ - ๋์ฒด : ๋ํ๊ฐ์ผ๋ก ๋์ฒด(ํ๊ท , ์ค์, ์ต๋, ์ต์, ์ต๋น) ํน์ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉ(๋ ์ข์ ๋ฐฉ์! ๊ฒฐ์น๊ฐ์ด ์ข ์๋ณ์์ผ ๋) ์ด์ 2. ์ด์์น ์ฒ๋ฆฌ ์ด์์น๋ ๊ฐ์ด ์ผ๋ฐ์ ์ธ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๋นํด ํธ์ฐจ๊ฐ ํฐ ๋ฐ์ดํฐ์ด๊ธฐ ๋๋ฌธ์ ํ๊ท , ๋ถ์ฐ์ ํฐ ์ํฅ์ ๋ฏธ์นจ → ๋ฐ์ดํฐ๋ฅผ ์๋นํ ๋ถ์ํ๊ฒ ๋ง๋๋ ์์ - ์ง๋๊ฐ : ๋ ๋ฆฝ๋ณ์(์์ธ)์ ์๋ ์ด์์น - Outlier : ์ข ์๋ณ์(๊ฒฐ๊ณผ)์ ์๋ ์ด์์น 1. ์ด์์น.. ๋๋ณด๊ธฐ 5ํ ์ฐจ | 3/29 ํ 5ํ ์ฐจ! ์ง๋์ฃผ ๊ธ์์ผ์ ๊ฐ์ ์ ์ ํ ๋จธ์ ๋ฌ๋ ํ๋ก์ ํธ ์ฃผ์ ์ ์งํ์ํฉ(EDA, ๋ฐ์ดํฐ ํธ๋ค๋ง, ์๊ฐํ, ๊ธฐ์ ํต๊ณ, ๋ชจ๋ธ๋ง)์ ๋ฆฌ๋ทฐํ๋ค. ๊ธ์์ผ์ ์ ์ฒด ๋ชจ์์์ 10๋ถ์ฉ ์ต์ข ๋ฆฌ๋ทฐ! ๊ธฐ์กด์ ๊ณจ๋๋ ์ฃผ์ ์ข ๋ฃ ๊ฐ๊ฒฉ ์์ธก์ ๋ํ๊ฐ ๋ง๊ฐ๋์ด ์ด๊ณณ์ ๊ณณ ์ฝ๋ ๋ฆฌ๋ทฐํ ๊ณณ๋ค์ ๋ค์ ธ๋, ๋ชจ๋ธ๋ง์ ํ์ํ ๋ฐ์ดํฐ์ (stock_list.csv : ์ข ๋ชฉ ๋ฒํธ ๋ฐ์ดํฐ, sample_submission.csv)์ ๊ตฌํ ์๊ฐ ์๊ธฐ์ ๋ถ๋์ดํ๊ฒ๋ ๊ธฐ์กด์ ์บ๊ธ ์์ ๋ก ๊ณจ๋๋ ๋ณด์คํด ์ง๊ฐ ์์ธก์ผ๋ก ๋ณ๊ฒฝํ๋ค. ๋ด๊ฐ ์ผํ๊ณ ์ถ์ ๋ถ์ผ๋ ์์ฐ์ด์ฉ์ ๋ก๋ณด์ด๋๋ฐ์ด์ ๋ถ๋ฌธ์ด๊ธฐ ๋๋ฌธ์, ๋์ค์ ๊ผญ ์ฃผ์ ๊ฐ๊ฒฉ ์์ธก์ ๊ตฌํํด ๋ณผ ์์ ์ด๋ค! https://dacon.io/competitions/official/235857/overview/descrip.. ๋๋ณด๊ธฐ 3/29 ํ ํ์์ผ! ์ค๋์ ์ด์ ๋ฐฐ์ด Simple Linear Regression(๋จ์ ์ ํ ํ๊ท)์ ์ฝ๋๋ก ๊ตฌํํ๋ค. 1. Training Data Set ์ค๋น : Data pre-processing(๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ). ์ฌ์ฉํ ์ ์๋ ํํ๋ก ์ค๋น 2. Linear Regression Model์ ์ ์ : y = Wx+b(์์ธก ๋ชจ๋ธ). hypothesis(๊ฐ์ค) 3. ์ต์ ์ W(weight, ๊ฐ์ค์น), b(bias, ํธ์ฐจ)๋ฅผ ๊ตฌํ๋ ค๋ฉด loss function(์์คํจ์)/cost function(๋น์ฉํจ์) → MSE 4. Gradient Descent Algorithm(๊ฒฝ์ฌํ๊ฐ๋ฒ) : loss function์ ํธ๋ฏธ๋ถ(W, b) × learning rate 5. ๋ฐ๋ณตํ์ต ์งํ 1. Training Dat.. ๋๋ณด๊ธฐ 3/28 ์ ์์์ผ! ๊ธ์์ผ์ ์ด์ด ๋จธ์ ๋ฌ๋ ๋ค์ด๊ฐ๋ค~ Weak AI์ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ๋ค : ์ง๋ ํ์ต, ๋น์ง๋ ํ์ต, ๊ฐํ ํ์ต 1. Regression(ํ๊ท) : ๋ฐ์ดํฐ์ ์ํฅ์ ์ฃผ๋ ์กฐ๊ฑด๋ค์ ์ํฅ๋ ฅ์ ๊ณ ๋ คํด์, ๋ฐ์ดํฐ์ ๋ํ ์กฐ๊ฑด๋ถ ํ๊ท ์ ๊ตฌํ๋ ๊ธฐ๋ฒ * ํ๊ท ์ ๊ตฌํ ๋ ์ฃผ์ํด์ผ ํ ์ : ํ๊ท ์ ๊ตฌํ๋ ๋ฐ์ดํฐ์ ์ด์์น๊ฐ ์์ ๊ฒฝ์ฐ ๋ํ๊ฐ์ผ๋ก ์ฌ์ฉํ๊ธฐ ์ด๋ ค์. ์ ๊ท๋ถํฌ์ฌ์ผ ํจ! ๊ณ ์ ์ ์ ํ ํ๊ท ๋ชจ๋ธ(Classical Linear Regression Model) ๋จ์ ์ ํ ํ๊ท(Simple Linear Regression) import numpy as np import pandas as pd import matplotlib.pyplot as plt df = pd.DataFrame({'๊ณต๋ถ์๊ฐ(x)': [1,2,3.. ๋๋ณด๊ธฐ 4ํ ์ฐจ | 3/25 ๊ธ 4ํ ์ฐจ! ํ์์ผ์ ์ด์ด ์กฐ๋ณ๋ก ๋จธ์ ๋ฌ๋ ์ํํ๊ฐ ๋ฆฌ๋ทฐ๋ฅผ ์งํํ๋ค~ ์ธ์์ด ๋จ์ถํด์ ์งํ ์๊ฐ์ด ์๋ง๊ณ ์์ธํ ํผ๋๋ฐฑ์ ๋ฐ์ ์ ์์ง๋ง, ์ ์ ์ธ์๊ณผ ๊ฐ์ ์ค๋ ฅ ํธ์ฐจ๊ฐ ํด ๊ฒฝ์ฐ ๋ฆฌ๋ทฐ๊ฐ ํธํํ ์ ์๋ค๋ ๊ฒ์ด ๋จ์ .. ์ด๋ฒ ์ฃผ๋ ๋ฉํฐ์บ ํผ์ค ์ํํ๊ฐ์ฉ์ผ๋ก ์ ๊ณต๋ MovieLens ๋ฐ์ดํฐ ์ธํธ์ ๋ฌธ์ ๋ฅผ ํ๊ณ ์๋์ ๊ฐ์ด ๊ณต๋ถํ๋ค. 1. ์ํํ๊ฐ ๋ฌธ์ ๋ค ๋ชจ๋ ํ๋์ฉ ๊ด๋ จ๋ ๋ด์ฉ์ผ๋ก ์๊ฐํ ํ๊ธฐ : scatter, histogram, heatmap, boxplot ๋ง๋ค์๋ค. → ๋์๋ถํฌํ(๊ณ๊ธ, ๋์ + ๊ณ๊ธ๊ฐ, ์๋๋์, ๋์ ์๋๋์) ๋ง๋ค์ด๋ณด์! 2. 10๊ฐ ์ด์์ ๋ฐ์ดํฐ ํธ๋ค๋งํด๋ณด๊ธฐ : ๋ฌธ์ ๋ง ํ์๋ค. → ์๊ด๊ด๊ณ๊ฐ ์์ ๋ฒํ๊ฑฐ๋ ๊ถ๊ธํ ๊ฒ๋ค์ ๋ํด ๋ ํธ๋ค๋ง ํ์! ex) ํ๊ท ํ์ ์ด ๊ฐ์ฅ ๋์ ์ํ ์ฅ.. ๋๋ณด๊ธฐ ์ด์ 1 2 3 4 5 6 7 ๋ค์