๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

728x90

ํ”„๋กœ์ ํŠธํ˜•AI์„œ๋น„์Šค๊ฐœ๋ฐœ

6ํšŒ ์ฐจ | 4/1 ๊ธˆ 6ํšŒ ์ฐจ! ์Šคํ„ฐ๋”” ์ถœ์„๋ถ€ ๋ณด๋‹ค ๋ณด๋‹ˆ, ๊ต์œก์ด ์–ผ๋งˆ ๋‚จ์ง€ ์•Š์„ ๊ฑธ ์‹ค๊ฐํ•œ๋‹ค. 6์›” 28์ผ์— ๋๋‚˜๋Š” ๊ต์œก ๊ธฐ๊ฐ„ ์ค‘ AI์™€ ์œต๋ณตํ•ฉ ํ”„๋กœ์ ํŠธ์— ๋“ค์–ด๊ฐ€๋Š” ๊ธฐ๊ฐ„์„ ์ œ์™ธํ•˜๋ฉด, ์ˆ˜์—…์€ 16์ผ ๋‚จ์•˜๋‹ค. (๋จธ์‹ ๋Ÿฌ๋‹ ๊ต์œก 2์ผ + ๋”ฅ๋Ÿฌ๋‹ ๊ต์œก 14์ผ) ํ”„๋กœ์ ํŠธ ์‹œ์ž‘ ์ „ ๋‚จ์€ ์Šคํ„ฐ๋”” ํšŸ์ˆ˜๋„ 6๋ฒˆ.. ๊ธฐ๊ฐ„์ด ์งง๊ณ  ๋ฐฐ์šธ ์–‘์ด ๋งŽ๊ณ  ์‹ฌ๋„ ์žˆ๋Š” ๋‚ด์šฉ์ด๋‹ค ๋ณด๋‹ˆ ๋ฐฐ์šธ ๋•Œ ์ œ๋Œ€๋กœ ์ฒด๋‚ดํ™” ํ•ด์•ผ ํ•œ๋‹ค!! ๐Ÿฑ‍๐Ÿ‰ ์˜ค๋Š˜์€ ์ง€๋‚œ์ฃผ ๊ธˆ์š”์ผ์— ๊ฐ์ž ์„ ์ •ํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ ํ”„๋กœ์ ํŠธ๋ฅผ ๋ฐœํ‘œํ–ˆ๋‹ค. ์Šคํ„ฐ๋”” ์ธ์› ๋Œ€๋ถ€๋ถ„์ด ๋ฐ์ด์ฝ˜ ์˜ˆ์ œ๋กœ ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•˜๊ณ  ์‹ค์ œ๋กœ ์™„์„ฑํ•œ ์ฝ”๋“œ ์ œ์ถœ๋„ ํ•˜์˜€๋”๋ผ! ๐Ÿ‘ ๊ฒฐ์ธก์น˜๊ฐ€ ์žˆ๊ณ , feature ๋ณ„๋กœ ํ˜•ํƒœ๊ฐ€ ๋‹ค๋ฅด๊ฑฐ๋‚˜, ์šฐ๋ฆฌ๊ฐ€ ๋ฐฐ์šด ํšŒ๊ท€๋งŒ ์“ฐ๋Š” ๊ฒƒ์ด ์•„๋‹Œ ๋ถ„๋ฅ˜ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š”๋ฐ ์“ฐ๋Š” ๋™๋ฃŒ๋“ค. ๋‚˜๋Š” ์ž‘๊ณ  ์†Œ์ค‘ํ•˜๊ณ  ๊น”๋”ํ•œ ๋ฐ์ดํ„ฐ .. ๋”๋ณด๊ธฐ
4/1 ๊ธˆ ๊ธˆ์š”์ผ! ๐Ÿ˜Ž ์–ด์ œ ์ž ๊น ์†Œ๊ฐœํ•œ Logistic Regression์„ ๋ฐฐ์šด๋‹ค~ Linear Regression(์—ฐ์†์ ์ธ ์ˆซ์ž ๊ฐ’ ์˜ˆ์ธก)์ด ๋ฐœ์ „ํ•œ ๊ฒƒ์ด Logistic Regression → Classification(๋ถ„๋ฅ˜๋ฅผ ํŒ๋‹จํ•˜๋Š” ์˜ˆ์ธก) - Binary Classification(์ดํ•ญ๋ถ„๋ฅ˜) - Multinomial Classification(๋‹คํ•ญ๋ถ„๋ฅ˜) ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณผ ์ˆ˜ ์žˆ๋Š” ์œ ํ‹ธ๋ฆฌํ‹ฐ ๋ชจ๋“ˆ(mglearn)์„ ์ถ”๊ฐ€์ ์œผ๋กœ ์„ค์น˜ํ•˜์ž conda activate maching_TF15 pip install mglearn conda install์€ ์ด๋ฏธ ์„ค์น˜๋˜์–ด ์žˆ๋Š” ๋ชจ๋“ˆ, ํŒจํ‚ค์ง€์— ๋Œ€ํ•œ Dependency๋ฅผ ๊ณ ๋ คํ•ด์„œ ์ตœ์ ์ธ ๋ฒ„์ „์„ ์„ค์น˜, pip install์€ ๊ทธ๋ƒฅ ๊น”์•„๋ฒ„๋ฆผ Logistic Regression : L.. ๋”๋ณด๊ธฐ
3/31 ๋ชฉ ๋ชฉ์š”์ผ! ์˜ค๋Š˜์€ ์šฐ๋ฆฌ๊ฐ€ ์ฃผ๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•  Tensorflow๋ฅผ ๋ฐฐ์šด๋‹ค! ๐Ÿฑ‍๐Ÿ ์ˆ˜ํ–‰ํ‰๊ฐ€ ๋˜ ๋‚˜์™”๋„น.. ๋ฐ์ดํ„ฐ ํ•ธ๋“ค๋ง 2 + ๋จธ์‹ ๋Ÿฌ๋‹(๋‹ค์ค‘์„ ํ˜•ํšŒ๊ท€) 1. 4/5 ํ™”์š”์ผ๊นŒ์ง€ ์ œ์ถœ!! Ozone ๋ฐ์ดํ„ฐ๋กœ ๋‹ค์ค‘์„ ํ˜•ํšŒ๊ท€๋ฅผ 3๊ฐ€์ง€ ๋ฐฉ๋ฒ•(Python, Sklearn, Tensorflow)์œผ๋กœ ๊ตฌํ˜„, ์˜ˆ์ธก์น˜๊ฐ€ ๋น„์Šทํ•˜๊ฒŒ ๋‚˜์™€์•ผ ํ•œ๋‹ค! ๋‹น์—ฐํžˆ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ(๊ฒฐ์น˜๊ฐ’, ์ด์ƒ์น˜, ์ •๊ทœํ™”)๋„~ ๊ฐ€์žฅ ๋งŽ์ด ์“ฐ์ด๋Š” ๋”ฅ๋Ÿฌ๋‹ ์˜คํ”ˆ์†Œ์Šค ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” Google์˜ Tensorflow์™€ Facebook์˜ PyTorch~ Sklearn์€ ๋ฐ์ดํ„ฐ ์–‘๊ณผ ๋ณ€์ˆ˜๊ฐ€ ๋งŽ์•„์ง€๋ฉด ์†๋„๊ฐ€ ๊ต‰์žฅํžˆ ๋А๋ ค์ง€๊ธฐ ๋•Œ๋ฌธ์—, Tensorflow๋ฅผ ์ด์šฉํ•œ๋‹ค. Tensorflow 2.0 ver.์ด ๋“ฑ์žฅํ•˜๋ฉด์„œ ์ด์ „ ๋ฒ„์ „๊ณผ๋Š” ์™„์ „ํžˆ ๋‹ค๋ฅด๊ฒŒ ๋ฐ”๋€Œ์—ˆ๋‹ค. ๊ธฐ์กด์— ๋งŒ๋“ค์—ˆ๋˜ ๊ฐ€์ƒํ™˜๊ฒฝ(ma.. ๋”๋ณด๊ธฐ
3/30 ์ˆ˜ ์ˆ˜์š”์ผ! ์–ด์ œ ์‚ฌ์šฉํ•œ Ozone data๋ฅผ Python๊ณผ Sklearn์œผ๋กœ Simple Linear Regression(๋‹จ์ˆœ ์„ ํ˜• ํšŒ๊ท€)์„ ๊ตฌํ˜„ํ–ˆ์„ ๋•Œ, ์™œ ๋ชจ์–‘์ด ๋‹ค๋ฅธ์ง€ ์•Œ์•„๋ณด์ž~ ์ด์œ  1. Missing Value(๊ฒฐ์น˜๊ฐ’) ์ฒ˜๋ฆฌ - ์‚ญ์ œ : ์ „์ฒด ๋ฐ์ดํ„ฐ๊ฐ€ 100๋งŒ ๊ฑด ์ด์ƒ์ด๋ฉฐ ๊ฒฐ์น˜๊ฐ’์ด 5% ์ด๋‚ด์ผ ๋•Œ - ๋Œ€์ฒด : ๋Œ€ํ‘œ๊ฐ’์œผ๋กœ ๋Œ€์ฒด(ํ‰๊ท , ์ค‘์œ„, ์ตœ๋Œ€, ์ตœ์†Œ, ์ตœ๋นˆ) ํ˜น์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉ(๋” ์ข‹์€ ๋ฐฉ์‹! ๊ฒฐ์น˜๊ฐ’์ด ์ข…์†๋ณ€์ˆ˜์ผ ๋•Œ) ์ด์œ  2. ์ด์ƒ์น˜ ์ฒ˜๋ฆฌ ์ด์ƒ์น˜๋Š” ๊ฐ’์ด ์ผ๋ฐ˜์ ์ธ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์— ๋น„ํ•ด ํŽธ์ฐจ๊ฐ€ ํฐ ๋ฐ์ดํ„ฐ์ด๊ธฐ ๋•Œ๋ฌธ์— ํ‰๊ท , ๋ถ„์‚ฐ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นจ → ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ๋‹นํžˆ ๋ถˆ์•ˆํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ์š”์†Œ - ์ง€๋Œ€๊ฐ’ : ๋…๋ฆฝ๋ณ€์ˆ˜(์›์ธ)์— ์žˆ๋Š” ์ด์ƒ์น˜ - Outlier : ์ข…์†๋ณ€์ˆ˜(๊ฒฐ๊ณผ)์— ์žˆ๋Š” ์ด์ƒ์น˜ 1. ์ด์ƒ์น˜.. ๋”๋ณด๊ธฐ
5ํšŒ ์ฐจ | 3/29 ํ™” 5ํšŒ ์ฐจ! ์ง€๋‚œ์ฃผ ๊ธˆ์š”์ผ์— ๊ฐ์ž ์„ ์ •ํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ ํ”„๋กœ์ ํŠธ ์ฃผ์ œ์˜ ์ง„ํ–‰์ƒํ™ฉ(EDA, ๋ฐ์ดํ„ฐ ํ•ธ๋“ค๋ง, ์‹œ๊ฐํ™”, ๊ธฐ์ˆ ํ†ต๊ณ„, ๋ชจ๋ธ๋ง)์„ ๋ฆฌ๋ทฐํ–ˆ๋‹ค. ๊ธˆ์š”์ผ์€ ์ „์ฒด ๋ชจ์ž„์—์„œ 10๋ถ„์”ฉ ์ตœ์ข… ๋ฆฌ๋ทฐ! ๊ธฐ์กด์— ๊ณจ๋ž๋˜ ์ฃผ์‹ ์ข…๋ฃŒ ๊ฐ€๊ฒฉ ์˜ˆ์ธก์€ ๋Œ€ํšŒ๊ฐ€ ๋งˆ๊ฐ๋˜์–ด ์ด๊ณณ์ €๊ณณ ์ฝ”๋“œ ๋ฆฌ๋ทฐํ•œ ๊ณณ๋“ค์„ ๋’ค์ ธ๋„, ๋ชจ๋ธ๋ง์— ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ์…‹(stock_list.csv : ์ข…๋ชฉ ๋ฒˆํ˜ธ ๋ฐ์ดํ„ฐ, sample_submission.csv)์„ ๊ตฌํ•  ์ˆ˜๊ฐ€ ์—†๊ธฐ์— ๋ถ€๋“์ดํ•˜๊ฒŒ๋„ ๊ธฐ์กด์— ์บ๊ธ€ ์˜ˆ์ œ๋กœ ๊ณจ๋ž๋˜ ๋ณด์Šคํ„ด ์ง‘๊ฐ’ ์˜ˆ์ธก์œผ๋กœ ๋ณ€๊ฒฝํ–ˆ๋‹ค. ๋‚ด๊ฐ€ ์ผํ•˜๊ณ  ์‹ถ์€ ๋ถ„์•ผ๋„ ์ž์‚ฐ์šด์šฉ์˜ ๋กœ๋ณด์–ด๋“œ๋ฐ”์ด์ € ๋ถ€๋ฌธ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๋‚˜์ค‘์— ๊ผญ ์ฃผ์‹ ๊ฐ€๊ฒฉ ์˜ˆ์ธก์„ ๊ตฌํ˜„ํ•ด ๋ณผ ์˜ˆ์ •์ด๋‹ค! https://dacon.io/competitions/official/235857/overview/descrip.. ๋”๋ณด๊ธฐ
3/29 ํ™” ํ™”์š”์ผ! ์˜ค๋Š˜์€ ์–ด์ œ ๋ฐฐ์šด Simple Linear Regression(๋‹จ์ˆœ ์„ ํ˜• ํšŒ๊ท€)์„ ์ฝ”๋“œ๋กœ ๊ตฌํ˜„ํ•œ๋‹ค. 1. Training Data Set ์ค€๋น„ : Data pre-processing(๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ). ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ์ค€๋น„ 2. Linear Regression Model์„ ์ •์˜ : y = Wx+b(์˜ˆ์ธก ๋ชจ๋ธ). hypothesis(๊ฐ€์„ค) 3. ์ตœ์ ์˜ W(weight, ๊ฐ€์ค‘์น˜), b(bias, ํŽธ์ฐจ)๋ฅผ ๊ตฌํ•˜๋ ค๋ฉด loss function(์†์‹คํ•จ์ˆ˜)/cost function(๋น„์šฉํ•จ์ˆ˜) → MSE 4. Gradient Descent Algorithm(๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•) : loss function์„ ํŽธ๋ฏธ๋ถ„(W, b) × learning rate 5. ๋ฐ˜๋ณตํ•™์Šต ์ง„ํ–‰ 1. Training Dat.. ๋”๋ณด๊ธฐ
3/28 ์›” ์›”์š”์ผ! ๊ธˆ์š”์ผ์— ์ด์–ด ๋จธ์‹ ๋Ÿฌ๋‹ ๋“ค์–ด๊ฐ„๋‹ค~ Weak AI์˜ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•๋“ค : ์ง€๋„ ํ•™์Šต, ๋น„์ง€๋„ ํ•™์Šต, ๊ฐ•ํ™” ํ•™์Šต 1. Regression(ํšŒ๊ท€) : ๋ฐ์ดํ„ฐ์— ์˜ํ–ฅ์„ ์ฃผ๋Š” ์กฐ๊ฑด๋“ค์˜ ์˜ํ–ฅ๋ ฅ์„ ๊ณ ๋ คํ•ด์„œ, ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ ํ‰๊ท ์„ ๊ตฌํ•˜๋Š” ๊ธฐ๋ฒ• * ํ‰๊ท ์„ ๊ตฌํ•  ๋•Œ ์ฃผ์˜ํ•ด์•ผ ํ•  ์  : ํ‰๊ท ์„ ๊ตฌํ•˜๋Š” ๋ฐ์ดํ„ฐ์— ์ด์ƒ์น˜๊ฐ€ ์žˆ์„ ๊ฒฝ์šฐ ๋Œ€ํ‘œ๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ์–ด๋ ค์›€. ์ •๊ทœ๋ถ„ํฌ์—ฌ์•ผ ํ•จ! ๊ณ ์ „์  ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ(Classical Linear Regression Model) ๋‹จ์ˆœ ์„ ํ˜• ํšŒ๊ท€(Simple Linear Regression) import numpy as np import pandas as pd import matplotlib.pyplot as plt df = pd.DataFrame({'๊ณต๋ถ€์‹œ๊ฐ„(x)': [1,2,3.. ๋”๋ณด๊ธฐ
4ํšŒ ์ฐจ | 3/25 ๊ธˆ 4ํšŒ ์ฐจ! ํ™”์š”์ผ์— ์ด์–ด ์กฐ๋ณ„๋กœ ๋จธ์‹ ๋Ÿฌ๋‹ ์ˆ˜ํ–‰ํ‰๊ฐ€ ๋ฆฌ๋ทฐ๋ฅผ ์ง„ํ–‰ํ–ˆ๋‹ค~ ์ธ์›์ด ๋‹จ์ถœํ•ด์„œ ์ง„ํ–‰ ์‹œ๊ฐ„์ด ์•Œ๋งž๊ณ  ์ž์„ธํ•œ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ์ ์€ ์ธ์›๊ณผ ๊ฐ์ž ์‹ค๋ ฅ ํŽธ์ฐจ๊ฐ€ ํด ๊ฒฝ์šฐ ๋ฆฌ๋ทฐ๊ฐ€ ํŽธํ˜‘ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด ๋‹จ์ .. ์ด๋ฒˆ ์ฃผ๋Š” ๋ฉ€ํ‹ฐ์บ ํผ์Šค ์ˆ˜ํ–‰ํ‰๊ฐ€์šฉ์œผ๋กœ ์ œ๊ณต๋œ MovieLens ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ๋ฌธ์ œ๋ฅผ ํ’€๊ณ  ์•„๋ž˜์™€ ๊ฐ™์ด ๊ณต๋ถ€ํ–ˆ๋‹ค. 1. ์ˆ˜ํ–‰ํ‰๊ฐ€ ๋ฌธ์ œ๋“ค ๋ชจ๋‘ ํ•˜๋‚˜์”ฉ ๊ด€๋ จ๋œ ๋‚ด์šฉ์œผ๋กœ ์‹œ๊ฐํ™” ํ•˜๊ธฐ : scatter, histogram, heatmap, boxplot ๋งŒ๋“ค์—ˆ๋‹ค. → ๋„์ˆ˜๋ถ„ํฌํ‘œ(๊ณ„๊ธ‰, ๋„์ˆ˜ + ๊ณ„๊ธ‰๊ฐ’, ์ƒ๋Œ€๋„์ˆ˜, ๋ˆ„์  ์ƒ๋Œ€๋„์ˆ˜) ๋งŒ๋“ค์–ด๋ณด์ž! 2. 10๊ฐœ ์ด์ƒ์˜ ๋ฐ์ดํ„ฐ ํ•ธ๋“ค๋งํ•ด๋ณด๊ธฐ : ๋ฌธ์ œ๋งŒ ํ’€์—ˆ๋‹ค. → ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ์„ ๋ฒ•ํ•˜๊ฑฐ๋‚˜ ๊ถ๊ธˆํ•œ ๊ฒƒ๋“ค์— ๋Œ€ํ•ด ๋” ํ•ธ๋“ค๋ง ํ•˜์ž! ex) ํ‰๊ท  ํ‰์ ์ด ๊ฐ€์žฅ ๋†’์€ ์˜ํ™” ์žฅ.. ๋”๋ณด๊ธฐ

728x90