๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

728x90

EDA

5ํšŒ ์ฐจ | 3/29 ํ™” 5ํšŒ ์ฐจ! ์ง€๋‚œ์ฃผ ๊ธˆ์š”์ผ์— ๊ฐ์ž ์„ ์ •ํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ ํ”„๋กœ์ ํŠธ ์ฃผ์ œ์˜ ์ง„ํ–‰์ƒํ™ฉ(EDA, ๋ฐ์ดํ„ฐ ํ•ธ๋“ค๋ง, ์‹œ๊ฐํ™”, ๊ธฐ์ˆ ํ†ต๊ณ„, ๋ชจ๋ธ๋ง)์„ ๋ฆฌ๋ทฐํ–ˆ๋‹ค. ๊ธˆ์š”์ผ์€ ์ „์ฒด ๋ชจ์ž„์—์„œ 10๋ถ„์”ฉ ์ตœ์ข… ๋ฆฌ๋ทฐ! ๊ธฐ์กด์— ๊ณจ๋ž๋˜ ์ฃผ์‹ ์ข…๋ฃŒ ๊ฐ€๊ฒฉ ์˜ˆ์ธก์€ ๋Œ€ํšŒ๊ฐ€ ๋งˆ๊ฐ๋˜์–ด ์ด๊ณณ์ €๊ณณ ์ฝ”๋“œ ๋ฆฌ๋ทฐํ•œ ๊ณณ๋“ค์„ ๋’ค์ ธ๋„, ๋ชจ๋ธ๋ง์— ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ์…‹(stock_list.csv : ์ข…๋ชฉ ๋ฒˆํ˜ธ ๋ฐ์ดํ„ฐ, sample_submission.csv)์„ ๊ตฌํ•  ์ˆ˜๊ฐ€ ์—†๊ธฐ์— ๋ถ€๋“์ดํ•˜๊ฒŒ๋„ ๊ธฐ์กด์— ์บ๊ธ€ ์˜ˆ์ œ๋กœ ๊ณจ๋ž๋˜ ๋ณด์Šคํ„ด ์ง‘๊ฐ’ ์˜ˆ์ธก์œผ๋กœ ๋ณ€๊ฒฝํ–ˆ๋‹ค. ๋‚ด๊ฐ€ ์ผํ•˜๊ณ  ์‹ถ์€ ๋ถ„์•ผ๋„ ์ž์‚ฐ์šด์šฉ์˜ ๋กœ๋ณด์–ด๋“œ๋ฐ”์ด์ € ๋ถ€๋ฌธ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๋‚˜์ค‘์— ๊ผญ ์ฃผ์‹ ๊ฐ€๊ฒฉ ์˜ˆ์ธก์„ ๊ตฌํ˜„ํ•ด ๋ณผ ์˜ˆ์ •์ด๋‹ค! https://dacon.io/competitions/official/235857/overview/descrip.. ๋”๋ณด๊ธฐ
4ํšŒ ์ฐจ | 3/25 ๊ธˆ 4ํšŒ ์ฐจ! ํ™”์š”์ผ์— ์ด์–ด ์กฐ๋ณ„๋กœ ๋จธ์‹ ๋Ÿฌ๋‹ ์ˆ˜ํ–‰ํ‰๊ฐ€ ๋ฆฌ๋ทฐ๋ฅผ ์ง„ํ–‰ํ–ˆ๋‹ค~ ์ธ์›์ด ๋‹จ์ถœํ•ด์„œ ์ง„ํ–‰ ์‹œ๊ฐ„์ด ์•Œ๋งž๊ณ  ์ž์„ธํ•œ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ›์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ์ ์€ ์ธ์›๊ณผ ๊ฐ์ž ์‹ค๋ ฅ ํŽธ์ฐจ๊ฐ€ ํด ๊ฒฝ์šฐ ๋ฆฌ๋ทฐ๊ฐ€ ํŽธํ˜‘ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด ๋‹จ์ .. ์ด๋ฒˆ ์ฃผ๋Š” ๋ฉ€ํ‹ฐ์บ ํผ์Šค ์ˆ˜ํ–‰ํ‰๊ฐ€์šฉ์œผ๋กœ ์ œ๊ณต๋œ MovieLens ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ๋ฌธ์ œ๋ฅผ ํ’€๊ณ  ์•„๋ž˜์™€ ๊ฐ™์ด ๊ณต๋ถ€ํ–ˆ๋‹ค. 1. ์ˆ˜ํ–‰ํ‰๊ฐ€ ๋ฌธ์ œ๋“ค ๋ชจ๋‘ ํ•˜๋‚˜์”ฉ ๊ด€๋ จ๋œ ๋‚ด์šฉ์œผ๋กœ ์‹œ๊ฐํ™” ํ•˜๊ธฐ : scatter, histogram, heatmap, boxplot ๋งŒ๋“ค์—ˆ๋‹ค. → ๋„์ˆ˜๋ถ„ํฌํ‘œ(๊ณ„๊ธ‰, ๋„์ˆ˜ + ๊ณ„๊ธ‰๊ฐ’, ์ƒ๋Œ€๋„์ˆ˜, ๋ˆ„์  ์ƒ๋Œ€๋„์ˆ˜) ๋งŒ๋“ค์–ด๋ณด์ž! 2. 10๊ฐœ ์ด์ƒ์˜ ๋ฐ์ดํ„ฐ ํ•ธ๋“ค๋งํ•ด๋ณด๊ธฐ : ๋ฌธ์ œ๋งŒ ํ’€์—ˆ๋‹ค. → ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ์„ ๋ฒ•ํ•˜๊ฑฐ๋‚˜ ๊ถ๊ธˆํ•œ ๊ฒƒ๋“ค์— ๋Œ€ํ•ด ๋” ํ•ธ๋“ค๋ง ํ•˜์ž! ex) ํ‰๊ท  ํ‰์ ์ด ๊ฐ€์žฅ ๋†’์€ ์˜ํ™” ์žฅ.. ๋”๋ณด๊ธฐ
3ํšŒ ์ฐจ | 3/22 ํ™” ๋ฒŒ์จ 3ํšŒ ์ฐจ~ ์ง€๋‚œ์ฃผ์— ์ง„ํ–‰ํ•œ ํƒ€์ดํƒ€๋‹‰ ์˜ˆ์ œ๊ฐ€ ๊ฐ€๋ฌผ๊ฐ€๋ฌผํ•˜๋‹ค.. ์˜ค๋Š˜์€ ์กฐ ํŽธ์„ฑ, ์กฐ์ •๋œ ์ปค๋ฆฌํ˜๋Ÿผ ์•ˆ๋‚ด, ๊ฐ ์กฐ๋ณ„ ์ฝ”ํ…Œ ๋ฆฌ๋ทฐ๋กœ ์ง„ํ–‰! ํŒŒ์ผ๋Ÿฟ ์ง„ํ–‰ ํ›„ ๋ ˆ๋ฒจ์— ๋”ฐ๋ผ ์ธ์›์„ ๋‚˜๋ˆ  3๊ฐœ์˜ ์กฐ๋กœ ์šด์˜ํ•˜๋ ค ํ–ˆ์œผ๋‚˜, ๊ฐ์ž์˜ ์‹ค๋ ฅ ํŽธ์ฐจ๊ฐ€ ํฌ๊ณ  ์Šคํ„ฐ๋””์˜ ํšจ์œจ์„ฑ์ด ๋–จ์–ด์ ธ ์šด์˜์ง„๊ณผ ์ƒ์˜ ํ›„ ์ปค๋ฆฌํ˜๋Ÿผ์„ ์•„๋ž˜์™€ ๊ฐ™์ด ์กฐ์ •ํ–ˆ๋‹ค. 11๋ช…์˜ ์ธ์›์ด ๋ชจ๋‘ ๋ฆฌ๋ทฐ๋ฅผ ์ง„ํ–‰ํ•˜๊ธฐ์—๋Š” ์‹œ๊ฐ„์ด ๋น ๋“ฏํ•ด์„œ ์‚ฌ๋‹ค๋ฆฌ ํƒ€๊ธฐ๋กœ ์ธ์›(4/4/3)์„ ๋‚˜๋ˆด๋‹ค. ๊ฐ ์กฐ์˜ ์กฐ์žฅ์€ ์ธํ›„๋‹˜, ์ฐฝํ˜„๋‹˜, ํฌ๊ฒฝ๋‹˜! ์ฃผ์— ํ•˜๋‚˜์”ฉ ์ง„ํ–‰ํ•˜๊ธฐ๋กœ ํ–ˆ๋˜ ์บ๊ธ€ ์˜ˆ์ œ ๋Œ€์‹  ๋ฉ€ํ‹ฐ์บ ํผ์Šค ์ˆ˜์—… ๋‚ด์šฉ๊ณผ ๋งž์ถ”์–ด, ์ˆ˜ํ–‰ํ‰๊ฐ€์šฉ์œผ๋กœ ์ œ๊ณต๋œ MovieLens์™€ ๊ธฐ์˜จ๋ถ„์„ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋กœ ์•„๋ž˜์™€ ๊ฐ™์ด ๊ณต๋ถ€ํ•œ๋‹ค. 1. ์ˆ˜ํ–‰ํ‰๊ฐ€ ๋ฌธ์ œ๋“ค ๋ชจ๋‘ ํ•˜๋‚˜์”ฉ ๊ด€๋ จ๋œ ๋‚ด์šฉ์œผ๋กœ ์‹œ๊ฐํ™” ํ•˜๊ธฐ 2. 10๊ฐœ ์ด์ƒ์˜ ๋ฐ์ดํ„ฐ ํ•ธ๋“ค๋งํ•ด.. ๋”๋ณด๊ธฐ
3/21 ์›” ์›”์š”์ผ! ์˜ค๋Š˜์€ Pandas์˜ DataFrame(DataFrame ์—ฐ๊ฒฐ · ๊ฒฐํ•ฉ, Mapping, Grouping)์„ ๋งˆ๋ฌด๋ฆฌ ์ง“๊ณ , ๋‚ด์ผ๋ถ€ํ„ฐ ๋ฐ์ดํ„ฐ์˜ ์‹œ๊ฐํ™”์— ๋Œ€ํ•ด ๋ฐฐ์šด๋‹ค. 1. DataFrame ์—ฐ๊ฒฐ : pd.concat(). default๋Š” ํ–‰ ๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ฒฐ. ์ปฌ๋Ÿผ ๋ช…์ด ๊ฐ™์€ ๊ฒƒ๋“ค์ด ์„œ๋กœ ๊ฒฐํ•ฉ๋จ import numpy as np import pandas as pd df1 = pd.DataFrame({'a':['a0', 'a1', 'a2', 'a3'], 'b':[1, 2, 3, 4], 'c':['c0', 'c1', 'c2', 'c3']}, index=[0, 1, 2, 3]) display(df1) df2 = pd.DataFrame({'b':[5, 6, 7, 8], 'c':['c0', 'c1', 'c2'.. ๋”๋ณด๊ธฐ

728x90