๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

728x90

MinMaxScaling

3/30 ์ˆ˜ ์ˆ˜์š”์ผ! ์–ด์ œ ์‚ฌ์šฉํ•œ Ozone data๋ฅผ Python๊ณผ Sklearn์œผ๋กœ Simple Linear Regression(๋‹จ์ˆœ ์„ ํ˜• ํšŒ๊ท€)์„ ๊ตฌํ˜„ํ–ˆ์„ ๋•Œ, ์™œ ๋ชจ์–‘์ด ๋‹ค๋ฅธ์ง€ ์•Œ์•„๋ณด์ž~ ์ด์œ  1. Missing Value(๊ฒฐ์น˜๊ฐ’) ์ฒ˜๋ฆฌ - ์‚ญ์ œ : ์ „์ฒด ๋ฐ์ดํ„ฐ๊ฐ€ 100๋งŒ ๊ฑด ์ด์ƒ์ด๋ฉฐ ๊ฒฐ์น˜๊ฐ’์ด 5% ์ด๋‚ด์ผ ๋•Œ - ๋Œ€์ฒด : ๋Œ€ํ‘œ๊ฐ’์œผ๋กœ ๋Œ€์ฒด(ํ‰๊ท , ์ค‘์œ„, ์ตœ๋Œ€, ์ตœ์†Œ, ์ตœ๋นˆ) ํ˜น์€ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉ(๋” ์ข‹์€ ๋ฐฉ์‹! ๊ฒฐ์น˜๊ฐ’์ด ์ข…์†๋ณ€์ˆ˜์ผ ๋•Œ) ์ด์œ  2. ์ด์ƒ์น˜ ์ฒ˜๋ฆฌ ์ด์ƒ์น˜๋Š” ๊ฐ’์ด ์ผ๋ฐ˜์ ์ธ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์— ๋น„ํ•ด ํŽธ์ฐจ๊ฐ€ ํฐ ๋ฐ์ดํ„ฐ์ด๊ธฐ ๋•Œ๋ฌธ์— ํ‰๊ท , ๋ถ„์‚ฐ์— ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นจ → ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ๋‹นํžˆ ๋ถˆ์•ˆํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ์š”์†Œ - ์ง€๋Œ€๊ฐ’ : ๋…๋ฆฝ๋ณ€์ˆ˜(์›์ธ)์— ์žˆ๋Š” ์ด์ƒ์น˜ - Outlier : ์ข…์†๋ณ€์ˆ˜(๊ฒฐ๊ณผ)์— ์žˆ๋Š” ์ด์ƒ์น˜ 1. ์ด์ƒ์น˜.. ๋”๋ณด๊ธฐ
3/18 ๊ธˆ ๋ถˆ๊ธˆ! ๐Ÿ˜ป DataFrame์ด ์ œ๊ณตํ•˜๋Š” ๋ถ„์„์šฉ ํ•จ์ˆ˜๋“ค๋กœ ๊ธฐ์ˆ  ๋ถ„์„(Descriptive Analysis)์— ํ•„์š”ํ•œ ํ‰๊ท , ํ‘œ์ค€ํŽธ์ฐจ, ๋ถ„์‚ฐ, ๊ณต๋ถ„์‚ฐ, ์ƒ๊ด€๊ณ„์ˆ˜, ์‚ฌ๋ถ„์œ„ ๊ตฌํ•จ 1. ์ง‘๊ณ„ ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•  ๋•Œ axis๋ฅผ ์ง€์ •ํ•˜์ง€ ์•Š์œผ๋ฉด default๋Š” 0, ํ–‰ ๋ฐฉํ–ฅ. ์—ด๋ผ๋ฆฌ ๋”ํ•จ. dropna=True๊ฐ€ default์ด๋ฏ€๋กœ ์—ฐ์‚ฐ์—์„œ ์ œ์™ธ import numpy as np import pandas as pd data = np.array([[2, np.nan], # np.nan ๊ฒฐ์น˜๊ฐ’ [7, -3], [np.nan, np.nan], [1, -2]]) # print(data) df = pd.DataFrame(data, columns=['one', 'two'], index=['a', 'b', 'c', 'd']) disp.. ๋”๋ณด๊ธฐ

728x90