3/24 목
목요일! 기술통계를 이어서 배운다. 기술통계가 끝나면 추리통계(통계분석. 추측. 전수조사, 모집단)가 수순이지만 멀캠에서 배우지는 않는다! 1차원 데이터의 특징 파악 - 수치지표 → 대표값 : 평균, 중위값, 최대/최소값, 편차, 분산, 표준편차... - 시작적 표현 → 도수분포표, Histogram, Box plot 2차원 데이터의 특징 파악 - 수치지표 → 공분산, 상관계수 - 시작적 표현 → Scatter 2차원 데이터의 수치지표 → 공분산, 상관계수 1. 공분산(covariance) : 두 확률변수 사이의 상관 정도 import numpy as np import pandas as pd df = pd.read_csv('./data/student_scores_em.csv', index_col='stu..
더보기
3/23 수
수요일! 오늘은 기술통계를 배운다. 1차원 데이터의 특징 파악 - 수치지표 → 대표값 : 평균, 중위값, 최대/최소값, 편차, 분산, 표준편차... - 시작적 표현 → 도수분포표, Histogram, Box plot * 최대/최소값은 대표값으로 사용하기에 무리가 있음 2차원 데이터의 특징 파악 - 수치지표 → 공분산, 상관계수 - 시작적 표현 → Scatter 산포도(dispersion) : 데이터가 얼마나, 어떻게 퍼져 있나가 관점 데이터가 흩어진 정도(변산성)를 수치로 표현하고 싶다면 → 범위(range), 사분위 범위(IQR, Interquatile range), 편차(deviation), 분산(variance), 표준편차(standard deviation) 1차원 데이터의 수치지표 → 평균, 중위..
더보기
3/21 월
월요일! 오늘은 Pandas의 DataFrame(DataFrame 연결 · 결합, Mapping, Grouping)을 마무리 짓고, 내일부터 데이터의 시각화에 대해 배운다. 1. DataFrame 연결 : pd.concat(). default는 행 방향으로 연결. 컬럼 명이 같은 것들이 서로 결합됨 import numpy as np import pandas as pd df1 = pd.DataFrame({'a':['a0', 'a1', 'a2', 'a3'], 'b':[1, 2, 3, 4], 'c':['c0', 'c1', 'c2', 'c3']}, index=[0, 1, 2, 3]) display(df1) df2 = pd.DataFrame({'b':[5, 6, 7, 8], 'c':['c0', 'c1', 'c2'..
더보기