본문 바로가기

728x90

멀티캠퍼스 프로젝트형 AI 서비스 개발 5회차

3/25 금 불금쓰~! 🥳 오늘은 머신러닝에 들어가기에 앞서 수학적인 내용을 배운다! 1. Log : 지수(제곱, 승) 표현에는 익숙함. Log는 지수를 다른 방법으로 표현 Log의 특성을 이용하면, 복잡한 지수방정식을 쉽게 풀 수 있음. 왜? 값을 확 줄여준다! 정규성 ↑ 지수방정식은 진수와 분리된 형태, 로그 방정식은 지수가 분리된 형태 Log는 크게 2가지 상용로그(common lodarithm) : 십진로그, 밑이 10 자연로그(natural lodarithm) : 자연로그, 밑이 자연상수 e(2.718...) 2. 미분 : 어떤 함수의 정의역(두 변수 x, y 사이에 y가 x의 함수로 나타내어질 때에, x가 취할 수 있는 값의 범위) 속 각 점에서 독립변수 값의 변화량과 함수값의 변화량의 비율(직선의 기울기.. 더보기
4회 차 | 3/25 금 4회 차! 화요일에 이어 조별로 머신러닝 수행평가 리뷰를 진행했다~ 인원이 단출해서 진행 시간이 알맞고 자세한 피드백을 받을 수 있지만, 적은 인원과 각자 실력 편차가 클 경우 리뷰가 편협할 수 있다는 것이 단점.. 이번 주는 멀티캠퍼스 수행평가용으로 제공된 MovieLens 데이터 세트의 문제를 풀고 아래와 같이 공부했다. 1. 수행평가 문제들 모두 하나씩 관련된 내용으로 시각화 하기 : scatter, histogram, heatmap, boxplot 만들었다. → 도수분포표(계급, 도수 + 계급값, 상대도수, 누적 상대도수) 만들어보자! 2. 10개 이상의 데이터 핸들링해보기 : 문제만 풀었다. → 상관관계가 있을 법하거나 궁금한 것들에 대해 더 핸들링 하자! ex) 평균 평점이 가장 높은 영화 장.. 더보기
3/24 목 목요일! 기술통계를 이어서 배운다. 기술통계가 끝나면 추리통계(통계분석. 추측. 전수조사, 모집단)가 수순이지만 멀캠에서 배우지는 않는다! 1차원 데이터의 특징 파악 - 수치지표 → 대표값 : 평균, 중위값, 최대/최소값, 편차, 분산, 표준편차... - 시작적 표현 → 도수분포표, Histogram, Box plot 2차원 데이터의 특징 파악 - 수치지표 → 공분산, 상관계수 - 시작적 표현 → Scatter 2차원 데이터의 수치지표 → 공분산, 상관계수 1. 공분산(covariance) : 두 확률변수 사이의 상관 정도 import numpy as np import pandas as pd df = pd.read_csv('./data/student_scores_em.csv', index_col='stu.. 더보기
3/23 수 수요일! 오늘은 기술통계를 배운다. 1차원 데이터의 특징 파악 - 수치지표 → 대표값 : 평균, 중위값, 최대/최소값, 편차, 분산, 표준편차... - 시작적 표현 → 도수분포표, Histogram, Box plot * 최대/최소값은 대표값으로 사용하기에 무리가 있음 2차원 데이터의 특징 파악 - 수치지표 → 공분산, 상관계수 - 시작적 표현 → Scatter 산포도(dispersion) : 데이터가 얼마나, 어떻게 퍼져 있나가 관점 데이터가 흩어진 정도(변산성)를 수치로 표현하고 싶다면 → 범위(range), 사분위 범위(IQR, Interquatile range), 편차(deviation), 분산(variance), 표준편차(standard deviation) 1차원 데이터의 수치지표 → 평균, 중위.. 더보기
3회 차 | 3/22 화 벌써 3회 차~ 지난주에 진행한 타이타닉 예제가 가물가물하다.. 오늘은 조 편성, 조정된 커리큘럼 안내, 각 조별 코테 리뷰로 진행! 파일럿 진행 후 레벨에 따라 인원을 나눠 3개의 조로 운영하려 했으나, 각자의 실력 편차가 크고 스터디의 효율성이 떨어져 운영진과 상의 후 커리큘럼을 아래와 같이 조정했다. 11명의 인원이 모두 리뷰를 진행하기에는 시간이 빠듯해서 사다리 타기로 인원(4/4/3)을 나눴다. 각 조의 조장은 인후님, 창현님, 희경님! 주에 하나씩 진행하기로 했던 캐글 예제 대신 멀티캠퍼스 수업 내용과 맞추어, 수행평가용으로 제공된 MovieLens와 기온분석 데이터 세트로 아래와 같이 공부한다. 1. 수행평가 문제들 모두 하나씩 관련된 내용으로 시각화 하기 2. 10개 이상의 데이터 핸들링해.. 더보기
3/22 화 화요일! 데이터를 시각화하는 대표적인 라이브러리인 Matplotlib에 대해 배운다! Matplotlib 안에 Pyplot이라는 sub package를 사용한다. Line plot(선 그래프), Histogram(도수표), Scatter(산점도), Box plot, 그 외 Area plot, Bar chart(막대 그래프) 1. Line plot(선 그래프) : 연속적인 값의 경향을 파악할 때 주로 사용(시계열) import pandas as pd import matplotlib.pyplot as plt # 1. Line plot(선 그래프) plt.title('Line Plot') # plot의 제목을 설정 plt.plot([1, 5, 12, 25]) # x축의 자료 위치(x 축 눈금) -> tick은.. 더보기
3/21 월 월요일! 오늘은 Pandas의 DataFrame(DataFrame 연결 · 결합, Mapping, Grouping)을 마무리 짓고, 내일부터 데이터의 시각화에 대해 배운다. 1. DataFrame 연결 : pd.concat(). default는 행 방향으로 연결. 컬럼 명이 같은 것들이 서로 결합됨 import numpy as np import pandas as pd df1 = pd.DataFrame({'a':['a0', 'a1', 'a2', 'a3'], 'b':[1, 2, 3, 4], 'c':['c0', 'c1', 'c2', 'c3']}, index=[0, 1, 2, 3]) display(df1) df2 = pd.DataFrame({'b':[5, 6, 7, 8], 'c':['c0', 'c1', 'c2'.. 더보기
2회 차 | 3/18 금 지난주 화요일에 가이드한 Kaggle의 타이타닉 예제를 각자 진행하고, GitHub에 문서화해서 오늘 리뷰했다. 각자 어떤 식으로 데이터를 분석, 가공, 모델링했는지 절차와 느낀 점, 궁금증을 순차적으로 발표 다른 분들이 한 거 보면서 실습/응용 많이 해야한다 생각.. 전체적인 구조에 대한 이해가 부족해서, 왜 이렇게 추출하고 가공하는지 파악하기가 조금 까다로웠다. 그래서 생각하고 구조를 정확히 파악하면 알 수 있는 에러나 내용들을 질문했..ㅎㅎ 혼자 실습하면서 전체적인 절차를 훑으면서 봤던 내용들이 주간 수업 때 나와서 이해하기 좋았다. 참석 인원이 총 10명으로 캐글 리뷰에만 2시간이 걸림.. 코테 리뷰와 조 편성을 다음주 화요일로 미루고, 이번 주처럼 각자 진행하기로 했던 캐글 예제(보스턴 집값 예.. 더보기

728x90