'pandas' 태그의 글 목록

본문 바로가기

728x90

pandas

1/11 수 1. tqdm in list comprehension / in pandas import pandas as pd import numpy as np from tqdm import tqdm # from tqdm.notebook import tqdm # Ver. 1 For Jupyter Notebook # from tqdm.auto import tqdm # Ver. 2 For Jupyter Notebook def process(token): return token['text'] l1 = [{'text': k} for k in range(5000)] l2 = [process(token) for token in tqdm(l1)] # tqdm in list comprehension #------------------.. 더보기

4/6 수 수요일! 오늘은 Multinomial Classification을 배운다. Linear Regression(연속적인 숫자 값 예측)이 발전한 것이 Logistic Regression → Classification(분류를 판단하는 예측) - Binary Classification(이항분류) - Multinomial Classification(다항분류) Logistic Regression은 이진 분류에 특화됨 SKlearn이 제공하는 분류기인 Gradient Descent(경사하강법)가 발전한 형태인 SGD Classifier(Stochastic Gradient Descent, 확률적 경사하강법) 1. Binary Classification - 위스콘신 유방암 데이터 by Gradient Descent Cl.. 더보기

3/30 수 수요일! 어제 사용한 Ozone data를 Python과 Sklearn으로 Simple Linear Regression(단순 선형 회귀)을 구현했을 때, 왜 모양이 다른지 알아보자~ 이유 1. Missing Value(결치값) 처리 - 삭제 : 전체 데이터가 100만 건 이상이며 결치값이 5% 이내일 때 - 대체 : 대표값으로 대체(평균, 중위, 최대, 최소, 최빈) 혹은 머신러닝 기법을 사용(더 좋은 방식! 결치값이 종속변수일 때) 이유 2. 이상치 처리 이상치는 값이 일반적인 다른 데이터에 비해 편차가 큰 데이터이기 때문에 평균, 분산에 큰 영향을 미침 → 데이터를 상당히 불안하게 만드는 요소 - 지대값 : 독립변수(원인)에 있는 이상치 - Outlier : 종속변수(결과)에 있는 이상치 1. 이상치.. 더보기

3/29 화 화요일! 오늘은 어제 배운 Simple Linear Regression(단순 선형 회귀)을 코드로 구현한다. 1. Training Data Set 준비 : Data pre-processing(데이터 전처리). 사용할 수 있는 형태로 준비 2. Linear Regression Model을 정의 : y = Wx+b(예측 모델). hypothesis(가설) 3. 최적의 W(weight, 가중치), b(bias, 편차)를 구하려면 loss function(손실함수)/cost function(비용함수) → MSE 4. Gradient Descent Algorithm(경사하강법) : loss function을 편미분(W, b) × learning rate 5. 반복학습 진행 1. Training Dat.. 더보기

3/28 월 월요일! 금요일에 이어 머신러닝 들어간다~ Weak AI의 머신러닝 기법들 : 지도 학습, 비지도 학습, 강화 학습 1. Regression(회귀) : 데이터에 영향을 주는 조건들의 영향력을 고려해서, 데이터에 대한 조건부 평균을 구하는 기법 * 평균을 구할 때 주의해야 할 점 : 평균을 구하는 데이터에 이상치가 있을 경우 대표값으로 사용하기 어려움. 정규분포여야 함! 고전적 선형 회귀 모델(Classical Linear Regression Model) 단순 선형 회귀(Simple Linear Regression) import numpy as np import pandas as pd import matplotlib.pyplot as plt df = pd.DataFrame({'공부시간(x)': [1,2,3.. 더보기

3/23 수 수요일! 오늘은 기술통계를 배운다. 1차원 데이터의 특징 파악 - 수치지표 → 대표값 : 평균, 중위값, 최대/최소값, 편차, 분산, 표준편차... - 시작적 표현 → 도수분포표, Histogram, Box plot * 최대/최소값은 대표값으로 사용하기에 무리가 있음 2차원 데이터의 특징 파악 - 수치지표 → 공분산, 상관계수 - 시작적 표현 → Scatter 산포도(dispersion) : 데이터가 얼마나, 어떻게 퍼져 있나가 관점 데이터가 흩어진 정도(변산성)를 수치로 표현하고 싶다면 → 범위(range), 사분위 범위(IQR, Interquatile range), 편차(deviation), 분산(variance), 표준편차(standard deviation) 1차원 데이터의 수치지표 → 평균, 중위.. 더보기

3/22 화 화요일! 데이터를 시각화하는 대표적인 라이브러리인 Matplotlib에 대해 배운다! Matplotlib 안에 Pyplot이라는 sub package를 사용한다. Line plot(선 그래프), Histogram(도수표), Scatter(산점도), Box plot, 그 외 Area plot, Bar chart(막대 그래프) 1. Line plot(선 그래프) : 연속적인 값의 경향을 파악할 때 주로 사용(시계열) import pandas as pd import matplotlib.pyplot as plt # 1. Line plot(선 그래프) plt.title('Line Plot') # plot의 제목을 설정 plt.plot([1, 5, 12, 25]) # x축의 자료 위치(x 축 눈금) -> tick은.. 더보기

3/21 월 월요일! 오늘은 Pandas의 DataFrame(DataFrame 연결 · 결합, Mapping, Grouping)을 마무리 짓고, 내일부터 데이터의 시각화에 대해 배운다. 1. DataFrame 연결 : pd.concat(). default는 행 방향으로 연결. 컬럼 명이 같은 것들이 서로 결합됨 import numpy as np import pandas as pd df1 = pd.DataFrame({'a':['a0', 'a1', 'a2', 'a3'], 'b':[1, 2, 3, 4], 'c':['c0', 'c1', 'c2', 'c3']}, index=[0, 1, 2, 3]) display(df1) df2 = pd.DataFrame({'b':[5, 6, 7, 8], 'c':['c0', 'c1', 'c2'.. 더보기

이전 1 2 다음

728x90

티스토리툴바