본문 바로가기

멀티캠퍼스 프로젝트형 AI 서비스 개발 5회차/스터디

2회 차 | 3/18 금

728x90

지난주 화요일에 가이드한 Kaggle의 타이타닉 예제를 각자 진행하고, GitHub에 문서화해서 오늘 리뷰했다.

 

각자 어떤 식으로 데이터를 분석, 가공, 모델링했는지 절차와 느낀 점, 궁금증을 순차적으로 발표

다른 분들이 한 거 보면서 실습/응용 많이 해야한다 생각.. 

 

전체적인 구조에 대한 이해가 부족해서, 왜 이렇게 추출하고 가공하는지 파악하기가 조금 까다로웠다.

 

그래서 생각하고 구조를 정확히 파악하면 알 수 있는 에러나 내용들을 질문했..ㅎㅎ

 

혼자 실습하면서 전체적인 절차를 훑으면서 봤던 내용들이 주간 수업 때 나와서 이해하기 좋았다.

 

참석 인원이 총 10명으로 캐글 리뷰에만 2시간이 걸림..


코테 리뷰와 조 편성을 다음주 화요일로 미루고,
이번 주처럼 각자 진행하기로 했던 캐글 예제(보스턴 집값 예측) 또한 데이터 분석과 시각화 위주로 하기로 변경했다.

 

다음 주에 진행되는 수업 내용을 응용할 수 있도록 매일 배우는 시각화 도구를 사용하여, 보스턴 data set에 실습!


캐글 예제 타이타닉 생존자 예측

 

< 느낀점 >

  • 데이터의 전처리(핸들링, 클렌징)가 대부분을 차지함 - DataFrame loc[ ] 연산자, boolean indexing!
  • 상관관계 분석을 위해 데이터를 시각화함 - bar chart(비중), FacetGrid(상대성)

< 궁금한 점>

  • 피어슨 상관계수 corr()의 값들의 의미. 음수가 클수록 상관이 있나?
    → -1~1 사이의 값. 0과 가까울수록 상관관계 적음. 통상적으로 +-0.5 이상이어야 유의미함
  • Name에서 Title(호칭)을 추출하기 위해 trian과 test dataset을 합쳐서 한꺼번에 처리 - Mr, Miss, Mrs 중 Mr가 상대적으로 많이 죽음. 성별 있는데 굳이?
    → data가 많으면 많을수록 예측이 정확해지기 때문. Age의 NaN에 평균 나이 넣는 것이 아닌 호칭에 따른 중위값 넣기 위해 필요함

  • 결치값 대체할 때 mean(평균)이 아닌 median(중위값)을 사용?
    → mean은 value를 모두 포함하여 Outlier(이상치)에 민감하게 반응하므로 중위값을 사용

  • 사이킷런의 교차검증, 'cross_val_score()' API 파라미터들(clf, target, n_jobs, scoring)의 의미?
    cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)
    → clf는 검증에 사용하려는 모델, 학습 data, test data, cv 몇 번 검증할지, n_jobs는 컴퓨터 리소스를 얼마나 사용할지, scoring은 정확도

  • for문으로 boolean indexing(복합 조건) 돌릴 때 ValueError(반복문 설정 시 key, value 값의 길이가 같아야?) 뜸
    → 각 조건으로 반복문 돌려서 해결, 조건 끝에 ',' 삭제!

  • Cabin을 숫자로 Mapping(Feature Scailing) 할 때, 왜 정수가 아닌 실수? 각 value의 중요도?
    → 각 value 간의 편차를 줄이기 위한 정규화(Normalization)

  • Sibsp와 Parch Feature를 합쳐 FamilySize(가족 동승 유무)를 새로 만들어 줄 때, 왜 1을 더하나?
    → 본인 포함

https://github.com/ljy9969/Study/blob/master/01%20Kaggle/22-03-16~17%20Titanic.ipynb

 

GitHub - ljy9969/Study

Contribute to ljy9969/Study development by creating an account on GitHub.

github.com

 

728x90

'멀티캠퍼스 프로젝트형 AI 서비스 개발 5회차 > 스터디' 카테고리의 다른 글

6회 차 | 4/1 금  (0) 2022.04.02
5회 차 | 3/29 화  (0) 2022.03.30
4회 차 | 3/25 금  (0) 2022.03.26
3회 차 | 3/22 화  (0) 2022.03.22
1회 차 | 3/14 월  (0) 2022.03.15