본문 바로가기

SeSAC 금융데이터 분석가/머신러닝

10/17 월

728x90

1. RMSLE(Root Mean Square Log Error)

오늘 진행 한 회귀 실습(자전거 대여 수요 예측)에서
캐글은 왜 성능지표 중 RMSE가 아닌 RMSLE(Root Mean Square Log Error) 사용하며, 
둘의 차이가 왜 많이 나는지(LinearRegression: RMSLE: 1.165 vs. RMSE: 140.900)에 대해
공룡 책의 권철민 저자님이 인프런에 상세히 설명해주신 내용을 찾았다.

 

타깃 값 자체가 매우 높은 데이터에 대해서 예측 오류가 발생할 경우,
타깃 값이 작은 데이터에 대해서 예측 오류가 발생할 경우보다 임팩트가 더욱 크게 됨.

이를 상쇄하기 위해 실제값(y)과 예측값(pred)을 먼저 로그(cf. 학교 다닐 때 배운 일종의 둔한 저울) 변환하여 숫자 자체의 스케일링을 맞추고 오류 값을 반영한 것!

 

출처

728x90

'SeSAC 금융데이터 분석가 > 머신러닝' 카테고리의 다른 글

10/14 금  (0) 2022.10.14
10/12 수  (0) 2022.10.12
10/11 화  (0) 2022.10.11