비즈니스 목적이 정확이 무엇인가?
현재 솔루션을 어떻게 구성되어 있나?
→ 문제 해결에 대한 정보와 참고 성능으로 사용 가능
문제 정의
배치 학습과 온라인 학습 중 어떤 것을 사용하는가?
RSME(Root Mean Square Error)
회귀 문제의 전형적인 성능 지표
오차가 커질수록 값이 더욱 커지므로 예측에 얼마나 많은 오류가 있는지 확인 가능
L2-norm

MAE(Mean Absolute Error)

norm의 지수가 커질 수록 큰 값의 원소에 치우치며 작은 원소에 집중
→ RMSE가 MAE보다 조금 더 이상치에 민감. 이상치가 드물면 RMSE가 더 좋음
데이터 셋이 작을 경우 샘플링 편향이 생길 가능성이 크다.
→ 실제 도메인과 맞추기 위해 계층적 샘플링 사용
⇒ 전체 모수는 계층이라는 동질의 그룹으로 나누고, 테스트 세트가 전체 모수를 대표하도록 각 계층에서 올바른 수를 샘플링