문제 정의

  1. 비즈니스 목적이 정확이 무엇인가?

  2. 현재 솔루션을 어떻게 구성되어 있나?

    → 문제 해결에 대한 정보와 참고 성능으로 사용 가능

  3. 문제 정의

  4. 배치 학습과 온라인 학습 중 어떤 것을 사용하는가?

성능 측정 지표 선택

RSME(Root Mean Square Error)

MAE(Mean Absolute Error)

Untitled

norm의 지수가 커질 수록 큰 값의 원소에 치우치며 작은 원소에 집중

→ RMSE가 MAE보다 조금 더 이상치에 민감. 이상치가 드물면 RMSE가 더 좋음

데이터 분석

데이터 셋이 작을 경우 샘플링 편향이 생길 가능성이 크다.

→ 실제 도메인과 맞추기 위해 계층적 샘플링 사용

⇒ 전체 모수는 계층이라는 동질의 그룹으로 나누고, 테스트 세트가 전체 모수를 대표하도록 각 계층에서 올바른 수를 샘플링