6장 Decision Tree | Notion

의사결정 규칙을 나무구조로 표현해 전체 데이터를 소집단으로 분류하거나 예측하는 분석 기법

Decision Tree는 Prediction Task 와 Regression Task 모두에서 쓸 수 있는 알고리즘

Untitled

장점

데이터 전처리 필요 없음

→ feature의 scaling이나 평균을 기준으로 normalize 필요 없음
White Box
- 모델 해석이 직관적이고 결정 방식을 이해하기 쉬움

단점

overfitting 발생 쉬움

→ Non-parametric 기반이라 변수 개수 선택의 자유로움 ⇒ depth가 깊어질 수록 특징을 표현하는 node가 많아지기 때문.
작은 variation으로도 불안정할 수 있음
특정 class에 편향 쉬움
변수들이 독립적이지 않은 경우 multi-output 발생

특성

훈련 전 파라미터가 정해지지 않는 (non-parametric model)

→ 모델 구조가 데이터에 맞춰져 자유롭지만, overfitting의 위험
이를 규제하기 위한 parameter들 존재
overfitting의 위험으로 인해 PCA 사용해 보정 가능
Decision Boundary가 계단식으로 이루어짐