티스토리 뷰
728x90
의사결정트리 (Decision Tree)
- 분류 문제(범주형 데이터 예측)에 사용
- 불확실성(uncertainty) 또는 불순도(impurity)가 크게 줄어들도록 학습
- 장점
- 상대적으로 이해가 쉽고 빠름
- 자료 가공이 대체로 불필요함
- 단점
- 연속형 데이터 예측이 어려움
- 모형이 복잡하면 예측률이 떨어짐
- 불순도 평가 방법 3가지
- 엔트로피
- 지니계수
- 카이제곱스퀘어
불순도 평가 방법 3가지
엔트로피(Entropy)
- 무질서도
- 필요한 모든 bit 수를 평균한 값
- 엔트로피가 작을수록 좋음(불순도 낮음)
- 불순도 희석 방향으로 데이터 나눔
- log 사용으로 속도가 느림
지니계수(Gini Index)
- 1 - (랜덤한 특정 레코드가 같은 범주에 포함될 확률)
- 지니계수가 작을수록 좋음(불순도 낮음)
- 엔트로피 보다 속도 빠름
카이제곱스퀘어(Chi-square)
- 독립성 검증을 위해 사용
- 상관관계가 가장 적도록 나눔
728x90
'KR > ML,DL' 카테고리의 다른 글
[머신러닝/기초개념] 1. 머신러닝 개요 & 데이터 전처리 (0) | 2021.05.07 |
---|