티스토리 뷰

728x90

 

 

의사결정트리 (Decision Tree)

  • 분류 문제(범주형 데이터 예측)에 사용
  • 불확실성(uncertainty) 또는 불순도(impurity)가 크게 줄어들도록 학습
  • 장점
    • 상대적으로 이해가 쉽고 빠름
    • 자료 가공이 대체로 불필요함
  • 단점
    • 연속형 데이터 예측이 어려움
    • 모형이 복잡하면 예측률이 떨어짐
  • 불순도 평가 방법 3가지 
    • 엔트로피
    • 지니계수
    • 카이제곱스퀘어

 

 

불순도 평가 방법 3가지

엔트로피(Entropy)

  • 무질서도
  • 필요한 모든 bit 수를 평균한 값
  • 엔트로피가 작을수록 좋음(불순도 낮음)
  • 불순도 희석 방향으로 데이터 나눔
  • log 사용으로 속도가 느림

 

지니계수(Gini Index)

  • 1 - (랜덤한 특정 레코드가 같은 범주에 포함될 확률)
  • 지니계수가 작을수록 좋음(불순도 낮음)
  • 엔트로피 보다 속도 빠름

 

카이제곱스퀘어(Chi-square)

  • 독립성 검증을 위해 사용
  • 상관관계가 가장 적도록 나눔

 

 

 

728x90

'KR > ML,DL' 카테고리의 다른 글

[머신러닝/기초개념] 1. 머신러닝 개요 & 데이터 전처리  (0) 2021.05.07
Total
Today
Yesterday
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
01-24 08:08