KR/ML,DL

[머신러닝/기초개념] 2. 의사결정트리

개발개 2021. 6. 11. 23:58
728x90

 

 

의사결정트리 (Decision Tree)

  • 분류 문제(범주형 데이터 예측)에 사용
  • 불확실성(uncertainty) 또는 불순도(impurity)가 크게 줄어들도록 학습
  • 장점
    • 상대적으로 이해가 쉽고 빠름
    • 자료 가공이 대체로 불필요함
  • 단점
    • 연속형 데이터 예측이 어려움
    • 모형이 복잡하면 예측률이 떨어짐
  • 불순도 평가 방법 3가지 
    • 엔트로피
    • 지니계수
    • 카이제곱스퀘어

 

 

불순도 평가 방법 3가지

엔트로피(Entropy)

  • 무질서도
  • 필요한 모든 bit 수를 평균한 값
  • 엔트로피가 작을수록 좋음(불순도 낮음)
  • 불순도 희석 방향으로 데이터 나눔
  • log 사용으로 속도가 느림

 

지니계수(Gini Index)

  • 1 - (랜덤한 특정 레코드가 같은 범주에 포함될 확률)
  • 지니계수가 작을수록 좋음(불순도 낮음)
  • 엔트로피 보다 속도 빠름

 

카이제곱스퀘어(Chi-square)

  • 독립성 검증을 위해 사용
  • 상관관계가 가장 적도록 나눔

 

 

 

728x90