의사결정트리 (Decision Tree) 분류 문제(범주형 데이터 예측)에 사용 불확실성(uncertainty) 또는 불순도(impurity)가 크게 줄어들도록 학습 장점 상대적으로 이해가 쉽고 빠름 자료 가공이 대체로 불필요함 단점 연속형 데이터 예측이 어려움 모형이 복잡하면 예측률이 떨어짐 불순도 평가 방법 3가지 엔트로피 지니계수 카이제곱스퀘어 불순도 평가 방법 3가지 엔트로피(Entropy) 무질서도 필요한 모든 bit 수를 평균한 값 엔트로피가 작을수록 좋음(불순도 낮음) 불순도 희석 방향으로 데이터 나눔 log 사용으로 속도가 느림 지니계수(Gini Index) 1 - (랜덤한 특정 레코드가 같은 범주에 포함될 확률) 지니계수가 작을수록 좋음(불순도 낮음) 엔트로피 보다 속도 빠름 카이제곱스퀘..
머신러닝(Machine Learning) 기계가 스스로 데이터의 유의미한 패턴과 통계적인 함수를 발견하여 지식을 얻는 것을 말한다. 머신러닝의 분류 회귀 입력데이터를 바탕으로 원하는 타겟변수의 미래결과 예측 주식시장 예측, 백화점 수요예측 등 분류 입력데이터를 바탕으로 개별 데이터의 클래스 구분 스팸 필터링, 신용카드 사기 탐지, 제조 결함 탐지 등 추천 고객이 선호하는 상품 또는 대안 예측 유튜브 선호 영상 추천, 홈쇼핑 상품 추천 등 대체 입력데이터의 누락값 보완 불완전한 환자 의료 데이터 기록 보완, 인구조사 자료 보충 등 머신러닝의 방법론 지도학습 (Supervised Learning) 훈련 데이터 안에 예측해야 할 target이 있는 경우에 사용되는 방법론 비지도학습 (Unsupervised L..