티스토리 뷰
728x90
머신러닝(Machine Learning)
기계가 스스로 데이터의 유의미한 패턴과 통계적인 함수를 발견하여 지식을 얻는 것을 말한다.
머신러닝의 분류
- 회귀
- 입력데이터를 바탕으로 원하는 타겟변수의 미래결과 예측
- 주식시장 예측, 백화점 수요예측 등
- 분류
- 입력데이터를 바탕으로 개별 데이터의 클래스 구분
- 스팸 필터링, 신용카드 사기 탐지, 제조 결함 탐지 등
- 추천
- 고객이 선호하는 상품 또는 대안 예측
- 유튜브 선호 영상 추천, 홈쇼핑 상품 추천 등
- 대체
- 입력데이터의 누락값 보완
- 불완전한 환자 의료 데이터 기록 보완, 인구조사 자료 보충 등
머신러닝의 방법론
- 지도학습 (Supervised Learning)
- 훈련 데이터 안에 예측해야 할 target이 있는 경우에 사용되는 방법론
- 비지도학습 (Unsupervised Learning)
- 훈련 데이터 안에 예측해야 할 target이 없는 경우에 사용되는 방법론
- 함수모형을 만들지 않고 데이터의 패턴을 추출하여 숨겨진 구조를 찾음
- 강화학습 (Reinforcement Learning)
- 데이터가 스스로 정답을 찾도록 target 값을 만들면서 훈련
머신러닝 프로세스
- 탐색적 데이터 분석 (EDA; Exploratory Data Analysis)
- 머신러닝 모델을 만들기 위한 전단계
- 특성을 추출하거나 패턴을 알기 위해 통계적 분석을 시도하는 단계
- 알고리즘이 주로 결정되는 단계
데이터 전처리 작업
- Munging (데이터 가공), Wrangling (데이터 보강)
- Missing Data (결측데이터) 처리
- 같은 속성의 데이터의 평균/중간값으로 채우기
- 데이터건수가 충분하고 결측데이터가 많지 않다면 모두 삭제
- Outlier 처리
- Outlier Detection 알고리즘을 통해 평균 패턴에서 떨어진 노이즈 데이터를 발견
- e.g. 고장 센서 판별
728x90
'KR > ML,DL' 카테고리의 다른 글
[머신러닝/기초개념] 2. 의사결정트리 (0) | 2021.06.11 |
---|