Skip to main content

의사결정나무

· 4 min read

의사결정나무 개요

의사결정나무 개념

  • 주어진 입력값들의 조합을 의사결정규칙에 따라 출력값을 예측하는 모형
  • 의사결정규칙을 트리구조로 나타내어 분류와 예측을 수행하는 분석 방법

의사결정나무 구성도, 구성요소, 유형

의사결정나무 구성도

의사결정나무 구성요소

구분내용비고
루트노드모든 데이터의 첫 속성 평가첫 분기 결정
규칙노드특정 속성에 대한 테스트 수행 후 데이터 분리조건문 따라 하위노드 분기
리프노드최종결과노드, 데이터 분류 또는 예측분류 클래스

의사결정나무 유형

  • 분류트리: 범주형 변수를 예측하기 위해 사용되는 트리 모델, 데이터를 여러 범주로 분류
  • 회귀트리: 연속형 변수의 값을 예측하기 위한 트리모델
구분분류트리회귀트리
대상범주형 변수 대상연속형 변수 대상
특징불순도를 기준으로 최적 분류 결정분산을 최소화하는 방향으로 분할
평가방법지니지수, 엔트로피오차제곱합
사용시기명확한 범주를 가진 데이터 분류연속적 수치 예측, 트렌드 예측

의사결정나무 절차, 평가지표

의사결정나무 절차

  • 성장: 분석목적에 따른 트리 생성
  • 가지치기: 불필요한 가지를 제거하여 과대적합, 과소적합 방지
  • 타당성 평가: 가장 적은 엔트로피를 갖는 나무를 평가하고 최적 모형 선택
  • 해석 및 예측: 구축된 나무모형 해석

의사결정나무 평가지표

구분지표내용
분류나무지니계수해당 구역 내 특정 클래스에 속하는 데이터 비율을 모두 제외한 값
-엔트로피데이터의 무질서도를 측정하여 정보 획득량 계산
회귀나무오차제곱합실제 값과 예측 값의 오차 제곱 최소화
  • 지표가 0에 가까울 수록 잘 분류된 모델로 판별 가능

의사결정나무 고려사항

  • Impurity를 0으로 만들기 위해 트리 깊이가 깊어질 경우 오버피팅 발생하므로, 앙상블 기법 사용 고려 필요