상세 컨텐츠

본문 제목

의사결정나무(Decision tree)

IT/머신러닝

by Adonis_ 2020. 12. 13. 21:44

본문

의사결정나무 개요

출처 : 네이버블로그 잡동사니탐구-참스터디GodGo

나무 형태로 분류 규칙 집합을 표현

나무의 경로는 하나의 분류규칙을 의미하며 계산 결과가 의사결정나무에 직접 표현되어 해석이 편리

 

의사결정나무 장/단점

장점) 이해하기 쉬움

        연속형, 범주형 변수 모두 취급 가능
        대용량 데이터에서도 빠르게 생성 가능
        비정상 잡음 데이터에 대해서도 민감함이 없이 분류 가능

 

단점) 연속형일 때 예측력 감소
        새로운 자료에 대한 과대적합 발생 가능성있음
        설명변수 간의 중요도를 판단하기 쉽지 않음

        규칙이 많아지면 과적합 발생가능성 증가, 복잡한 문제에 부적합

 

의사결정나무의 활용

세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용효과의 파악 등에 사용

예) 신용평가 모형

 

가지치기(Pruning)

과대적합 방지를위한 전략으로 최대 깊이나 터미널 노드의 최대 개수, 한 노드가 분할하기 위한 최소 데이터 수를 제한하는 것

 

불순도의 측도

목표변수가 범주형 변수인 경우 의사결정나무의 분류규칙을 선택하기 위하여 카이제곱 통계량, 지니지수, 엔트로피 지수를 활용

1) 카이제곱 통계량

   각 셀에 대한 ((실제도수-기대도수)의 제곱/기대도수)의 합

   기대도수 = 열의합계 X 합의 합계 / 전체 합계

 

2) 지니지수

    노드의 불순도를 나타내는 값
    어떤 집합에서 한 항목을 뽑아 무작위로 라벨을 추정할 때 틀릴 확률

    지니지수의 값이 클수록 순수도가 낮다

    

3) 엔트로피 지수

    무질서 정도에 대한 측도

    엔트로피 지수의 값이 클수록 순수도가 낮다

 

출처 : 데이터에듀 ADsP 데이터 분석 준전문가

 

의사결정나무 알고리즘

1) CART(Classification And Regression Trees)

  불순도의 측도로 출력변수가 범주형일 경우 지니지수를 이용, 연속형인 경우 분산을 이용한 이진분리를 사용

 

2) C4.5와 C5.0

  CART와는 달리 각 마디에서 multiple split이 가능하며 범주형 입력변수에 대해서는 범주의 수만큼 분리

  불순도의 측도로는 엔트로피지수 사용

 

3) CHAID

  가지치기를 하지 않고 적당한 단계에서 중지하며 입력변수가 반드시 범주형 변수여야함

  불순도의 측도로는 카이제콥 통계량 사용

 

[계산관련 참고 블로그]

blog.naver.com/laonple/220850892431

 

[머신러닝] 11. 머신러닝 학습 방법(part 6) - Decision Tree(1)

쉽게 읽는 머신 러닝 – 학습방법 (part 6) – Decision Tree(1) 현재 아마존 에코는 약 180$ 정도에 팔...

blog.naver.com

m.blog.naver.com/PostView.nhn?blogId=wonkim_sw-world&logNo=221422282798&proxyReferer=https:%2F%2Fwww.google.com%2F

 

관련글 더보기

댓글 영역