본문 바로가기
IT/IT-머신러닝(기초)

의사결정 나무(Decision Tree)

by onfact 2022. 2. 23.

 

의사결정 나무(Decision Tree)

 

의사결정나무는 분류와 회귀 문제를 해결하기 위한 예측 모델링 도구입니다. 이름에서 알 수 있듯이, 이 방법은 결정을 내리는 과정을 나무와 같은 구조로 나타냅니다. 나무의 뿌리에서 시작하여, 데이터의 특성에 따라 다른 결정 경로를 따라 이동하며, 마지막으로 나뭇잎(결정 노드)에서 결론에 도달합니다.

- 기계학습의 대표적인 분류 기법

목표 변수의 범주를 기준으로 동일한 범주의 데이터들끼리 분류하는 규칙을 반복적으로 만들어가는 방안 

□ 의사결정 나무의 장점

이해하기 쉬움: 의사결정 나무는 그 구조가 직관적이며, 비전문가도 쉽게 이해할 수 있습니다.
데이터 전처리 요구가 적음: 다른 알고리즘에 비해 누락된 값이나 데이터 스케일링에 대해 비교적 민감하지 않습니다.
분류와 회귀 모두에 사용 가능: 하나의 알고리즘으로 다양한 유형의 데이터 문제를 해결할 수 있습니다.

□ 의사결정 나무의 단점

과적합의 위험: 복잡한 트리는 훈련 데이터에 과적합되어, 새로운 데이터에 대한 일반화 성능이 저하될 수 있습니다.
결정 경계의 한계: 모든 결정 경계가 축에 평행하므로, 일부 문제에서는 최적의 결정 경계를 찾는 데 제한적일 수 있습니다.

 

 

지니 계수

 

지니 계수는 0과 1 사이의 값으로 표현되며, 사회적 경제적 불평등을 측정하는 데 사용됩니다. 이 계수는 이탈리아의 통계학자인 코라도 지니(Corrado Gini)에 의해 개발되었습니다. 값이 0에 가까울수록 완벽한 평등을 의미하며, 1에 가까울수록 완벽한 불평등을 나타냅니다.

□ 지니 계수의 경제학 응용

경제학자들은 지니 계수를 사용하여 국가 간 또는 같은 국가 내에서 시간이 지남에 따른 소득 또는 부의 불평등 정도를 비교합니다. 이를 통해 정책 입안자들은 불평등을 줄이기 위한 정책을 개발하고 평가할 수 있습니다

□ 지니 계수의 한계

지니 계수는 불평등을 측정하는 유용한 도구이지만 몇 가지 한계가 있습니다. 예를 들어, 인구 내 소수의 매우 높은 소득이나 매우 낮은 소득이 전체 지니 계수에 미치는 영향은 제한적일 수 있습니다. 또한, 지니 계수는 소득의 원천이나 부의 종류(예: 금융 자산 대 부동산)를 구분하지 않으며, 지역 간 불평등은 반영하지 않습니다

 

 

노드의 순수도가 가장 높아지는 경우(변수 나누기) 찾기

 

 

 

엔트로피 

 

엔트로피(Entropy)는 물리학, 정보 이론, 화학, 그리고 다른 과학 분야에서 다양한 의미로 사용되지만, 근본적으로는 시스템의 무질서도나 불확실성을 측정하는 데 사용되는 개념입니다.

엔트로피 = 정보의양 

크면 클 수록 무질서, 작아지면 순수

 

엔트로피가 줄어들면 정보이득이 큰거

정보 이득이 가장 큰 분할을 선택해서 

의사결정나무를 생성.

 

 

 

 

 

 

 

정보이득은

부모 노드 엔트로피와 자식 노드 엔트로피의 차이다

0.9967 - 0.9688 = 0.0279

 

이러한 방법을 계속해서

더 이상 노드가 나뉘지 않을때까지 반복하는 과정이

의사결정 나무.

'IT > IT-머신러닝(기초)' 카테고리의 다른 글

R 파이프 연산자  (0) 2022.02.26
장바구니 분석  (0) 2022.02.26
로지스틱 회귀분석  (0) 2022.02.26
A/B테스트 - 선호도 조사  (0) 2022.02.21
군집화-부분집합  (0) 2022.02.16