Decision Tree : 데이터 분할에서 '균일도'(impurity)에 대하여
결정트리가 데이터를 split하는 기본 원리는 '균일도'를 기본으로 함. '균일도' 또는 '혼잡도'를 나타내기 위해 사용하는 지표들 중 (1) 엔트로피 (entropy) 과 (2) 지니계수 (gini index)에 대해 다뤄보겠다. 내가 decision tree를 구현하기 위해서 사용하고 있는 scikit-learn에서는 CART 알고리즘을 이용하고, CART 알고리즘은 지니계수를 이용하여 데이터를 split함. Tree Algorithms : ID3, C4.5, C5.0, CART ID3 : creates a multiway tree, finding for each node (i.e. in a greedy manner) the categorical feature that will yield the la..
2023.09.07