no image
SQL : Delete
2023.10.05
no image
SQL : Update
Update 명령문의 syntax는 위와 같이 UPDATE (테이블명) SET (컬럼명=값) WHERE (조건) 먼저 조건 없이 update하는 예시를 보자. (특정 행에 대해 값을 업데이트하라는 where절 조건이 주어지지 않으면, 그냥 해당 컬럼의 모든 행에 대해 update가 된다) 이번엔 조건이 있을 때 !
2023.10.05
no image
SQL : Insert
INSERT 테이블에 데이터를 추가할 때 이용하는 명령어
2023.10.05
no image
앙상블 학습 - Bagging
앙상블 학습 : 여러 개의 분류기를 생성하고 그 예측을 결합 - 보다 정확한 예측을 도출 목표 : 다양한 분류기의 예측 결과를 결합하여 단일 분류기의 예측 결과보다 신뢰성을 높임 유형 : ▶ 보팅 : 서로 다른 알고리즘을 가진 분류기가 동일 데이터 셋을 가지고 투표로 최종 예측 결과 결정 (hard/soft) ▶ 배깅 : 서로 같은 알고리즘을 가진 분류기가 각각 다른 데이터 샘플링으로 투표를 통해 최종 예측 결과 결정 ▶ 부스팅 : 여러 분류기가 순차적으로 학습을 진행하면서 앞의 분류기가 틀리게 예측한 데이터에 가중치를 부여하면서 학습 진행 Bagging의 대표적인 알고리즘 : Randomforest ▶ decision tree(통계적 가정 X, 비모수)를 기본 모델로 이용 ▶ 여러 개의 decision..
2023.09.25
Decision Tree : 가지치기 (pruning)에 대하여
가지치기에는 크게 2 종류가 있다. 가지치기는 과적합을 막아 새로운 데이터 (test data set)에 대한 실제 예측 정확성을 높임을 목표로 한다. 1. 사전 가지치기 (Pre-Pruning) 결정 트리가 다 자라기 전에 알고리즘을 멈추는 방법 나무의 최대 깊이 (max_depth), 잎의 최대 개수 (max_leaf_nodes), 노드가 분할하기 위한 데이터의 최소 개수 (min_samples_split) 등을 제어한다. 2. 사후 가지치기 (Post-Pruning) 결정 트리를 끝까지 그린 후 밑에서부터 가지를 쳐내는 방법 리프 노드의 불순도가 0인 상태의 트리를 생성한 후, 적절한 수준에서 리프노드를 결합한다. 여기서 내가 궁금했던 점 Q. 사후 가지치기에서 유의미하지 않은 노드를 정리하는데, ..
2023.09.15
no image
Decision Tree : scikit learn의 feature_importances_는 어떻게 계산된 것일까? + Permutation Importance
they are computed as the mean and standard deviation of accumulation of the impurity decrease within each tree - scikit-learn page- 피처가 트리 분할 시 지니 계수(불순도)를 얼마나 효율적으로 잘 개선시켰는지를 정규화된 값으로 표현한 것. 1. feature importance를 왜 알아야 하는가? AI model에는 해석가능한 모델의 특성과 (Interpretability) 설명가능한 모델의 특성이 (Explainability) 있다. Interpretability in AI: ability to understand the decision-making process of an AI model 왜 그 ..
2023.09.08
no image
Decision Tree : 데이터 분할에서 '균일도'(impurity)에 대하여
결정트리가 데이터를 split하는 기본 원리는 '균일도'를 기본으로 함. '균일도' 또는 '혼잡도'를 나타내기 위해 사용하는 지표들 중 (1) 엔트로피 (entropy) 과 (2) 지니계수 (gini index)에 대해 다뤄보겠다. 내가 decision tree를 구현하기 위해서 사용하고 있는 scikit-learn에서는 CART 알고리즘을 이용하고, CART 알고리즘은 지니계수를 이용하여 데이터를 split함. Tree Algorithms : ID3, C4.5, C5.0, CART ID3 : creates a multiway tree, finding for each node (i.e. in a greedy manner) the categorical feature that will yield the la..
2023.09.07
no image
PR Graph 성능 평가
Precision - Recall curve analysis 궁금한 점 : AUC는 비교할 수 있는 지표 (기준으로 Random Classifier : 0.5) 가 있는데, PR Curve는 ? 먼저 위와 같이 베이즈 정리를 이진분류기에 적용해보자 . 만약 우리의 classifier가 random classifier이라면 실제 class가 positive인 사건과 (Y=1) classifier가 positive로 예측하는 사건 (Y'=1)이 독립이므로 정확히 실제 전체 데이터 수 대비 positive인 데이터의 수 비율만큼 positive 예측한 데이터가 실제로 positive이게 되므로, 이 때 precision은 P/N으로 constant하게 된다. 이렇게 y-axis (precision)이 일정한 ..
2023.09.07
no image
SQL : Joins with Comparison Operators
JOIN 기능을 이용할 때, ON 절과 comparison operators를 이용하여 어떠한 조건문이라도 추가할 수 있다. 참고자료에서 나온 예시를 활용하자면, SELECT ~~ FROM companies LEFT JOIN investments ON companies. key1 = investments. key2 AND investments.funded_year >= companies.founded_year + 5 위 쿼리는 companies 라는 테이블과 investments 라는 테이블을 연결짓는데 investments에서 funded된 년도가 companies에서 설립된 연도보다 5년 이상 지난 년도인만 행만 골라 left join 하겠다는 의미이다. 이는 그냥 WHERE 절로 조건을 주는 것과와..
2023.07.20