no image
Loss function & Optimization
Q . How to set the values in W parameters? Machine Learning : data-driven approach we(human) just design the form of our model (eg. f(W,x) = Wx ), and initialize the parameter value (W) randomly (초기화만 우리가, 정해주는건 machine이) then, find a training data X to estimate the label (y hat) compare our estimation (y hat) to ground truth label (y), estimating how good/bad we are currently (=Loss Function) u..
2023.10.11
no image
Linear & Softmax Classifiers
Linear Classifier 32*32 픽셀의 이미지에 대해서 R/G/B 별로 색이 지정된다고 생각하고 Input 이미지에 대해서 라벨링을 하는 과정 (label y : Output) x (input) 을 linear 함수 f 에 넣어서 각 레벨별로 점수를 산출한다. x 와 가중치 W를 내적곱 하면 아래 그림과 같이 곱해질 것이다. 지금부터는 아래 도식과 같이 bias 'b'를 따로 빼지 않고 가중치 'W'안에 열로 넣어줘서 한번에 볼 것이다. (학습 데이터 x에는 1값의 행을 한 줄 추가해줘서 가중치에 추가된 열과 곱해지게 만든다) 다시 이미지가 있다고 생각하고 예시를 들어보면 아래와 같음. 최종 linear classifier model : f (x,W) = Wx Advantages of para..
2023.10.09
no image
SQL : Delete
2023.10.05
no image
SQL : Update
Update 명령문의 syntax는 위와 같이 UPDATE (테이블명) SET (컬럼명=값) WHERE (조건) 먼저 조건 없이 update하는 예시를 보자. (특정 행에 대해 값을 업데이트하라는 where절 조건이 주어지지 않으면, 그냥 해당 컬럼의 모든 행에 대해 update가 된다) 이번엔 조건이 있을 때 !
2023.10.05
no image
SQL : Insert
INSERT 테이블에 데이터를 추가할 때 이용하는 명령어
2023.10.05
no image
앙상블 학습 - Bagging
앙상블 학습 : 여러 개의 분류기를 생성하고 그 예측을 결합 - 보다 정확한 예측을 도출 목표 : 다양한 분류기의 예측 결과를 결합하여 단일 분류기의 예측 결과보다 신뢰성을 높임 유형 : ▶ 보팅 : 서로 다른 알고리즘을 가진 분류기가 동일 데이터 셋을 가지고 투표로 최종 예측 결과 결정 (hard/soft) ▶ 배깅 : 서로 같은 알고리즘을 가진 분류기가 각각 다른 데이터 샘플링으로 투표를 통해 최종 예측 결과 결정 ▶ 부스팅 : 여러 분류기가 순차적으로 학습을 진행하면서 앞의 분류기가 틀리게 예측한 데이터에 가중치를 부여하면서 학습 진행 Bagging의 대표적인 알고리즘 : Randomforest ▶ decision tree(통계적 가정 X, 비모수)를 기본 모델로 이용 ▶ 여러 개의 decision..
2023.09.25
Decision Tree : 가지치기 (pruning)에 대하여
가지치기에는 크게 2 종류가 있다. 가지치기는 과적합을 막아 새로운 데이터 (test data set)에 대한 실제 예측 정확성을 높임을 목표로 한다. 1. 사전 가지치기 (Pre-Pruning) 결정 트리가 다 자라기 전에 알고리즘을 멈추는 방법 나무의 최대 깊이 (max_depth), 잎의 최대 개수 (max_leaf_nodes), 노드가 분할하기 위한 데이터의 최소 개수 (min_samples_split) 등을 제어한다. 2. 사후 가지치기 (Post-Pruning) 결정 트리를 끝까지 그린 후 밑에서부터 가지를 쳐내는 방법 리프 노드의 불순도가 0인 상태의 트리를 생성한 후, 적절한 수준에서 리프노드를 결합한다. 여기서 내가 궁금했던 점 Q. 사후 가지치기에서 유의미하지 않은 노드를 정리하는데, ..
2023.09.15
no image
Decision Tree : scikit learn의 feature_importances_는 어떻게 계산된 것일까? + Permutation Importance
they are computed as the mean and standard deviation of accumulation of the impurity decrease within each tree - scikit-learn page- 피처가 트리 분할 시 지니 계수(불순도)를 얼마나 효율적으로 잘 개선시켰는지를 정규화된 값으로 표현한 것. 1. feature importance를 왜 알아야 하는가? AI model에는 해석가능한 모델의 특성과 (Interpretability) 설명가능한 모델의 특성이 (Explainability) 있다. Interpretability in AI: ability to understand the decision-making process of an AI model 왜 그 ..
2023.09.08
no image
Decision Tree : 데이터 분할에서 '균일도'(impurity)에 대하여
결정트리가 데이터를 split하는 기본 원리는 '균일도'를 기본으로 함. '균일도' 또는 '혼잡도'를 나타내기 위해 사용하는 지표들 중 (1) 엔트로피 (entropy) 과 (2) 지니계수 (gini index)에 대해 다뤄보겠다. 내가 decision tree를 구현하기 위해서 사용하고 있는 scikit-learn에서는 CART 알고리즘을 이용하고, CART 알고리즘은 지니계수를 이용하여 데이터를 split함. Tree Algorithms : ID3, C4.5, C5.0, CART ID3 : creates a multiway tree, finding for each node (i.e. in a greedy manner) the categorical feature that will yield the la..
2023.09.07