no image
WandB 사용법
출처 : 1. https://pebpung.github.io/wandb/2021/10/06/WandB-1.html 2. https://aws.amazon.com/ko/what-is/mlops/ 3.https://colab.research.google.com/github/wandb/examples/blob/master/colabs/intro/Intro_to_Weights_&_Biases.ipynb#scrollTo=R_sPncPab9d6 4.https://colab.research.google.com/github/wandb/examples/blob/master/colabs/huggingface/Optimize_Hugging_Face_models_with_Weights_&_Biases.ipynb#scrollT..
2024.03.02
no image
LoRA ( w/ Huggingface 🤗 PEFT)
대규모 training data set으로 훈련된 foundation model은 prompt engineering으로 잘 활용할 수 있지만, 활용하고자 하는 분야가 매우 domain-specific 하는 등의 경우에서는 모델을 customizing해야 할 필요가 있다. 이처럼 domain/task-specific 할 때, foundation model의 performance를 개선하기 위한 방법으로 (작은) data set으로 모델을 추가로 훈련하는 방법이 있다. 이게 바로 fine-tuning인데, fine-tuning도 그냥 하면 문제가 뭐냐. LLM을 SFT하는데 그 많은 파라미터들을 다 파인튜닝하면서 모든 모델 가중치를 수정한다고 생각해보자. (예를 들어 Llama-2는 최소 7B임) compu..
2024.02.11
no image
TTS 모델 조사
https://huggingface.co/microsoft/speecht5_tts microsoft/speecht5_tts · Hugging Face 👩‍🎤 Matthijs/speecht5-tts-demo 🚀 Zhenhong/text-to-speech-SpeechT5-demo 🏆 course-demos/speech-to-speech-translation 🚀 Sandiago21/speech-to-speech-translation-german 🚀 Sandiago21/speech-to-speech-translation-italian 🚀 Sandiago21/text-t huggingface.co 급하게 리서치 할 것이 생겨서 잠시 강의 듣기는 보류 SpeechT5 model : - 음성 합성을 위해서 파인튜닝됨..
2024.01.28
[cs224n] Lecture3 - Backprop and Neural Networks
본격적으로 Neural Network에 대한 이야기를 하기 전에 neural network가 사용되는 nlp task를 보면서 넘어가자고 한다. Named Entity Recognition 오 일하면서 지겹도록 듣는 ner이다. NER task는 텍스트에서 인명, 지명과 같은 고유명사를 찾아, 분류하는 태스크이다. 예를 들어, 다음과 같은 두 문장이 있다고 하자. ① Last night, Paris (PER) Hilton (PER) wowed in a sequin gown. ② Samuel (PER) Quinn (PER) was arrested in the Hilton (LOC) Hotel (LOC) in Paris (LOC) in April (DATE) 1989 (DATE). → 여기서 두 문장은 전혀..
2024.01.21
no image
[cs224n] Lecture2 - Word Vectors and Language Models
이번 강의는 지난 1강에 이어서 계속 워드 임베딩 방법론에 대해서 설명한다. lecture1에서 워드 임베딩이 필요한 이유, 워드 벡터와 워드 임베딩이 무엇인지, 그리고 Word2vec의 개념과 훈련 방법에 대해서 쭉 설명한다. lecture2 초반부에서 lec1에 다 못한 설명을 이어서 하는데 그 설명은 이전글에 연결해서 작성했다. 여기서부터는 word2vec model의 방법 중 skip-gram(이하 SG)와 CBOW, 카운트 기반 방법론(LSA), 그리고 마지막으로 어떻게 GloVe까지 등장했는지까지의 설명을 작성한다. Word2vec : Skip-grams & CBOW ■ Word2vec maximizes objective function by putting similar words nearby..
2024.01.14
no image
[cs224n] Lecture1 - Word Vectors
Human Language and Word Meaning ■ How do we represent the meaning of a word? ■ How do we have usable meaning in a computer? : WordNet 그런데, 어떻게 컴퓨터에 'tree'를 'tree가 나타내는 것들'을 연결해서 입력시켜주지? 전통적 NLP Solution : Use Wordnet, a thesaurus containing list of synonym sets and hypernyms (relationship) WordNet의 한계 : 뉘앙스를 놓치는 경우, 새로운 단어, 의미 (신조어) 등록 x, 주관적, 정확한 단어 유사도 측정이 불가능 ■ Representing words as discrete ..
2024.01.07
Batch Normalization
https://arxiv.org/abs/1502.03167 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift Training Deep Neural Networks is complicated by the fact that the distribution of each layer's inputs changes during training, as the parameters of the previous layers change. This slows down the training by requiring lower learning rates and careful param arxiv.org ▲ bat..
2023.12.19
no image
Regularization
1. Regularization for Neural Networks - 학습 데이터의 일반적인 패턴 뿐만 아니라 노이즈까지 적합이 된다면? - 과적합 시 학습 데이터셋에 대해서는 loss가 계속 낮아지지만 평가 데이터셋에 대해서는 loss가 다시 높아지기 시작 - 고차원 데이터나 노이즈가 많은 데이터일수록 과적합에 유의해야 함 - 모델이 불필요하게 복잡할수록 과적합될 가능성이 높아짐 - adding an additional penalty term in the objective function (loss function) - 모델이 너무 복잡하기 않도록 regularize하는 작업 - weight가 작아지는 방향으로, 아예 필요하지 않다면 아예..
2023.12.17
no image
ChatGPT Prompt Engineering for Developers : Chatbot
2023.12.14 - [Study/LLM] - ChatGPT Prompt Engineering for Developers : Usage (2) 이어서 ~ 마지막으로 customized Chatbot 만들기랑, OpenAI [ Text Generation ] Documentation 살펴보고 마무리. Chatbot 가장 최근 openai로 업그레이드해서 버전 체크했을 때 나오는 결과 api key 발급받아서 Chat Completions API 호출하는 과정 강의는 옛날 버전 `0.27.0` 이라서 openai.ChatCompletion.create( )으로 호출하는 것을 보여주는데 내가 하고 있는 버전 `1.3.8`은 client.chat.completion.create( )으로 호출해야 했다. 그리고..
2023.12.15