TTS 모델 조사

Jiwon Kim

|2024. 1. 28. 18:26

https://huggingface.co/microsoft/speecht5_tts

microsoft/speecht5_tts · Hugging Face

👩‍🎤 Matthijs/speecht5-tts-demo 🚀 Zhenhong/text-to-speech-SpeechT5-demo 🏆 course-demos/speech-to-speech-translation 🚀 Sandiago21/speech-to-speech-translation-german 🚀 Sandiago21/speech-to-speech-translation-italian 🚀 Sandiago21/text-t

huggingface.co

급하게 리서치 할 것이 생겨서

잠시 강의 듣기는 보류

SpeechT5 model :

- 음성 합성을 위해서 파인튜닝됨

- 데이터셋 : Libri TTS

- 발표논문 : https://arxiv.org/abs/2110.07205

- NLP 모델 중 사전훈련된 모델인 T5 (Text-To-Text Transfer Transformer)에서 unified-modal SpeechT5 framework로 제안됨

- SpeechT5 framework: encoder-decoder network와 여섯 개의 modal specific (음성/텍스트) 전/후처리 네트워크(pre/post-nets)로 구성

- (1) Preprocessing : 입력된 음성/텍스트는 먼저 전처리 네트워크(pre-nets)를 통해 전처리됨

- (2) Shared encoder-decoder network : sequence-to-sequence 변환

- (3) Generate output : 디코더의 출력을 기반으로 후처리 네트워크(post-nets)가 음성/텍스트 output을 출력 (후처리)

- 라벨 없는 큰 데이터셋 활용 : SpeechT5는 라벨링이 안되어 있는 많은 양의 음성 및 텍스트 데이터를 사용하여 사전 훈련됨. 이러한 방식은 모델이 다양한 유형의 데이터에서 유용한 특성과 패턴을 스스로 학습할 수 있도록 합니다.

- Unified modal representation : 모델은 음성과 텍스트 데이터를 모두 처리할 수 있는 단일 통합 표현을 학습하는 것을 목표로 함. 이는 두 모달리티 간의 공통된 의미적 특성을 파악하고 활용할 수 있게 함.

- Cross-modal vector quantization approach : 음성과 텍스트 데이터를 통합 의미 공간 내에서 정렬하기 위한 기술, 이 방식은 인코더와 디코더 사이에 위치하는 잠재 유닛을 통해 음성 및 텍스트의 상태를 섞는 것을 포함함. 이는 모델이 두 모달리티 사이에서 보다 효과적으로 정보를 전달하고 변환할 수 있게 함.

파인 튜닝 핸즈온 실습 (허깅페이스 모델페이지 제공)

[ Load the model ]

- from transfomers import SpeechT5Processor, SpeechT5ForTextToSpeech

- 문자처리 : SpeechT5Processor ( SpeechT5FeatureExtractor + SpeechT5Tokenizer )

- 모델 : SpeechT5ForTextToSpeech ( 트랜스포머 모델 )

[ Dataset for fine-tuning ]

- 현재 SpeechT5는 영어 음성으로만 train이 되어있음

- VoxPopuli라는 데이터셋 : 오디오-텍스트 15개 국어 스피치 데이터 제공

- 여기서 Dutch만 뽑아서 fine-tuning을 목표로 함 (20,968개인데 이 정도면 충분한 갯수)

- cf ) VoxPopuli같은 ASR(automatic speech recognition) dataset이 꼭 tts training을 위한 최적의 데이터셋인 것은 아님. ASR 데이터셋이 잘 먹힐려면 오디오에 노이즈 비율이 적은지.. 등이 중요한 요소임. 그런데 여러 국어, 여러 발화자가 다 포함되어 있는 tts dataset으로 괜찮은게 ASR dataset만한게 없다고 함

- 오디오 데이터에는 'sampling rate'라는 것이 있는데 간략히 설명하자면 1초에 몇 번 샘플링하냐? 를 정의하는 개념임. Speech T5의 경우에는 16kHz로 설정해야 함.

- Dataset 구조 :

[ Clean up the text ]

- 현재 SpeechT5는 영어 음성으로만 train이 되어있기 때문에 우리가 새롭게 가져온 데이터셋에 SpeechT5Tokenizer vocabulary (현재 vocab size 79)에 없는 문자들이 포함되어 있을 거임 : 그래서 이런 것들은 <unk> token으로 추가해야함

- dataset에 현재 raw_text가 있고 normalized_text가 있는데 normalized_text는 약어 등을 문법적으로 고쳐놓거나, 숫자를 문자로 바꿔놓거나(18을 eighteen), 대문자를 모두 소문자로 변환해놓는 등의 정규화 과정이 거쳐진 text이다.

- normalized_text에서 원래 speecht5tokenizer vocabulary에 없는 문자들을 바꾼다

[ Speakers ]

- VoxPopuli 데이터셋은 multi-speaker dataset임

- 발화자에 따라 발화 데이터 갯수를 카운트해보면 발화자의 1/3 정도는 100개 이하로 샘플을 갖고 있음을 알 수 있음

- 나머지 한 10명정도가 대부분의 샘플 (500개 이상씩), 그래서 현재 샘플 중에 100~400개의 샘플들을 말하는 발화자로 데이터를 고름

(그러면 발화자가 42명, 샘플 수는 9973개 남음 : 절반 날리긴 했는데 충분하다고 판단)

- 발화길이가 너무 긴 샘플도 지우면 좋음 (여기선 생략)

[ Speaker Embeddings ]

- 목적 : TTS model이 multiple speakers들의 음성을 구분하도록 한다.

- 방법 : 발화자별로 embedding을 만든다.

- 어떻게? : SpeechBrain의 spkrec-xvect-voxceleb model 이용 : input으로 오디오 파형을 받으면 output으로 512 크기의 벡터를 내뱉음

- 'create_speaker_embedding' 함수 구성 (input : waveform / output : speaker_embeddings)

- cf ) 사실 위 모델은 영어 데이터셋으로 학습된 모델이라 dutch 데이터셋으로 학습된 X-vector 모델을 사용한다면 더 좋을 것

[ Preparing the dataset ]

- 'prepare_dataset' 함수 구성 : "SpeechT5Processor"를 이용해서 input text를 토큰화, target audio를 log-mel spectrogram으로 변환

- input : 위에서 준비한 dataset (Dataset 구조 사진 참고)

- output : 'input_ids' (input text가 토큰화된 것) / 'speaker_embeddings' (발화자 음성 임베딩된 것) / 'labels' (target spectrogram)

- TTS는 processor + model + vocoder의 일련의 과정을 거치는데, 여기서 위의 output의 'labels'(멜스펙트로그램)을 vocoder에 돌리면 원래의 오디오가 생성된다.

- SpeechT5HifiGan (HiFi-GAN vocoder) 로드해서 보코더로 돌리면 음성이 들림

- 우리가 사용하는 SpeechT5 model은 maximum input length가 600 token이기 때문에 그거보다 넘는것은 제거해줘야 함. (핸즈온에서는 배치 사이즈를 더 크게 만들기 위해서 200 token 넘는 sample들을 모두 제거함 : 최종 sample 8259개 남음)

[ Collate Function to make batches ]

- 패딩 토큰으로 패딩

- spectrogram label로는 패딩된 부분을 '-100'으로 대체 (이후 loss 계산시 무시됨)

[ Training ]

- model checkpoint 내 huggingface repo로 push (이거 계속 에러나서 디버깅 해야함)

- Huggingface 'Trainer' 클래스 이용

'Study > 딥러닝' 카테고리의 다른 글

Batch Normalization (1)	2023.12.19
Regularization (0)	2023.12.17
Pytorch Tensorboard (1)	2023.12.12
파이토치 (1)	2023.12.11
Weight Initialization (1)	2023.10.22

TTS 모델 조사

'Study > 딥러닝' 카테고리의 다른 글

티스토리툴바