Pré-processamento de áudio
Neste exercício, você vai aprender a ajustar a taxa de amostragem dos dados de áudio e também a usar um pré-processador automático. Você vai trabalhar com o Corpus VCTK, que tem cerca de 44 horas de dados de fala de 110 falantes de inglês com vários sotaques.
O arquivo “ dataset ” já foi carregado.
Este exercício faz parte do curso
Modelos multimodais com Hugging Face
Instruções do exercício
- Reamostra o áudio para uma frequência de 16.000 Hz no conjunto de dados usando o método “
.cast_column()”. - Carregue o processador de áudio usando o modelo pré-treinado
openai/whisper-small. - Pré-processe os dados de áudio do primeiro ponto de dados, especificando a taxa de amostragem e
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))
# Load the audio processor
processor = ____
# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])