Pré-processamento de áudio
Neste exercício, você vai aprender a ajustar a taxa de amostragem de dados de áudio e a usar um pré-processador automático. Você vai trabalhar com o VCTK Corpus, que inclui cerca de 44 horas de fala gravadas por 110 falantes de inglês com vários sotaques.
O dataset já foi carregado.
Este exercício faz parte do curso
Modelos multimodais com Hugging Face
Instruções do exercício
- Faça o remuestreamento do áudio para uma frequência de 16.000 Hz no conjunto de dados usando o método
.cast_column(). - Carregue o processador de áudio usando o modelo pré-treinado
openai/whisper-small. - Pré-processe os dados de áudio do primeiro datapoint, especificando a mesma taxa de amostragem e
padding=True.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))
# Load the audio processor
processor = ____
# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])