ComeçarComece de graça

Pré-processamento de áudio

Neste exercício, você vai aprender a ajustar a taxa de amostragem dos dados de áudio e também a usar um pré-processador automático. Você vai trabalhar com o Corpus VCTK, que tem cerca de 44 horas de dados de fala de 110 falantes de inglês com vários sotaques.

O arquivo “ dataset ” já foi carregado.

Este exercício faz parte do curso

Modelos multimodais com Hugging Face

Ver curso

Instruções do exercício

  • Reamostra o áudio para uma frequência de 16.000 Hz no conjunto de dados usando o método “ .cast_column() ”.
  • Carregue o processador de áudio usando o modelo pré-treinado openai/whisper-small.
  • Pré-processe os dados de áudio do primeiro ponto de dados, especificando a taxa de amostragem e

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Resample the audio to a frequency of 16,000 Hz
dataset = dataset.____("____", ____(sampling_rate=____))

# Load the audio processor
processor = ____

# Preprocess the audio data of the 0th dataset element
audio_pp = ____(dataset[0]["audio"]["array"], sampling_rate=____, padding=True, return_tensors="pt")
make_spectrogram(audio_pp["input_features"][0])
Editar e executar o código