IniziaInizia gratis

Riconoscimento vocale automatico

In questo esercizio userai l'AI per trascrivere automaticamente l'audio in testo! Lavorerai di nuovo con il VCTK Corpus, che include circa 44 ore di parlato di persone anglofone con vari accenti. Userai il modello Whisper tiny di OpenAI, che contiene solo 37 milioni di parametri, per preprocessare i dati audio di VCTK e generare il testo corrispondente.

Il preprocessore audio (processor) è già stato caricato, così come il modulo WhisperForConditionalGeneration. Un campione audio (sample) è già disponibile.

Questo esercizio fa parte del corso

Modelli multi-modali con Hugging Face

Visualizza il corso

Istruzioni dell'esercizio

  • Carica il modello preaddestrato WhisperForConditionalGeneration usando il checkpoint openai/whisper-tiny.
  • Preprocessa il campione sample con la frequenza di campionamento richiesta di 16000.
  • Genera i token dal modello usando l'attributo .input_features degli input preprocessati.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None

# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)

# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)
Modifica ed esegui il codice