Riconoscimento vocale automatico
In questo esercizio userai l'AI per trascrivere automaticamente l'audio in testo! Lavorerai di nuovo con il VCTK Corpus, che include circa 44 ore di parlato di persone anglofone con vari accenti. Userai il modello Whisper tiny di OpenAI, che contiene solo 37 milioni di parametri, per preprocessare i dati audio di VCTK e generare il testo corrispondente.
Il preprocessore audio (processor) è già stato caricato, così come il modulo WhisperForConditionalGeneration. Un campione audio (sample) è già disponibile.
Questo esercizio fa parte del corso
Modelli multi-modali con Hugging Face
Istruzioni dell'esercizio
- Carica il modello preaddestrato
WhisperForConditionalGenerationusando il checkpointopenai/whisper-tiny. - Preprocessa il campione
samplecon la frequenza di campionamento richiesta di16000. - Genera i token dal modello usando l'attributo
.input_featuresdegli input preprocessati.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None
# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)
# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)