Reconnaissance vocale automatique

Dans cet exercice, vous utiliserez l'IA pour transcrire automatiquement un fichier audio en texte. Vous travaillerez à nouveau avec le corpus VCTK, qui comprend environ 44 heures d'enregistrements vocaux réalisés par des locuteurs anglophones présentant divers accents. Vous utiliserez le modèle compact Whisper d'OpenAI, qui ne contient que 37 millions de paramètres, pour prétraiter les données audio VCTK et générer le texte correspondant.

Le préprocesseur audio (processor) a été chargé, tout comme le module WhisperForConditionalGeneration. Un exemple de point de données audio (sample) a déjà été chargé.

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

Afficher le cours

Instructions

Chargez le modèle pré-entraîné WhisperForConditionalGeneration à l'aide du point de contrôle openai/whisper-tiny.
Pré-traitez le point de données « sample » avec la fréquence d'échantillonnage requise de 16000.
Générez les jetons à partir du modèle en utilisant l'attribut « .input_features » des entrées prétraitées.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the pretrained model
model = ____
model.config.forced_decoder_ids=None

# Preprocess the sample audio
input_preprocessed = ____(____, sampling_rate=____, return_tensors="pt", return_attention_mask=True)

# Generate the IDs of the recognized tokens
predicted_ids = ____
transcription = processor.decode(predicted_ids[0], skip_special_tokens=True)
print(transcription)

Modifier et exécuter le code

Cet exercice fait partie du cours

Modèles multimodaux avec Hugging Face

IntermédiaireNiveau de compétence

4.9+

Commencer le cours gratuitement

Explorez le hub de modèles Hugging Face, transformez du texte brut, des données audio et visuelles en formats compatibles avec l'IA. Découvrez comment trouver les modèles les plus récents et les plus populaires pour des tâches telles que la génération de texte et exploitez la puissance des pipelines préconfigurés.

Exercise 1: Navigation dans le modèle Hugging Face Exercise 2: Combien de modèles ?Exercise 3: Identification du modèle de conversion texte-image le plus populaire Exercise 4: Prétraitement de différentes modalités Exercise 5: Tokenisation de texte Exercise 6: Traitement préalable des images Exercise 7: Prétraitement audio Exercise 8: Tâches et évaluations du pipeline Exercise 9: Génération de légendes pour les pipelines Exercise 10: Transmission d'arguments clés Exercise 11: Évaluation du modèle sur un ensemble de données personnalisé

Apprenez à maîtriser les différentes modalités grâce à des modèles de pointe. Plongez dans la vision par ordinateur pour la classification et la segmentation d'images, explorez la reconnaissance vocale et la synthèse vocale, et découvrez des techniques de réglage fin efficaces. Développez des compétences pratiques grâce aux modèles pré-entraînés de la bibliothèque de transformateurs Hugging Face.

Exercise 1: Vision par ordinateur Exercise 2: Classification d'images Exercise 3: Détection d'objets Exercise 4: Suppression de l'arrière-plan d'une image Exercise 5: Ajustement des modèles de vision par ordinateur Exercise 6: Optimisation du CV : préparation de l'ensemble de données Exercise 7: Ajustement du CV : classes de modèles Exercise 8: Ajustement du CV : configuration du formateur Exercise 9: Reconnaissance vocale et génération audio Exercise 10: Reconnaissance vocale automatique

Exercice en cours

Exercise 11: Création d'intégrations vocales Exercise 12: Débruitage audio Exercise 13: Optimisation des modèles de synthèse vocale Exercise 14: Optimisation d'un modèle de synthèse vocale Exercise 15: Génération de nouveaux discours

Apprenez à fusionner des informations visuelles, textuelles et audio pour enrichir vos applications d'IA. Maîtrisez des techniques telles que CLIP pour la classification sans apprentissage, développez des analyseurs de sentiments capables de voir et de lire, et créez des détecteurs d'émotions qui combinent les expressions faciales et la voix. Dépassez la pensée monomodale avec vos modèles d'IA.

Exercise 1: Classification d'images sans apprentissage préalable Exercise 2: Apprentissage sans données d'entraînement avec CLIP Exercise 3: Évaluation automatisée de la qualité des sous-titres Exercise 4: Analyse multimodale des sentiments Exercise 5: Modèles de langage visuel incitatif (VLMs)Exercise 6: Classification multimodale des sentiments avec Qwen Exercise 7: Classification vidéo sans apprentissage préalable Exercise 8: Séparation audio-vidéo Exercise 9: Analyse des sentiments dans les vidéos avec CLIP CLAP

Transformez vos idées en réalité ! Maîtrisez les techniques d'IA de pointe pour générer et manipuler du contenu visuel à partir de suggestions textuelles. Créez des images exceptionnelles, modifiez vos photos de manière intelligente et développez des systèmes performants de questions-réponses pour les images et les documents. Transformez votre vision créative en réalité numérique grâce à l'IA multimodale.

Exercise 1: Réponse visuelle à une question (VQA)Exercise 2: VQA avec des transformateurs de langage visuel (ViLT)Exercise 3: VQA de documents avec LayoutLM Exercise 4: Édition d'images à l'aide de modèles de diffusion Exercise 5: Modification personnalisée des images Exercise 6: Restauration d'images Exercise 7: Génération de vidéos Exercise 8: Créez une vidéo !Exercise 9: Évaluation des performances de génération vidéo Exercise 10: Félicitations !