Plusieurs interlocuteurs 2

Distinguer plusieurs interlocuteurs dans un même fichier audio s’appelle la diarisation des locuteurs. Cependant, comme vous l’avez constaté, la fonction gratuite que nous utilisons, recognize_google(), ne sait pas transcrire différents locuteurs.

Une solution, sans recourir à un service payant de reconnaissance vocale, consiste à s’assurer que vos fichiers audio ne contiennent qu’un seul locuteur.

Cela signifie que, si vous travaillez sur des données d’appels téléphoniques, vous veillerez à enregistrer séparément l’appelant et le destinataire. Vous pourrez ensuite transcrire chaque fichier individuellement.

Dans cet exercice, nous allons transcrire séparément chacun des locuteurs présents dans notre fichier audio avec plusieurs interlocuteurs.

Cet exercice fait partie du cours

<cours>Traitement du langage parlé en Python</cours>

Instructions de l’exercice

Passez speakers à la fonction enumerate() pour itérer sur les différents locuteurs.
Appelez record() sur recognizer pour convertir les AudioFile en AudioData.
Utilisez recognize_google() pour transcrire chacun des objets speaker_audio.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

recognizer = sr.Recognizer()

# Multiple speakers on different files
speakers = [sr.AudioFile("speaker_0.wav"), 
            sr.AudioFile("speaker_1.wav"), 
            sr.AudioFile("speaker_2.wav")]

# Transcribe each speaker individually
for i, speaker in enumerate(____):
    with speaker as source:
        speaker_audio = recognizer.____(source)
    print(f"Text from speaker {i}:")
    print(recognizer.____(____,
         				  language="en-US"))

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Traitement du langage parlé en Python</cours>

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Les fichiers audio diffèrent de la plupart des autres types de données. Avant de pouvoir les exploiter, un prétraitement est nécessaire. Dans ce chapitre, vous apprendrez les premières étapes pour travailler avec des fichiers de parole en convertissant deux fichiers audio en ondes sonores et en les comparant visuellement.

Exercise 1: Introduction aux données audio en Python Exercise 2: La bonne fréquence Exercise 3: Importer un fichier audio avec Python Exercise 4: Convertir des octets d’onde sonore en entiers Exercise 5: Le bon type de données Exercise 6: Octets vers entiers Exercise 7: Trouver les repères temporels Exercise 8: Visualiser des ondes sonores Exercise 9: Rester cohérent Exercise 10: Traitement des données audio avec Python

La reconnaissance vocale est encore loin d’être parfaite. Mais la bibliothèque SpeechRecognition offre un moyen simple d’interagir avec de nombreuses API de conversion de la parole en texte. Dans cette section, vous apprendrez à utiliser SpeechRecognition pour commencer facilement à convertir en texte la langue parlée présente dans vos fichiers audio.

Exercise 1: Bibliothèque Python SpeechRecognition Exercise 2: Choisir la mauvaise API de speech_recognition Exercise 3: Utiliser la bibliothèque SpeechRecognition Exercise 4: Utiliser la classe Recognizer Exercise 5: Lire des fichiers audio avec SpeechRecognition Exercise 6: D’AudioFile à AudioData Exercise 7: Enregistrer uniquement l’audio nécessaire Exercise 8: Gérer différents types d’audio Exercise 9: Différents types d’audio Exercise 10: Plusieurs locuteurs 1 Exercise 11: Plusieurs interlocuteurs 2

Exercice actuel

Exercise 12: Travailler avec de l’audio bruité

Tous les fichiers audio n’ont pas la même forme, la même taille ou le même format. Heureusement, la bibliothèque PyDub de James Robert fournit des outils permettant de modifier par programmation différents attributs des fichiers audio, comme le taux d’échantillonnage, le nombre de canaux, le format de fichier, et plus encore. Dans ce chapitre, vous apprendrez à utiliser cette bibliothèque pratique pour que tous vos fichiers audio soient dans le bon format pour la transcription.

Exercise 1: Introduction à PyDub Exercise 2: Importer un fichier audio avec PyDub Exercise 3: Lire un fichier audio avec PyDub Exercise 4: Paramètres audio avec PyDub Exercise 5: Ajuster les paramètres audio Exercise 6: Manipuler des fichiers audio avec PyDub Exercise 7: Baisser le son… puis le remonter Exercise 8: Normaliser un fichier audio avec PyDub Exercise 9: Découper et modifier des fichiers audio Exercise 10: Diviser un audio stéréo en mono avec PyDub Exercise 11: Convertir et enregistrer des fichiers audio avec PyDub Exercise 12: Exporter et reformatter des fichiers audio Exercise 13: Manipuler plusieurs fichiers audio avec PyDub Exercise 14: Un flux de traitement audio

Dans ce chapitre, vous mettrez en pratique tout ce que vous avez appris en construisant une preuve de concept de traitement de la parole pour une entreprise technologique, Acme Studios. Vous commencerez par transcrire en texte des extraits audio d’appels au support client. Vous réaliserez ensuite une analyse de sentiment avec NLTK, une reconnaissance d’entités nommées avec spaCy et une classification de texte avec scikit-learn sur le texte transcrit.

Exercise 1: Créer des fonctions utilitaires pour la transcription Exercise 2: Convertir l’audio au bon format Exercise 3: Obtenir les statistiques PyDub Exercise 4: Transcrire de l’audio en une ligne Exercise 5: Utiliser les fonctions utilitaires que vous avez créées Exercise 6: Analyse de sentiment sur du texte issu de la parole Exercise 7: Analyser le sentiment d’un appel téléphonique Exercise 8: Analyse de sentiment sur du texte formaté Exercise 9: Reconnaissance d’entités nommées sur du texte transcrit Exercise 10: Reconnaissance d’entités nommées avec spaCy Exercise 11: Créer une entité nommée personnalisée dans spaCy Exercise 12: Classifier une parole transcrite avec Sklearn Exercise 13: Préparer des fichiers audio pour la classification de texte Exercise 14: Transcrire des extraits d’appels téléphoniques Exercise 15: Organiser des données d’appels téléphoniques transcrits Exercise 16: Créer un classifieur de texte issu de la parole Exercise 17: Félicitations !