Enregistrer uniquement l’audio nécessaire

Parfois, vous n’avez pas besoin de tout le fichier audio sur lequel vous travaillez. Les paramètres duration et offset de la méthode record() peuvent vous aider.

Après avoir exploré votre jeu de données, vous constatez qu’un fichier, importé sous le nom nothing_at_end, comporte 30 secondes de silence à la fin et qu’un fichier d’appel au support, importé sous le nom out_of_warranty, présente 3 secondes de parasite au début.

Définir duration et offset signifie que la méthode record() enregistrera jusqu’à duration d’audio en commençant à offset. Les deux sont mesurés en secondes.

Cet exercice fait partie du cours

<cours>Traitement du langage parlé en Python</cours>

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Convert AudioFile to AudioData
with nothing_at_end as source:
    nothing_at_end_audio = recognizer.record(source,
                                             duration=____,
                                             offset=None)

# Transcribe AudioData to text
text = recognizer.recognize_google(nothing_at_end_audio,
                                   language="en-US")

print(text)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Traitement du langage parlé en Python</cours>

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Les fichiers audio diffèrent de la plupart des autres types de données. Avant de pouvoir les exploiter, un prétraitement est nécessaire. Dans ce chapitre, vous apprendrez les premières étapes pour travailler avec des fichiers de parole en convertissant deux fichiers audio en ondes sonores et en les comparant visuellement.

Exercise 1: Introduction aux données audio en Python Exercise 2: La bonne fréquence Exercise 3: Importer un fichier audio avec Python Exercise 4: Convertir des octets d’onde sonore en entiers Exercise 5: Le bon type de données Exercise 6: Octets vers entiers Exercise 7: Trouver les repères temporels Exercise 8: Visualiser des ondes sonores Exercise 9: Rester cohérent Exercise 10: Traitement des données audio avec Python

La reconnaissance vocale est encore loin d’être parfaite. Mais la bibliothèque SpeechRecognition offre un moyen simple d’interagir avec de nombreuses API de conversion de la parole en texte. Dans cette section, vous apprendrez à utiliser SpeechRecognition pour commencer facilement à convertir en texte la langue parlée présente dans vos fichiers audio.

Exercise 1: Bibliothèque Python SpeechRecognition Exercise 2: Choisir la mauvaise API de speech_recognition Exercise 3: Utiliser la bibliothèque SpeechRecognition Exercise 4: Utiliser la classe Recognizer Exercise 5: Lire des fichiers audio avec SpeechRecognition Exercise 6: D’AudioFile à AudioData Exercise 7: Enregistrer uniquement l’audio nécessaire

Exercice actuel

Exercise 8: Gérer différents types d’audio Exercise 9: Différents types d’audio Exercise 10: Plusieurs locuteurs 1 Exercise 11: Plusieurs interlocuteurs 2 Exercise 12: Travailler avec de l’audio bruité

Tous les fichiers audio n’ont pas la même forme, la même taille ou le même format. Heureusement, la bibliothèque PyDub de James Robert fournit des outils permettant de modifier par programmation différents attributs des fichiers audio, comme le taux d’échantillonnage, le nombre de canaux, le format de fichier, et plus encore. Dans ce chapitre, vous apprendrez à utiliser cette bibliothèque pratique pour que tous vos fichiers audio soient dans le bon format pour la transcription.

Exercise 1: Introduction à PyDub Exercise 2: Importer un fichier audio avec PyDub Exercise 3: Lire un fichier audio avec PyDub Exercise 4: Paramètres audio avec PyDub Exercise 5: Ajuster les paramètres audio Exercise 6: Manipuler des fichiers audio avec PyDub Exercise 7: Baisser le son… puis le remonter Exercise 8: Normaliser un fichier audio avec PyDub Exercise 9: Découper et modifier des fichiers audio Exercise 10: Diviser un audio stéréo en mono avec PyDub Exercise 11: Convertir et enregistrer des fichiers audio avec PyDub Exercise 12: Exporter et reformatter des fichiers audio Exercise 13: Manipuler plusieurs fichiers audio avec PyDub Exercise 14: Un flux de traitement audio

Dans ce chapitre, vous mettrez en pratique tout ce que vous avez appris en construisant une preuve de concept de traitement de la parole pour une entreprise technologique, Acme Studios. Vous commencerez par transcrire en texte des extraits audio d’appels au support client. Vous réaliserez ensuite une analyse de sentiment avec NLTK, une reconnaissance d’entités nommées avec spaCy et une classification de texte avec scikit-learn sur le texte transcrit.

Exercise 1: Créer des fonctions utilitaires pour la transcription Exercise 2: Convertir l’audio au bon format Exercise 3: Obtenir les statistiques PyDub Exercise 4: Transcrire de l’audio en une ligne Exercise 5: Utiliser les fonctions utilitaires que vous avez créées Exercise 6: Analyse de sentiment sur du texte issu de la parole Exercise 7: Analyser le sentiment d’un appel téléphonique Exercise 8: Analyse de sentiment sur du texte formaté Exercise 9: Reconnaissance d’entités nommées sur du texte transcrit Exercise 10: Reconnaissance d’entités nommées avec spaCy Exercise 11: Créer une entité nommée personnalisée dans spaCy Exercise 12: Classifier une parole transcrite avec Sklearn Exercise 13: Préparer des fichiers audio pour la classification de texte Exercise 14: Transcrire des extraits d’appels téléphoniques Exercise 15: Organiser des données d’appels téléphoniques transcrits Exercise 16: Créer un classifieur de texte issu de la parole Exercise 17: Félicitations !