Nettoyer votre texte

Les données textuelles non structurées ne peuvent pas être utilisées directement dans la plupart des analyses. Plusieurs étapes sont nécessaires pour passer d’une longue chaîne libre à un ensemble de colonnes numériques, au bon format, pouvant être ingérées par un modèle de Machine Learning. La première étape consiste à standardiser les données et à éliminer tous les caractères susceptibles de poser problème plus tard dans votre pipeline analytique.

Dans ce chapitre, vous allez travailler avec un nouveau jeu de données contenant les discours d’investiture des présidents des États‑Unis, chargé dans speech_df, avec les discours stockés dans la colonne text.

Cet exercice fait partie du cours

Feature engineering pour le Machine Learning en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the first 5 rows of the text column
print(____)

Modifier et exécuter le code