Ignorer les données corrompues

Dans cet exercice, vous allez utiliser les paramètres de read_csv() pour gérer des fichiers contenant des données corrompues, comme des enregistrements avec plus de valeurs que de colonnes. Par défaut, tenter d’importer de tels fichiers déclenche une erreur spécifique : pandas.errors.ParserError.

Certaines lignes des données fiscales du Vermont sont corrompues. Pour charger les bonnes lignes, nous devons indiquer à pandas d’ignorer les erreurs. Nous voulons aussi que pandas nous avertisse lorsqu’il saute une ligne afin de mesurer l’ampleur des problèmes de données.

pandas a été importé sous le nom pd. Le code de l’exercice essaiera de lire le fichier. S’il y a une pandas.errors.ParserError, le code dans le bloc except s’exécutera.

Cet exercice fait partie du cours

<cours>Ingestion de données simplifiée avec pandas</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

try:
  # Import the CSV without any keyword arguments
  data = ____
  
  # View first 5 records
  print(data.head())
  
except pd.errors.ParserError:
    print("Your data contained rows that could not be parsed.")

Modifier et exécuter le code