CommencerCommencer gratuitement

Ignorer les données corrompues

Dans cet exercice, vous allez utiliser les paramètres de read_csv() pour gérer des fichiers contenant des données corrompues, comme des enregistrements avec plus de valeurs que de colonnes. Par défaut, tenter d’importer de tels fichiers déclenche une erreur spécifique : pandas.errors.ParserError.

Certaines lignes des données fiscales du Vermont sont corrompues. Pour charger les bonnes lignes, nous devons indiquer à pandas d’ignorer les erreurs. Nous voulons aussi que pandas nous avertisse lorsqu’il saute une ligne afin de mesurer l’ampleur des problèmes de données.

pandas a été importé sous le nom pd. Le code de l’exercice essaiera de lire le fichier. S’il y a une pandas.errors.ParserError, le code dans le bloc except s’exécutera.

Cet exercice fait partie du cours

Ingestion de données simplifiée avec pandas

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

try:
  # Import the CSV without any keyword arguments
  data = ____
  
  # View first 5 records
  print(data.head())
  
except pd.errors.ParserError:
    print("Your data contained rows that could not be parsed.")
Modifier et exécuter le code