Ignorer les données corrompues
Dans cet exercice, vous allez utiliser les paramètres de read_csv() pour gérer des fichiers contenant des données corrompues, comme des enregistrements avec plus de valeurs que de colonnes. Par défaut, tenter d’importer de tels fichiers déclenche une erreur spécifique : pandas.errors.ParserError.
Certaines lignes des données fiscales du Vermont sont corrompues. Pour charger les bonnes lignes, nous devons indiquer à pandas d’ignorer les erreurs. Nous voulons aussi que pandas nous avertisse lorsqu’il saute une ligne afin de mesurer l’ampleur des problèmes de données.
pandas a été importé sous le nom pd. Le code de l’exercice essaiera de lire le fichier. S’il y a une pandas.errors.ParserError, le code dans le bloc except s’exécutera.
Cet exercice fait partie du cours
<cours>Ingestion de données simplifiée avec pandas</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
try:
# Import the CSV without any keyword arguments
data = ____
# View first 5 records
print(data.head())
except pd.errors.ParserError:
print("Your data contained rows that could not be parsed.")