Importer un fichier par lots

Avec de gros fichiers, il est souvent plus simple de charger et traiter les données par morceaux. Entraînons-nous avec les données fiscales du Vermont.

Les 500 premières lignes ont été chargées dans vt_data_first500. Vous allez récupérer les 500 suivantes. Pour cela, vous utiliserez plusieurs arguments nommés : nrows et skiprows pour obtenir les bons enregistrements, header pour indiquer à pandas que les données n’ont pas de noms de colonnes, et names pour fournir les noms manquants. Vous utiliserez aussi la fonction list() pour récupérer les noms de colonnes de vt_data_first500 à réemployer.

pandas a été importé sous l’alias pd.

Cet exercice fait partie du cours

<cours>Ingestion de données simplifiée avec pandas</cours>

Voir le cours

Instructions de l’exercice

Utilisez nrows et skiprows pour créer un dataframe vt_data_next500 contenant les 500 lignes suivantes.
Réglez l’argument header pour que pandas sache qu’il n’y a pas de ligne d’en-tête.
Nommez les colonnes de vt_data_next500 en fournissant à l’argument names la liste des colonnes de vt_data_first500.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create dataframe of next 500 rows with labeled columns
vt_data_next500 = pd.read_csv("vt_tax_data_2016.csv", 
                       		  ____,
                       		  ____,
                       		  ____,
                       		  ____)

# View the Vermont dataframes to confirm they're different
print(vt_data_first500.head())
print(vt_data_next500.head())

Modifier et exécuter le code