Importer un fichier par lots
Avec de gros fichiers, il est souvent plus simple de charger et traiter les données par morceaux. Entraînons-nous avec les données fiscales du Vermont.
Les 500 premières lignes ont été chargées dans vt_data_first500. Vous allez récupérer les 500 suivantes. Pour cela, vous utiliserez plusieurs arguments nommés : nrows et skiprows pour obtenir les bons enregistrements, header pour indiquer à pandas que les données n’ont pas de noms de colonnes, et names pour fournir les noms manquants. Vous utiliserez aussi la fonction list() pour récupérer les noms de colonnes de vt_data_first500 à réemployer.
pandas a été importé sous l’alias pd.
Cet exercice fait partie du cours
Ingestion de données simplifiée avec pandas
Instructions
- Utilisez
nrowsetskiprowspour créer un dataframevt_data_next500contenant les 500 lignes suivantes. - Réglez l’argument
headerpour quepandassache qu’il n’y a pas de ligne d’en-tête. - Nommez les colonnes de
vt_data_next500en fournissant à l’argumentnamesla liste des colonnes devt_data_first500.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create dataframe of next 500 rows with labeled columns
vt_data_next500 = pd.read_csv("vt_tax_data_2016.csv",
____,
____,
____,
____)
# View the Vermont dataframes to confirm they're different
print(vt_data_first500.head())
print(vt_data_next500.head())