Écrire un itérateur pour charger des données par blocs (1)

Une autre façon de lire, par blocs, des données trop volumineuses pour tenir en mémoire consiste à lire le fichier en DataFrames d’une certaine longueur, par exemple 100. Avec le package pandas (importé sous le nom pd), vous pouvez par exemple faire pd.read_csv(filename, chunksize=100). Cela crée un objet lecteur itérable, ce qui signifie que vous pouvez utiliser next() dessus.

Dans cet exercice, vous allez lire un fichier en petits blocs de DataFrame avec read_csv(). Vous allez utiliser les données World Development Indicators 'ind_pop.csv', disponibles dans votre répertoire courant, pour examiner l’indicateur de population urbaine pour de nombreux pays et années.

Cet exercice fait partie du cours

<cours>Boîte à outils Python</cours>

Voir le cours

Instructions de l’exercice

Utilisez pd.read_csv() pour lire 'ind_pop.csv' par blocs de taille 10. Assignez le résultat à df_reader.
Affichez les deux premiers blocs issus de df_reader.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the pandas package
import pandas as pd

# Initialize reader object: df_reader
df_reader = ____(____, ____)

# Print two chunks
print(____)
print(____)

Modifier et exécuter le code