Écrire un itérateur pour charger des données par blocs (1)
Une autre façon de lire, par blocs, des données trop volumineuses pour tenir en mémoire consiste à lire le fichier en DataFrames d’une certaine longueur, par exemple 100. Avec le package pandas (importé sous le nom pd), vous pouvez par exemple faire pd.read_csv(filename, chunksize=100). Cela crée un objet lecteur itérable, ce qui signifie que vous pouvez utiliser next() dessus.
Dans cet exercice, vous allez lire un fichier en petits blocs de DataFrame avec read_csv(). Vous allez utiliser les données World Development Indicators 'ind_pop.csv', disponibles dans votre répertoire courant, pour examiner l’indicateur de population urbaine pour de nombreux pays et années.
Cet exercice fait partie du cours
Boîte à outils Python
Instructions
- Utilisez
pd.read_csv()pour lire'ind_pop.csv'par blocs de taille 10. Assignez le résultat àdf_reader. - Affichez les deux premiers blocs issus de
df_reader.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the pandas package
import pandas as pd
# Initialize reader object: df_reader
df_reader = ____(____, ____)
# Print two chunks
print(____)
print(____)