Ecrire un itérateur pour charger des données par morceaux (1)
Une autre façon de lire des données trop volumineuses pour être stockées en mémoire par morceaux consiste à lire le fichier sous forme de DataFrame d'une certaine longueur, par exemple 100. Par exemple, avec le paquet pandas (importé sous pd
), vous pouvez faire pd.read_csv(filename, chunksize=100)
. Cela crée un objet lecteur itérable, ce qui signifie que vous pouvez utiliser next()
.
Dans cet exercice, vous lirez un fichier par petits morceaux de DataFrame avec read_csv()
. Vous allez utiliser les données des indicateurs de la Banque mondiale 'ind_pop.csv'
, disponibles dans votre répertoire actuel, pour examiner l'indicateur de la population urbaine pour de nombreux pays et années.
Cet exercice fait partie du cours
Boîte à outils Python
Instructions
- Utilisez
pd.read_csv()
pour lire'ind_pop.csv'
en morceaux de taille 10. Affectez le résultat àdf_reader
. - Imprimez les deux premiers morceaux de
df_reader
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the pandas package
import pandas as pd
# Initialize reader object: df_reader
df_reader = ____(____, ____)
# Print two chunks
print(____)
print(____)