Een iterator schrijven om data in stukken te laden (1)

Een andere manier om data die te groot is voor het geheugen toch in stukken te lezen, is door het bestand in te lezen als DataFrames van een bepaalde lengte, bijvoorbeeld 100. Met het pandas-pakket (geïmporteerd als pd) kun je bijvoorbeeld pd.read_csv(filename, chunksize=100) gebruiken. Dit maakt een iterabel reader object, wat betekent dat je er next() op kunt gebruiken.

In deze oefening lees je een bestand in kleine DataFrame-chunks met read_csv(). Je gaat de World Bank Indicators-data 'ind_pop.csv' gebruiken, die beschikbaar is in je huidige map, om te kijken naar de indicator voor stedelijke bevolking voor verschillende landen en jaren.

Deze oefening maakt deel uit van de cursus

Python-gereedschapskist

Bekijk cursus

Oefeninstructies

Gebruik pd.read_csv() om 'ind_pop.csv' in te lezen in stukken van grootte 10. Ken het resultaat toe aan df_reader.
Print de eerste twee stukken uit df_reader.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the pandas package
import pandas as pd

# Initialize reader object: df_reader
df_reader = ____(____, ____)

# Print two chunks
print(____)
print(____)

Code bewerken en uitvoeren