Aan de slagGa gratis aan de slag

Een iterator schrijven om data in stukken te laden (1)

Een andere manier om data die te groot is voor het geheugen toch in stukken te lezen, is door het bestand in te lezen als DataFrames van een bepaalde lengte, bijvoorbeeld 100. Met het pandas-pakket (geïmporteerd als pd) kun je bijvoorbeeld pd.read_csv(filename, chunksize=100) gebruiken. Dit maakt een iterabel reader object, wat betekent dat je er next() op kunt gebruiken.

In deze oefening lees je een bestand in kleine DataFrame-chunks met read_csv(). Je gaat de World Bank Indicators-data 'ind_pop.csv' gebruiken, die beschikbaar is in je huidige map, om te kijken naar de indicator voor stedelijke bevolking voor verschillende landen en jaren.

Deze oefening maakt deel uit van de cursus

Python-gereedschapskist

Cursus bekijken

Oefeninstructies

  • Gebruik pd.read_csv() om 'ind_pop.csv' in te lezen in stukken van grootte 10. Ken het resultaat toe aan df_reader.
  • Print de eerste twee stukken uit df_reader.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the pandas package
import pandas as pd

# Initialize reader object: df_reader
df_reader = ____(____, ____)

# Print two chunks
print(____)
print(____)
Code bewerken en uitvoeren