Aan de slagGa gratis aan de slag

Dask DataFrames maken uit CSV's

Eerder heb je de Spotify-songdata geanalyseerd met loops en uitgestelde functies. Nu weet je dat je hetzelfde eenvoudiger kunt doen met een Dask DataFrame. Laten we kijken hoeveel makkelijker dezelfde taken zijn als je deze methoden gebruikt in plaats van loops. Eerst moet je de gegevensset echter in een Dask DataFrame laden.

Deze oefening maakt deel uit van de cursus

Parallel programmeren met Dask in Python

Cursus bekijken

Oefeninstructies

  • Importeer het subpakket dask.dataframe als dd.
  • Lees alle CSV-bestanden in de map data/spotify in met een maximale blocksize van 1MB.
  • Gebruik de functie dd.to_datetime() om de strings in de kolom 'release_date' om te zetten naar datetimes.
  • Gebruik de .head()-methode van de DataFrame om 5 rijen van de tabel te tonen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import dask dataframe as dd
____

# Load in the DataFrame
df  = ____

# Convert the release_date column from string to datetime
____

# Show 5 rows of the DataFrame
print(____)
Code bewerken en uitvoeren