Dask DataFrames maken uit CSV's
Eerder heb je de Spotify-songdata geanalyseerd met loops en uitgestelde functies. Nu weet je dat je hetzelfde eenvoudiger kunt doen met een Dask DataFrame. Laten we kijken hoeveel makkelijker dezelfde taken zijn als je deze methoden gebruikt in plaats van loops. Eerst moet je de gegevensset echter in een Dask DataFrame laden.
Deze oefening maakt deel uit van de cursus
Parallel programmeren met Dask in Python
Oefeninstructies
- Importeer het subpakket
dask.dataframealsdd. - Lees alle CSV-bestanden in de map
data/spotifyin met een maximale blocksize van 1MB. - Gebruik de functie
dd.to_datetime()om de strings in de kolom'release_date'om te zetten naar datetimes. - Gebruik de
.head()-methode van de DataFrame om 5 rijen van de tabel te tonen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import dask dataframe as dd
____
# Load in the DataFrame
df = ____
# Convert the release_date column from string to datetime
____
# Show 5 rows of the DataFrame
print(____)