Dask DataFrames lezen uit Parquet

In Hoofdstuk 1 heb je Spotify-gegevens geanalyseerd, die over meerdere bestanden waren gesplitst, om de grootste hits van 2005-2020 te vinden. Dat deed je met de functie dask.delayed() en een lus. Laten we kijken hoeveel makkelijker deze analyse wordt met Dask DataFrames.

dask.dataframe is al voor je geïmporteerd als dd.

Deze oefening maakt deel uit van de cursus

Parallel programmeren met Dask in Python

Bekijk cursus

Oefeninstructies

Laad de Parquet-datamap op "data/spotify_parquet".
Gebruik de .nlargest()-methode van de DataFrame om de top 10 nummers op basis van 'popularity' te vinden.
Zet het delayed object om naar een pandas DataFrame door het te berekenen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)

Code bewerken en uitvoeren