Dask DataFrames aus Parquet lesen
In Kapitel 1 hast du einige Spotify-Daten analysiert, die über mehrere Dateien verteilt waren, um die Top-Hits von 2005–2020 zu finden. Das hast du mit der Funktion dask.delayed() und einer Schleife gemacht. Schauen wir uns an, wie viel einfacher diese Analyse mit Dask DataFrames wird.
dask.dataframe wurde bereits als dd für dich importiert.
Diese Übung ist Teil des Kurses
Parallele Programmierung mit Dask in Python
Anleitung zur Übung
- Lade den Parquet-Datenordner unter
"data/spotify_parquet". - Verwende die
.nlargest()-Methode des DataFrames, um die Top 10 Songs nach'popularity'zu finden. - Wandle das verzögerte Objekt in ein pandas DataFrame um, indem du es berechnest.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Read the spotify_parquet folder
df = ____
# Find the 10 most popular songs
top_10_songs = ____
# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____
print(top_10_songs_df)