Dask DataFrames aus Parquet lesen

In Kapitel 1 hast du einige Spotify-Daten analysiert, die über mehrere Dateien verteilt waren, um die Top-Hits von 2005–2020 zu finden. Das hast du mit der Funktion dask.delayed() und einer Schleife gemacht. Schauen wir uns an, wie viel einfacher diese Analyse mit Dask DataFrames wird.

dask.dataframe wurde bereits als dd für dich importiert.

Diese Übung ist Teil des Kurses

Parallele Programmierung mit Dask in Python

Kurs anzeigen

Anleitung zur Übung

Lade den Parquet-Datenordner unter "data/spotify_parquet".
Verwende die .nlargest()-Methode des DataFrames, um die Top 10 Songs nach 'popularity' zu finden.
Wandle das verzögerte Objekt in ein pandas DataFrame um, indem du es berechnest.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)

Code bearbeiten und ausführen