Leggere Dask DataFrame da Parquet

Nel Capitolo 1 hai analizzato alcuni dati di Spotify, suddivisi in più file, per trovare le hit principali dal 2005 al 2020. L’hai fatto usando la funzione dask.delayed() e un ciclo. Vediamo quanto diventa più semplice questa analisi usando i Dask DataFrame.

dask.dataframe è già stato importato come dd.

Questo esercizio fa parte del corso

Programmazione parallela con Dask in Python

Visualizza corso

Istruzioni dell'esercizio

Carica la cartella di dati Parquet in "data/spotify_parquet".
Usa il metodo .nlargest() del DataFrame per trovare le 10 canzoni principali per 'popularity'.
Converte l'oggetto delayed in un DataFrame pandas eseguendone il calcolo.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)

Modifica ed esegui il codice