Leggere Dask DataFrame da Parquet
Nel Capitolo 1 hai analizzato alcuni dati di Spotify, suddivisi in più file, per trovare le hit principali dal 2005 al 2020. L’hai fatto usando la funzione dask.delayed() e un ciclo. Vediamo quanto diventa più semplice questa analisi usando i Dask DataFrame.
dask.dataframe è già stato importato come dd.
Questo esercizio fa parte del corso
Programmazione parallela con Dask in Python
Istruzioni dell'esercizio
- Carica la cartella di dati Parquet in
"data/spotify_parquet". - Usa il metodo
.nlargest()del DataFrame per trovare le 10 canzoni principali per'popularity'. - Converte l'oggetto delayed in un DataFrame pandas eseguendone il calcolo.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Read the spotify_parquet folder
df = ____
# Find the 10 most popular songs
top_10_songs = ____
# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____
print(top_10_songs_df)