IniziaInizia gratis

Leggere Dask DataFrame da Parquet

Nel Capitolo 1 hai analizzato alcuni dati di Spotify, suddivisi in più file, per trovare le hit principali dal 2005 al 2020. L’hai fatto usando la funzione dask.delayed() e un ciclo. Vediamo quanto diventa più semplice questa analisi usando i Dask DataFrame.

dask.dataframe è già stato importato come dd.

Questo esercizio fa parte del corso

Programmazione parallela con Dask in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Carica la cartella di dati Parquet in "data/spotify_parquet".
  • Usa il metodo .nlargest() del DataFrame per trovare le 10 canzoni principali per 'popularity'.
  • Converte l'oggetto delayed in un DataFrame pandas eseguendone il calcolo.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)
Modifica ed esegui il codice