Lire des Dask DataFrames depuis Parquet

Au chapitre 1, vous avez analysé des données Spotify réparties sur plusieurs fichiers pour trouver les meilleurs titres de 2005 à 2020. Vous l’avez fait avec la fonction dask.delayed() et une boucle. Voyons maintenant à quel point cette analyse devient plus simple avec les Dask DataFrames.

dask.dataframe a été importé pour vous sous le nom dd.

Cet exercice fait partie du cours

<cours>Programmation parallèle avec Dask en Python</cours>

Voir le cours

Instructions de l’exercice

Chargez le dossier de données Parquet situé dans "data/spotify_parquet".
Utilisez la méthode .nlargest() du DataFrame pour trouver les 10 chansons les plus populaires selon 'popularity'.
Convertissez l’objet différé en DataFrame pandas en le calculant.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)

Modifier et exécuter le code