Lire des Dask DataFrames depuis Parquet
Au chapitre 1, vous avez analysé des données Spotify réparties sur plusieurs fichiers pour trouver les meilleurs titres de 2005 à 2020. Vous l’avez fait avec la fonction dask.delayed() et une boucle. Voyons maintenant à quel point cette analyse devient plus simple avec les Dask DataFrames.
dask.dataframe a été importé pour vous sous le nom dd.
Cet exercice fait partie du cours
Programmation parallèle avec Dask en Python
Instructions
- Chargez le dossier de données Parquet situé dans
"data/spotify_parquet". - Utilisez la méthode
.nlargest()du DataFrame pour trouver les 10 chansons les plus populaires selon'popularity'. - Convertissez l’objet différé en DataFrame pandas en le calculant.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Read the spotify_parquet folder
df = ____
# Find the 10 most popular songs
top_10_songs = ____
# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____
print(top_10_songs_df)