CommencerCommencer gratuitement

Lire des Dask DataFrames depuis Parquet

Au chapitre 1, vous avez analysé des données Spotify réparties sur plusieurs fichiers pour trouver les meilleurs titres de 2005 à 2020. Vous l’avez fait avec la fonction dask.delayed() et une boucle. Voyons maintenant à quel point cette analyse devient plus simple avec les Dask DataFrames.

dask.dataframe a été importé pour vous sous le nom dd.

Cet exercice fait partie du cours

Programmation parallèle avec Dask en Python

Afficher le cours

Instructions

  • Chargez le dossier de données Parquet situé dans "data/spotify_parquet".
  • Utilisez la méthode .nlargest() du DataFrame pour trouver les 10 chansons les plus populaires selon 'popularity'.
  • Convertissez l’objet différé en DataFrame pandas en le calculant.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)
Modifier et exécuter le code