Leer Dask DataFrames desde Parquet

En el Capítulo 1 analizaste datos de Spotify, divididos en varios archivos, para encontrar los grandes éxitos de 2005-2020. Lo hiciste usando la función dask.delayed() y un bucle. Veamos lo mucho que se simplifica este análisis usando Dask DataFrames.

dask.dataframe ya se ha importado como dd.

Este ejercicio forma parte del curso

Programación paralela con Dask en Python

Ver curso

Instrucciones del ejercicio

Carga la carpeta de datos Parquet ubicada en "data/spotify_parquet".
Usa el método .nlargest() del DataFrame para encontrar las 10 canciones con mayor 'popularity'.
Convierte el objeto delayed en un DataFrame de pandas ejecutando el cálculo.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)

Editar y ejecutar código