Leer Dask DataFrames desde Parquet
En el Capítulo 1 analizaste datos de Spotify, divididos en varios archivos, para encontrar los grandes éxitos de 2005-2020. Lo hiciste usando la función dask.delayed() y un bucle. Veamos lo mucho que se simplifica este análisis usando Dask DataFrames.
dask.dataframe ya se ha importado como dd.
Este ejercicio forma parte del curso
Programación paralela con Dask en Python
Instrucciones del ejercicio
- Carga la carpeta de datos Parquet ubicada en
"data/spotify_parquet". - Usa el método
.nlargest()del DataFrame para encontrar las 10 canciones con mayor'popularity'. - Convierte el objeto delayed en un DataFrame de pandas ejecutando el cálculo.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Read the spotify_parquet folder
df = ____
# Find the 10 most popular songs
top_10_songs = ____
# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____
print(top_10_songs_df)