ComeçarComece de graça

Ler Dask DataFrames a partir de Parquet

No Capítulo 1, você analisou alguns dados do Spotify, que estavam divididos em vários arquivos, para encontrar os maiores hits de 2005–2020. Você fez isso usando a função dask.delayed() e um loop. Vamos ver como essa análise fica muito mais simples usando Dask DataFrames.

dask.dataframe já foi importado para você como dd.

Este exercício faz parte do curso

Programação Paralela com Dask em Python

Ver curso

Instruções do exercício

  • Carregue a pasta de dados Parquet localizada em "data/spotify_parquet".
  • Use o método .nlargest() do DataFrame para encontrar as 10 músicas com maior 'popularity'.
  • Converta o objeto atrasado em um DataFrame do pandas computando-o.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Read the spotify_parquet folder
df = ____

# Find the 10 most popular songs
top_10_songs = ____

# Convert the delayed result to a pandas DataFrame
top_10_songs_df = ____

print(top_10_songs_df)
Editar e executar o código