ComeçarComece de graça

Criando Dask DataFrames a partir de CSVs

Antes, você analisou os dados de músicas do Spotify usando laços e funções atrasadas (delayed). Agora você sabe que pode fazer a mesma coisa de forma mais simples usando um Dask DataFrame. Vamos ver como as mesmas tarefas que você fez antes ficam mais fáceis ao usar esses métodos em vez de laços. Mas, primeiro, você precisa carregar o conjunto de dados em um Dask DataFrame.

Este exercício faz parte do curso

Programação Paralela com Dask em Python

Ver curso

Instruções do exercício

  • Importe o subpacote dask.dataframe como dd.
  • Leia todos os arquivos CSV na pasta data/spotify usando um blocksize máximo de 1MB.
  • Use a função dd.to_datetime() para converter as strings na coluna 'release_date' em datetimes.
  • Use o método .head() do DataFrame para mostrar 5 linhas da tabela.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import dask dataframe as dd
____

# Load in the DataFrame
df  = ____

# Convert the release_date column from string to datetime
____

# Show 5 rows of the DataFrame
print(____)
Editar e executar o código