CommencerCommencer gratuitement

Créer des DataFrames Dask à partir de CSV

Précédemment, vous avez analysé les données Spotify à l’aide de boucles et de fonctions retardées. Vous savez désormais que vous pouvez faire la même chose plus simplement avec un DataFrame Dask. Voyons à quel point les mêmes tâches sont plus faciles en utilisant ces méthodes plutôt que des boucles. Mais d’abord, vous devez charger le jeu de données dans un DataFrame Dask.

Cet exercice fait partie du cours

Programmation parallèle avec Dask en Python

Afficher le cours

Instructions

  • Importez le sous-module dask.dataframe sous l’alias dd.
  • Lisez tous les fichiers CSV du dossier data/spotify en utilisant une taille de bloc maximale de 1 MB.
  • Utilisez la fonction dd.to_datetime() pour convertir les chaînes de la colonne 'release_date' en dates/heures.
  • Utilisez la méthode .head() du DataFrame pour afficher 5 lignes du tableau.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import dask dataframe as dd
____

# Load in the DataFrame
df  = ____

# Convert the release_date column from string to datetime
____

# Show 5 rows of the DataFrame
print(____)
Modifier et exécuter le code