Créer des DataFrames Dask à partir de CSV
Précédemment, vous avez analysé les données Spotify à l’aide de boucles et de fonctions retardées. Vous savez désormais que vous pouvez faire la même chose plus simplement avec un DataFrame Dask. Voyons à quel point les mêmes tâches sont plus faciles en utilisant ces méthodes plutôt que des boucles. Mais d’abord, vous devez charger le jeu de données dans un DataFrame Dask.
Cet exercice fait partie du cours
Programmation parallèle avec Dask en Python
Instructions
- Importez le sous-module
dask.dataframesous l’aliasdd. - Lisez tous les fichiers CSV du dossier
data/spotifyen utilisant une taille de bloc maximale de 1 MB. - Utilisez la fonction
dd.to_datetime()pour convertir les chaînes de la colonne'release_date'en dates/heures. - Utilisez la méthode
.head()du DataFrame pour afficher 5 lignes du tableau.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import dask dataframe as dd
____
# Load in the DataFrame
df = ____
# Convert the release_date column from string to datetime
____
# Show 5 rows of the DataFrame
print(____)