Persistance des données dans des fichiers
Le chargement des données vers une destination finale est l'une des étapes les plus importantes d'un pipeline de données. Dans cet exercice, vous utiliserez la fonction transform()
présentée ci-dessous pour transformer les données relatives aux ventes de produits avant de les charger dans un fichier .csv
. Cela permettra aux consommateurs de données en aval d'avoir une meilleure vue sur les ventes totales d'une gamme de produits.
Pour cet exercice, les données de vente ont été chargées et transformées et sont stockées dans le DataFrame clean_sales_data
. Le paquet pandas
a été importé sous le nom de pd
, et la bibliothèque os
est également prête à l'emploi !
Cet exercice fait partie du cours
ETL et ELT en Python
Instructions
- Mettez à jour la fonction
load()
pour écrire des données dans le chemin fourni, sans en-tête ni colonne d'index. - Vérifiez que le fichier a été chargé dans le chemin d'accès souhaité.
- Appelez la fonction pour charger les données transformées dans la mémoire permanente.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
def load(clean_data, file_path):
# Write the data to a file
clean_data.to_csv(file_path, ____, ____)
# Check to make sure the file exists
file_exists = os.____.____(____)
if not file_exists:
raise Exception(f"File does NOT exists at path {file_path}")
# Load the transformed data to the provided file path
____(clean_sales_data, "transformed_sales_data.csv")