Persistenza dei dati su file
Caricare i dati nella destinazione finale è uno dei passaggi più importanti di una pipeline di dati. In questo esercizio userai la funzione transform() mostrata sotto per trasformare i dati sulle vendite dei prodotti prima di caricarli in un file .csv. Questo permetterà alle persone che consumano i dati a valle di avere una visione migliore delle vendite totali su una gamma di prodotti.
Per questo esercizio, i dati di vendita sono stati caricati e trasformati e sono memorizzati nel DataFrame clean_sales_data. Il pacchetto pandas è stato importato come pd e la libreria os è pronta all'uso!
Questo esercizio fa parte del corso
ETL and ELT in Python
Istruzioni dell'esercizio
- Aggiorna la funzione
load()per scrivere i dati nel percorso fornito, senza intestazioni né colonna indice. - Verifica che il file sia stato caricato nel percorso desiderato.
- Chiama la funzione per caricare i dati trasformati in uno storage persistente.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
def load(clean_data, file_path):
# Write the data to a file
clean_data.to_csv(file_path, ____, ____)
# Check to make sure the file exists
file_exists = os.____.____(____)
if not file_exists:
raise Exception(f"File does NOT exists at path {file_path}")
# Load the transformed data to the provided file path
____(clean_sales_data, "transformed_sales_data.csv")