Scrivere su un file
Nel video hai visto che spesso i file vengono caricati in un database MPP come Redshift per renderli disponibili all’analisi.
Il flusso di lavoro tipico è scrivere i dati in file colonnari. Questi file vengono poi caricati in un sistema di storage e da lì possono essere copiati nel data warehouse. Nel caso di Amazon Redshift, ad esempio, il sistema di storage sarebbe S3.
Il primo passo è scrivere un file nel formato corretto. Per questo esercizio userai il formato file Apache Parquet.
Nel tuo workspace ci sono un DataFrame PySpark chiamato film_sdf e un DataFrame pandas chiamato film_pdf.
Questo esercizio fa parte del corso
Introduzione al Data Engineering
Istruzioni dell'esercizio
- Scrivi il DataFrame
pandasfilm_pdfin un file parquet chiamato"films_pdf.parquet". - Scrivi il DataFrame PySpark
film_sdfin un file parquet chiamato"films_sdf.parquet".
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")