IniziaInizia gratis

Scrivere su un file

Nel video hai visto che spesso i file vengono caricati in un database MPP come Redshift per renderli disponibili all’analisi.

Il flusso di lavoro tipico è scrivere i dati in file colonnari. Questi file vengono poi caricati in un sistema di storage e da lì possono essere copiati nel data warehouse. Nel caso di Amazon Redshift, ad esempio, il sistema di storage sarebbe S3.

Il primo passo è scrivere un file nel formato corretto. Per questo esercizio userai il formato file Apache Parquet.

Nel tuo workspace ci sono un DataFrame PySpark chiamato film_sdf e un DataFrame pandas chiamato film_pdf.

Questo esercizio fa parte del corso

Introduzione al Data Engineering

Visualizza il corso

Istruzioni dell'esercizio

  • Scrivi il DataFrame pandas film_pdf in un file parquet chiamato "films_pdf.parquet".
  • Scrivi il DataFrame PySpark film_sdf in un file parquet chiamato "films_sdf.parquet".

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Modifica ed esegui il codice