Aan de slagGa gratis aan de slag

Schrijven naar een bestand

In de video zag je dat bestanden vaak in een MPP-database zoals Redshift worden geladen om ze beschikbaar te maken voor analyse.

De gebruikelijke workflow is om de gegevens te schrijven naar kolomgeoriënteerde databestanden. Deze bestanden worden vervolgens geüpload naar een opslagsysteem en van daaruit kunnen ze naar het datawarehouse worden gekopieerd. In het geval van Amazon Redshift is het opslagsysteem bijvoorbeeld S3.

De eerste stap is een bestand in het juiste formaat schrijven. Voor deze oefening kies je het Apache Parquet-bestandsformaat.

Er staat een PySpark DataFrame film_sdf en een pandas DataFrame film_pdf in je werkruimte.

Deze oefening maakt deel uit van de cursus

Introductie tot Data Engineering

Cursus bekijken

Oefeninstructies

  • Schrijf de pandas DataFrame film_pdf weg naar een parquet-bestand met de naam "films_pdf.parquet".
  • Schrijf de PySpark DataFrame film_sdf weg naar een parquet-bestand met de naam "films_sdf.parquet".

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Code bewerken en uitvoeren