Schrijven naar een bestand
In de video zag je dat bestanden vaak in een MPP-database zoals Redshift worden geladen om ze beschikbaar te maken voor analyse.
De gebruikelijke workflow is om de gegevens te schrijven naar kolomgeoriënteerde databestanden. Deze bestanden worden vervolgens geüpload naar een opslagsysteem en van daaruit kunnen ze naar het datawarehouse worden gekopieerd. In het geval van Amazon Redshift is het opslagsysteem bijvoorbeeld S3.
De eerste stap is een bestand in het juiste formaat schrijven. Voor deze oefening kies je het Apache Parquet-bestandsformaat.
Er staat een PySpark DataFrame film_sdf en een pandas DataFrame film_pdf in je werkruimte.
Deze oefening maakt deel uit van de cursus
Introductie tot Data Engineering
Oefeninstructies
- Schrijf de
pandasDataFramefilm_pdfweg naar een parquet-bestand met de naam"films_pdf.parquet". - Schrijf de PySpark DataFrame
film_sdfweg naar een parquet-bestand met de naam"films_sdf.parquet".
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")