In eine Datei schreiben
Im Video hast du gesehen, dass Dateien oft in eine MPP-Datenbank wie Redshift geladen werden, damit sie für Analysen verfügbar sind.
Normalerweise werden die Daten in spaltenorientierte Dateien geschrieben. Diese Dateien werden dann auf ein Speichersystem hochgeladen und von dort können sie ins Data Warehouse kopiert werden. Bei Amazon Redshift wäre das Speichersystem zum Beispiel S3.
Der erste Schritt ist, eine Datei im richtigen Format zu schreiben. Für diese Übungen nimmst du das Dateiformat Apache Parquet.
In deinem Arbeitsbereich gibt es einen PySpark-DataFrame namens film_sdf
und einen Pandas-DataFrame namens film_pdf
.
Diese Übung ist Teil des Kurses
Einführung in das Data Engineering
Anleitung zur Übung
- Schreibe den DataFrame
pandas
film_pdf
in eine Parquet-Datei namens"films_pdf.parquet"
. - Schreibe den PySpark-DataFrame
film_sdf
in eine Parquet-Datei namens"films_sdf.parquet"
.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")