Schreiben in eine Datei
Im Video hast du gesehen, dass Dateien oft in eine MPP-Datenbank wie Redshift geladen werden, um sie für Analysen zur Verfügung zu stellen.
Der typische Arbeitsablauf besteht darin, die Daten in spaltenförmige Datendateien zu schreiben. Diese Datendateien werden dann auf ein Speichersystem hochgeladen und können von dort in das Data Warehouse kopiert werden. Im Falle von Amazon Redshift wäre das Speichersystem zum Beispiel S3.
Der erste Schritt besteht darin, eine Datei in das richtige Format zu schreiben. Für diese Übung wählst du das Apache Parquet Dateiformat.
In deinem Arbeitsbereich gibt es einen PySpark DataFrame namens film_sdf
und einen Pandas DataFrame namens film_pdf
.
Diese Übung ist Teil des Kurses
Einführung in die Datentechnik
Anleitung zur Übung
- Schreibe den
pandas
DataFramefilm_pdf
in eine Parkettdatei namens"films_pdf.parquet"
. - Schreibe den PySpark DataFrame
film_sdf
in eine Parquet-Datei namens"films_sdf.parquet"
.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")