LoslegenKostenlos loslegen

Schreiben in eine Datei

Im Video hast du gesehen, dass Dateien oft in eine MPP-Datenbank wie Redshift geladen werden, um sie für Analysen zur Verfügung zu stellen.

Der typische Arbeitsablauf besteht darin, die Daten in spaltenförmige Datendateien zu schreiben. Diese Datendateien werden dann auf ein Speichersystem hochgeladen und können von dort in das Data Warehouse kopiert werden. Im Falle von Amazon Redshift wäre das Speichersystem zum Beispiel S3.

Der erste Schritt besteht darin, eine Datei in das richtige Format zu schreiben. Für diese Übung wählst du das Apache Parquet Dateiformat.

In deinem Arbeitsbereich gibt es einen PySpark DataFrame namens film_sdf und einen Pandas DataFrame namens film_pdf.

Diese Übung ist Teil des Kurses

Einführung in die Datentechnik

Kurs anzeigen

Anleitung zur Übung

  • Schreibe den pandas DataFrame film_pdf in eine Parkettdatei namens "films_pdf.parquet".
  • Schreibe den PySpark DataFrame film_sdf in eine Parquet-Datei namens "films_sdf.parquet".

Interaktive Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Code bearbeiten und ausführen