LoslegenKostenlos loslegen

In eine Datei schreiben

Im Video hast du gesehen, dass Dateien oft in eine MPP-Datenbank wie Redshift geladen werden, damit sie für Analysen verfügbar sind.

Normalerweise werden die Daten in spaltenorientierte Dateien geschrieben. Diese Dateien werden dann auf ein Speichersystem hochgeladen und von dort können sie ins Data Warehouse kopiert werden. Bei Amazon Redshift wäre das Speichersystem zum Beispiel S3.

Der erste Schritt ist, eine Datei im richtigen Format zu schreiben. Für diese Übungen nimmst du das Dateiformat Apache Parquet.

In deinem Arbeitsbereich gibt es einen PySpark-DataFrame namens film_sdf und einen Pandas-DataFrame namens film_pdf.

Diese Übung ist Teil des Kurses

Einführung in das Data Engineering

Kurs anzeigen

Anleitung zur Übung

  • Schreibe den DataFrame pandas film_pdf in eine Parquet-Datei namens "films_pdf.parquet".
  • Schreibe den PySpark-DataFrame film_sdf in eine Parquet-Datei namens "films_sdf.parquet".

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Code bearbeiten und ausführen