LoslegenKostenlos starten

Ein DataFrame im Parquet-Format speichern

Wenn du mit Spark arbeitest, startest du oft mit CSV, JSON oder anderen Datenquellen. Das ist zwar flexibel beim Laden unterschiedlicher Datentypen, aber kein optimales Format für Spark. Das Parquet-Format ist ein spaltenorientierter Datenspeicher und ermöglicht Spark das sogenannte Predicate Pushdown. Das bedeutet, Spark verarbeitet nur die Daten, die für deine definierten Operationen nötig sind, statt den gesamten Datensatz einzulesen. Dadurch hat Spark mehr Flexibilität beim Datenzugriff und die Performance verbessert sich bei großen Datensätzen oft drastisch.

In dieser Übung erstellen wir eine neue Parquet-Datei und verarbeiten anschließend einige Daten daraus.

Das spark-Objekt sowie die DataFrames df1 und df2 sind bereits für dich vorbereitet.

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung mit PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Gib die Zeilenanzahl von df1 und df2 aus.
  • Kombiniere df1 und df2 mit der Methode union in einem neuen DataFrame namens df3.
  • Speichere df3 in eine parquet-Datei mit dem Namen AA_DFW_ALL.parquet.
  • Lies die Datei AA_DFW_ALL.parquet ein und gib die Anzahl aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# View the row count of df1 and df2
print("df1 Count: %d" % df1.____())
print("df2 Count: %d" % ____.____())

# Combine the DataFrames into one
df3 = df1.union(df2)

# Save the df3 DataFrame in Parquet format
df3.____.____('AA_DFW_ALL.parquet', mode='overwrite')

# Read the Parquet file into a new DataFrame and run a count
print(spark.read.____('AA_DFW_ALL.parquet').count())
Code bearbeiten und ausführen