Optimierung der Dateigröße
Stell dir vor, du hast 2 große Datendateien in einem Cluster mit 10 Knoten. Jede Datei enthält 10 Mio. Zeilen ungefähr gleicher Größe. Bei der Arbeit mit den Daten ist die Reaktionszeit akzeptabel, aber das initiale Einlesen der Dateien dauert erheblich. Beachte, dass nur du die Daten verwendest und sie bei jedem Lauf neu sind.
Welche der folgenden Optionen ist am besten geeignet, die Performance zu verbessern?
Diese Übung ist Teil des Kurses
Datenbereinigung mit PySpark
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten