Optimierung der Dateigröße
Stell dir vor, du bekommst 2 große Datendateien auf einem Cluster mit 10 Knoten. Jede Datei enthält 10 Millionen Zeilen, die ungefähr gleich groß sind. Bei der Arbeit mit deinen Daten ist die Reaktionszeit akzeptabel, aber das anfängliche Auslesen der Dateien dauert eine beträchtliche Zeitspanne. Beachte, dass du der Einzige bist, der die Daten verwendet und dass sie sich bei jedem Lauf ändern.
Welche der folgenden Optionen ist die beste, um die Leistung zu verbessern?
Diese Übung ist Teil des Kurses
Daten bereinigen mit PySpark
Interaktive Übung
Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um
