LoslegenKostenlos loslegen

Optimierung der Dateigröße

Stell dir vor, du bekommst 2 große Datendateien auf einem Cluster mit 10 Knoten. Jede Datei enthält 10 Millionen Zeilen, die ungefähr gleich groß sind. Bei der Arbeit mit deinen Daten ist die Reaktionszeit akzeptabel, aber das anfängliche Auslesen der Dateien dauert eine beträchtliche Zeitspanne. Beachte, dass du der Einzige bist, der die Daten verwendet und dass sie sich bei jedem Lauf ändern.

Welche der folgenden Optionen ist die beste, um die Leistung zu verbessern?

Diese Übung ist Teil des Kurses

Daten bereinigen mit PySpark

Kurs anzeigen

Interaktive Übung

Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um

Übung starten