LoslegenKostenlos starten

Optimierung der Dateigröße

Stell dir vor, du hast 2 große Datendateien in einem Cluster mit 10 Knoten. Jede Datei enthält 10 Mio. Zeilen ungefähr gleicher Größe. Bei der Arbeit mit den Daten ist die Reaktionszeit akzeptabel, aber das initiale Einlesen der Dateien dauert erheblich. Beachte, dass nur du die Daten verwendest und sie bei jedem Lauf neu sind.

Welche der folgenden Optionen ist am besten geeignet, die Performance zu verbessern?

Diese Übung ist Teil des Kurses

<Kurs>Datenbereinigung mit PySpark</Kurs>
Kurs ansehen

Interaktive praktische Übung

Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis

Übung starten