Caching üben: alles zusammenführen
Was war der beste Ansatz zum Caching von df1 und df2 – und warum?
Deine Ergebnisse können variieren; hier ist jedoch ein (zufälliges) Ergebnis für jede der beiden Vorgehensweisen:
Erste Antwort (df1 cachen):
df1_1st : 2.4s
df1_2nd : 0.1s
df2_1st : 0.3s
df2_2nd : 0.2s
Overall elapsed : 3.9
Zweite Antwort (df2 cachen):
df1_1st : 2.3s
df1_2nd : 1.1s
df2_1st : 1.7s
df2_2nd : 0.1s
Overall elapsed : 6.4
Diese Übung ist Teil des Kurses
Einführung in Spark SQL mit Python
Interaktive Übung
In dieser interaktiven Übung kannst du die Theorie in die Praxis umsetzen.
Übung starten