Latihan caching: menggabungkan semuanya
Pendekatan apa yang paling baik untuk melakukan cache pada df1 dan df2, dan mengapa?
Hasil Anda bisa berbeda; berikut salah satu (acak) hasil untuk masing-masing dari dua pendekatan:
Jawaban pertama (cache df1):
df1_1st : 2.4s
df1_2nd : 0.1s
df2_1st : 0.3s
df2_2nd : 0.2s
Overall elapsed : 3.9
Jawaban kedua (cache df2):
df1_1st : 2.3s
df1_2nd : 1.1s
df2_1st : 1.7s
df2_2nd : 0.1s
Overall elapsed : 6.4
Latihan ini adalah bagian dari kursus
Pengantar Spark SQL dalam Python
Latihan interaktif praktis
Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.
Mulai berolahraga