MulaiMulai sekarang secara gratis

Latihan caching: menggabungkan semuanya

Pendekatan apa yang paling baik untuk melakukan cache pada df1 dan df2, dan mengapa?

Hasil Anda bisa berbeda; berikut salah satu (acak) hasil untuk masing-masing dari dua pendekatan:

Jawaban pertama (cache df1):

df1_1st : 2.4s
df1_2nd : 0.1s
df2_1st : 0.3s
df2_2nd : 0.2s
Overall elapsed : 3.9

Jawaban kedua (cache df2):

df1_1st : 2.3s
df1_2nd : 1.1s
df2_1st : 1.7s
df2_2nd : 0.1s
Overall elapsed : 6.4

Latihan ini adalah bagian dari kursus

Pengantar Spark SQL dalam Python

Lihat Kursus

Latihan interaktif praktis

Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.

Mulai berolahraga