Önbelleğe alma pratiği: SQL
Daha önce iki DataFrame incelemiştik: df1 ve df1'den oluşturulan df2. df1'i önbelleğe almaya çalışmıştık, ancak df2'yi almamıştık. Bu egzersizde, df2'yi önbelleğe almanın, df1'i almamanın etkilerine bakacağız.
Yine, her bir eylemin ne kadar sürdüğüne dikkat et. Bunları bir sonraki egzersizde karşılaştıracağız. Hangi görevler hızlandı? Hangileri yavaşladı?
Bu egzersiz
Python ile Spark SQL'e Giriş
kursunun bir parçasıdırEgzersiz talimatları
df2'yi önbelleğe al, ancakdf1'i alma.df1üzerinde bir eylemi bir kez çalıştır ve tekrarla, sonradf2üzerinde bir eylemi çalıştır ve tekrarla. Bu senin için hazırlandı.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Unpersist df1 and df2 and initializes a timer
prep(df1, df2)
# Persist df2 using memory and disk storage level
df2.persist(____)
# Run actions both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)