Önbelleğe alma pratiği: bölüm 1

Sonraki birkaç egzersizde iki DataFrame’i önbelleğe almanın farklı yollarını deneyeceksin.

Bir dataframe olan df1 bir csv dosyasından yükleniyor. Üzerinde birkaç işleme adımı uygulanıyor. df1 birden fazla kez kullanılacağından, önbelleğe alma için uygun bir aday.

İkinci bir dataframe olan df2, df1 üzerinde ek ve işlemci yoğun adımlar uygulanarak oluşturuluyor. O da önbelleğe alma için bir aday.

df2, df1’a bağlı olduğundan şu soru ortaya çıkıyor: df1’i mi önbelleğe almak daha iyi, yoksa df2’yi mi?

Bu egzersizde df1’i önbelleğe almayı deneyeceğiz. Her bir eylemin ne kadar sürdüğüne dikkat et. Bunları bir sonraki egzersizde karşılaştıracağız.

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

Kursa Göz Atın

Egzersiz talimatları

Yalnızca df1’i önbelleğe al.
df1 üzerinde bir eylem çalıştır ve tekrarla, sonra df2 üzerinde bir eylem çalıştır ve tekrarla. Bu kısım senin için yapıldı.
df1’in önbelleğe alınıp alınmadığını doğrula.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Unpersists df1 and df2 and initializes a timer
prep(df1, df2) 

# Cache df1
____

# Run actions on both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)

# Prove df1 is cached
print(____)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde Spark'ta bir SQL tablosu oluşturmayı ve sorgulamayı öğreneceksin. Spark SQL, SQL'in ifade gücünü Spark'a taşır. Ayrıca Spark'ta SQL pencere fonksiyonlarını nasıl kullanacağını da öğreneceksin. Pencere fonksiyonları, mevcut satırla ilişkili satırlar üzerinde hesaplama yapar. Yalnızca join'lar ve geleneksel toplulaştırmalarla ifade etmesi zor sonuçları büyük ölçüde basitleştirirler. Pencere fonksiyonlarını kümülatif toplamlar, ardışık farklar ve temel SQL'de gerçekleştirmesi zor diğer işlemler için kullanacağız.

Exercise 1: Spark'ta bir SQL tablosu oluşturma ve sorgulama Exercise 2: Bir dataframe'den SQL tablosu oluştur Exercise 3: Bir tablonun sütun adlarını belirle Exercise 4: Pencere fonksiyonu SQL Exercise 5: Pencere fonksiyonu SQL ile kümülatif toplamlar Exercise 6: Bozuk sorguyu düzelt Exercise 7: Nokta gösterimi ve SQL Exercise 8: Toplama adım adım Exercise 9: Aynı sütunu iki kez biriktirmek Exercise 10: Toplulaştırma nokta SQL Exercise 11: Pencere fonksiyonunu nokta gösteriminden SQL'e dönüştür

Bu bölümde doğal dil metnini yükleyeceksin. Ardından, sık görülen kelime dizilerini bulmak için hareketli pencere analizi uygulayacaksın.

Exercise 1: Doğal dil metnini yükleme Exercise 2: Parquet dosyasından bir veri çerçevesi yükleme Exercise 3: Bir metin sütununu split ve explode et Exercise 4: monotonically_increasing_id() kullanma Exercise 5: Hareketli pencere analizi Exercise 6: Bağlam penceresi özellik verisini oluşturma Exercise 7: Veriyi yeniden bölümlemek Exercise 8: Yaygın kelime dizileri Exercise 9: Bu ne tür bir veridir Exercise 10: Yaygın kelime dizilerini bulma Exercise 11: Sıralı benzersiz 5-tuple’lar Exercise 12: Bölüm başına en sık görülen 3'lüler

Önceki bölümlerde pencere fonksiyonu SQL'in ifade gücünü nasıl kullanacağını öğrendin. Ancak bu ifade gücü, veri çerçevelerini ve SQL tablolarını doğru şekilde önbelleğe almayı anlamanı artık önemli kılıyor. Uygulamanı nasıl değerlendirmen gerektiğini bilmek de önemlidir. Bunu Spark UI kullanarak nasıl yapacağını öğreneceksin. Ayrıca Spark'ta günlükleme için bir en iyi uygulamayı da öğreneceksin. Spark SQL, sorgu performansını iyileştirmeye yönelik bir başka yararlı araç getirir: sorgu yürütme planı. Yürütme planını, bir veri çerçevesinin kökenini (provenance) değerlendirmek için nasıl kullanacağını öğreneceksin.

Exercise 1: Önbelleğe Alma Exercise 2: Önbelleğe alma pratiği: bölüm 1

Geçerli egzersiz

Exercise 3: Önbelleğe alma pratiği: SQL Exercise 4: Önbelleğe alma pratiği: hepsini bir araya getirelim Exercise 5: Tabloları önbelleğe alma ve önbellekten çıkarma Exercise 6: Spark UI Exercise 7: Spark UI storage sekmesi Exercise 8: Spark UI'da önbelleği inceleme Exercise 9: Günlük Kaydı Exercise 10: Günlük kaydı pratiği Exercise 11: Günlük kaydı pratiği 2 Exercise 12: Sorgu planları Exercise 13: Sorgu planlarını pratik et Exercise 14: Sorgu planlarını okumayı pekiştir 2

Önceki bölümler, ham metni yüklemek, ayrıştırmak ve kelime dizileri çıkarmak için gerekli araçları sağladı. Bu, analiz için zaten çok yararlı; ayrıca Machine Learning için de kullanışlıdır. Şimdi öğrendiklerin, metni sınıflandırmak için lojistik regresyon kullanarak bir araya geliyor. Bu bölümün sonunda, ham doğal dil metin verilerini yüklemiş ve bunları bir metin sınıflandırıcıyı eğitmek için kullanmış olacaksın.

Exercise 1: Çıkart Dönüştür Seç Exercise 2: UDF oluşturmayı pratik etme Exercise 3: Dizi sütunuyla pratik Exercise 4: Sınıflandırma için özellik verisi oluşturma Exercise 5: Vektör verisi için bir UDF oluşturma Exercise 6: Vektör verisine bir UDF uygulamak Exercise 7: Metni vektör biçimine dönüştürme Exercise 8: Metin Sınıflandırma Exercise 9: Veriyi etiketle Exercise 10: Veriyi böl Exercise 11: Sınıflandırıcıyı eğit Exercise 12: Tahmin etme ve değerlendirme Exercise 13: Sınıflandırıcıyı değerlendir Exercise 14: Test verilerini tahmin et Exercise 15: Özet