Pencere fonksiyonunu nokta gösteriminden SQL'e dönüştür

Bir tren tarifesine yeni bir sütun ekleyeceğiz; böylece her satırda trenin bir sonraki durağına varması için gereken dakika sayısı yer alacak.

df.columns == ['train_id', 'station', 'time'] olan bir dataframe'imiz df var.
df, schedule adlı bir SQL tablosu olarak kaydedildi.
Aşağıdaki pencere fonksiyonu sorgusu nokta gösterimini kullanır. Yeni bir dataframe dot_df üretir.

window = Window.partitionBy('train_id').orderBy('time')
dot_df = df.withColumn('diff_min', 
                    (unix_timestamp(lead('time', 1).over(window),'H:m') 
                     - unix_timestamp('time', 'H:m'))/60)

unix_timestamp fonksiyonunun, UNIX_TIMESTAMP SQL fonksiyonuna denk olduğuna dikkat et.

Lütfen örnek koddaki iskelet yapısına dikkat et. Yanıtını bu iskelete uygun biçimlendirmen, gönderdiğin yanıtın biçimlendirme nedeniyle hatalı şekilde reddedilmesini önleyecektir.

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

Kursa Göz Atın

Egzersiz talimatları

dot_df ile aynı sonucu elde edecek bir SQL sorgusu oluştur. Lütfen sorguyu iskelete göre biçimlendir (yani yer tutucu alt çizgileri _____ kullan).

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Create a SQL query to obtain an identical result to dot_df
query = """
SELECT *, 
(____(____(time, 1) ____ (____ BY train_id ____ BY time),'H:m') 
 - ____(time, 'H:m'))/60 AS diff_min 
FROM schedule 
"""
sql_df = spark.sql(query)
sql_df.show()

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde Spark'ta bir SQL tablosu oluşturmayı ve sorgulamayı öğreneceksin. Spark SQL, SQL'in ifade gücünü Spark'a taşır. Ayrıca Spark'ta SQL pencere fonksiyonlarını nasıl kullanacağını da öğreneceksin. Pencere fonksiyonları, mevcut satırla ilişkili satırlar üzerinde hesaplama yapar. Yalnızca join'lar ve geleneksel toplulaştırmalarla ifade etmesi zor sonuçları büyük ölçüde basitleştirirler. Pencere fonksiyonlarını kümülatif toplamlar, ardışık farklar ve temel SQL'de gerçekleştirmesi zor diğer işlemler için kullanacağız.

Exercise 1: Spark'ta bir SQL tablosu oluşturma ve sorgulama Exercise 2: Bir dataframe'den SQL tablosu oluştur Exercise 3: Bir tablonun sütun adlarını belirle Exercise 4: Pencere fonksiyonu SQL Exercise 5: Pencere fonksiyonu SQL ile kümülatif toplamlar Exercise 6: Bozuk sorguyu düzelt Exercise 7: Nokta gösterimi ve SQL Exercise 8: Toplama adım adım Exercise 9: Aynı sütunu iki kez biriktirmek Exercise 10: Toplulaştırma nokta SQL Exercise 11: Pencere fonksiyonunu nokta gösteriminden SQL'e dönüştür

Geçerli egzersiz

Bu bölümde doğal dil metnini yükleyeceksin. Ardından, sık görülen kelime dizilerini bulmak için hareketli pencere analizi uygulayacaksın.

Exercise 1: Doğal dil metnini yükleme Exercise 2: Parquet dosyasından bir veri çerçevesi yükleme Exercise 3: Bir metin sütununu split ve explode et Exercise 4: monotonically_increasing_id() kullanma Exercise 5: Hareketli pencere analizi Exercise 6: Bağlam penceresi özellik verisini oluşturma Exercise 7: Veriyi yeniden bölümlemek Exercise 8: Yaygın kelime dizileri Exercise 9: Bu ne tür bir veridir Exercise 10: Yaygın kelime dizilerini bulma Exercise 11: Sıralı benzersiz 5-tuple’lar Exercise 12: Bölüm başına en sık görülen 3'lüler

Önceki bölümlerde pencere fonksiyonu SQL'in ifade gücünü nasıl kullanacağını öğrendin. Ancak bu ifade gücü, veri çerçevelerini ve SQL tablolarını doğru şekilde önbelleğe almayı anlamanı artık önemli kılıyor. Uygulamanı nasıl değerlendirmen gerektiğini bilmek de önemlidir. Bunu Spark UI kullanarak nasıl yapacağını öğreneceksin. Ayrıca Spark'ta günlükleme için bir en iyi uygulamayı da öğreneceksin. Spark SQL, sorgu performansını iyileştirmeye yönelik bir başka yararlı araç getirir: sorgu yürütme planı. Yürütme planını, bir veri çerçevesinin kökenini (provenance) değerlendirmek için nasıl kullanacağını öğreneceksin.

Exercise 1: Önbelleğe Alma Exercise 2: Önbelleğe alma pratiği: bölüm 1 Exercise 3: Önbelleğe alma pratiği: SQL Exercise 4: Önbelleğe alma pratiği: hepsini bir araya getirelim Exercise 5: Tabloları önbelleğe alma ve önbellekten çıkarma Exercise 6: Spark UI Exercise 7: Spark UI storage sekmesi Exercise 8: Spark UI'da önbelleği inceleme Exercise 9: Günlük Kaydı Exercise 10: Günlük kaydı pratiği Exercise 11: Günlük kaydı pratiği 2 Exercise 12: Sorgu planları Exercise 13: Sorgu planlarını pratik et Exercise 14: Sorgu planlarını okumayı pekiştir 2

Önceki bölümler, ham metni yüklemek, ayrıştırmak ve kelime dizileri çıkarmak için gerekli araçları sağladı. Bu, analiz için zaten çok yararlı; ayrıca Machine Learning için de kullanışlıdır. Şimdi öğrendiklerin, metni sınıflandırmak için lojistik regresyon kullanarak bir araya geliyor. Bu bölümün sonunda, ham doğal dil metin verilerini yüklemiş ve bunları bir metin sınıflandırıcıyı eğitmek için kullanmış olacaksın.

Exercise 1: Çıkart Dönüştür Seç Exercise 2: UDF oluşturmayı pratik etme Exercise 3: Dizi sütunuyla pratik Exercise 4: Sınıflandırma için özellik verisi oluşturma Exercise 5: Vektör verisi için bir UDF oluşturma Exercise 6: Vektör verisine bir UDF uygulamak Exercise 7: Metni vektör biçimine dönüştürme Exercise 8: Metin Sınıflandırma Exercise 9: Veriyi etiketle Exercise 10: Veriyi böl Exercise 11: Sınıflandırıcıyı eğit Exercise 12: Tahmin etme ve değerlendirme Exercise 13: Sınıflandırıcıyı değerlendir Exercise 14: Test verilerini tahmin et Exercise 15: Özet