Toplulaştırma nokta SQL

Aşağıdaki kod, df adlı bir dataframe'in değerini SQL kullanarak ayarlar.

df = spark.sql("""
SELECT *, 
LEAD(time,1) OVER(PARTITION BY train_id ORDER BY time) AS time_next 
FROM schedule
""")

LEAD ifadesinin pyspark.sql.functions içinde karşılık gelen bir fonksiyonu vardır.
PARTITION BY ve ORDER BY ifadelerinin her birinin, Window nesnesi üzerinde çağrılan eşdeğer bir nokta gösterimi fonksiyonu vardır.
Aşağıdaki içe aktarmalar hazırdır:
- from pyspark.sql import Window
- from pyspark.sql.functions import lead

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

Kursa Göz Atın

Egzersiz talimatları

SQL yerine nokta gösterimini kullanarak, df ile aynı sonucu içeren dot_df adlı bir dataframe oluştur.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Obtain the identical result using dot notation 
dot_df = df.withColumn('time_next', ____('time', 1)
        .over(____.____('train_id')
        .____('time')))

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde Spark'ta bir SQL tablosu oluşturmayı ve sorgulamayı öğreneceksin. Spark SQL, SQL'in ifade gücünü Spark'a taşır. Ayrıca Spark'ta SQL pencere fonksiyonlarını nasıl kullanacağını da öğreneceksin. Pencere fonksiyonları, mevcut satırla ilişkili satırlar üzerinde hesaplama yapar. Yalnızca join'lar ve geleneksel toplulaştırmalarla ifade etmesi zor sonuçları büyük ölçüde basitleştirirler. Pencere fonksiyonlarını kümülatif toplamlar, ardışık farklar ve temel SQL'de gerçekleştirmesi zor diğer işlemler için kullanacağız.

Exercise 1: Spark'ta bir SQL tablosu oluşturma ve sorgulama Exercise 2: Bir dataframe'den SQL tablosu oluştur Exercise 3: Bir tablonun sütun adlarını belirle Exercise 4: Pencere fonksiyonu SQL Exercise 5: Pencere fonksiyonu SQL ile kümülatif toplamlar Exercise 6: Bozuk sorguyu düzelt Exercise 7: Nokta gösterimi ve SQL Exercise 8: Toplama adım adım Exercise 9: Aynı sütunu iki kez biriktirmek Exercise 10: Toplulaştırma nokta SQL

Geçerli egzersiz

Exercise 11: Pencere fonksiyonunu nokta gösteriminden SQL'e dönüştür

Bu bölümde doğal dil metnini yükleyeceksin. Ardından, sık görülen kelime dizilerini bulmak için hareketli pencere analizi uygulayacaksın.

Exercise 1: Doğal dil metnini yükleme Exercise 2: Parquet dosyasından bir veri çerçevesi yükleme Exercise 3: Bir metin sütununu split ve explode et Exercise 4: monotonically_increasing_id() kullanma Exercise 5: Hareketli pencere analizi Exercise 6: Bağlam penceresi özellik verisini oluşturma Exercise 7: Veriyi yeniden bölümlemek Exercise 8: Yaygın kelime dizileri Exercise 9: Bu ne tür bir veridir Exercise 10: Yaygın kelime dizilerini bulma Exercise 11: Sıralı benzersiz 5-tuple’lar Exercise 12: Bölüm başına en sık görülen 3'lüler

Önceki bölümlerde pencere fonksiyonu SQL'in ifade gücünü nasıl kullanacağını öğrendin. Ancak bu ifade gücü, veri çerçevelerini ve SQL tablolarını doğru şekilde önbelleğe almayı anlamanı artık önemli kılıyor. Uygulamanı nasıl değerlendirmen gerektiğini bilmek de önemlidir. Bunu Spark UI kullanarak nasıl yapacağını öğreneceksin. Ayrıca Spark'ta günlükleme için bir en iyi uygulamayı da öğreneceksin. Spark SQL, sorgu performansını iyileştirmeye yönelik bir başka yararlı araç getirir: sorgu yürütme planı. Yürütme planını, bir veri çerçevesinin kökenini (provenance) değerlendirmek için nasıl kullanacağını öğreneceksin.

Exercise 1: Önbelleğe Alma Exercise 2: Önbelleğe alma pratiği: bölüm 1 Exercise 3: Önbelleğe alma pratiği: SQL Exercise 4: Önbelleğe alma pratiği: hepsini bir araya getirelim Exercise 5: Tabloları önbelleğe alma ve önbellekten çıkarma Exercise 6: Spark UI Exercise 7: Spark UI storage sekmesi Exercise 8: Spark UI'da önbelleği inceleme Exercise 9: Günlük Kaydı Exercise 10: Günlük kaydı pratiği Exercise 11: Günlük kaydı pratiği 2 Exercise 12: Sorgu planları Exercise 13: Sorgu planlarını pratik et Exercise 14: Sorgu planlarını okumayı pekiştir 2

Önceki bölümler, ham metni yüklemek, ayrıştırmak ve kelime dizileri çıkarmak için gerekli araçları sağladı. Bu, analiz için zaten çok yararlı; ayrıca Machine Learning için de kullanışlıdır. Şimdi öğrendiklerin, metni sınıflandırmak için lojistik regresyon kullanarak bir araya geliyor. Bu bölümün sonunda, ham doğal dil metin verilerini yüklemiş ve bunları bir metin sınıflandırıcıyı eğitmek için kullanmış olacaksın.

Exercise 1: Çıkart Dönüştür Seç Exercise 2: UDF oluşturmayı pratik etme Exercise 3: Dizi sütunuyla pratik Exercise 4: Sınıflandırma için özellik verisi oluşturma Exercise 5: Vektör verisi için bir UDF oluşturma Exercise 6: Vektör verisine bir UDF uygulamak Exercise 7: Metni vektör biçimine dönüştürme Exercise 8: Metin Sınıflandırma Exercise 9: Veriyi etiketle Exercise 10: Veriyi böl Exercise 11: Sınıflandırıcıyı eğit Exercise 12: Tahmin etme ve değerlendirme Exercise 13: Sınıflandırıcıyı değerlendir Exercise 14: Test verilerini tahmin et Exercise 15: Özet