Yaygın kelime dizilerini bulma

Daha önce uzunluğu üç olan kelime dizilerini ("3-tuple") bulan bir sorgunun nasıl oluşturulacağını görmüştük. Metin belgesindeki en yaygın 3-tuple'ları bulmak için bu sorguyu klasik bir SQL sorgusunda alt sorgu olarak kullandık. Şimdi benzer bir görevi en yaygın 5-tuple'ları bulmak için yapacaksın.

text_df DataFrame'i hazır. Sherlock Holmes metninin ilk beş bölümünü içeriyor. Şu sütunlara sahip: word, id, part, title. id sütunu bir tamsayıdır; belgede daha sonra gelen bir kelimenin id'si, daha önce gelen bir kelimeninkinden daha büyüktür. part sütunu veriyi bölümlere ayırır. text_df DataFrame'i ayrıca text adlı geçici tablo olarak da kaydedildi. Amacımız, her satırın bir 5-tuple'a karşılık geldiği ve bu tuple'ın veri kümesinde kaç kez geçtiğini belirten bir count değeri olan bir veri kümesi oluşturmaktır.

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

Kursa Göz Atın

Egzersiz talimatları

Veri kümesindeki en yaygın 10 adet 5-tuple'ı bulan query adlı bir sorgu oluştur.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Find the top 10 sequences of five words
query = """
SELECT w1, w2, w3, w4, w5, COUNT(*) AS count FROM (
   SELECT word AS w1,
   LEAD(____) OVER(____ ) AS w2,
   ____ AS w3,
   ____ AS w4,
   ____ AS w5
   FROM text
)
GROUP BY w1, w2, w3, w4, w5
ORDER BY count DESC, w1, w2, w3, w4, w5
LIMIT ____
"""
df = spark.sql(query)
df.show()

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

AvançadoNível de habilidade

4.8+

Kursa Ücretsiz Başla

Bu bölümde Spark'ta bir SQL tablosu oluşturmayı ve sorgulamayı öğreneceksin. Spark SQL, SQL'in ifade gücünü Spark'a taşır. Ayrıca Spark'ta SQL pencere fonksiyonlarını nasıl kullanacağını da öğreneceksin. Pencere fonksiyonları, mevcut satırla ilişkili satırlar üzerinde hesaplama yapar. Yalnızca join'lar ve geleneksel toplulaştırmalarla ifade etmesi zor sonuçları büyük ölçüde basitleştirirler. Pencere fonksiyonlarını kümülatif toplamlar, ardışık farklar ve temel SQL'de gerçekleştirmesi zor diğer işlemler için kullanacağız.

Exercise 1: Spark'ta bir SQL tablosu oluşturma ve sorgulama Exercise 2: Bir dataframe'den SQL tablosu oluştur Exercise 3: Bir tablonun sütun adlarını belirle Exercise 4: Pencere fonksiyonu SQL Exercise 5: Pencere fonksiyonu SQL ile kümülatif toplamlar Exercise 6: Bozuk sorguyu düzelt Exercise 7: Nokta gösterimi ve SQL Exercise 8: Toplama adım adım Exercise 9: Aynı sütunu iki kez biriktirmek Exercise 10: Toplulaştırma nokta SQL Exercise 11: Pencere fonksiyonunu nokta gösteriminden SQL'e dönüştür

Bu bölümde doğal dil metnini yükleyeceksin. Ardından, sık görülen kelime dizilerini bulmak için hareketli pencere analizi uygulayacaksın.

Exercise 1: Doğal dil metnini yükleme Exercise 2: Parquet dosyasından bir veri çerçevesi yükleme Exercise 3: Bir metin sütununu split ve explode et Exercise 4: monotonically_increasing_id() kullanma Exercise 5: Hareketli pencere analizi Exercise 6: Bağlam penceresi özellik verisini oluşturma Exercise 7: Veriyi yeniden bölümlemek Exercise 8: Yaygın kelime dizileri Exercise 9: Bu ne tür bir veridir Exercise 10: Yaygın kelime dizilerini bulma

Geçerli egzersiz

Exercise 11: Sıralı benzersiz 5-tuple’lar Exercise 12: Bölüm başına en sık görülen 3'lüler

Önceki bölümlerde pencere fonksiyonu SQL'in ifade gücünü nasıl kullanacağını öğrendin. Ancak bu ifade gücü, veri çerçevelerini ve SQL tablolarını doğru şekilde önbelleğe almayı anlamanı artık önemli kılıyor. Uygulamanı nasıl değerlendirmen gerektiğini bilmek de önemlidir. Bunu Spark UI kullanarak nasıl yapacağını öğreneceksin. Ayrıca Spark'ta günlükleme için bir en iyi uygulamayı da öğreneceksin. Spark SQL, sorgu performansını iyileştirmeye yönelik bir başka yararlı araç getirir: sorgu yürütme planı. Yürütme planını, bir veri çerçevesinin kökenini (provenance) değerlendirmek için nasıl kullanacağını öğreneceksin.

Exercise 1: Önbelleğe Alma Exercise 2: Önbelleğe alma pratiği: bölüm 1 Exercise 3: Önbelleğe alma pratiği: SQL Exercise 4: Önbelleğe alma pratiği: hepsini bir araya getirelim Exercise 5: Tabloları önbelleğe alma ve önbellekten çıkarma Exercise 6: Spark UI Exercise 7: Spark UI storage sekmesi Exercise 8: Spark UI'da önbelleği inceleme Exercise 9: Günlük Kaydı Exercise 10: Günlük kaydı pratiği Exercise 11: Günlük kaydı pratiği 2 Exercise 12: Sorgu planları Exercise 13: Sorgu planlarını pratik et Exercise 14: Sorgu planlarını okumayı pekiştir 2

Önceki bölümler, ham metni yüklemek, ayrıştırmak ve kelime dizileri çıkarmak için gerekli araçları sağladı. Bu, analiz için zaten çok yararlı; ayrıca Machine Learning için de kullanışlıdır. Şimdi öğrendiklerin, metni sınıflandırmak için lojistik regresyon kullanarak bir araya geliyor. Bu bölümün sonunda, ham doğal dil metin verilerini yüklemiş ve bunları bir metin sınıflandırıcıyı eğitmek için kullanmış olacaksın.

Exercise 1: Çıkart Dönüştür Seç Exercise 2: UDF oluşturmayı pratik etme Exercise 3: Dizi sütunuyla pratik Exercise 4: Sınıflandırma için özellik verisi oluşturma Exercise 5: Vektör verisi için bir UDF oluşturma Exercise 6: Vektör verisine bir UDF uygulamak Exercise 7: Metni vektör biçimine dönüştürme Exercise 8: Metin Sınıflandırma Exercise 9: Veriyi etiketle Exercise 10: Veriyi böl Exercise 11: Sınıflandırıcıyı eğit Exercise 12: Tahmin etme ve değerlendirme Exercise 13: Sınıflandırıcıyı değerlendir Exercise 14: Test verilerini tahmin et Exercise 15: Özet