Parquet dosyasından bir veri çerçevesi yükleme

Çalışma alanında sherlock_sentences.parquet adlı bir veri çerçevesi dosyası bulunuyor. Bu veri çerçevesindeki her satır tek bir cümlecik içerir. Her cümlecik; nokta, tırnak işaretleri ve bir cümleyi ya da cümle parçasını belirten diğer doğal dil sınırlayıcıları gibi noktalama işaretleriyle diğer cümleciklerden ayrılmış bir kelime dizisidir. Görevin — kabul edersen — bu dosyayı yüklemek.

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

Kursa Göz Atın

Egzersiz talimatları

sherlock_sentences.parquet dosyasını yükle.
"id > 70" koşuluyla filtrele ve ilk 5 satırı göster.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Load the dataframe
df = ____('sherlock_sentences.parquet')

# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)

Kodu Düzenle ve Çalıştır

Bu egzersiz, kursun bir parçasıdır

Python ile Spark SQL'e Giriş

AvançadoNível de habilidade

4.8+

146 reviews

Kursa Ücretsiz Başla

Bu bölümde Spark'ta bir SQL tablosu oluşturmayı ve sorgulamayı öğreneceksin. Spark SQL, SQL'in ifade gücünü Spark'a taşır. Ayrıca Spark'ta SQL pencere fonksiyonlarını nasıl kullanacağını da öğreneceksin. Pencere fonksiyonları, mevcut satırla ilişkili satırlar üzerinde hesaplama yapar. Yalnızca join'lar ve geleneksel toplulaştırmalarla ifade etmesi zor sonuçları büyük ölçüde basitleştirirler. Pencere fonksiyonlarını kümülatif toplamlar, ardışık farklar ve temel SQL'de gerçekleştirmesi zor diğer işlemler için kullanacağız.

Exercise 1: Spark'ta bir SQL tablosu oluşturma ve sorgulama Exercise 2: Bir dataframe'den SQL tablosu oluştur Exercise 3: Bir tablonun sütun adlarını belirle Exercise 4: Pencere fonksiyonu SQL Exercise 5: Pencere fonksiyonu SQL ile kümülatif toplamlar Exercise 6: Bozuk sorguyu düzelt Exercise 7: Nokta gösterimi ve SQL Exercise 8: Toplama adım adım Exercise 9: Aynı sütunu iki kez biriktirmek Exercise 10: Toplulaştırma nokta SQL Exercise 11: Pencere fonksiyonunu nokta gösteriminden SQL'e dönüştür

Bu bölümde doğal dil metnini yükleyeceksin. Ardından, sık görülen kelime dizilerini bulmak için hareketli pencere analizi uygulayacaksın.

Exercise 1: Doğal dil metnini yükleme Exercise 2: Parquet dosyasından bir veri çerçevesi yükleme

Geçerli egzersiz

Exercise 3: Bir metin sütununu split ve explode et Exercise 4: monotonically_increasing_id() kullanma Exercise 5: Hareketli pencere analizi Exercise 6: Bağlam penceresi özellik verisini oluşturma Exercise 7: Veriyi yeniden bölümlemek Exercise 8: Yaygın kelime dizileri Exercise 9: Bu ne tür bir veridir Exercise 10: Yaygın kelime dizilerini bulma Exercise 11: Sıralı benzersiz 5-tuple’lar Exercise 12: Bölüm başına en sık görülen 3'lüler

Önceki bölümlerde pencere fonksiyonu SQL'in ifade gücünü nasıl kullanacağını öğrendin. Ancak bu ifade gücü, veri çerçevelerini ve SQL tablolarını doğru şekilde önbelleğe almayı anlamanı artık önemli kılıyor. Uygulamanı nasıl değerlendirmen gerektiğini bilmek de önemlidir. Bunu Spark UI kullanarak nasıl yapacağını öğreneceksin. Ayrıca Spark'ta günlükleme için bir en iyi uygulamayı da öğreneceksin. Spark SQL, sorgu performansını iyileştirmeye yönelik bir başka yararlı araç getirir: sorgu yürütme planı. Yürütme planını, bir veri çerçevesinin kökenini (provenance) değerlendirmek için nasıl kullanacağını öğreneceksin.

Exercise 1: Önbelleğe Alma Exercise 2: Önbelleğe alma pratiği: bölüm 1 Exercise 3: Önbelleğe alma pratiği: SQL Exercise 4: Önbelleğe alma pratiği: hepsini bir araya getirelim Exercise 5: Tabloları önbelleğe alma ve önbellekten çıkarma Exercise 6: Spark UI Exercise 7: Spark UI storage sekmesi Exercise 8: Spark UI'da önbelleği inceleme Exercise 9: Günlük Kaydı Exercise 10: Günlük kaydı pratiği Exercise 11: Günlük kaydı pratiği 2 Exercise 12: Sorgu planları Exercise 13: Sorgu planlarını pratik et Exercise 14: Sorgu planlarını okumayı pekiştir 2

Önceki bölümler, ham metni yüklemek, ayrıştırmak ve kelime dizileri çıkarmak için gerekli araçları sağladı. Bu, analiz için zaten çok yararlı; ayrıca Machine Learning için de kullanışlıdır. Şimdi öğrendiklerin, metni sınıflandırmak için lojistik regresyon kullanarak bir araya geliyor. Bu bölümün sonunda, ham doğal dil metin verilerini yüklemiş ve bunları bir metin sınıflandırıcıyı eğitmek için kullanmış olacaksın.

Exercise 1: Çıkart Dönüştür Seç Exercise 2: UDF oluşturmayı pratik etme Exercise 3: Dizi sütunuyla pratik Exercise 4: Sınıflandırma için özellik verisi oluşturma Exercise 5: Vektör verisi için bir UDF oluşturma Exercise 6: Vektör verisine bir UDF uygulamak Exercise 7: Metni vektör biçimine dönüştürme Exercise 8: Metin Sınıflandırma Exercise 9: Veriyi etiketle Exercise 10: Veriyi böl Exercise 11: Sınıflandırıcıyı eğit Exercise 12: Tahmin etme ve değerlendirme Exercise 13: Sınıflandırıcıyı değerlendir Exercise 14: Test verilerini tahmin et Exercise 15: Özet