Bir ID Alanı Ekleme

Veriyle çalışırken bazen yalnızca belirli alanlara erişip çeşitli işlemler yapmak istersin. Bu durumda, DataFrame'deki tüm benzersiz seçmen adlarını bul ve benzersiz bir ID numarası ekle. Unutma: Spark ID'leri DataFrame bölümüne (partition) göre atanır — bu nedenle ID değerleri, DataFrame'deki gerçek satır sayısından çok daha büyük olabilir.

Spark'ın tembel (lazy) işleminde, bir eylem gerçekleştirilene kadar ID'ler aslında oluşturulmaz ve veri kümesinin boyutuna bağlı olarak bir miktar rastgele görünebilir.

Çalışma alanında spark oturumu ve DallasCouncilVotes.csv.gz dosyasını içeren df adlı bir Spark DataFrame mevcut. pyspark.sql.functions kütüphanesi F kısaltmasıyla kullanılabilir.

Bu egzersiz, kursun bir parçasıdır

PySpark ile Veri Temizleme

Kursa Göz Atın

Egzersiz talimatları

VOTER NAME sütunundan benzersiz kayıtları seç ve voter_df adlı yeni bir DataFrame oluştur.
voter_df DataFrame'indeki satırları say.
Uygun Spark fonksiyonunu kullanarak bir ROW_ID sütunu ekle.
En yüksek 10 ROW_ID'ye sahip satırları göster.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Select all the unique council voters
voter_df = df.____(df["VOTER NAME"]).____()

# Count the rows in voter_df
print("\nThere are %d rows in the voter_df DataFrame.\n" % ____)

# Add a ROW_ID
voter_df = voter_df.____('ROW_ID', F.____())

# Show the rows with 10 highest IDs in the set
voter_df.orderBy(voter_df.____.desc()).show(____)

Kodu Düzenle ve Çalıştır