BaşlayınÜcretsiz başlayın

Seçme

SQL'in SELECT ifadesinin Spark karşılığı .select() metodudur. Bu metod, seçmek istediğin her sütun için birer tane olmak üzere birden çok argüman alır. Bu argümanlar, sütun adını birer string olarak (her sütun için bir tane) ya da bir sütun nesnesi olarak (df.colName söz dizimini kullanarak) verilebilir. Bir sütun nesnesi verdiğinde, tıpkı .withColumn() içinde olduğu gibi, sütun üzerindeki veriyi değiştirmek için toplama veya çıkarma gibi işlemler uygulayabilirsin.

.select() ile .withColumn() arasındaki fark, .select() yalnızca belirttiğin sütunları döndürürken, .withColumn() tanımladığın sütuna ek olarak DataFrame'in tüm sütunlarını döndürmesidir. Genellikle, veri düzenlerken yanında gereksiz veri taşımamak için işlemin başında ihtiyacın olmayan sütunları atmak iyi bir fikirdir. Bu durumda .withColumn() değil, .select() kullanırsın.

sp ark adında bir SparkSession'ın ve flights adlı bir Spark DataFrame'inin çalışma alanında zaten yüklü olduğunu unutma.

Bu egzersiz, kursun bir parçasıdır

PySpark Temelleri

Kursa Göz Atın

Egzersiz talimatları

  • Sütun adlarını string olarak vererek flights içinden "tailnum", "origin" ve "dest" sütunlarını seç. Bunu selected1 olarak kaydet.
  • df.colName söz dizimini kullanarak "origin", "dest" ve "carrier" sütunlarını seç ve ardından sonuç üzerinde senin için tanımlanmış iki filtreyi (filterA ve filterB) birlikte kullanarak yalnızca SEA'den PDX'e giden uçuşları tutacak şekilde filtrele. Bunu selected2 olarak kaydet.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Select the first set of columns
selected1 = flights.select("____", "____", "____")

# Select the second set of columns
temp = flights.select(____.____, ____.____, ____.____)

# Define first filter
filterA = flights.origin == "SEA"

# Define second filter
filterB = flights.dest == "PDX"

# Filter the data, first by filterA then by filterB
selected2 = temp.filter(____).filter(____)
Kodu Düzenle ve Çalıştır