Sütunları birleştirme
Veri hazırlamanın son aşaması, tüm yordayıcı sütunları tek bir sütunda toplamak.
Önceki birkaç egzersizde yaptığın tüm değişiklikleri içeren güncellenmiş flights verisinde aşağıdaki yordayıcı sütunlar var:
mon,domvedowcarrier_idx(carrier'dan indekslenmiş değer)org_idx(org'dan indekslenmiş değer)kmdepartduration
Not: show() metoduna verilen truncate=False argümanı, çıktıda verinin kesilmesini engeller.
Bu egzersiz
PySpark ile Machine Learning
kursunun bir parçasıdırEgzersiz talimatları
- Yordayıcıları birleştirecek sınıfı içe aktar.
- Yordayıcı sütunları tek bir sütunda birleştirmene olanak tanıyacak bir assembler nesnesi oluştur.
- Assembler'ı kullanarak yeni bir birleştirilmiş sütun üret.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import the necessary class
from pyspark.ml.feature import ____
# Create an assembler object
assembler = ____(inputCols=[
____
], outputCol='features')
# Consolidate predictor columns
flights_assembled = assembler.____(____)
# Check the resulting column
flights_assembled.select('features', 'delay').show(5, truncate=False)