BaşlayınÜcretsiz Başlayın

Bir vektör oluştur

Pipeline içindeki son adım, özelliklerimizi içeren tüm sütunları tek bir sütunda birleştirmektir. Modelleme başlamadan önce bunun yapılması gerekir; çünkü her Spark modelleme rutini veriyi bu biçimde bekler. Bunu, bir sütundaki her değeri bir vektördeki bir giriş olarak saklayarak yapabilirsin. Böylece modelin bakış açısından her gözlem, onunla ilgili tüm bilgileri ve bu gözlemin hangi değere karşılık geldiğini belirten bir etiket içeren bir vektördür.

Bu nedenle, pyspark.ml.feature alt modülünde VectorAssembler adlı bir sınıf bulunur. Bu Transformer, belirttiğin tüm sütunları alır ve bunları yeni bir vektör sütununda birleştirir.

Bu egzersiz

PySpark Temelleri

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • inputCols adlarını bir liste olarak ve outputCol adını "features" olacak şekilde vererek VectorAssembler() çağrısıyla bir VectorAssembler oluştur.
    • Sütunların listesi şu olmalıdır: ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)
Kodu Düzenle ve Çalıştır