BaşlayınÜcretsiz başlayın

Bir vektör oluştur

Pipeline içindeki son adım, özelliklerimizi içeren tüm sütunları tek bir sütunda birleştirmektir. Modelleme başlamadan önce bunun yapılması gerekir; çünkü her Spark modelleme rutini veriyi bu biçimde bekler. Bunu, bir sütundaki her değeri bir vektördeki bir giriş olarak saklayarak yapabilirsin. Böylece modelin bakış açısından her gözlem, onunla ilgili tüm bilgileri ve bu gözlemin hangi değere karşılık geldiğini belirten bir etiket içeren bir vektördür.

Bu nedenle, pyspark.ml.feature alt modülünde VectorAssembler adlı bir sınıf bulunur. Bu Transformer, belirttiğin tüm sütunları alır ve bunları yeni bir vektör sütununda birleştirir.

Bu egzersiz, kursun bir parçasıdır

PySpark Temelleri

Kursa Göz Atın

Egzersiz talimatları

  • inputCols adlarını bir liste olarak ve outputCol adını "features" olacak şekilde vererek VectorAssembler() çağrısıyla bir VectorAssembler oluştur.
    • Sütunların listesi şu olmalıdır: ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)
Kodu Düzenle ve Çalıştır