Bir vektör oluştur
Pipeline içindeki son adım, özelliklerimizi içeren tüm sütunları tek bir sütunda birleştirmektir. Modelleme başlamadan önce bunun yapılması gerekir; çünkü her Spark modelleme rutini veriyi bu biçimde bekler. Bunu, bir sütundaki her değeri bir vektördeki bir giriş olarak saklayarak yapabilirsin. Böylece modelin bakış açısından her gözlem, onunla ilgili tüm bilgileri ve bu gözlemin hangi değere karşılık geldiğini belirten bir etiket içeren bir vektördür.
Bu nedenle, pyspark.ml.feature alt modülünde VectorAssembler adlı bir sınıf bulunur. Bu Transformer, belirttiğin tüm sütunları alır ve bunları yeni bir vektör sütununda birleştirir.
Bu egzersiz
PySpark Temelleri
kursunun bir parçasıdırEgzersiz talimatları
inputColsadlarını bir liste olarak veoutputColadını"features"olacak şekilde vererekVectorAssembler()çağrısıyla birVectorAssembleroluştur.- Sütunların listesi şu olmalıdır:
["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].
- Sütunların listesi şu olmalıdır:
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Make a VectorAssembler
vec_assembler = VectorAssembler(inputCols=____, outputCol=____)