1. Nauka
  2. /
  3. Kursy
  4. /
  5. Podstawy PySpark

Connected

ćwiczenie

Składanie wektora

Ostatnim krokiem w Pipeline jest połączenie wszystkich kolumn zawierających cechy w jedną kolumnę. Trzeba to zrobić przed przystąpieniem do modelowania, ponieważ każda procedura modelowania w Sparku wymaga danych w tej właśnie postaci. Polega to na zapisaniu wartości z każdej kolumny jako elementu wektora. Z punktu widzenia modelu każda obserwacja jest wektorem zawierającym wszystkie informacje na jej temat oraz etykietą określającą wartość, którą ta obserwacja reprezentuje.

Dlatego podmoduł pyspark.ml.feature zawiera klasę VectorAssembler. Ten Transformer pobiera wskazane kolumny i łączy je w nową kolumnę wektorową.

Instrukcje

100 XP
  • Utwórz obiekt VectorAssembler, wywołując VectorAssembler() z argumentem inputCols jako listą nazw kolumn oraz argumentem outputCol o wartości "features".
    • Lista kolumn powinna mieć postać: ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].