1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Foundations of PySpark

Connected

Cvičení

Sestavení vektoru

Posledním krokem v Pipeline je sloučení všech sloupců s příznaky do jediného sloupce. Tento krok je nutný před samotným modelováním, protože každá modelovací rutina v Sparku očekává data právě v tomto formátu. Hodnoty z jednotlivých sloupců se uloží jako prvky vektoru – z pohledu modelu je pak každé pozorování vektorem, který obsahuje veškeré informace o daném záznamu, spolu s příznakem říkajícím, jakou hodnotu toto pozorování reprezentuje.

Proto submodul pyspark.ml.feature obsahuje třídu VectorAssembler. Tento Transformer vezme všechny zadané sloupce a sloučí je do nového sloupcového vektoru.

Pokyny

100 XP
  • Vytvoř VectorAssembler zavoláním VectorAssembler() se seznamem názvů vstupních sloupců v parametru inputCols a názvem výstupního sloupce "features".
    • Seznam sloupců by měl být ["month", "air_time", "carrier_fact", "dest_fact", "plane_age"].