1. Learn
  2. /
  3. Courses
  4. /
  5. Uczenie maszynowe z PySpark

Connected

Exercise

Łączenie kolumn

Ostatnim etapem przygotowania danych jest połączenie wszystkich kolumn predyktorów w jedną kolumnę.

Zaktualizowana wersja zbioru danych flights, uwzględniająca wszystkie zmiany z poprzednich ćwiczeń, zawiera następujące kolumny predyktorów:

  • mon, dom i dow
  • carrier_idx (zakodowana wartość z kolumny carrier)
  • org_idx (zakodowana wartość z kolumny org)
  • km
  • depart
  • duration

Uwaga: Argument truncate=False przekazany do metody show() zapobiega obcinaniu danych w wynikach.

Instructions

100 XP
  • Zaimportuj klasę, która pozwoli scalić predyktory.
  • Utwórz obiekt asemblera, który umożliwi połączenie kolumn predyktorów w jedną kolumnę.
  • Użyj asemblera, aby wygenerować nową, skonsolidowaną kolumnę.