1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Machine Learning with PySpark

Connected

Cvičení

Kódování letiště odletu

Sloupec org v datech o letech je kategorická proměnná, která udává letiště, z něhož let odlétá.

  • ORD — O'Hare International Airport (Chicago)
  • SFO — San Francisco International Airport
  • JFK — John F Kennedy International Airport (New York)
  • LGA — La Guardia Airport (New York)
  • SMF — Sacramento
  • SJC — San Jose
  • OGG — Kahului (Hawaii)

Jde samozřejmě jen o malou část letišť. Protože se ale jedná o kategorickou proměnnou, je potřeba ji před použitím v regresním modelu zakódovat metodou one-hot encoding.

Data jsou uložena v proměnné flights. Pomocí string indexeru jsi už vytvořil/a sloupec s indexovanými hodnotami odpovídajícími řetězcům ve sloupci org.

Může se ti hodit podívat se na snímky z lekcí v panelu Slides vedle IPython Shell.

Pokyny

100 XP
  • Importuj třídu pro one-hot encoding.
  • Vytvoř instanci one-hot encoderu, nastav vstupní sloupec na org_idx a výstupní sloupec na org_dummy.
  • Aplikuj one-hot encoder na data o letech.
  • Vytvoř přehled mapování kategorických hodnot na binárně zakódované dummy proměnné. Zahrň pouze unikátní hodnoty a seřaď je podle org_idx.