1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Feature Engineering with PySpark

Connected

cvičení

One Hot Encoding

Ve Spojených státech určuje místo bydliště, do které školy mohou děti chodit. Není divu, že mnoho lidí věnuje velkou pozornost tomu, do jakého školního obvodu jejich budoucí domov patří. Sloupec SCHOOLDISTRICTNUMBER sice obsahuje čísla, ale ve skutečnosti jde o kategorickou proměnnou – sčítání nebo průměrování těchto hodnot nedává žádný smysl. V tomto příkladu proto převedeme SCHOOLDISTRICTNUMBER z kategorické proměnné na numerický vektor, který pak využijeme v modelu strojového učení.

Pokyny

100 XP
  • Vytvoř transformer StringIndexer s názvem string_indexer, kde vstupem bude SCHOOLDISTRICTNUMBER a výstupem School_Index.
  • Aplikuj transformer string_indexer na df pomocí fit() a transform(). Výsledný dataframe ulož do proměnné indexed_df.
  • Vytvoř transformer OneHotEncoder s názvem encoder, kde vstupem bude School_Index a výstupem School_Vec.
  • Aplikuj transformaci na indexed_df pomocí transform(). Průběžné kroky transformace si prohlédni pomocí připraveného kódu.