Kódování kategorických sloupců I: LabelEncoder

Teď, když víš, co bude potřeba udělat, aby byla data o bydlení připravená pro XGBoost, pojďme si celý postup projít krok za krokem.

Nejprve bude nutné doplnit chybějící hodnoty – jak jsi viděl/a dříve, sloupec LotFrontage jich má mnoho. Poté bude potřeba zakódovat kategorické sloupce v datasetu pomocí one-hot encodingu, aby byly reprezentovány numericky. Pro osvěžení tohoto konceptu se můžeš podívat na toto video z kurzu Supervised Learning with scikit-learn.

Data obsahují pět kategorických sloupců: MSZoning, PavedDrive, Neighborhood, BldgType a HouseStyle. Scikit-learn nabízí funkci LabelEncoder, která převede hodnoty v každém kategorickém sloupci na celá čísla. Tady si ji procvičíš.

Naimportuj LabelEncoder z sklearn.preprocessing.
Doplň chybějící hodnoty ve sloupci LotFrontage hodnotou 0 pomocí .fillna().
Vytvoř booleovskou masku pro kategorické sloupce – stačí zkontrolovat, zda se df.dtypes rovná object.
Vytvoř objekt LabelEncoder. Postupuj stejně jako při vytváření jakéhokoli jiného estimátoru ze scikit-learn.
Zakóduj všechny kategorické sloupce na celá čísla pomocí LabelEncoder(). K tomu použij metodu .fit_transform() objektu le v připravené lambda funkci.

cvičení

Kódování kategorických sloupců I: LabelEncoder

Pokyny

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení