Aan de slagGa gratis aan de slag

Categorische variabelen encoden

Er zijn in de UFO-gegevensset een paar kolommen die eerst gecodeerd moeten worden voordat je ze met scikit-learn kunt modelleren. Je voert die transformatie hier uit, met zowel binaire als one-hot-encodingmethoden.

Deze oefening maakt deel uit van de cursus

Preprocessing voor Machine Learning in Python

Cursus bekijken

Oefeninstructies

  • Schrijf met apply() een voorwaardelijke lambda-functie die 1 teruggeeft als de waarde "us" is, en anders 0.
  • Print het aantal .unique()-waarden in de kolom type.
  • Maak met pd.get_dummies() een one-hot-encoded set van de kolom type.
  • Gebruik tot slot pd.concat() om de type_set-gecodeerde variabelen aan de ufo-gegevensset te concateneren.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Use pandas to encode us values as 1 and others as 0
ufo["country_enc"] = ufo["country"].____

# Print the number of unique type values
print(len(____.unique()))

# Create a one-hot encoded set of the type values
type_set = ____

# Concatenate this set back to the ufo DataFrame
ufo = pd.concat([____, ____], axis=1)
Code bewerken en uitvoeren