One-hot encoden van specifieke kolommen

Een lokale tweedehandsautodealer wil jouw hulp bij het voorspellen van de verkoopprijs van hun voertuigen. Als je one-hot encoding toepast op de volledige used_cars-gegevensset, krijgt de nieuwe gegevensset meer dan 1.200 kolommen. Je bent bang dat dit tot problemen kan leiden bij het trainen van je Machine Learning-modellen om de prijs te voorspellen. Je besluit een eenvoudigere aanpak te proberen en alleen one-hot encoding toe te passen op een paar kolommen.

Deze oefening maakt deel uit van de cursus

Werken met categorische data in Python

Oefeninstructies

Maak een nieuwe gegevensset, used_cars_simple, met one-hot encoding voor deze kolommen: "manufacturer_name" en "transmission" (in deze volgorde).
Zet de prefix van alle nieuwe kolommen op "dummy", zodat je makkelijk kunt filteren op nieuw aangemaakte kolommen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create one-hot encoding for just two columns
used_cars_simple = pd.____(
  used_cars,
  # Specify the columns from the instructions
  ____,
  # Set the prefix
  ____
)

# Print the shape of the new dataset
print(used_cars_simple.shape)

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Werken met categorische data in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Bijna elke gegevensset bevat categorische informatie—en vaak is dat een onontgonnen goudmijn. In dit hoofdstuk leer je hoe pandas categorische kolommen verwerkt met het gegevenstype category. Je ontdekt ook hoe je data kunt groeperen op categorieën om sterke samenvattende statistieken te vinden.

Exercise 1: Introductie van de cursus Exercise 2: Categorisch vs. numeriek Exercise 3: Een doelvariabele verkennen Exercise 4: Ordinale categorische variabelen Exercise 5: Categorische gegevens in pandas Exercise 6: dtypes instellen en geheugen besparen Exercise 7: Een categorische pandas-Series maken Exercise 8: dtype instellen bij het inlezen van data Exercise 9: Gegevens groeperen op categorie in pandas Exercise 10: Maak heel veel groepen Exercise 11: Een .groupby()-instructie opzetten Exercise 12: pandas-functies effectief gebruiken

Nu is het tijd om te leren hoe je categorieën instelt, toevoegt en verwijdert uit een Series. Je verkent ook hoe je categorieën kunt bijwerken, hernoemen, samenvoegen en herschikken, voordat je je nieuwe skills toepast om andere data in je DataFrame op te schonen en te benaderen.

Exercise 1: Categorische variabelen instellen Exercise 2: Categorieën instellen Exercise 3: Categorieën toevoegen Exercise 4: Categorieën verwijderen Exercise 5: Categorieën bijwerken Exercise 6: Kennischeck: categorieën samenvoegen Exercise 7: Categorieën hernoemen Exercise 8: Categorieën samenvoegen Exercise 9: Categorieën opnieuw ordenen Exercise 10: Categorieën in een Series opnieuw ordenen Exercise 11: Gebruik .groupby() na het herordenen Exercise 12: Gegevens opschonen en benaderen Exercise 13: Variabelen opschonen Exercise 14: Gegevens raadplegen en filteren

In dit hoofdstuk gebruik je de Python-bibliotheek seaborn om informatieve visualisaties te maken met categorische data—waaronder categorische plots (cat-plot), boxplots, staafdiagrammen, point plots en count plots. Daarna leer je hoe je categorische kolommen visualiseert en data opsplitst over categorische kolommen om samenvattende statistieken van numerieke kolommen te tonen.

Exercise 1: Introductie tot categorische plots met Seaborn Exercise 2: Boxplot begrijpen Exercise 3: Een boxplot maken Exercise 4: Seaborn-staafdiagrammen Exercise 5: Een staafdiagram maken Exercise 6: Categorieën ordenen Exercise 7: Staafdiagram met hue Exercise 8: Point- en countplots Exercise 9: Een point plot maken Exercise 10: Een count plot maken Exercise 11: Overzicht van catplot()-typen Exercise 12: Extra opties voor catplot()Exercise 13: Eén visualisatie per groep Exercise 14: Categorische plots bijwerken

Tot slot leer je hoe je veelvoorkomende valkuilen bij het gebruik van categorische data omzeilt. Je bouwt ook je data-encodingvaardigheden uit met een introductie tot label encoding en one-hot encoding—perfect om je data voor te bereiden voor gebruik in Machine Learning-algoritmen.

Exercise 1: Valkuilen bij categorische data Exercise 2: Kennistoets geheugengebruik Exercise 3: Valkuilen overwinnen: stringproblemen Exercise 4: Valkuilen voorkomen: NumPy-arrays gebruiken Exercise 5: Label encoding Exercise 6: Maak een label-encoding en een map Exercise 7: Opgeslagen mappings gebruiken Exercise 8: Een Booleaanse codering maken Exercise 9: One-hot encoding Exercise 10: One-hot kennistoets Exercise 11: One-hot encoden van specifieke kolommen

Huidige oefening

Exercise 12: Afsluitende video