Aan de slagGa gratis aan de slag

Categorische variabelen vinden

Categorische variabelen zijn variabelen die een beperkt aantal waarden aannemen die een categorie beschrijven. Ze kunnen van twee typen zijn:

  • Ordinaal – variabelen met twee of meer categorieën die gerangschikt of geordend kunnen worden (bijv. “laag”, “midden”, “hoog”)
  • Nominaal – variabelen met twee of meer categorieën die geen intrinsieke volgorde hebben (bijv. “mannen”, “vrouwen”)

In deze oefening ga je de categorische variabelen in de gegevensset vinden. Om dat te doen importeer je eerst de pandas-bibliotheek en lees je het CSV-bestand "turnover.csv" in. Vervolgens bekijk je de eerste 5 rijen en zie je (visueel) dat er niet-numerieke waarden in de DataFrame staan. Daarna haal je informatie op over de typen variabelen die in de gegevensset beschikbaar zijn.

Deze oefening maakt deel uit van de cursus

HR-analytics: verloop van medewerkers voorspellen in Python

Cursus bekijken

Oefeninstructies

  • Importeer pandas (als pd) om de data te lezen.
  • Lees het bestand "turnover.csv" en sla het op in een DataFrame data.
  • Neem een snelle blik op de eerste 5 rijen van de data.
  • Haal wat info()-rmatie op over de typen variabelen in de data.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import pandas (as pd) to read the data
import ____ as pd

# Read "turnover.csv" and save it in a DataFrame called data
data = pd.____("turnover.csv")

# Take a quick look to the first 5 rows of data
print(data.____())

# Get some information on the types of variables in data
data.____()
Code bewerken en uitvoeren