Categorische variabelen vinden
Categorische variabelen zijn variabelen die een beperkt aantal waarden aannemen die een categorie beschrijven. Ze kunnen van twee typen zijn:
- Ordinaal – variabelen met twee of meer categorieën die gerangschikt of geordend kunnen worden (bijv. “laag”, “midden”, “hoog”)
- Nominaal – variabelen met twee of meer categorieën die geen intrinsieke volgorde hebben (bijv. “mannen”, “vrouwen”)
In deze oefening ga je de categorische variabelen in de gegevensset vinden. Om dat te doen importeer je eerst de pandas-bibliotheek en lees je het CSV-bestand "turnover.csv" in. Vervolgens bekijk je de eerste 5 rijen en zie je (visueel) dat er niet-numerieke waarden in de DataFrame staan. Daarna haal je informatie op over de typen variabelen die in de gegevensset beschikbaar zijn.
Deze oefening maakt deel uit van de cursus
HR-analytics: verloop van medewerkers voorspellen in Python
Oefeninstructies
- Importeer
pandas(alspd) om de data te lezen. - Lees het bestand
"turnover.csv"en sla het op in een DataFramedata. - Neem een snelle blik op de eerste 5 rijen van de data.
- Haal wat
info()-rmatie op over de typen variabelen in de data.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import pandas (as pd) to read the data
import ____ as pd
# Read "turnover.csv" and save it in a DataFrame called data
data = pd.____("turnover.csv")
# Take a quick look to the first 5 rows of data
print(data.____())
# Get some information on the types of variables in data
data.____()