Overzicht masterdata
Tot nu toe heb je informatie uit de gegevenssets rating en survey gecombineerd met je oorspronkelijke gegevensset.
We hebben verschillende andere medewerkergerelateerde gegevens toegevoegd, zoals compensation, no_leaves_taken (aantal opgenomen vakantiedagen), hiring_source enz., in de gegevensset org_final. Bekijk deze gegevensset alvast voordat je in het volgende hoofdstuk met feature engineering aan de slag gaat.
Deze oefening maakt deel uit van de cursus
HR-analytics: verloop van medewerkers voorspellen in R
Oefeninstructies
- Gebruik
glimpse()om de structuur van de gegevenssetorg_finalte bekijken. - Ken het aantal variabelen in de gegevensset
org_finaltoe aanvariables. - Maak een boxplot om de verdeling van
distance_from_homevoorActiveenInactivemedewerkers te visualiseren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# View the structure of the dataset
___
# Number of variables in the dataset
variables <- ___
# Compare the travel distance of Active and Inactive employees
ggplot(org_final, aes(x = ___, y = ___)) +
___