Hersampling van data
De eerste stap in een Machine Learning-project is het maken van trainings- en testgegevenssets voor het fitten en evalueren van een model. De testgegevensset geeft een schatting van hoe je model presteert op nieuwe data en helpt overfitting te voorkomen.
Je werkt met de gegevensset telecom_df, die informatie bevat over klanten van een telecombedrijf. De uitkomstvariabele is canceled_service en legt vast of een klant zijn contract bij het bedrijf heeft opgezegd. De voorspellers bevatten informatie over het mobiele- en internetgebruik van klanten, evenals hun contracttype en maandelijkse kosten.
De telecom_df-tibble is in je sessie geladen.
Deze oefening maakt deel uit van de cursus
Modelleren met tidymodels in R
Oefeninstructies
- Maak een
rsample-object,telecom_split, dat de instructies bevat om de data intelecom_dfwillekeurig te splitsen in trainings- en testgegevenssets.- Wijs 75% van de data toe aan training en stratificeer de resultaten op
canceled_service.
- Wijs 75% van de data toe aan training en stratificeer de resultaten op
- Geef het object
telecom_splitdoor aan de juistersample-functies om de trainings- en testgegevenssets te maken. - Controleer het aantal rijen in elke gegevensset door ze door te geven aan de functie
nrow().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create data split object
telecom_split <- ___(___, prop = ___,
strata = ___)
# Create the training data
telecom_training <- ___ %>%
___
# Create the test data
telecom_test <- ___ %>%
___
# Check the number of rows
nrow(___)
nrow(___)