Hersampling van data

De eerste stap in een Machine Learning-project is het maken van trainings- en testgegevenssets voor het fitten en evalueren van een model. De testgegevensset geeft een schatting van hoe je model presteert op nieuwe data en helpt overfitting te voorkomen.

Je werkt met de gegevensset telecom_df, die informatie bevat over klanten van een telecombedrijf. De uitkomstvariabele is canceled_service en legt vast of een klant zijn contract bij het bedrijf heeft opgezegd. De voorspellers bevatten informatie over het mobiele- en internetgebruik van klanten, evenals hun contracttype en maandelijkse kosten.

De telecom_df-tibble is in je sessie geladen.

Deze oefening maakt deel uit van de cursus

Modelleren met tidymodels in R

Bekijk cursus

Oefeninstructies

Maak een rsample-object, telecom_split, dat de instructies bevat om de data in telecom_df willekeurig te splitsen in trainings- en testgegevenssets.
- Wijs 75% van de data toe aan training en stratificeer de resultaten op canceled_service.
Geef het object telecom_split door aan de juiste rsample-functies om de trainings- en testgegevenssets te maken.
Controleer het aantal rijen in elke gegevensset door ze door te geven aan de functie nrow().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create data split object
telecom_split <- ___(___, prop = ___,
                     strata = ___)

# Create the training data
telecom_training <- ___ %>% 
  ___

# Create the test data
telecom_test <- ___ %>% 
  ___

# Check the number of rows
nrow(___)
nrow(___)

Code bewerken en uitvoeren