Subsetten
Onthoud: het bedrijf wil uitbreiden en Hoppiness landelijk aanbieden. Het model moet dus ook werken op gegevens uit nieuwe winkels. Een manier om te controleren hoe je model presteert op nieuwe data, is door het eerst te trainen op een deel van de data en vervolgens het resterende deel te voorspellen.
Je maakt een trainingsgegevensset door de laatste aankoop die voor elke klant is geregistreerd, achter te houden. Dat doe je met de functie subset() op choice.data en door alle observaties te selecteren waarvoor de indicatorvariabele LASTPURCHASE gelijk is aan 0. Op dezelfde manier maak je een testgegevensset door alle observaties te selecteren waarvoor de indicatorvariabele LASTPURCHASE gelijk is aan 1.
Deze oefening maakt deel uit van de cursus
Responsmodellen bouwen in R
Oefeninstructies
- Laat de laatste aankoop weg om een trainingsgegevensset te maken. Gebruik de functie
subset()opchoice.data. SpecificeerLASTPURCHASE == 0alssubset-argument. Wijs het resultaat toe aantrain.data. - Maak een testgegevensset met de functie
subset()opchoice.data. SpecificeerLASTPURCHASE == 1alssubset-argument. Wijs het resultaat toe aantest.data.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create the training data
# Create the test data