De volgorde van variabelen bepalen
De forward stepwise-variabelenselectie start met een lege set variabelen en voegt voorspellers één voor één toe. In elke stap wordt de voorspeller geselecteerd die samen met de huidige variabelen de hoogste AUC oplevert.
In deze oefening leer je de forward stepwise-variabelenselectie implementeren. Hiervoor kun je de functie next_best gebruiken die al voor je is geïmplementeerd. Die gebruik je zo:
next_best(current_variables,candidate_variables,target,basetable)
waarbij current_variables de lijst is met variabelen die al in het model zitten en candidate_variables de lijst met variabelen die als volgende kunnen worden toegevoegd.
Deze oefening maakt deel uit van de cursus
Introductie tot Predictive Analytics in Python
Oefeninstructies
- Gebruik de functie
next_bestom de volgende beste variabele te berekenen en ken die toe aannext_variable. - Werk de lijst
current_variablesbij. - Werk de lijst
candidate_variablesbij.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Find the candidate variables
candidate_variables = list(basetable.columns.values)
candidate_variables.remove("target")
# Initialize the current variables
current_variables = []
# The forward stepwise variable selection procedure
number_iterations = 5
for i in range(0, number_iterations):
next_variable = ____(____, ____, ["target"], basetable)
current_variables = current_variables + [____]
candidate_variables.remove(____)
print("Variable added in step " + str(i+1) + " is " + next_variable + ".")
print(current_variables)