Belang van features
Hoewel sommige snoepattributen, zoals chocolade, heel populair kunnen zijn, betekent dat niet dat ze belangrijk zijn voor de modelvoorspelling. Nadat een random forest-model is getraind, kun je het modelattribuut .feature_importances_ bekijken om te zien welke variabelen de grootste impact hadden. Je kunt controleren hoe belangrijk elke variabele was in het model door over de feature-importance-array te loopen met enumerate().
Als je Python’s enumerate()-functie niet kent: die kan over een lijst loopen en tegelijk automatisch een teller bijhouden.
Deze oefening maakt deel uit van de cursus
Modelvalidatie in Python
Oefeninstructies
- Loop door de feature-importance-output van
rfr. - Print de kolomnamen van
X_trainen de bijbehorende importancescore voor die kolom.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit the model using X and y
rfr.fit(X_train, y_train)
# Print how important each column is to the model
for i, item in enumerate(rfr.____):
# Use i and item to print out the feature importance of each column
print("{0:s}: {1:.2f}".format(X_train.columns[____], ____))