1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Extreme Gradient Boosting with XGBoost

Connected

cvičení

Rozhodovací stromy

V tomto cvičení sestavíš jednoduchý rozhodovací strom pomocí DecisionTreeClassifier ze scikit-learn na datasetu breast cancer, který je přímo součástí scikit-learn.

Dataset obsahuje numerická měření různých charakteristik jednotlivých nádorů (například obvod a texturu) z biopsií prsu a jednu cílovou hodnotu (nádor je buď maligní, nebo benigní).

Dataset se vzorky (měřeními) jsme pro tebe předem načetli do X a cílové hodnoty pro každý nádor do y. Tvým úkolem je rozdělit celý dataset na trénovací a testovací sadu a následně natrénovat DecisionTreeClassifier. Nastavíš přitom parametr max_depth. V tomto modelu lze upravit i řadu dalších parametrů – všechny si můžeš prohlédnout zde.

Pokyny

100 XP
  • Importuj:
    • train_test_split z sklearn.model_selection.
    • DecisionTreeClassifier z sklearn.tree.
  • Vytvoř trénovací a testovací sady tak, aby 20 % dat bylo použito pro testování. Nastav random_state na 123.
  • Vytvoř instanci DecisionTreeClassifier s názvem dt_clf_4 a hodnotou max_depth rovnou 4. Tento parametr určuje maximální počet po sobě jdoucích dělicích bodů před dosažením listového uzlu.
  • Napasuj klasifikátor na trénovací sadu a predikuj štítky testovací sady.