1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Extreme Gradient Boosting with XGBoost

Connected

cvičení

XGBoost: trénování a predikce

Je čas sestavit tvůj první XGBoost model! Jak ti Sergey ukázal ve videu, k trénování a predikci XGBoost modelů můžeš využít paradigma .fit() / .predict() ze scikit-learn, které už znáš — knihovna xgboost totiž nabízí API kompatibilní se scikit-learn!

V tomto cvičení budeš pracovat s daty o odchodu zákazníků. Dataset obsahuje fiktivní data z aplikace pro sdílení jízd: chování uživatelů v průběhu jejich prvního měsíce používání aplikace ve fiktivních městech a informaci o tom, zda službu využívali i 5 měsíců po registraci. Data jsou předem načtena do DataFrame s názvem churn_data — prozkoumej ho v shellu!

Tvým cílem je na základě dat z prvního měsíce předpovědět, zda uživatelé budou aplikaci stále používat i po 5 měsících. To je typický scénář pro predikci odchodu zákazníků. Data rozdělíš na trénovací a testovací sadu, na trénovací sadě natrénuješ jednoduchý model xgboost a jeho výkon vyhodnotíš na testovací sadě výpočtem přesnosti.

pandas a numpy jsou již importovány jako pd a np a train_test_split je importován z sklearn.model_selection. Pole příznaků a cílové proměnné jsou připraveny jako X a y.

Pokyny

100 XP
  • Importuj xgboost jako xgb.
  • Vytvoř trénovací a testovací sady tak, aby 20 % dat bylo použito pro testování. Nastav random_state na 123.
  • Vytvoř instanci XGBoostClassifier jako xg_cl pomocí xgb.XGBClassifier(). Nastav n_estimators na 10 a objective na 'binary:logistic'. Zatím si s tím nedělej starosti — o těchto parametrech se dozvíš více později v kurzu.
  • Pomocí metody .fit() natrénuj xg_cl na trénovací sadě (X_train, y_train).
  • Pomocí metody .predict() předpověz štítky testovací sady (X_test) a kliknutím na 'Odeslat odpověď' zobraz výslednou přesnost.