1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Procvičování otázek k pohovorům z oblasti Machine Learning v Pythonu

Connected

cvičení

Techniky pro multikolinearitu – feature engineering

Multikolinearita je běžný problém, který může negativně ovlivnit výkon modelu v různých situacích strojového učení. Schopnost dobře vysvětlit tuto záležitost může posunout tvoji prezentaci modelování na vyšší úroveň a výrazně tě odlišit od ostatních kandidátů.

V tomto cvičení si procvičíš vytvoření základního modelu pomocí lineární regrese na datové sadě diabetes a prozkoumáš některé výstupní metriky. Pak si vyzkoušíš techniky pro vizuální zkoumání korelace mezi nezávislými proměnnými a nakonec provedeš feature engineering na 2 proměnných s vysokou vzájemnou korelací.

Pro první dva kroky použij X_train, X_test, y_train a y_test, které jsou již načteny v tvém pracovním prostředí.

Všechny potřebné balíčky jsou také připraveny: pandas jako pd, train_test_split z sklearn.model_selection, LinearRegression z sklearn.linear_model, mean_squared_error a r2_score z sklearn.metrics, matplotlib.pyplot jako plt a seaborn jako sns.

Instrukce 1/4

undefined XP
  • 1
    • Vytvoř, natrénuj a použij model lineární regrese k předpovědi.
    • Vypiš koeficienty modelu, MSE a koeficient determinace R².
  • 2
    • Vytvoř korelační matici a zobraz ji jako heatmapu.
    • Vypiš matici a prozkoumej vztahy mezi nezávislými proměnnými.
  • 3
    • Vytvoř nový příznak kombinací proměnných s1 a s2 z diabetes a poté je odstraň.
    • Rozděl data na trénovací a testovací část s 30 % pro testování a vypiš názvy sloupců.
  • 4
    • Vytvoř, natrénuj a použij model lineární regrese k předpovědi.
    • Vypiš koeficienty modelu, MSE a koeficient determinace R².