Techniky pro multikolinearitu – feature engineering

Multikolinearita je běžný problém, který může negativně ovlivnit výkon modelu v různých situacích strojového učení. Schopnost dobře vysvětlit tuto záležitost může posunout tvoji prezentaci modelování na vyšší úroveň a výrazně tě odlišit od ostatních kandidátů.

V tomto cvičení si procvičíš vytvoření základního modelu pomocí lineární regrese na datové sadě diabetes a prozkoumáš některé výstupní metriky. Pak si vyzkoušíš techniky pro vizuální zkoumání korelace mezi nezávislými proměnnými a nakonec provedeš feature engineering na 2 proměnných s vysokou vzájemnou korelací.

Pro první dva kroky použij X_train, X_test, y_train a y_test, které jsou již načteny v tvém pracovním prostředí.

Všechny potřebné balíčky jsou také připraveny: pandas jako pd, train_test_split z sklearn.model_selection, LinearRegression z sklearn.linear_model, mean_squared_error a r2_score z sklearn.metrics, matplotlib.pyplot jako plt a seaborn jako sns.

1
- Vytvoř, natrénuj a použij model lineární regrese k předpovědi.
- Vypiš koeficienty modelu, MSE a koeficient determinace R².

2
- Vytvoř korelační matici a zobraz ji jako heatmapu.
- Vypiš matici a prozkoumej vztahy mezi nezávislými proměnnými.
3
- Vytvoř nový příznak kombinací proměnných s1 a s2 z diabetes a poté je odstraň.
- Rozděl data na trénovací a testovací část s 30 % pro testování a vypiš názvy sloupců.
4
- Vytvoř, natrénuj a použij model lineární regrese k předpovědi.
- Vypiš koeficienty modelu, MSE a koeficient determinace R².

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Instrukce 1/4

cvičení