Metode de filtrare și de tip wrapper

Întrebările despre reducerea dimensionalității unui set de date sunt foarte frecvente în interviurile de machine learning. O modalitate de a reduce dimensionalitatea este să selectezi doar caracteristicile relevante din setul tău de date.

Aici vei exersa o metodă de filtrare aplicată pe DataFrame-ul diabetes, urmată de 2 stiluri diferite de metode wrapper care includ validare încrucișată. Vei folosi pandas, matplotlib.pyplot și seaborn pentru a vizualiza corelații, a procesa datele și a aplica tehnici de selecție a caracteristicilor.

Matricea de caracteristici cu coloana variabilei țintă eliminată (progression) este încărcată ca X, iar variabila țintă este încărcată ca y.

Reține că pandas, matplotlib.pyplot și seaborn au fost deja importate în spațiul tău de lucru și au alias-urile pd, plt, respectiv sns.

Observă că ai adăugat un pas de validare încrucișată în pipeline-ul tău (care se aplică ultimilor 3 pași):

Machine learning pipeline

1
- Creează o matrice de corelație pentru diabetes și o hartă de căldură (heatmap), apoi filtrează caracteristicile cu o corelație mai mare de 50%.

2
- Instanțiază un estimator SVR cu kernel liniar și un selector de caracteristici cu 5 validări încrucișate, apoi antrenează-l pe caracteristici și variabila țintă.
3
- Elimină coloana neimportantă identificată în pasul 2 din X, instanțiază un obiect LarsCV și antrenează-l pe datele tale.

exercițiu

Metode de filtrare și de tip wrapper

Instrucțiuni 1/3

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni 1/3

exercițiu