Metoda siluetei

În ultima lecție, ai văzut cum diferite număruri de clustere influențează performanța algoritmului K-Means. Acest aspect este deosebit de relevant în contextul unui interviu, deoarece numărul optim de clustere generează cele mai bune rezultate.

În acest exercițiu, vei folosi funcția silhouette_score() din sklearn.metrics pe algoritmi K-Means aplicați pe DataFrame-ul diabetes, pentru a efectua metoda siluetei în vederea identificării numărului optim de clustere. Reține că vei utiliza distanța euclidiană la calcularea scorului, deoarece aceasta asigură comparabilitatea cu metoda Cotului.

Matricea de caracteristici X, pe care o vei folosi pentru antrenarea modelelor K-Means, a fost creată pentru tine.

Te afli în același punct al fluxului de lucru ca în ultimele exerciții, dar aici vei adăuga și etapa de predicție: Machine learning pipeline

Importă modulele necesare pentru a instanția un algoritm K-Means și a obține scorul siluetei.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni 1/3

exercițiu