Accuratezza dopo la riduzione della dimensionalità

Userai la riduzione della dimensionalità per ridurre l’overfitting. In questo caso applicherai una forma piuttosto drastica di riduzione selezionando una sola colonna che contiene buone informazioni per distinguere tra generi. Ripeterai lo split train-test, il fit del modello e la fase di predizione per confrontare l’accuratezza sui dati di test rispetto a quelli di training.

Tutti i pacchetti rilevanti e y sono già stati caricati.

Questo esercizio fa parte del corso

Riduzione della dimensionalità in Python

Visualizza corso

Istruzioni dell'esercizio

Seleziona dal ansur_df solo la colonna della circonferenza del collo ('neckcircumferencebase').
Suddividi i dati, istanzia un classificatore e adatta il modello. Questo è già stato fatto per te.
Calcola di nuovo gli accuracy score sia sul training set sia sul test set.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Assign just the 'neckcircumferencebase' column from ansur_df to X
X = ansur_df[[____]]

# Split the data, instantiate a classifier and fit the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
svc = SVC()
svc.fit(X_train, y_train)

# Calculate accuracy scores on both train and test data
accuracy_train = accuracy_score(____, svc.predict(____))
accuracy_test = accuracy_score(____, svc.predict(____))

print(f"{accuracy_test:.1%} accuracy on test set vs. {accuracy_train:.1%} on training set")

Modifica ed esegui il codice