Précision après réduction de dimension

Vous allez réduire le surapprentissage grâce à la réduction de dimension. Ici, vous appliquerez une forme plutôt radicale de réduction de dimension en ne sélectionnant qu’une seule colonne qui contient une information utile pour distinguer les genres. Vous allez répéter la séparation entraînement/test, l’ajustement du modèle et les prédictions afin de comparer la précision sur les données de test et d’entraînement.

Tous les packages nécessaires et y ont été préchargés.

Cet exercice fait partie du cours

Réduction de dimension en Python

Afficher le cours

Instructions

Sélectionnez uniquement la colonne du tour de cou ('neckcircumferencebase') depuis ansur_df.
Séparez les données, instanciez un classificateur et ajustez le modèle. Cela a été fait pour vous.
Calculez de nouveau les scores de précision sur les ensembles d’entraînement et de test.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Assign just the 'neckcircumferencebase' column from ansur_df to X
X = ansur_df[[____]]

# Split the data, instantiate a classifier and fit the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
svc = SVC()
svc.fit(X_train, y_train)

# Calculate accuracy scores on both train and test data
accuracy_train = accuracy_score(____, svc.predict(____))
accuracy_test = accuracy_score(____, svc.predict(____))

print(f"{accuracy_test:.1%} accuracy on test set vs. {accuracy_train:.1%} on training set")

Modifier et exécuter le code