Précision après réduction de dimension
Vous allez réduire le surapprentissage grâce à la réduction de dimension. Ici, vous appliquerez une forme plutôt radicale de réduction de dimension en ne sélectionnant qu’une seule colonne qui contient une information utile pour distinguer les genres. Vous allez répéter la séparation entraînement/test, l’ajustement du modèle et les prédictions afin de comparer la précision sur les données de test et d’entraînement.
Tous les packages nécessaires et y ont été préchargés.
Cet exercice fait partie du cours
Réduction de dimension en Python
Instructions
- Sélectionnez uniquement la colonne du tour de cou (
'neckcircumferencebase') depuisansur_df. - Séparez les données, instanciez un classificateur et ajustez le modèle. Cela a été fait pour vous.
- Calculez de nouveau les scores de précision sur les ensembles d’entraînement et de test.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Assign just the 'neckcircumferencebase' column from ansur_df to X
X = ansur_df[[____]]
# Split the data, instantiate a classifier and fit the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
svc = SVC()
svc.fit(X_train, y_train)
# Calculate accuracy scores on both train and test data
accuracy_train = accuracy_score(____, svc.predict(____))
accuracy_test = accuracy_score(____, svc.predict(____))
print(f"{accuracy_test:.1%} accuracy on test set vs. {accuracy_train:.1%} on training set")