Precisión tras la reducción de dimensionalidad

Vas a reducir el sobreajuste con ayuda de la reducción de dimensionalidad. En este caso, aplicarás una forma bastante drástica de reducción seleccionando solo una columna que aporta buena información para distinguir entre géneros. Repetirás la separación en entrenamiento y prueba, el ajuste del modelo y la predicción para comparar la precisión en los datos de prueba frente a los de entrenamiento.

Todos los paquetes relevantes y y ya están precargados.

Este ejercicio forma parte del curso

Reducción de dimensionalidad en Python

Ver curso

Instrucciones del ejercicio

Selecciona solo la columna de circunferencia del cuello ('neckcircumferencebase') de ansur_df.
Divide los datos, instancia un clasificador y ajusta el modelo. Esto ya está hecho por ti.
Calcula de nuevo las puntuaciones de precisión tanto en el conjunto de entrenamiento como en el de prueba.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Assign just the 'neckcircumferencebase' column from ansur_df to X
X = ansur_df[[____]]

# Split the data, instantiate a classifier and fit the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
svc = SVC()
svc.fit(X_train, y_train)

# Calculate accuracy scores on both train and test data
accuracy_train = accuracy_score(____, svc.predict(____))
accuracy_test = accuracy_score(____, svc.predict(____))

print(f"{accuracy_test:.1%} accuracy on test set vs. {accuracy_train:.1%} on training set")

Editar y ejecutar código