Sobreajuste e infraajuste

Interpretar la complejidad del modelo es una buena forma de evaluar el rendimiento del aprendizaje supervisado. Tu objetivo es producir un modelo que pueda interpretar la relación entre las características y la variable objetivo, así como generalizar bien cuando se exponga a nuevas observaciones.

Los conjuntos de entrenamiento y prueba se han creado a partir del conjunto de datos churn_df y se han precargado como X_train, X_test, y_train e y_test.

Además, se ha importado para ti KNeighborsClassifier junto con numpy como np.

Este ejercicio forma parte del curso

Aprendizaje supervisado con scikit-learn

Instrucciones del ejercicio

Crea neighbors como una matriz numpy de valores desde 1 hasta 12 inclusive.
Instancia un KNeighborsClassifier, con el número de vecinos igual al iterador neighbor.
Ajusta el modelo a los datos de entrenamiento.
Calcula las puntuaciones de precisión del conjunto de entrenamiento y del conjunto de prueba por separado utilizando el método .score() y asigna los resultados a los diccionarios train_accuracies y test_accuracies, respectivamente, utilizando el iterador neighbor como índice.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create neighbors
neighbors = np.arange(____, ____)
train_accuracies = {}
test_accuracies = {}

for neighbor in neighbors:
  
	# Set up a KNN Classifier
	knn = ____(____=____)
  
	# Fit the model
	knn.____(____, ____)
  
	# Compute accuracy
	train_accuracies[____] = knn.____(____, ____)
	test_accuracies[____] = knn.____(____, ____)
print(neighbors, '\n', train_accuracies, '\n', test_accuracies)

Editar y ejecutar código

Este ejercicio forma parte del curso

Aprendizaje supervisado con scikit-learn

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo, se te presentarán los problemas de clasificación y aprenderás a resolverlos mediante técnicas de aprendizaje supervisado. Aprenderás a dividir los datos en conjuntos de entrenamiento y de prueba, ajustar un modelo, hacer predicciones y evaluar la precisión. Descubrirás la relación entre la complejidad del modelo y el rendimiento, aplicando lo que aprendas a un conjunto de datos de rotación, donde clasificarás el estado de rotación de los clientes de una empresa de telecomunicaciones.

Exercise 1: Machine learning con scikit-learn Exercise 2: Clasificación binaria Exercise 3: El flujo de trabajo del aprendizaje supervisado Exercise 4: El reto de la clasificación Exercise 5: Ajustar KNN: k vecinos más cercanos Exercise 6: Predecir KNN: k vecinos más cercanos Exercise 7: Medir el rendimiento del modelo Exercise 8: División entrenamiento/prueba + cálculo de la precisión Exercise 9: Sobreajuste e infraajuste

Ejercicio actual

Exercise 10: Visualizar la complejidad del modelo

En este capítulo, te introducirás en la regresión y construirás modelos para predecir los valores de las ventas utilizando un conjunto de datos sobre gastos publicitarios. Aprenderás la mecánica de la regresión lineal y las métricas de rendimiento más comunes, como r_squared y error cuadrático medio. Realizarás la validación cruzada k-fold y aplicarás la regularización a los modelos de regresión para reducir el riesgo de sobreajuste.

Exercise 1: Introducción a la regresión Exercise 2: Crear características Exercise 3: Construye un modelo de regresión lineal Exercise 4: Visualizar un modelo de regresión lineal Exercise 5: Conceptos básicos de la regresión lineal Exercise 6: Ajustar y predecir para la regresión Exercise 7: Rendimiento de la regresión Exercise 8: Validación cruzada Exercise 9: Validación cruzada para r_squared Exercise 10: Analizar las métricas de validación cruzada Exercise 11: Regresión regularizada Exercise 12: Regresión regularizada: cresta Exercise 13: Regresión Lasso para la importancia de las características

Una vez entrenados los modelos, ahora aprenderás a evaluarlos. En este capítulo, se te presentarán varias métricas junto con una técnica de visualización para analizar el rendimiento de los modelos de clasificación mediante scikit-learn. También aprenderás a optimizar los modelos de clasificación y regresión mediante el uso del ajuste de hiperparámetros.

Exercise 1: ¿Es bueno tu modelo?Exercise 2: Decidir una métrica principal Exercise 3: Evaluación de un clasificador de predicción de la diabetes Exercise 4: Regresión logística y curva ROC Exercise 5: Construir un modelo de regresión logística Exercise 6: La curva ROC Exercise 7: ROC AUC Exercise 8: Optimización de hiperparámetros Exercise 9: Ajuste de hiperparámetros con GridSearchCV Exercise 10: Ajuste de hiperparámetros con RandomizedSearchCV

Aprende a imputar valores perdidos, convertir datos categóricos en valores numéricos, escalar datos, evaluar simultáneamente múltiples modelos de aprendizaje supervisado y construir canalizaciones para agilizar tu flujo de trabajo.

Exercise 1: Preprocesamiento de datos Exercise 2: Crear variables ficticias Exercise 3: Regresión con características categóricas Exercise 4: Tratamiento de los datos que faltan Exercise 5: Eliminar los datos que faltan Exercise 6: Canalización para predecir el género de las canciones I Exercise 7: Canalización para predecir el género de las canciones II Exercise 8: Centrado y escalado Exercise 9: Centrado y escalado para la regresión Exercise 10: Centrado y escalado para la clasificación Exercise 11: Evaluar varios modelos Exercise 12: Visualizar el rendimiento del modelo de regresión Exercise 13: Predecir en el conjunto de pruebas Exercise 14: Visualizar el rendimiento del modelo de clasificación Exercise 15: Canalización para predecir la popularidad de las canciones Exercise 16: ¡Enhorabuena!