Regresión con características categóricas

Ahora que has creado music_dummies, que contiene características binarias para el género de cada canción, es hora de construir un modelo de regresión de cresta para predecir la popularidad de las canciones.

Se ha precargado music_dummies, junto con Ridge, cross_val_score, numpy como np y un objeto KFold almacenado como kf.

El modelo se evaluará calculando el error cuadrático medio (RMSE), pero antes tendrás que convertir las puntuaciones de cada pliegue en valores positivos y sacar su raíz cuadrada. Esta métrica muestra el error medio de las predicciones de nuestro modelo, por lo que puede compararse con la desviación típica del valor objetivo-"popularity".

Este ejercicio forma parte del curso

Aprendizaje supervisado con scikit-learn

Instrucciones del ejercicio

Crea X, que contiene todas las características de music_dummies e y, que consiste en la columna "popularity", respectivamente.
Instancia un modelo de regresión de cresta, estableciendo alpha igual a 0,2.
Realiza una validación cruzada en X y y utilizando el modelo de cresta, estableciendo cv igual a kf, y utilizando el error cuadrático medio negativo como métrica de puntuación.
Imprime los valores de RMSE convirtiendo los scores negativos en positivos y sacando la raíz cuadrada.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Create X and y
X = ____
y = ____

# Instantiate a ridge model
ridge = ____

# Perform cross-validation
scores = ____(____, ____, ____, cv=____, scoring="____")

# Calculate RMSE
rmse = np.____(____)
print("Average RMSE: {}".format(np.mean(rmse)))
print("Standard Deviation of the target array: {}".format(np.std(y)))

Editar y ejecutar código

Este ejercicio forma parte del curso

Aprendizaje supervisado con scikit-learn

IntermedioNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo, se te presentarán los problemas de clasificación y aprenderás a resolverlos mediante técnicas de aprendizaje supervisado. Aprenderás a dividir los datos en conjuntos de entrenamiento y de prueba, ajustar un modelo, hacer predicciones y evaluar la precisión. Descubrirás la relación entre la complejidad del modelo y el rendimiento, aplicando lo que aprendas a un conjunto de datos de rotación, donde clasificarás el estado de rotación de los clientes de una empresa de telecomunicaciones.

Exercise 1: Machine learning con scikit-learn Exercise 2: Clasificación binaria Exercise 3: El flujo de trabajo del aprendizaje supervisado Exercise 4: El reto de la clasificación Exercise 5: Ajustar KNN: k vecinos más cercanos Exercise 6: Predecir KNN: k vecinos más cercanos Exercise 7: Medir el rendimiento del modelo Exercise 8: División entrenamiento/prueba + cálculo de la precisión Exercise 9: Sobreajuste e infraajuste Exercise 10: Visualizar la complejidad del modelo

En este capítulo, te introducirás en la regresión y construirás modelos para predecir los valores de las ventas utilizando un conjunto de datos sobre gastos publicitarios. Aprenderás la mecánica de la regresión lineal y las métricas de rendimiento más comunes, como r_squared y error cuadrático medio. Realizarás la validación cruzada k-fold y aplicarás la regularización a los modelos de regresión para reducir el riesgo de sobreajuste.

Exercise 1: Introducción a la regresión Exercise 2: Crear características Exercise 3: Construye un modelo de regresión lineal Exercise 4: Visualizar un modelo de regresión lineal Exercise 5: Conceptos básicos de la regresión lineal Exercise 6: Ajustar y predecir para la regresión Exercise 7: Rendimiento de la regresión Exercise 8: Validación cruzada Exercise 9: Validación cruzada para r_squared Exercise 10: Analizar las métricas de validación cruzada Exercise 11: Regresión regularizada Exercise 12: Regresión regularizada: cresta Exercise 13: Regresión Lasso para la importancia de las características

Una vez entrenados los modelos, ahora aprenderás a evaluarlos. En este capítulo, se te presentarán varias métricas junto con una técnica de visualización para analizar el rendimiento de los modelos de clasificación mediante scikit-learn. También aprenderás a optimizar los modelos de clasificación y regresión mediante el uso del ajuste de hiperparámetros.

Exercise 1: ¿Es bueno tu modelo?Exercise 2: Decidir una métrica principal Exercise 3: Evaluación de un clasificador de predicción de la diabetes Exercise 4: Regresión logística y curva ROC Exercise 5: Construir un modelo de regresión logística Exercise 6: La curva ROC Exercise 7: ROC AUC Exercise 8: Optimización de hiperparámetros Exercise 9: Ajuste de hiperparámetros con GridSearchCV Exercise 10: Ajuste de hiperparámetros con RandomizedSearchCV

Aprende a imputar valores perdidos, convertir datos categóricos en valores numéricos, escalar datos, evaluar simultáneamente múltiples modelos de aprendizaje supervisado y construir canalizaciones para agilizar tu flujo de trabajo.

Exercise 1: Preprocesamiento de datos Exercise 2: Crear variables ficticias Exercise 3: Regresión con características categóricas

Ejercicio actual

Exercise 4: Tratamiento de los datos que faltan Exercise 5: Eliminar los datos que faltan Exercise 6: Canalización para predecir el género de las canciones I Exercise 7: Canalización para predecir el género de las canciones II Exercise 8: Centrado y escalado Exercise 9: Centrado y escalado para la regresión Exercise 10: Centrado y escalado para la clasificación Exercise 11: Evaluar varios modelos Exercise 12: Visualizar el rendimiento del modelo de regresión Exercise 13: Predecir en el conjunto de pruebas Exercise 14: Visualizar el rendimiento del modelo de clasificación Exercise 15: Canalización para predecir la popularidad de las canciones Exercise 16: ¡Enhorabuena!