Ajustar el modelo a los datos de entrenamiento

Es hora de dividir tus datos en un conjunto de entrenamiento para ajustar un modelo y un conjunto de prueba independiente para evaluar su poder predictivo. Antes de hacer esta división, primero muestreamos el 100% de las filas de house_prices sin reemplazo y lo asignamos a house_prices_shuffled. Esto tiene el efecto de "barajar" las filas, garantizando así que los conjuntos de entrenamiento y prueba se muestren de forma aleatoria.

Este ejercicio forma parte del curso

Modelado con datos en el Tidyverse

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Set random number generator seed value for reproducibility
set.seed(76)

# Randomly reorder the rows
house_prices_shuffled <- house_prices %>% 
  sample_frac(size = 1, replace = FALSE)

# Train/test split
train <- house_prices_shuffled %>%
  slice(___:___)
test <- house_prices_shuffled %>%
  slice(___:___)

Editar y ejecutar código

Este ejercicio forma parte del curso

Modelado con datos en el Tidyverse

IntermedioNivel de habilidad

4.9+

Empieza el curso gratis

En este capítulo conocerás algo de teoría de base y terminología sobre modelado, en particular, el marco general de modelado, la diferencia entre modelar para explicar y modelar para predecir, y el problema de modelado. Además, empezarás a realizar tu primer análisis exploratorio de datos, un paso clave antes de cualquier modelado formal.

Exercise 1: Contexto sobre el modelado para la explicación Exercise 2: Visualización exploratoria de age Exercise 3: Resúmenes numéricos de age Exercise 4: Contexto sobre la modelización para la predicción Exercise 5: Visualización exploratoria del tamaño de las viviendas Exercise 6: Transformación log10 del tamaño de la vivienda Exercise 7: El problema de modelado para explicación Exercise 8: EDA de la relación entre las puntuaciones de docencia y de "belleza"Exercise 9: Correlación entre las puntuaciones de enseñanza y de "beauty"Exercise 10: El problema de modelado para la predicción Exercise 11: EDA de la relación entre el precio de la vivienda y waterfront Exercise 12: Predecir el precio de la vivienda con waterfront

Con el marco general de modelado ya en mente, en este capítulo veremos la regresión lineal básica, donde mantendrás las cosas sencillas y modelarás la variable de resultado y como función de una única variable explicativa/predictora x. Usaremos variables x tanto numéricas como categóricas. La variable de resultado de interés en este capítulo serán las puntuaciones de evaluación docente del personal instructor en la University of Texas, Austin.

Exercise 1: Explicar la puntuación de docencia con la edad Exercise 2: Trazar una línea de regresión de "mejor ajuste"Exercise 3: Ajustar una regresión con una x numérica Exercise 4: Predecir la puntuación de docencia usando la edad Exercise 5: Hacer predicciones usando el "beauty score"Exercise 6: Calcular valores ajustados/predichos y residuos Exercise 7: Explicar la puntuación de docencia con el género Exercise 8: EDA de la relación entre score y rank Exercise 9: Ajustar una regresión con una x categórica Exercise 10: Predecir la puntuación docente usando el género Exercise 11: Hacer predicciones usando rank Exercise 12: Visualizar la distribución de los residuos

En el capítulo anterior, aprendiste sobre la regresión básica usando un único predictor numérico o categórico. Pero ¿por qué limitarte a una sola variable para fundamentar tus explicaciones/predicciones? Ahora ampliarás la regresión básica a la regresión múltiple, que permite incorporar más de una variable explicativa o predictora en tus modelos. Modelarás precios de vivienda usando un conjunto de datos de casas del área metropolitana de Seattle, WA.

Exercise 1: Explicar el precio de la vivienda con año y tamaño Exercise 2: EDA de la relación Exercise 3: Ajustar una regresión Exercise 4: Predecir el precio de la vivienda usando año y tamaño Exercise 5: Hacer predicciones usando tamaño y dormitorios Exercise 6: Interpretar los residuos Exercise 7: Explicar el precio de la vivienda con tamaño y estado Exercise 8: Modelo de pendientes paralelas Exercise 9: Interpretar el modelo de pendientes paralelas Exercise 10: Predecir el precio de la vivienda usando tamaño y estado Exercise 11: Hacer predicciones usando tamaño y waterfront Exercise 12: Automating predictions on "new" houses

En los capítulos anteriores, ajustaste varios modelos para explicar o predecir una variable de resultado de interés. Sin embargo, ¿cómo sabemos qué modelos elegir? Las medidas de evaluación de modelos te permiten valorar qué tan bien un modelo explicativo «se ajusta» a un conjunto de datos o cuán preciso es un modelo predictivo. Con base en estas medidas, aprenderás criterios para determinar qué modelos son «mejores».

Exercise 1: Selección y evaluación de modelos Exercise 2: Repaso: suma de residuos al cuadrado Exercise 3: ¿Qué modelo elegir?Exercise 4: Evaluar el ajuste del modelo con R-cuadrado Exercise 5: Calcular el R-cuadrado de un modelo Exercise 6: Comparar el R-cuadrado de dos modelos Exercise 7: Evaluar predicciones con RMSE Exercise 8: Calcular el MSE y el RMSE de un modelo Exercise 9: Comparar el RMSE de dos modelos Exercise 10: Marco de predicción con conjunto de validación Exercise 11: Ajustar el modelo a los datos de entrenamiento

Ejercicio actual

Exercise 12: Predicción sobre datos de test Exercise 13: Conclusión: ¿y ahora qué?