Codificación de datos
La codificación de datos categóricos los hace útiles para los algoritmos de Machine Learning. R codifica los factores de forma interna, pero la codificación es necesaria cuando desarrollas tus propios modelos.
En este ejercicio, primero crearás un modelo lineal con lm() y luego desarrollarás tu propio modelo paso a paso.
En la one hot encoding, se crea una columna independiente para cada uno de los niveles.

Observa que una de las columnas se puede derivar a partir de las demás (p. ej., 0 en las columnas "B" y "C" implica 1 en la columna "A"). Por tanto, puedes eliminar la primera columna para la regresión lineal. Revisaremos los modelos lineales con más detalle en el próximo capítulo.
Para la one hot encoding, puedes usar dummyVars() del paquete caret.
Para usarlo, primero crea el codificador y luego transforma el conjunto de datos:
encoder <- dummyVars(~ category, data = df)
predict(encoder, newdata = df)
Los casos completos del conjunto de datos de la encuesta del paquete MASS están disponibles como survey.
El paquete caret ya está precargado.
Este ejercicio forma parte del curso
Practicing Statistics Interview Questions in R
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Fit a linear model
lm(___ ~ Exer, data = ___)