Calcular la distancia entre variables categóricas
En este ejercicio vas a explorar cómo calcular distancias binarias (Jaccard).
Para poder calcular distancias, primero tenemos que convertir las categorías en variables ficticias usando dummy.data.frame() de la librería dummies.
Vas a usar una pequeña colección de respuestas de una encuesta almacenadas en el data frame job_survey con las siguientes columnas:
- job_satisfaction Opciones posibles: "Hi", "Mid", "Low"
- is_happy Opciones posibles: "Yes", "No"
Este ejercicio forma parte del curso
Análisis de clústeres en R
Instrucciones del ejercicio
- Crea un data frame con variables ficticias
dummy_survey. - Genera una matriz de distancias de Jaccard para los datos de la encuesta convertidos
dist_surveyusando la funcióndist()con el parámetromethod = 'binary'. - Imprime los datos originales y la matriz de distancias.
- Fíjate en las observaciones con distancia 0 en los datos originales (1, 2 y 3).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Dummify the Survey Data
dummy_survey <- ___
# Calculate the Distance
dist_survey <- ___
# Print the Original Data
___
# Print the Distance Matrix
___