CommencerCommencer gratuitement

Calculer la distance entre des variables catégorielles

Dans cet exercice, vous allez explorer le calcul des distances binaires (Jaccard). Pour pouvoir calculer des distances, nous devons d’abord transformer nos catégories en variables indicatrices à l’aide de dummy.data.frame() de la bibliothèque dummies.

Vous utiliserez un petit ensemble d’observations d’enquête stocké dans le data frame job_survey avec les colonnes suivantes :

  • job_satisfaction Options possibles : "Hi", "Mid", "Low"
  • is_happy Options possibles : "Yes", "No"

Cet exercice fait partie du cours

Analyse de clusters avec R

Afficher le cours

Instructions

  • Créez un data frame indicé dummy_survey.
  • Générez une matrice de distance de Jaccard pour les données indicées dist_survey en utilisant la fonction dist() avec le paramètre method = 'binary'.
  • Affichez les données originales et la matrice de distances.
    • Repérez dans les données originales les observations avec une distance de 0 (1, 2 et 3).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Dummify the Survey Data
dummy_survey <- ___

# Calculate the Distance
dist_survey <- ___

# Print the Original Data
___

# Print the Distance Matrix
___
Modifier et exécuter le code