1. Nauka
  2. /
  3. Kursy
  4. /
  5. Analiza skupień w R

Connected

ćwiczenie

Obliczanie odległości między zmiennymi kategorycznymi

W tym ćwiczeniu sprawdzisz, jak obliczać odległości binarne (Jaccarda). Aby obliczyć odległości, musisz najpierw zamienić kategorie na zmienne zero-jedynkowe (dummy) za pomocą funkcji dummy.data.frame() z biblioteki dummies.

Będziesz pracować z niewielkim zbiorem obserwacji z ankiety, przechowywanym w ramce danych job_survey, która zawiera następujące kolumny:

  • job_satisfaction – możliwe wartości: "Hi", "Mid", "Low"
  • is_happy – możliwe wartości: "Yes", "No"

Instrukcje

100 XP
  • Utwórz zdummifikowaną ramkę danych dummy_survey.
  • Wygeneruj macierz odległości Jaccarda dla zdummifikowanych danych ankietowych dist_survey, używając funkcji dist() z parametrem method = 'binary'.
  • Wyświetl oryginalną ramkę danych oraz macierz odległości.
    • Zwróć uwagę na obserwacje z odległością równą 0 w oryginalnych danych (1, 2 i 3).