1. Nauka
  2. /
  3. Kursy
  4. /
  5. Predykcyjna analityka sieciowa w R

Connected

ćwiczenie

Skorelowane zmienne

W tym ćwiczeniu przeanalizujesz zbiór danych pod kątem skorelowanych zmiennych. Przed zastosowaniem klasyfikatora binarnego ważne jest, aby je usunąć – szczególnie w przypadku regresji logistycznej. Jeśli dwie lub więcej zmiennych jest silnie skorelowanych, należy zachować tylko jedną z nich.

Na początek użyjemy funkcji corrplot() z pakietu corrplot, aby zwizualizować korelacje. Na wykresie korelacji kolor niebieski oznacza korelację dodatnią, a czerwony – ujemną. Ciemniejszy kolor wskazuje na silniejszą korelację. Na końcu usuniesz silnie skorelowane zmienne ze zbioru danych.

Instrukcje 1/2

undefined XP
    1
    2
  • Wczytaj pakiet corrplot.
  • Wygeneruj macierz korelacji M za pomocą funkcji cor(). Funkcja przyjmuje jako argument podzbiór zbioru danych.
  • Zwizualizuj korelacje między zmiennymi, używając corrplot() i M.