1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do modelowania liniowego w Pythonie

Connected

ćwiczenie

Siła korelacji

Patrząc na wykresy, możemy intuicyjnie ocenić, czy dwie zmienne „zmieniają się razem".

  • Zbiór danych A: x i y zmieniają się razem i wyraźnie wykazują silną zależność.
  • Zbiór danych B: widać ogólną tendencję wzrostową, jednak x i y są ze sobą powiązane jedynie luźno.
  • Zbiór danych C: dane wyglądają jak przypadkowy rozrzut – x i y nie zmieniają się razem i nie są ze sobą powiązane.

Data Set A

Data Set B

Data Set C

Pamiętaj, że odchylenia mierzą różnicę względem średniej, a normalizacja polega na podzieleniu odchyleń przez odchylenie standardowe. W tym ćwiczeniu porównasz 3 zbiory danych, obliczając korelację i sprawdzając, w którym z nich zmienne x i y są ze sobą najsilniej skorelowane. Skorzystaj z dostarczonej tabeli danych data_sets – słownika rekordów, z których każdy zawiera klucze: 'name', 'x', 'y' oraz 'correlation'.

Instrukcje

100 XP
  • Uzupełnij definicję funkcji correlation(), używając średniej z iloczynów znormalizowanych odchyleń zmiennych x i y.
  • Przejdź przez data_sets w pętli, obliczając i zapisując korelację dla każdego rekordu za pomocą correlation(record['x'], record['y']).
  • Uruchom kod do tego miejsca (tzn. do końca pętli for) i przejrzyj wydruk. Który zbiór danych ma najsilniejszą korelację?
  • Przypisz nazwę zbioru danych (data_sets['A'], data_sets['B'] lub data_sets['C']) o najsilniejszej korelacji do zmiennej best_data.