1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do lineárního modelování v Pythonu

Connected

cvičení

Síla korelace

Intuitivně dokážeme z grafů „vyčíst", jestli spolu dvě proměnné „mění" – tedy zda jsou nějak provázané.

  • Datová sada A: x a y se mění společně a zdají se být silně provázané.
  • Datová sada B: lze pozorovat přibližný rostoucí trend; x a y jsou ale provázané jen volně.
  • Datová sada C: vypadá jako náhodný rozptyl; x a y se nemění společně a nejsou provázané.

Data Set A

Data Set B

Data Set C

Odchylky se počítají od průměru a normalizují se dělením směrodatnou odchylkou. V tomto cvičení porovnáš 3 datové sady výpočtem korelace a určíš, která z nich má mezi proměnnými x a y nejsilnější korelaci. Použij připravenou tabulku data_sets – slovník záznamů, kde každý záznam má klíče 'name', 'x', 'y' a 'correlation'.

Pokyny

100 XP
  • Dokonči definici funkce correlation() pomocí průměru součinů normalizovaných odchylek x a y.
  • Projdi data_sets ve smyčce, vypočítej a ulož každou korelaci pomocí correlation(record['x'], record['y']).
  • Spusť kód až do tohoto místa (tj. do konce smyčky for) a prohlédni si výpis. Která datová sada má nejsilnější korelaci?
  • Přiřaď název datové sady (data_sets['A'], data_sets['B'] nebo data_sets['C']) s nejsilnější korelací do proměnné best_data.