Síla korelace

Intuitivně dokážeme z grafů „vyčíst", jestli spolu dvě proměnné „mění" – tedy zda jsou nějak provázané.

Datová sada A: x a y se mění společně a zdají se být silně provázané.
Datová sada B: lze pozorovat přibližný rostoucí trend; x a y jsou ale provázané jen volně.
Datová sada C: vypadá jako náhodný rozptyl; x a y se nemění společně a nejsou provázané.

Data Set A

Data Set B

Data Set C

Odchylky se počítají od průměru a normalizují se dělením směrodatnou odchylkou. V tomto cvičení porovnáš 3 datové sady výpočtem korelace a určíš, která z nich má mezi proměnnými x a y nejsilnější korelaci. Použij připravenou tabulku data_sets – slovník záznamů, kde každý záznam má klíče 'name', 'x', 'y' a 'correlation'.

Dokonči definici funkce correlation() pomocí průměru součinů normalizovaných odchylek x a y.
Projdi data_sets ve smyčce, vypočítej a ulož každou korelaci pomocí correlation(record['x'], record['y']).
Spusť kód až do tohoto místa (tj. do konce smyčky for) a prohlédni si výpis. Která datová sada má nejsilnější korelaci?
Přiřaď název datové sady (data_sets['A'], data_sets['B'] nebo data_sets['C']) s nejsilnější korelací do proměnné best_data.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení