Porovnání predikovaných hodnot

V předchozím cvičení jsi nafitoval/a lineární i GLM (logistický) regresní model na datech crab, kde jsi predikoval/a y pomocí width. Jinými slovy, chtěl/a jsi odhadnout pravděpodobnost, že samice má v blízkosti satelitního kraba, na základě její šířky.

V tomto cvičení se blíže podíváme na odhadnuté pravděpodobnosti (výstupy) obou modelů a zkusíme zjistit, jestli by lineární fit byl pro tento problém vhodný.

Běžnou praxí je testovat model na nových, dosud neviděných, datech. Taková datová sada se nazývá testovací vzorek. Testovací vzorek test byl vytvořen a načten do pracovního prostředí. Nezapomeň, že potřebuješ testovací hodnoty pro všechny proměnné obsažené v modelu – v tomto případě je to width.

Dataset crab je předem načtený v pracovním prostředí.

Pomocí print() zobraz testovací sadu test.
Pomocí vzorku test vypočítej odhadnuté pravděpodobnosti: zavolej .predict() na nafitovaném lineárním modelu model_LM a výsledek ulož jako pred_lm. Poté zavolej .predict() na nafitovaném GLM (logistickém) modelu model_GLM a výsledek ulož jako pred_glm.
Pomocí DataFrame() z knihovny pandas spoj predikce obou modelů a výsledek ulož jako predictions.
Spoj test a predictions a ulož jako all_data. Zobraz all_data pomocí print().

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení