1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Supervised Learning in R: Regression

Connected

Cvičení

Zkoumání struktury kategoriálních vstupů

V tomto cvičení zavoláš funkci model.matrix() (dokumentace), abys prozkoumal/a, jak R reprezentuje data s kategoriálními i numerickými vstupy pro modelování. Dataset flowers (odvozený z balíčku Sleuth3) je již načtený. Obsahuje následující sloupce:

  • Flowers: průměrný počet květů na rostlině meadowfoam
  • Intensity: intenzita světelného ošetření aplikovaného na rostlinu
  • Time: kategoriální proměnná – kdy (Late nebo Early) během životního cyklu světelné ošetření proběhlo

Cílem je předpovědět Flowers jako funkci proměnných Time a Intensity.

Pokyny

100 XP
  • Zavolej funkci str() na flowers a zjisti typy jednotlivých sloupců.
  • Použij funkci unique() na sloupci flowers$Time a zjisti, jaké hodnoty může Time nabývat. Kolik jedinečných hodnot existuje?
  • Vytvoř vzorec vyjadřující Flowers jako funkci Intensity a Time. Přiřaď ho do proměnné fmla a vypiš ho.
  • Pomocí fmla a model.matrix() vytvoř matici modelu pro datový rámec flowers. Výsledek přiřaď do proměnné mmat.
  • Pomocí head() si prohlédni prvních 20 řádků flowers.
  • Teď si prohlédni prvních 20 řádků mmat.
    • Liší se nějak numerický sloupec Intensity?
    • Co se stalo s kategoriálním sloupcem Time z flowers?
    • Jak je reprezentován případ Time == 'Early'? A Time == 'Late'?