Kódování dat

Kódování kategorických dat je nezbytné pro jejich využití v algoritmech strojového učení. R kóduje faktory interně, ale pro vývoj vlastních modelů je nutné kódování provést ručně.

V tomto cvičení nejprve sestavíš lineární model pomocí lm() a pak si krok za krokem vytvoříš vlastní model.

Při one hot encoding se pro každou úroveň vytvoří samostatný sloupec.

Všimni si, že jeden ze sloupců lze odvodit z ostatních (například samé 0 ve sloupcích „B" a „C" implikují hodnotu 1 ve sloupci „A"). Pro lineární regresi proto můžeš první sloupec vynechat. Lineárním modelům se podrobněji budeme věnovat v další kapitole.

Pro one hot encoding můžeš použít funkci dummyVars() z balíčku caret.

Postup: nejprve vytvoř enkodér a pak transformuj datovou sadu:

encoder <- dummyVars(~ category, data = df)
predict(encoder, newdata = df)

Kompletní záznamy z datové sady průzkumu z balíčku MASS jsou dostupné jako survey. Balíček caret je předem načten.

Toto cvičení je součástí kurzu

Procvičování statistických otázek k pohovoru v R

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Fit a linear model
lm(___ ~ Exer, data = ___)

Upravit a spustit kód

Toto cvičení je součástí kurzu

Procvičování statistických otázek k pohovoru v R

SkillTag.level.advancedSkillTag.label

4.7+

Začněte kurz zdarma

Chceš zvýšit své šance na úspěch u pracovního pohovoru? Pak si zopakuj znalosti teorie pravděpodobnosti. V této kapitole budeme házet kostkami a střílet košíkové, abychom si pravděpodobnost vysvětlili na příkladech z reálného života.

Exercise 1: Diskrétní rozdělení pravděpodobnosti Exercise 2: Funkce pravděpodobnosti Exercise 3: Bernoulliho pokusy Exercise 4: Binomické rozdělení Exercise 5: Spojitá rozdělení Exercise 6: Rovnoměrné rozdělení Exercise 7: Tvar normálního rozdělení Exercise 8: Výběr vzorku z normálního rozdělení Exercise 9: Centrální limitní věta Exercise 10: Zákon velkých čísel Exercise 11: Simulace centrálního limitního teorému

Pokud tě pracovní nabídka zaujala, zopakuj si před pohovorem popisnou statistiku. V této kapitole si procvičíš exploratorní analýzu dat (EDA) na datech o cenách zemního plynu a výsledcích průzkumů.

Exercise 1: Popisná statistika Exercise 2: Míry centrální tendence Exercise 3: Míry variability Exercise 4: Kategorická data Exercise 5: Analýza průzkumu Exercise 6: Kódování dat

Aktuální cvičení

Exercise 7: Časové řady Exercise 8: Objekt časové řady Exercise 9: Práce s časovými řadami Exercise 10: Analýza hlavních komponent Exercise 11: PCA – rotace Exercise 12: PCA – redukce dimenzí

Na pracovní pohovor vstup s jistotou – nejprve si zopakuj intervaly spolehlivosti. Projdeme t-test, ANOVA a testy normality, abys byl/a připraven/a na statistické otázky v kódu.

Exercise 1: Testy normality Exercise 2: Shapiro-Wilkův test Exercise 3: Q-Q graf Exercise 4: Odvození závěrů o průměru Exercise 5: Interval spolehlivosti Exercise 6: Jednovýběrový t-test Exercise 7: Porovnání dvou průměrů Exercise 8: Dvouvýběrový t-test Exercise 9: Párový test Exercise 10: ANOVA Exercise 11: Porovnání skupin Exercise 12: ANOVA pro růst rostlin

Plánuje tvůj potenciální zaměstnavatel otestovat tvé znalosti R? Připrav se dopředu a procvič si vyhodnocování modelů. V této kapitole budeme sestavovat a hodnotit lineární a logistické regresní modely na různých biomedicínských datasetech. Na konci kapitoly budeš plně připraven/a odpovědět na jakoukoli otázku, kterou ti tazatel položí!

Exercise 1: Kovariance a korelace Exercise 2: Kovariancia ručně Exercise 3: Lineární závislost Exercise 4: Nelineární vztah Exercise 5: Model lineární regrese Exercise 6: Fitting linear models Exercise 7: Predikce pomocí lineárních modelů Exercise 8: Model logistické regrese Exercise 9: Trénování logistických modelů Exercise 10: Predikce pomocí logistických modelů Exercise 11: Vyhodnocení modelu Exercise 12: Přístup s validační množinou Exercise 13: Vyhodnocení regrese Exercise 14: Vyhodnocení klasifikace Exercise 15: Shrnutí