1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Exploratory Data Analysis in R

Connected

cvičení

Integrita dat

Při průzkumu datové sady narazíš občas na něco, co tě přiměje zamyslet se nad tím, jak byla data sestavena. Například proměnná num_char obsahuje počet znaků v e-mailu (v tisících), takže může nabývat desetinných hodnot – ale rozhodně by neměla být záporná.

Můžeš si napsat test, který ověří, zda se tato proměnná chová podle očekávání:

email$num_char < 0

Spustíš-li tento kód v konzoli, dostaneš dlouhý vektor logických hodnot, který pro každý případ v datové sadě říká, zda je daná podmínka TRUE. Prvních 1 000 hodnot bude zřejmě FALSE. Abys ověřil/a, že všechny záznamy mají pro num_char nezáporné hodnoty, stačí spočítat součet tohoto vektoru:

sum(email$num_char < 0)

To je šikovný trik. Při aritmetických operacích s logickými hodnotami R považuje TRUE za 1 a FALSE za 0. Protože je součet přes celý vektor nula, zjistíš, že každý záznam v datové sadě vrátil v tomto testu hodnotu FALSE. Jinými slovy, sloupec num_char se chová správně a obsahuje pouze nezáporné hodnoty.

Pokyny

100 XP

Podívej se na proměnné image a attach. Můžeš si o nich přečíst pomocí ?email, ale dokumentace není úplně jednoznačná: počítají se v této datové sadě připojené obrázky jako přílohy?

Navrhni jednoduchý test, který to objasní. Vytvoř logickou podmínku porovnávající hodnoty obou proměnných a pomocí sum() ji vyhodnoť pro každý záznam v datové sadě. Připomeň si, že logické operátory jsou: < pro méně než, <= pro méně než nebo rovno, > pro více než, >= pro více než nebo rovno a == pro rovná se.