1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Čištění dat v R

Connected

cvičení

Plné duplicity

Dostala ses k informaci, že v datovém pipeline pro sdílená kola proběhla aktualizace zaměřená na větší efektivitu – jako vedlejší efekt ale může docházet ke vzniku duplicit. Aby tvoje týdenní skripty pro analýzu statistik jízd fungovaly spolehlivě i nadále, je potřeba nejdříve případné duplicity z datasetu odstranit.

Pokud sdílí více řádků datového rámce stejné hodnoty ve všech sloupcích, jde o plné duplicity. Jejich odstranění je důležité, protože opakující se hodnoty mohou zkreslit souhrnné statistiky, jako je průměr nebo medián. Každá jízda včetně svého ride_id by měla být jedinečná.

Balíček dplyr je načten a datový rámec bike_share_rides je k dispozici.

Pokyny

100 XP
  • Zjisti celkový počet plných duplicit v datovém rámci bike_share_rides.
  • Odstraň všechny plné duplicity z bike_share_rides a výsledný datový rámec ulož jako bike_share_rides_unique.
  • Zjisti celkový počet plných duplicit v novém datovém rámci bike_share_rides_unique.