1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Efektivní kód v R

Connected

cvičení

Porovnání rychlosti načítání souborů CSV a RDS

Jednou z nejčastějších operací v datové analýze je načítání dat z CSV souborů. U velkých souborů to ale může být pomalé. Šikovný trik spočívá v tom, že data načteš a uložíš jako binární soubor R (rds) pomocí funkce saveRDS(). Pro zpětné načtení souboru rds slouží funkce readRDS().

Poznámka: Formát rds je nativní formát R pro ukládání jednotlivých objektů, takže nevzniká žádná závislost na knihovnách třetích stran, které se mohou v budoucnu změnit.

Oba přístupy můžeš porovnat pomocí funkce system.time(). Tato funkce vrátí čas potřebný k vyhodnocení libovolného R výrazu. Například pro změření doby výpočtu druhé odmocniny čísel od jedné do deseti milionů bys napsal/a:

system.time(sqrt(1:1e7))

Pokyny

100 XP

Soubory "movies.csv" a "movies.rds" obsahují identické datové rámce s informacemi o 45 000 filmech.

  • Pomocí funkce system.time() změř, jak dlouho trvá načtení CSV souboru příkazem read.csv("movies.csv").
  • Totéž zopakuj pro soubor "movies.rds" s využitím funkce readRDS().