Comparar los tiempos de lectura de archivos CSV y RDS
Una de las tareas más habituales es leer datos desde archivos CSV. Sin embargo, para archivos CSV grandes esto puede ser lento.
Un truco útil es leer los datos y guardarlos como un archivo binario de R (rds) usando saveRDS().
Para leer el archivo rds, utilizamos readRDS().
Nota: Como rds es el formato nativo de R para almacenar objetos individuales, no introduces dependencias de terceros que puedan cambiar en el futuro.
Para evaluar el rendimiento de ambos enfoques, puedes usar system.time().
Esta función devuelve el tiempo que tarda en evaluarse cualquier expresión de R. Por ejemplo, para medir cuánto tarda en calcularse la raíz cuadrada de los números del uno a diez millones, escribirías lo siguiente:
system.time(sqrt(1:1e7))
Este ejercicio forma parte del curso
Escribir código R eficiente
Instrucciones del ejercicio
Los archivos "movies.csv" y "movies.rds" contienen ambos data frames idénticos con información sobre 45.000 películas.
- Usando la función
system.time(), ¿cuánto tarda en leerse el archivo CSV conread.csv("movies.csv")? - Repite lo mismo para el archivo rds,
"movies.rds", usandoreadRDS().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# How long does it take to read movies from CSV?
system.time(read.csv(___))
# How long does it take to read movies from RDS?
___