¿Cómo varía el tiempo de procesamiento según el tamaño de los datos?
Si vas a procesar todos los elementos de dos conjuntos de datos y uno es más grande, el más grande tardará más en procesarse. Sin embargo, es importante tener en cuenta que cuánto más tarda no siempre es directamente proporcional a cuánto más grande es. Es decir, si tienes dos conjuntos de datos y uno es el doble de grande que el otro, no está garantizado que el mayor tarde el doble en procesarse. Podría tardar 1,5 veces más o incluso cuatro veces más. Depende de las operaciones que se usen para procesar el conjunto de datos.
En este ejercicio, usarás el paquete microbenchmark, que se vio en el curso Writing Efficient R Code.
Nota: Los números se indican con notación científica $$1e5 = 1 * 10^5 = 100,000$$
Este ejercicio forma parte del curso
Procesamiento de datos escalable en R
Instrucciones del ejercicio
- Carga el paquete
microbenchmark. - Usa la función
microbenchmark()para comparar los tiempos de ordenación de vectores aleatorios. - Llama a
plot()sobremb.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load the microbenchmark package
___
# Compare the timings for sorting different sizes of vector
mb <- ___(
# Sort a random normal vector length 1e5
"1e5" = sort(rnorm(1e5)),
# Sort a random normal vector length 2.5e5
"2.5e5" = sort(rnorm(2.5e5)),
# Sort a random normal vector length 5e5
"5e5" = sort(rnorm(5e5)),
"7.5e5" = sort(rnorm(7.5e5)),
"1e6" = sort(rnorm(1e6)),
times = 10
)
# Plot the resulting benchmark object
___(mb)