Optimización del tamaño de los archivos
Considera si te dan 2 archivos de datos grandes en un clúster con 10 nodos. Cada archivo contiene 10M de filas de aproximadamente el mismo tamaño. Mientras trabajas con tus datos, la capacidad de respuesta es aceptable, pero la lectura inicial de los archivos tarda un tiempo considerable. Ten en cuenta que tú eres el único que utilizará los datos y que éstos cambian en cada ejecución.
¿Cuál de las siguientes es la mejor opción para mejorar el rendimiento?
Este ejercicio forma parte del curso
Limpiar datos con PySpark
Ejercicio interactivo práctico
Convierte la teoría en acción con uno de nuestros ejercicios interactivos
