Particiones en tus datos
El método textFile()
de SparkContext toma un segundo argumento opcional llamado minPartitions
para especificar el número mínimo de particiones. En este ejercicio crearás un RDD llamado fileRDD_part
con 5 particiones y, a continuación, lo compararás con el fileRDD
que creaste en el ejercicio anterior. Consulta la diapositiva "Qué son las particiones" del vídeo 2.1 para conocer los métodos de creación de particiones y obtención del número de particiones en un RDD.
Recuerda que ya tienes sc
, file_path
y fileRDD
de SparkContext disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Busca el número de particiones que admiten el RDD
fileRDD
. - Crea un RDD llamado
fileRDD_part
a partir de la ruta de archivo, pero crea 5 particiones. - Confirma el número de particiones en el nuevo RDD
fileRDD_part
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)
# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)
# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)