ComenzarEmpieza gratis

Particiones en tus datos

El método textFile() de SparkContext toma un segundo argumento opcional llamado minPartitions para especificar el número mínimo de particiones. En este ejercicio crearás un RDD llamado fileRDD_part con 5 particiones y, a continuación, lo compararás con el fileRDD que creaste en el ejercicio anterior. Consulta la diapositiva "Qué son las particiones" del vídeo 2.1 para conocer los métodos de creación de particiones y obtención del número de particiones en un RDD.

Recuerda que ya tienes sc, file_path y fileRDD de SparkContext disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones de ejercicio

  • Busca el número de particiones que admiten el RDD fileRDD.
  • Crea un RDD llamado fileRDD_part a partir de la ruta de archivo, pero crea 5 particiones.
  • Confirma el número de particiones en el nuevo RDD fileRDD_part.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Check the number of partitions in fileRDD
print("Number of partitions in fileRDD is", fileRDD.____)

# Create a fileRDD_part from file_path with 5 partitions
fileRDD_part = sc.textFile(____, minPartitions = ____)

# Check the number of partitions in fileRDD_part
print("Number of partitions in fileRDD_part is", fileRDD_part.____)
Editar y ejecutar código