ComenzarEmpieza gratis

Filter y Count

La transformación de RDD filter() devuelve un nuevo RDD que contiene solo los elementos que realizan una función determinada. Es útil para filtrar grandes conjuntos de datos a partir de una palabra clave. En este ejercicio ignorarás las líneas que contengan la palabra clave Spark en el RDD fileRDD, formado por líneas de texto del archivo README.md. A continuación, contarás el número total de líneas que contienen la palabra clave Spark y, por último, imprimirás las 4 primeras líneas del RDD filtrado.

Recuerda que ya tienes sc, file_path y fileRDD de SparkContext disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

  • Crea la transformación filter() para seleccionar las líneas que contienen la palabra clave Spark.
  • ¿Cuántas líneas de fileRDD_filter contienen la palabra clave Spark?
  • Imprime las cuatro primeras líneas del RDD resultante.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)
Editar y ejecutar código