Filter y Count

La transformación de RDD filter() devuelve un nuevo RDD que contiene solo los elementos que realizan una función determinada. Es útil para filtrar grandes conjuntos de datos a partir de una palabra clave. En este ejercicio ignorarás las líneas que contengan la palabra clave Spark en el RDD fileRDD, formado por líneas de texto del archivo README.md. A continuación, contarás el número total de líneas que contienen la palabra clave Spark y, por último, imprimirás las 4 primeras líneas del RDD filtrado.

Recuerda que ya tienes sc, file_path y fileRDD de SparkContext disponibles en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

Crea la transformación filter() para seleccionar las líneas que contienen la palabra clave Spark.
¿Cuántas líneas de fileRDD_filter contienen la palabra clave Spark?
Imprime las cuatro primeras líneas del RDD resultante.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)

Editar y ejecutar código