Filter y Count
La transformación de RDD filter()
devuelve un nuevo RDD que contiene solo los elementos que realizan una función determinada. Es útil para filtrar grandes conjuntos de datos a partir de una palabra clave. En este ejercicio ignorarás las líneas que contengan la palabra clave Spark
en el RDD fileRDD
, formado por líneas de texto del archivo README.md
. A continuación, contarás el número total de líneas que contienen la palabra clave Spark
y, por último, imprimirás las 4 primeras líneas del RDD filtrado.
Recuerda que ya tienes sc
, file_path
y fileRDD
de SparkContext disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones del ejercicio
- Crea la transformación
filter()
para seleccionar las líneas que contienen la palabra claveSpark
. - ¿Cuántas líneas de
fileRDD_filter
contienen la palabra claveSpark
? - Imprime las cuatro primeras líneas del RDD resultante.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)
# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())
# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
print(line)