Filter y Count
La transformación de RDD filter() devuelve un nuevo RDD que contiene solo los elementos que realizan una función determinada. Es útil para filtrar grandes conjuntos de datos a partir de una palabra clave. En este ejercicio ignorarás las líneas que contengan la palabra clave Spark en el RDD fileRDD, formado por líneas de texto del archivo README.md. A continuación, contarás el número total de líneas que contienen la palabra clave Spark y, por último, imprimirás las 4 primeras líneas del RDD filtrado.
Recuerda que ya tienes sc, file_path y fileRDD de SparkContext disponibles en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones del ejercicio
- Crea la transformación
filter()para seleccionar las líneas que contienen la palabra claveSpark. - ¿Cuántas líneas de
fileRDD_filtercontienen la palabra claveSpark? - Imprime las cuatro primeras líneas del RDD resultante.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)
# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())
# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
print(line)