Filtrar e contar

A transformação filter() do RDD retorna um novo RDD contendo apenas os elementos que satisfazem uma função específica. Ela é útil para filtrar grandes conjuntos de dados com base em uma palavra-chave. Para este exercício, você filtrará as linhas que contêm a palavra-chave Spark do RDD fileRDD, que consiste em linhas de texto do arquivo README.md. Em seguida, você contará o número total de linhas que contêm a palavra-chave Spark e, por fim, imprimirá as primeiras 4 linhas do RDD filtrado.

Lembre-se de que você já tem um SparkContext sc, file_path e fileRDD disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

Crie a transformação filter() para selecionar as linhas que contêm a palavra-chave Spark.
Quantas linhas em fileRDD_filter contêm a palavra-chave Spark?
Imprima as quatro primeiras linhas do RDD resultante.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)

# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())

# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
  print(line)

Editar e executar o código