Filtrar e contar
A transformação filter()
do RDD retorna um novo RDD contendo apenas os elementos que satisfazem uma função específica. Ela é útil para filtrar grandes conjuntos de dados com base em uma palavra-chave. Para este exercício, você filtrará as linhas que contêm a palavra-chave Spark
do RDD fileRDD
, que consiste em linhas de texto do arquivo README.md
. Em seguida, você contará o número total de linhas que contêm a palavra-chave Spark
e, por fim, imprimirá as primeiras 4 linhas do RDD filtrado.
Lembre-se de que você já tem um SparkContext sc
, file_path
e fileRDD
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções do exercício
- Crie a transformação
filter()
para selecionar as linhas que contêm a palavra-chaveSpark
. - Quantas linhas em
fileRDD_filter
contêm a palavra-chaveSpark
? - Imprima as quatro primeiras linhas do RDD resultante.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Filter the fileRDD to select lines with Spark keyword
fileRDD_filter = fileRDD.filter(lambda line: 'Spark' in ____)
# How many lines are there in fileRDD?
print("The total number of lines with the keyword Spark is", fileRDD_filter.____())
# Print the first four lines of fileRDD
for line in fileRDD_filter.____(____):
print(line)