Mapear e coletar
O principal método com o qual você pode manipular dados no PySpark é usando map()
. A transformação map()
recebe uma função e a aplica a cada elemento do RDD. Ela pode ser usada para fazer uma série de coisas, desde buscar o site associado a cada URL em nossa coleção até simplesmente elevar os números ao quadrado. Neste exercício simples, você usará a transformação map()
para transformar em cubo cada número do RDD numbRDD
que você criou anteriormente. Em seguida, você armazenará todos os elementos em uma variável e, por fim, imprimirá a saída.
Lembre-se de que você já tem um SparkContext sc
e numbRDD
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções do exercício
- Crie uma transformação
map()
que cubra todos os números emnumbRDD
. - Colete os resultados em uma variável
numbers_all
. - Imprima a saída da variável
numbers_all
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create map() transformation to cube numbers
cubedRDD = numbRDD.map(lambda x: ____)
# Collect the results
numbers_all = cubedRDD.____()
# Print the numbers from numbers_all
for numb in ____:
print(____)